2002 Dobson IGLM

Indice general
1 Introducci
on
1.1 Antecedentes . . . . . . . . . . . . . . . . . . . . . .
1.2 Alcance . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Notacion . . . . . . . . . . . . . . . . . . . . . . . . .
1.4 Distribuciones relacionadas con la distribucion normal
1.4.1 Distribuciones Normales . . . . . . . . . . . .
1.4.2 Distribucion Chi-cuadrada . . . . . . . . . . .
1.4.3 Distribucion-t . . . . . . . . . . . . . . . . . .
1.4.4 Distribucion F . . . . . . . . . . . . . . . . . .
1.5 Formas cuadraticas . . . . . . . . . . . . . . . . . . .
1.6 Estimacion . . . . . . . . . . . . . . . . . . . . . . . .
1.6.1 Estimacion de maxima verosimilitud . . . . .
1.6.2 Ejemplo: Distribucion Poisson . . . . . . . .
1.6.3 Estimacion por mnimos cuadrados . . . . . .
1.6.4 Comentarios sobre estimacion . . . . . . . . .
1.6.5 Ejemplo: Ciclones tropicales . . . . . . . . . .
1.7 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2 Ajuste del Modelo

2.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Condiciones medicas cronicas . . . . . . . . . . . . . . . . . . .
2.2.2 El peso al nacer y la edad gestacional . . . . . . . . . . . . . . .
2.3 Algunos principios de modelizacion estadstica . . . . . . . . . . . . . .
2.3.1 Analisis exploratorios de datos . . . . . . . . . . . . . . . . . .
2.3.2 Formulacion del modelo . . . . . . . . . . . . . . . . . . . . . .
2.3.3 La estimacion de parametros . . . . . . . . . . . . . . . . . . . .
2.3.4 Residuales y evaluacion del modelo . . . . . . . . . . . . . . . .
2.3.5 Inferencia e interpretacion . . . . . . . . . . . . . . . . . . . . .
2.3.6 lecturas complementarias . . . . . . . . . . . . . . . . . . . . . .
2.4 Notacion y codificacion para las variables explicatorias . . . . . . . . .
2.4.1 Ejemplo: Medias de dos grupos . . . . . . . . . . . . . . . . . .
2.4.2 Ejemplo: regresion lineal simple para dos grupos . . . . . . . . .
2.4.3 Ejemplo: formulaciones alternativas para comparar las medias de
dos grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.4 Ejemplo: variables explicatorias ordinales . . . . . . . . . . . . .
2.4.5 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
5
5
9
10
10
11
12
12
13
14
14
15
15
16
17
18
21
21
21
21
25
34
34
34
35
35
37
37
38
39
39
39
40
41
INDICE GENERAL
3 Familia Exponencial y Modelos Lineales Generalizados

3.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Familia exponencial de distribuciones . . . . . . . . . . . .
3.2.1 Distribucion Poisson . . . . . . . . . . . . . . . . .
3.2.2 Distribucion Normal . . . . . . . . . . . . . . . . .
3.2.3 Distribucion Binomial . . . . . . . . . . . . . . . .
3.3 Propiedades de las distribuciones en la familia exponencial
3.4 Modelos Lineales Generalizados . . . . . . . . . . . . . . .
3.5 Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5.1 Modelo Lineal Normal . . . . . . . . . . . . . . . .
3.5.2 Ling
ustica historica . . . . . . . . . . . . . . . . .
3.5.3 Tasas de mortalidad . . . . . . . . . . . . . . . . .
3.6 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
45
45
46
46
47
48
48
51
52
52
52
53
55
4 Estimaci
on
4.1 Introduccion . . . . . . . . . . . . . . . . . . . . . .
4.2 Ejemplo: Tiempos de fallo de recipientes de presion
4.3 Estimacion de Maxima Verosimilitud . . . . . . . .
4.4 Ejemplo de regresion de Poisson . . . . . . . . . . .
4.5 Ejercicios . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
58
58
58
63
66
68
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5 Inferencia
5.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 Distribuciones muestrales para estadsticos de puntuacion . . . . . . . .
5.2.1 Ejemplo: Estadstico de puntuacion para la distribucion Normal
5.2.2 Ejemplo: Estadstico de puntuacion para la distribucion Binomial
5.3 Aproximaciones por series de Taylor . . . . . . . . . . . . . . . . . . . .
5.4 Distribucion muestral para estimadores de maxima verosimilitud . . . .
5.4.1 Ejemplo: Estimadores de maxima verosimilitud para el modelo
lineal Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5 Estadstico de razon de Log-verosimilitud . . . . . . . . . . . . . . . . .
5.6 Distribucion muestral para la desvianza . . . . . . . . . . . . . . . . . .
5.6.1 Ejemplo: Desvianza para un modelo binomial . . . . . . . . . .
5.6.2 Ejemplo: Desvianza para un modelo lineal Normal . . . . . . . .
5.6.3 Ejemplo: Desvianza para un modelo Poisson . . . . . . . . . . .
5.7 Prueba de hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.7.1 Ejemplo: Prueba de hipotesis para un modelo lineal Normal . .
5.8 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
70
71
72
73
73
74
6 Modelos Lineales Normales

6.1 Introduccion . . . . . . . . . . . . . . . . .
6.2 Resultados Basicos . . . . . . . . . . . . .
6.2.1 Estimador de maxima verosimilitud
6.2.2 Estimacion de mnimos cuadrados .
6.2.3 Desvianza . . . . . . . . . . . . . .
6.2.4 Prueba de Hipotesis . . . . . . . .
6.2.5 Ortogonalidad . . . . . . . . . . . .
6.2.6 Residuales . . . . . . . . . . . . . .
85
85
85
85
86
86
87
88
89
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
75
76
77
78
78
80
81
82
83
INDICE GENERAL
6.3
6.4
6.5
6.6
6.7
6.2.7 Otros diagnosticos . . . . . . . . .

Regresion Lineal Multiple . . . . . . . . .
6.3.1 dieta de carbohidrato . . . . . . . .
6.3.2 Coeficiente de determinacion, R2 .
6.3.3 La seleccion del modelo . . . . . . .
Analisis de varianza . . . . . . . . . . . . .
6.4.1 Analisis de varianza de un factor .
6.4.2 Analisis de varianza de dos factores
Analisis de covarianza . . . . . . . . . . .
Modelos lineales generales . . . . . . . . .
Ejercicios . . . . . . . . . . . . . . . . . .
7 Variables Binarias y Regresi

on Logstica
7.1 Distribuciones de probabilidad . . . . . . .
7.2 Modelos lineales generalizados . . . . . . .
7.3 Modelos de respuesta a dosis . . . . . . . .
7.3.1 Ejemplo: Mortalidad del escarabajo
7.4 Modelo de regresion logstica general . . .
7.4.1 Ejemplo: anteras embriogenicas . .
7.5 Estadsticos de bondad de ajuste . . . . .
7.6 Residuales . . . . . . . . . . . . . . . . . .
7.7 Otros diagnosticos . . . . . . . . . . . . .
7.8 Ejemplo: Senilidad y WAIS . . . . . . . .
7.9 Ejercicios . . . . . . . . . . . . . . . . . .
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
89
90
90
93
94
95
95
100
105
108
109
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
114
114
115
115
118
120
122
123
126
127
128
129
8 Regresi
on Logstica Nominal y Ordinal
8.1 Introduccion . . . . . . . . . . . . . . . . . . .
8.2 Distribucion Multinomial . . . . . . . . . . . .
8.3 Regresion logstica nominal . . . . . . . . . .
8.3.1 Ejemplo: preferencias de autos . . . . .
8.4 Regresion logstica ordinal . . . . . . . . . . .
8.4.1 Modelo logit acumulado . . . . . . . .
8.4.2 Modelo de momios proporcional . . . .
8.4.3 Modelo logit con categoras adyacentes
8.4.4 Modelo logit con razon continua . . . .
8.4.5 Comentarios . . . . . . . . . . . . . . .
8.4.6 Ejemplo: preferencias de carros . . . .
8.5 Comentarios generales . . . . . . . . . . . . .
8.6 Ejercicios . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
134
134
134
136
138
142
143
143
144
145
145
145
146
147
.
.
.
.
.
.
.
.
.
.
.
9 Datos de Conteo, Modelos de Regresi

on Poisson y Log-Lineal
9.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2 Regresion Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2.1 Ejemplo de Regresion Poisson: medicos britanicos muertes por
fumar y enfermedad coronaria . . . . . . . . . . . . . . . . . . .
9.3 Ejemplos de tablas de contingencia . . . . . . . . . . . . . . . . . . . .
9.3.1 Ejemplo: Estudio transversal de un melanoma maligno . . . . .
149
149
150
152
154
155
INDICE GENERAL
9.3.2
9.4
9.5
9.6
9.7
9.8
9.9
Ejemplo: Ensayo controlado aleatorio de la vacuna contra la influenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

9.3.3 Ejemplo: Estudio de casos y controles de las u
lceras gastricas y
duodenales y el uso de aspirina . . . . . . . . . . . . . . . . . .
Modelos de probabilidad para tablas de contingencia . . . . . . . . . .
9.4.1 Modelo Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.4.2 Modelo Multinomial . . . . . . . . . . . . . . . . . . . . . . . .
9.4.3 Producto de modelos Multinomial . . . . . . . . . . . . . . . . .
Modelos Log-lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Inferencia para modelos log-lineales . . . . . . . . . . . . . . . . . . . .
Ejemplos numericos . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9.7.1 Estudio transversal de melanoma maligno . . . . . . . . . . . .
9.7.2 Estudio de casos y controles de u
lcera gastrica y duodenal y el
uso de aspirina . . . . . . . . . . . . . . . . . . . . . . . . . . .
Observaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10 An
alisis de Supervivencia
10.1 Introduccion . . . . . . . . . . . . . . . . . . . . . .
10.2 Funciones de Supervivencia y funciones de riesgo . .
10.2.1 Distribucion Exponencial . . . . . . . . . . .
10.2.2 Modelos de riesgos proporcionales . . . . . .
10.2.3 Distribucion Weibull . . . . . . . . . . . . .
10.3 Funcion de supervivencia emprica . . . . . . . . . .
10.3.1 Ejemplo:Tiempos de remision . . . . . . . .
10.4 Estimacion . . . . . . . . . . . . . . . . . . . . . . .
10.4.1 Ejemplo: modelo exponencial simple . . . .
10.4.2 Ejemplo: Modelo Proporcional de Riesgos de
10.5 Inferencia . . . . . . . . . . . . . . . . . . . . . . .
10.6 Comprobacion del modelo . . . . . . . . . . . . . .
10.7 Ejemplo: Tiempo de remision . . . . . . . . . . . .
10.8 Ejercicios . . . . . . . . . . . . . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
Weibull
. . . . .
. . . . .
. . . . .
. . . . .
11 Datos agrupados y longitudinales

11.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . .
11.2 Ejemplo: recuperacion de un accidente cerebrovascular
11.3 Modelos con medidas repetidas para datos Normales .
11.4 Modelos de medidas repetidas para datos no-normales .
11.5 Modelos multinivel . . . . . . . . . . . . . . . . . . . .
11.6 Continuacion del ejemplo de accidente cerebrovascular .
11.7 Comentarios . . . . . . . . . . . . . . . . . . . . . . . .
11.8 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
156
157
159
159
159
160
160
162
162
162
163
165
166
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
169
169
171
172
173
173
175
175
178
179
180
180
181
183
183
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
188
188
190
194
198
200
202
203
205
Captulo 1
Introducci
on
1.1.
Antecedentes
Este libro esta dise

nado para introducir al lector en los modelos lineales generalizados; estos proporcionan un marco unificado para muchas tecnicas estadsticas de uso
com
un. Tambien ilustran las ideas de modelos estadsticos.
Se supone que el lector tiene cierta familiaridad con los principios y metodos estadsticos. En particular, la comprension de los conceptos de estimacion, las distribuciones de muestreo y pruebas de hipotesis es necesario. Se supone Experiencia en el uso
de pruebas t, analisis de varianza, regresion lineal simple y pruebas de chi-cuadrado de
independencia para las tablas de contingencia de dos dimensiones. Ademas, se requiere
un cierto conocimiento de algebra matricial y calculo.
El lector encontrara que es necesario tener acceso a las comodidades de la computacion estadstica. Muchos programas estadsticos, idiomas o paquetes ahora pueden
realizar los analisis discutidos en este libro. A menudo, sin embargo, lo hacen con un
programa o procedimiento diferente para cada tipo de analisis de manera que la estructura unificadora no es aparente.
Algunos programas o lenguajes que tienen procedimientos consistentes con el enfoque utilizado en este libro son: Stata, S-PLUS, Glim, Genstat y SYSTAT.Esta
lista no es completa ya que continuamente se estan a
nadiendo modulos apropiados a
otros programas.
Ademas, cualquier persona que trabaje a traves de este libro puede ser u
til para
poder utilizar el software matematico que puede realizar el algebra matricial, la diferenciacion y calculos iterativos.
1.2.
Alcance
Todos los metodos estadsticos considerados en este libro implican el analisis de las
relaciones entre las medidas realizadas en grupos de sujetos u objetos. Por ejemplo, las
mediciones podran ser las alturas o los pesos y las edades de los ni
nos y las ni
nas,
o el rendimiento de las plantas bajo diferentes condiciones de cultivo. Utilizamos los
terminos de respuesta, resultado o variable dependiente para las mediciones que
estan libres para variar en respuesta a otras variables llamadas variables explicativas
o variables predictoras o variables independientes- aunque este u
ltimo termino
a veces puede ser enga
nosa. Las respuestas son considerados como variables aleato5

CAPITULO 1. INTRODUCCION
rias. Las variables explicativas son tratadas normalmente como si fueran medidas u
observaciones no aleatorias; por ejemplo, pueden ser fijados por el dise
no experimental.
Las variables respuestas y explicatorias se miden en una de las siguientes escalas.
1. Clasificacion Nominal: e.g., rojo, verde, azul; si, no, no lo se, no aplicable. En
particular, para variables binarias, dicotomicas o binomiales solo hay dos
categoras: masculino, femenino; muerto, vivo; hojas lisas, hojas aserradas. Si
hay mas de dos categoras la variable se llama policot
omico, polit
omico o
multinomial.
2. Clasificacion Ordinal en el que hay alg
un de orden natural o clasificacion entre las
categoras: e.g.,joven, de mediana edad, viejo; presion arterial diastolica agrupadas
como 70, 71-90, 91-110, 111-130, 131mm Hg.
3. Las mediciones continuas donde las observaciones pueden, al menos en teora,
caer en cualquier parte de un continuo: e.g., el peso, la longitud o el tiempo.
Esta escala incluye tanto a la escala de intervalo como a mediciones en escala
de razon -Estos u
ltimos tienen un cero bien definido. Un ejemplo particular de
una medicion continua es el tiempo hasta que se produce un evento especfico,
tal como el fallo de un componente electronico; la duracion de tiempo desde un
punto inicial conocido se denomina tiempo de fallo.
Los datos nominales y ordinales a veces se llaman variables categ
oricas o discretas y por lo general se registran el n
umero de observaciones, conteos o frecuencias
en cada categora. Para los datos continuos se registran las mediciones individuales . El
termino cuantitativo se utiliza a menudo para una variable medida en una escala continua y el termino de cualitativa para nominal y, a veces para mediciones ordinales.
Una variable cualitativa, explicativa se llama factor y sus categoras se denominan
niveles del factor. Una variable explicativa cuantitativa a veces se llama covariable.
Los metodos de analisis estadstico dependen de las escalas de medicion de las
variables respuesta y explicatorias.
Este libro se ocupa principalmente de los metodos estadsticos que son pertinentes
cuando solo hay u
na variable respuesta, aunque normalmente habra varias variables explicatorias. Las respuestas medidas en los diferentes sujetos se supone generalmente como variables aleatorias estadsticamente independientes, aunque este requisito se elimina en el u
ltimo captulo que trata de datos correlacionados. El Cuadro 1.1 muestra los
principales metodos de analisis estadstico para diversas combinaciones de las variables
respuesta y explicatorias y los captulos en los que estos se describen.
En el presente captulo resume algo de la teora estadstica utilizada en todo el libro.
Los Captulos 2 al 5 cubren el marco teorico que es com
un a los captulos posteriores.
Los u
ltimos captulos se centran en metodos de analisis de determinados tipos de datos.
Captulo 2 desarrolla las ideas principales de modelos estadsticos. El proceso de
modelado consta de cuatro pasos:
1. Especificacion de modelos en dos partes: ecuaciones que vinculan la respuesta y las
variables explicativas, y la distribucion de probabilidad de la variable respuesta.
2. Estimacion de los parametros utilizados en los modelos.
3. Comprobacion de lo bien que los modelos se ajustan los datos reales.

4. Hacer inferencias; por ejemplo, el calculo de los intervalos de confianza y pruebas

de hipotesis sobre los parametros.
Cuadro 1.1: Los principales metodos de analisis estadstico para la respuesta y las variables explicativas medidos en varias escalas y referencias de los captulos de este libro.
Respuesta (Captulo)
Continua(Captulo 6)
Binaria (Captulo 7)
Variable Explicatoria
Binaria
Metodos
Prueba t
Nominal > 2 categorias
Analisis de varianza
Ordinal
Analisis de varianza
Continua
Regresion Multiple
Nominal y algunas
continuas
Categoricas y continuas
Categoricas
Analisis de covarianza
Continua
Logstico,
probit
y
otros modelos de dosisrespuesta
Regresion Multiple
Tablas de Contingencias,
Regresion logstica
Nominal con > 2
Nominal
categoricas (Captulo 8 y Categoricas y continuas
9)
Regresion logstica
Tablas de Contingencias
Regresion Logstica Nominal
Ordinal (Captulo 8)
Regresion Logstica Ordinal

Modelos Log-lineales
Conteos (Captulo 9)
Categoricas
Tiempo de fallo (Captulo

10)
Respuestas
Correla- Categoricas y continuas
ciondas (Captulo 11)
Regresion Poisson
Analisis de Supervivencia
(parametrico)
Ecuaciones
de
Estimacion Generalizadas y
Modelos Multinivel
Los tres captulos siguientes proporcionan los antecedentes teoricos. Captulo 3 es acerca de la familia de distribuciones exponenciales, que incluye la Normal, Poisson
y distribuciones binomiales. Tambien cubre los modelos lineales generalizados (como se
define por Nelder y Wedderburn, 1972). La regresion lineal y muchos otros modelos son

casos especiales de los modelos lineales generalizados. En el Captulo 4 se describen

los metodos de estimacion y ajuste del modelo.
Captulo 5 describe los metodos de inferencia de modelos lineales generalizados. La
mayora de ellos se basan en la eficacia de un modelo en describe el conjunto de datos.
Por ejemplo, la prueba de hip
otesis se lleva a cabo especificando primero modelos
alternativos (uno correspondiente a la hipotesis nula y el otro a una hipotesis mas general). Luego pruebas estadsticas son calculadas que miden la bondad de ajustede cada
modelo y estos se comparan. Normalmente, el modelo correspondiente a la hipotesis
nula es mas simple, as que si se ajusta a los datos sobre un modelo mas complejo por lo
general se prefiere por razones de parsimonia (es decir, mantenemos la hipotesis nula).
Captulo 6 se trata de regresi
on lineal m
ultiple y el an
alisis de la varianza
(ANOVA). La regresion es el metodo estandar para relacionar una variable respuesta continua a varias variables explicativas (o predictoras) continua. ANOVA se utiliza
para una variable de respuesta continua y variables explicativas categoricas o cualitativas (factores). An
alisis de covarianza (ANCOVA) se utiliza cuando al menos uno
de los variables explicativas es continua. Hoy en da es com
un el uso de las mismas
herramientas computacionales para todas estas situaciones. Los terminos de regresi
on
m
ultiple o modelo lineal general se utilizan para cubrir la gama de metodos para
el analisis de una variable respuesta continua y m
ultiples variables explicativas.
El captulo 7 es acerca de los metodos para el analisis de los datos de respuesta binaria. El mas com
un es la regresi
on logstica que se utiliza para modelar las relaciones
entre la variable de respuesta y varias variables explicativas que puede ser continua
o categorica. Los metodos para relacionar la respuesta a una sola variable continua,
la dosis, tambien se consideran; que incluye un an
alisis probit que fue desarrollado
originalmente para el analisis de datos de dosis-respuesta de bioensayos. La regresion
logstica se ha generalizado en los u
ltimos a
nos para incluir respuestas con mas de
dos categoras nominales (regresion logstica nominal, multinomial, polyt
omica o
policot
omica). Estos nuevos metodos se discuten en el Captulo 8.
Captulo 9 se refiere al recuento de datos. Los recuentos pueden ser frecuencias que se
muestran en una tabla de contingencia o el n
umero de eventos, tales como accidentes
de transito, que deben ser analizados en relacion con algunas variable exposicion como el
n
umero de vehculos de motor registrados o las distancias recorridas por los conductores.
Los metodos de modelizacion se basan en el supuesto de que la distribucion de los
recuentos puede ser descrita por la distribucion de Poisson, al menos aproximadamente.
Estos metodos incluyen la regresi
on de Poisson y modelos log-lineales.
El an
alisis de supervivencia es el termino usual para metodos de analisis de datos
en tiempo fallo. Los metodos parametricos describen en el Captulo 10 encajan en el
marco de los modelos lineales generalizados, aunque la distribucion de probabilidad
asumido por los tiempos de fallo puede no pertenecer a la familia exponencial.
Modelos lineales generalizados se han extendido a las situaciones en que las respuestas estan correlacionados en lugar de variables aleatorias independientes. Esto puede
ocurrir, por ejemplo, si se repiten las mediciones sobre el mismo sujeto o mediciones
obtenidas en un grupo de sujetos relacionados, por ejemplo, a partir de muestreo
agrupado. El metodo de ecuaciones de estimaci
on generalizadas (EEG) ha sido
desarrollado para el analisis de dichos datos utilizando tecnicas analogas a las de los
modelos lineales generalizados. Este metodo se describe en el Captulo 11, junto con
un enfoque diferente para datos correlacionados, es decir, los modelos multinivel.
Otros ejemplos de modelos lineales generalizados se discuten en los libros de McCul-

lagh y Nelder (1989), Aitkin et al. (1989) y Healy (1988). Tambien hay muchos libros
sobre los modelos lineales generalizados especficos como Hosmer y Lemeshow (2000),
Agresti (1990, 1996), Collett (1991, 1994), Diggle, Liang y Zeger (1994), y Goldstein
(1995).
1.3.
Notaci
on
Generalmente seguimos la convencion de denotar variables aleatorias por may

usculas cursivas y los valores observados por sus letras min
usculas correspondientes. Por
ejemplo las observaciones y1 , y2 , . . . , yn se consideran como las realizaciones de las variables aleatorias Y1 , Y2 , . . . , Yn . Las letras griegas se utilizan para indicar los parametros
y las letras latinas min
usculas correspondientes se utilizan para denotar estimadores
y estimaciones; de vez en cuando el smbolo (b) es usado para estimadores o estimaciones. Por ejemplo, el parametro se estima por b o b. A veces, estos convenios no
se cumplen estrictamente, ya sea para evitar la notacion excesiva en los casos en que
el significado debe ser evidente por el contexto, o cuando hay una fuerte tradicion de
notacion alternativa (e.g., e o para los terminos de errores aleatorios).
Los vectores y matrices, ya sean aleatorias o no, son denotadas mediante letras
minusculas y mayusculas en negrita, respectivamente. Por lo tanto, y representa un
vector de observaciones

y1
..
.
yn
o un vector de variables aleatorias
Y1
..
.
Yn
denota un vector de parametros y X en una matriz. El exponente T es usada para
una transposicion de matriz o cuando un vector columna se escribe como renglon, e.g.,
y = [Y1 , . . . , Yn ]T .
La funcion de densidad de probabilidad de una variable aleatoria continua Y (o el
funcion de masa de probabilidad si Y es discreta) se denomina simplemente como una
distribuci
on de probabilidad y denotado por
f (y; )
donde representa los parametros de la distribucion. Utilizamos punto () como subndices
para la suma y barras () para medias, as
N
1
1X
yi = y .
y =
n i=1
N
El valor esperado y la varianza de una variable aleatoria Y se denotan por E(Y ) y
var(Y ) respectivamente. Suponga que variables aleatorias Y1 , . . . , YN son independientes con E(Yi ) = i y var(Yi ) = i2 para i = 1, . . . , n. Sea W una variable aleatoria
que es combinaci
on lineal de las Yi s
W = a1 Y1 + a2 Y2 + . . . + an Yn ,
(1.1)

10
donde las ai s son constantes. Entonces el valor esperado de W es

E(W ) = a1 1 + a2 2 + . . . + an n
(1.2)
var(W ) = a21 12 + a22 22 + . . . + a2n i2 .
(1.3)
y la varianza es
1.4.
Distribuciones relacionadas con la distribuci

on
normal
Las distribuciones de muestreo de muchos de los estimadores y estadsticos de prueba

utilizadas en este libro dependen de la distribucion Normal. Y lo hacen de forma directa,
ya que se derivan de variables aleatorias con distribucion normal, o asintoticamente, a
traves del Teorema del Lmite Central para muestras grandes. En esta seccion damos
definiciones y notacion de estas distribuciones y resumimos las relaciones entre ellos.
Los ejercicios al final del captulo proporcionan la practica en el uso de estos resultados
que se emplean ampliamente en los captulos siguientes.
1.4.1.
Distribuciones Normales
1. Si la variable aleatoria Y tiene distribucion Normal con media y varianza 2 ,

su funcion de densidad de probabilidad es
"

2 #
1
y
1
exp
.
f (y; , 2 ) =
2
2 2
Denotamos esto por Y N (, 2 ).
2. La distribucion Normal con = 0 y 2 = 1, Y N (0, 1), es llamada Distribuci
on Normal Estandard.
3. Sean Y1 , . . . , Yn que denotan variables aleatorias normalmente distribuidas con
Yi N (i , i2 ) para i = 1, . . . , n y sean las covarianzas de Yi y Yj denotadas por
cov (Yi , Yj ) = ij i j ,
donde ij es el coeficiente de correlacion para Yi y Yj . Entonces la distribucion
conjunta de las Yi s es la Distribuci
on Normal Multivariada con media el
vector = [1 , . . . , n ]T y la matriz de varianza-covarianza V con elementos de
la diagonal i2 y fuera de la diagonal los elementos ij i j para i 6= j. Escribimos
esto como y N(, V), donde y = [Y1 , . . . , Yn ]T .
4. Supongamos que las variables aleatorias Y1 , . . . , Yn son independientes e identicamente distribuidas con distribuciones Yi N (i , i2 ) para i = 1, . . . , n. Si
W = a1 Y 1 + a2 Y 2 + . . . + an Y n ,
donde las ai s son constantes. Entonces W tambien esta distribuida normalmente,
de modo que
!
n
n
n
X
X
X
W =
ai Y i N
ai i ,
a2i i2
i=1
por las ecuaciones (1.2) y (1.3).
i=1
i=1

1.4.2.
11
Distribuci
on Chi-cuadrada
1. La distribuci
on chi-cuadrada central con n grados de libertad se define como
la suma de los cuadrados de n variables aleatorias independientes Z1 , . . . , Zn cada
una con la distribucion Normal estandar. Se denota por
2
X =
n
X
Zi2 2 (n).
i=1
En notacion matricial, si z = [Z1 , . . . , Zn ]T entonces zT z =

X 2 = zT z 2 (n).
Pn
i=1
Zi2 de modo que
2. Si X 2 tiene distribucion 2 (n), entonces el valor esperado es E(X 2 ) = n y su

varianza es var(X 2 ) = 2n.
3. Si Y1 , . . . , Yn son variables aleatorias independientes y normalmente distribuidas
cada una con distribucion Yi N (i , i2 ) entonces
2
n
X
Yi i
2
X =
2 (n).
(1.4)
i
i=1
porque cada una de la variables Zi = (Yi i ) /i tienen distribucion Normal
estandard N (0, 1).
4. Sean Z1 , . . . , Zn variables aleatorias independientes cada una con distribucion
N (0, 1) y sea Yi = Zi + i , donde al menos una de las i s es no cero. Entonces
la distribucion de
X
X
X
X
X
Yi2 =
(Zi + i )2 =
Zi2 + 2
Z i i +
2i
P 2
tiene media mayor n + y variamza mayor 2n + 4 que 2 (n) donde =
i .
Esto se conoce como la distribuci
on chi-cuadrada no central con n grados de
libertad y el par
ametro de no centralidad . Esta es denotada por 2 (n, ).
5. Supongase que las Yi s no necesariamente son independientes y el vector y =
[Y1 , . . . , Yn ]T tienes distribucion Normal Multivariada y N(, V) donde la matriz de varianza-covarianza es no singular y su inversa es V1 . Entonces
X 2 = (y )T (y ) 2 (n)
(1.5)
6. De manera mas general si y N(, V) entonces la variable aleatoria yT V1 y

tiene distribucion chi-cuadrada no central 2 (n, ) donde = T V1 .
2
7. Si X12 , . . . , Xm
son m variables aleatorias independientes con distribucion chi2
cuadrada Xi 2 (ni , i ) las cuales pueden o no ser
P centrales, entonces su
suma tambien tiene una distribuci
ni grados de libertad y
P on chi-cuadrada con
parametro de no centralidad
i , i.e.,
!
m
m
m
X
X
X
Xi2 2
ni ,
i
i=1
i=1
i=1
Esto se llama la propiedad reproductiva de la distribucion chi-cuadrada.

12
8. Sea y N(, V), donde y tiene n elementos, pero las Yi no son independientes
tal que V es singular con rango k < n y la inversa de V no esta definida de
manera u
nica. Sea V que denota la inversa generalizada de V. Entonces la
variable aleatoria yT V y tiene distribucion chi-cuadrada no central con k grados
de libertad y parametro de no centralidad = T V .
Para mas detalles acerca de las propiedades de la distribucion chi cuadrado ver
Rao (1973, Capitulo 3).
1.4.3.
Distribuci
on-t
La distribuci
on-t con n grados de libertad se define como el coeficiente entre dos
variables aleatorias independientes. El numerador tiene distribucion Normal estandar
y el denominador es la raz cuadrada de una variable aleatoria chi-cuadrada central
dividido por sus grados de libertad; es decir,
T =
Z
(X 2 /n)1/2
(1.6)
donde Z N (0, 1), X 2 2 (n) y, Z y X 2 son independientes. Esto se denota por

T t(n).
1.4.4.
Distribuci
on F
La distribuci
on F central con n y m grados de libertad se define como el cociente
de dos variables aleatorias chi-cuadrada centrales independientes, cada una dividida por
sus grados de libertad,
X12 X22
/
(1.7)
n m
donde X12 2 (n), X22 2 (m) y X12 y X22 son independientes. Esta es denotada por
F F (n, m).
2. La relacion entre la distribucion-t y la distribucion-F puede ser derivada al elevar al
cuadrado los terminos de la ecuacion (1.6) y el uso de la definicion (1.7) para obtener
F =
T2 =
Z2 X2
/
F (1, n),
1 n
(1.8)
que es, el cuadrado de una variable aleatoria con distribucion-t, t(n), que tiene distribucion-F, F (1, n).
3. La distribuci
on-F no central se define como la razon de dos variables aleatorias
independientes, cada una dividida por sus grados de libertad, donde el numerador tiene
una distribucion Chi cuadrada no central y el denominador tiene una distribucion Chi
cuadrada central, es decir,
X2 X2
F = 1/ 2
(1.9)
n m
donde X12 2 (n, ) con = T V1 , X22 2 (m) y X12 y X22 son independientes.
La media de una distribucion-F no central es mas grande que la media de una distribucion-F central con los mismos grados de libertad.

1.5.
13
Formas cuadr
aticas
1. Una forma cuadr

atica es una expresion polinomica en la que cada termino tiene
2
grado 2. As y1 + y22 y 2y12 + y22 + 3y1 y2 son formas cuadraticas en y1 y y2 pero
y12 + y22 + 2y1 o y12 + 3y22 + 2 no lo son.
2. Sea A la matriz simetrica
a11 a12 . . . a1n

a21 a22 . . . a2n
..
. . . ..
.
.
an1 an2 . . . ann
P P
donde aij = aji , entonces la expresion yT Ay =
i
j aij yi yj es una forma
T
1
cuadratica en las yi s. La expresion (y ) V (y ) es una forma cuadratica
en terminos de (yi i ) pero no de las yi s.
3. La forma cuadratica yT Ay y la matriz A se dice que son definidas positivas
si yT Ay > 0 siempre que los elementos de y no son todos cero. Una condicion
necesaria y suficiente para definitud positiva
es que todos
los determinantes

a11 a12 a13

a

a
|A1 | = a11 , |A2 | = 11 12 , |A3 | = a21 a22 a23 , . . . , y
a21 a22
a31 a32 a33
|An | = det A son todas positivas.
4. El rango de la matriz A es tambien llamado los grados de libertad de la forma
cuadratica Q = yT Ay.
5. Supongamos que Y1 , . . . , Yn son variables
independientes cada una con
Pnaleatorias
2
2
distribucion normal N (0, ). Sea Q = i=1 Yi y sea Q1 , . . . , Qk formas cuadraticas
de las yi s tales que
Q = Q1 + . . . + Qk
donde Qi tiene mi grados de libertad (i = 1, . . . , k). Entonces Q1 , . . . , Qk son
variables aleatorias independientes y Q1 / 2 2 (m1 ), Q2 / 2 2 (m2 ), . . . y
Qk / 2 2 (mk ), si y solo si,
m1 + m2 + . . . + mk = n.
Este es el teorema de Cochran; para una prueba vemos, por ejemplo, Hogg y
Craig (1995). Un resultado similar se cumple para distribuciones no centrales; ver
Captulo 3 de Rao (1973).
6. Una consecuencia del teorema de Cochran es que la diferencia de dos variables
aleatorias independientes, X12 2 (m) y X22 2 (k), tambien tiene una distribucion Chi cuadrada
X 2 = X12 X22 2 (m k)
siempre que X 2 0 y m > k.

1.6.
1.6.1.
14
Estimaci
on
Estimaci
on de m
axima verosimilitud
Sea y = [Y1 , . . . , Yn ]T un vector aleatorio y sea la funcion de densidad de probabilidad

conjunta de las yi s que es
f (y; )
el cual depende del vector de parametros = [1 , . . . , p ]T .
La funci
on de verosimilitud L(; y) es algebraicamente la misma que la funcion
de densidad de probabilidad conjunta f (y; ) pero el cambio en la notacion refleja un
cambio de enfasis de las variables y, con fijo, para los parametros con y fijo. Dado
que L esta definida en terminos del vector aleatorio y, es en s misma una variable
aleatoria. Sea el conjunto de todos los posibles valores del vector de parametros ;
es llamado el espacio param
etrico. El estimador de m
axima verosimilitud de
es el valor el cual maximiza la funcion de verosimilitud, esto es
y) L(; y)
L(;
para todo en .
Equivalentemente, es el valor que maximiza la funci

on de log-verosimilitud
l(; y) = log L(; y), puesto que la funcion logaritmo es monotona. As
y) l(; y)
l(;
para todo en .
Con frecuencia es mas facil trabajar con la funcion de log-verosimilitud que con la funcion de verosimilitud misma.
Por lo general el estimador es obtenido diferenciando la funcion de log-verosimilitud
con respecto a cada elemento j de y resolviendo las ecuaciones simultaneas
l(; y)
= 0 para j = 1, . . . , p.
j
(1.10)
y) verificando
Es necesario checar que las soluciones corresponden al maximo de l(;
que la matriz de segundas derivadas
2 l(; y)
j k
evaluada en = es definida negativa. Por ejemplo, si solo tiene un elemento esto
significa que es necesario verificar que
2

l(, y)
< 0.
2
=
Tambien es necesario comprobar si hay algunos valores de en los lmites del espacio
parametrico que da el maximo local de l(; y). Cuando todos los maximos locales
han sido identificados, el valor de correspondiente al mas grande es el estimador de
maxima verosimilitud. (Para la mayora de los modelos considerados en este libro hay
solo un maximo y corresponde a la solucion de las ecuaciones l/j = 0, j = 1, . . . , p).
Una propiedad importante de los estimadores de maxima verosimilitud es que si g() es
alguna funcion de los parametros , entonces el estimador de maxima verosimilitud de

15
Esto se deduce de la definicion de .

A veces es llamada la propiedad de
g() es g().
invarianza de estimadores de maxima verosimilitud. Una consecuencia es que podemos trabajar con una funcion de los parametros que es conveniente para la estimacion
de maxima verosimilitud y luego usamos la propiedad de invarianza para obtener estimaciones de maxima verosimilitud para los parametros requeridos.
En principio, no es necesario ser capaz de encontrar las derivadas de las funciones de
verosimilitud o log-verosimilitud para resolver la ecuacion (1.9) si puede ser encontrada numericamente. En la practica las aproximaciones numericas son muy importantes
para modelos lineales generalizados.
Otras propiedades de los estimadores de maxima verosimilitud incluyen consistencia,
suficiencia, eficiencia asintotica y normalidad asintotica. Estos se discuten en libros
como Cox y Hinkley (1974) o Kalbfleisch (1985, Captulos 1 y 2).
1.6.2.
Ejemplo: Distribuci
on Poisson
Sean Y1 , . . . , Yn variables aleatorias independientes cada una con distribucion Poisson

f (yi ; ) =
yi e
,
yi !
yi = 0, 1, 2, . . .
con el mismo parametro . Su distribucion conjunta es

f (y1 , . . . , yn ; ) =
n
Y
f (yi ; ) =
i=1
P
y1 e y2 e
yn e
...
y1 !
y2 !
yn !
y1 en
y1 !y2 ! . . . yn !
Esta tambies la funcion de verosimilitud L(; y1 , . . . , yn ). Es mas facil usar la funcion

de log-verosimilitud
X
X
l(; y1 , . . . , yn ) = log L(; y1 , . . . , yn ) = (
yi ) log n
(log yi !).
usamos
Para encontrar el estimador de maaxima verosimilitud ,
1X
dl
=
yi n.
d
Igualamos esta para obtener la solucion

X
=
yi /n = y.
P
lo que confirma
Dado que d2 l/d2 = yi /2 < 0, l tiene valor maximo cuando = ,
que y es el estimador de maxima verosimilitud.
1.6.3.
Estimaci
on por mnimos cuadrados
Sean Y1 , . . . , Yn variables aleatorias independientes con medias 1 , . . . , n respectivamente. Suponiendo que las i s son funciones del vector de parametros que queremos

16
estimar,
= [1 , . . . , p ]T , p < n. As
E(Yi ) = i ().
La forma mas simple del metodo de mnimos cuadrados consiste en encontrar el estimador que minimiza la suma de cuadrados de la diferencia entre Yi s y su valor
esperado
X
S=
[Yi i ()]2 .
Usualmente es obtenido diferenciando S con respecto a cada elemento j de y
resolviendo las ecuaciones simultaneas
S
= 0,
j
j = 1, . . . , p.
Por supuesto es necesario verificar que las soluciones corresponden al mnimo (es decir,
la matriz de segundas derivadas es definida positiva) y para identificar el mnimo global
de entre las soluciones alg
un mnimo local en la frontera del espacio parametrico.
Ahora suponemos que las Yi s tienen varianza i2 que no son todas iguales. Entonces
puede ser deseable para mnimizar la suma ponderada de las diferencias al cuadrado
X
S=
wi [Yi i ()]2
donde las ponderaciones son wi = (i2 )1 . De esta manera, las observaciones que son
menos fiables (que es, las Yi s con varianzas mas grandes) tendra menos influencia en
las estimaciones.
Mas generalmente, sea y = [Y1 , . . . , Yn ]T un vector aleatorio con el vector media
= [1 , . . . , n ]T y la matriz V de varianza-covarianza. Entonces el estimador de
mnimos cuadrado ponderado es obtenido minimizando
S = (y )T V1 (y ).
1.6.4.
Comentarios sobre estimaci

on
1. Una diferencia importante entre los metodos de maxima verosimilitud y mnimos

cuadrados es que el metodo de los mnimos cuadrados se puede utilizar sin hacer
supuestos sobre la distribucion de las variables de respuesta Yi mas alla especificando sus valores esperados y, posiblemente, su estructura de varianza-covarianza.
Por el contrario, para obtener estimadores de maxima verosimilitud necesitamos
especificar la distribucion de probabilidad conjunta de las Yi s.
2. Para muchas situaciones la verosimilitud maxima y los estimadores de mnimos
cuadrados son identicos.
3. A menudo los metodos numericos mas que el calculo pueden ser necesarios para
obtener estimaciones de los parametros que maximizan la funcion de verosimilitud
o la log-verosimilitud o minimizar la suma de cuadrados. El siguiente ejemplo
ilustra esta aproximacion.

17
Cuadro 1.2: N
umero de ciclones tropicales en 13 temporadas sucesivas.
T emporada :
1 2 3 4 5 6 7 8 9 10 11 12 13
N o. de Ciclones 6
1.6.5.
12
Ejemplo: Ciclones tropicales
El Cuadro 1.2 muestra el n

umero de ciclones tropicales en el Noreste de Australia
para la temporada 1956-7 (temporada1) a 1968-9 (temporada 13), un perodo de bastantes condiciones para de definicion y el seguimiento de los ciclones (Dobson y Stewart,
1974).
Sea Yi el n
umero de ciclones en la temporada i, donde i = 1, . . . , 13. Supongamos
que las Yi s son variables aleatorias independientes con distribucion Poisson
Figura 1.1 Grafica que muestra la ubicacion del estimador de maxima verosimilitud
para los datos de la Tabla 1.2 en ciclones tropicales.
con parametro . Del ejemplo 1.6.2 = y = 72/13 = 5.538. Una alternativa aproximada
sera encontrar numericamente el valor de que maximiza la funcion log-verosimilitud.
La componente de la funcion log-verosimilitud debido a yi es
li = yi log log yi !.
La funcion log-verosimilitud es la suma de estos terminos
l=
13
X
i=1
13
X
li =
(yi log log yi !).
i=1
Solo los primeros dos terminos en los soportes

involucran y as son relevantes para el
P13
calculo de optimizacion, porque el termino 1 log yi ! es una constante. Para graficar
la funcion log-verosimilitud (sin el termino constante) contra , para varios valores
de
P , calcula (yi log ) para cada yi y agrega los resultados para obtener l =
(yi log ). La figura 1.1 muestra l graficada contra .
Claramente el valor maximo esta entre = 5 y = 6. Esto puede proporcionar un
Los resultados de un
punto de partida para un procedimiento iterativo para obtener .

18
simple calculo de biseccion son mostrados en la tabla 1.3. la funcion l es primero calculada por aproximaciones (1) = 5 y (2) = 6. Luego las aproximaciones subsecuentes
(k) para k = 3, 4, . . . son los valores promedio de dos estimaciones previas de con
valores mas grandes de l (por ejemplo,
(6) = 12 ((5) + (3) )). Despues de 7 pasos este proceso da ' 5.54 el cual es correcto
para 2 decimales.
1.7.
Ejercicios
1. Sean Y1 y Y2 variables aleatorias independientes con Y1 N (1, 3) y Y2 N (2, 5).

Si W1 = Y1 + 2Y2 y W2 = 4Y1 Y2 , cual es la distribucion conjunta de W1 y W2 ?
2. Sean Y1 y Y2 variables aleatorias independientes con Y1 N (0, 1) y Y2 N (3, 4).
Cuadro 1.3 Aproximaciones sucesivas para la estimacion de maxima
verosimilitud de la media de n
umero de ciclones por temporada.
k
(k)
1
2
3
4
5
6
7
8
9
5
6
5.5
5.75
5.625
5.5625
5.5313
5.5469
5.5391
50.878
51.007
51.242
51.192
51.235
51.243
51.24354
51.24352
51.24360
10
5.5352
51.24359
(a) Cual es la distribucion de Y12 ?

Y1
(b) Si y =
, obten una expresion para yT y.Cual es la distribu(Y2 3)/2
cion?

Y1
(c) Si y =
y su distribucion es y N(, V), obten una expresion para
Y2
yT V1 y.Cual es la distribucion?
3. Sea la distribucion conjunta de Y1 y Y2 que es N(, V) con

2
4 1
=
y V=
.
3
1 9
(a) Obten una expresion para (y )T V1 (y ). Cual es su distribucion?
(b) Obten una expresion para yT V1 y. Cual es su distribucion?

19
4. Sea Y1 , . . . , Yn variables aleatorias independientes cada una con distribucion N (, 2 ).

Sea
n
n
1 X
1X
2
Yi y S =
(Yi Y )2 .
Y =
n i=1
n 1 i=1
(a) Cual es la distribucion de Y ?
P
1
[ ni=1 (Yi )2 n(Y )2 ].
(b) Muestra que S 2 = n1
P
(c) De (b) se sigue que (Yi )2 / 2 = (n 1)S 2 / 2 + [(Y )2 n/ 2 ].
Como te permite esto deducir que Y y S 2 son independientes?
(d) Cual es la distribucion de (n 1)S 2 / 2 ?
(e) Cual es la distribucion de
Y
?
S/ n
Cuadro 1.4 La progenie de las polillas de la manzana de color marron claro.

Grupo de progenie
Femeninos
Masculinos
1
2
2
4
5
6
7
8
9
10
11
12
13
14
15
18
31
34
33
27
33
28
23
33
12
19
25
14
4
22
11
22
27
29
24
29
25
26
38
14
23
31
20
6
34
16
12
5. Este ejercicio es una continuacion del ejemplo en la Seccion 1.6.2 en el cual

Y1 , . . . , Yn son variables aleatorias con distribucion Poisson con el parametro .
(a) Muestra que E(Yi ) = para i = 1, . . . , n.
(b) Suponiendo que = e . Encuentra el estimador de maxima verosimilitud de
.
P
(c) Minimiza S = (Yi e )2 para obetener un estimador de mnimos cuadrados
de .
6. Los datos de abajo son los n
umeros de mujeres y hombres en la progenie de
16 polillas de marron claro de la manzana en Muswellbrook, New South Wales,
Australia (de Lewis, 1987).

20
(a) Calcula la proporcion de mujeres en cada uno de los 16 grupos de progenie.

(b) Sea Yi el n
umero de mujeres y ni el n
umero de progenies en cada grupo
(i = 1, . . . , 16). Suponga que las Yi s son variables aleatorias independientes
cada una con distribucion

ni yi
f (yi ; ) =
(1 )ni yi
yi
Encuentra el estimador de maxima verosimilitud de usando calculo y eval
ualo
para estos datos.
(c) Usa un metodo numerico para estimar y compara la respuesta con una de
(b).
Captulo 2
Ajuste del Modelo
2.1.
Introducci
on
El proceso de ajuste del modelo descrito en este libro consta de cuatro pasos:
1. Especificacion del modelo - un modelo se especifica en dos partes: una ecuacion
que relacione la variable respuesta y las explicatorias y la distribucion de probabilidad de la variable de respuesta.
2. Estimacion de los parametros del modelo.
3. Verificacion de la adecuacion del modelo - que tan bien ajusta o resumen los
datos.
4. Inferencia - calcular los intervalos de confianza y pruebas de hipotesis sobre los
parametros en el modelo y la interpretacion de los resultados.
En este captulo estos pasos primero son ilustrados usando dos peque
nos ejemplos.
Discuten luego algunos principios generales. Finalmente hay secciones sobre notacion y
la codificacion de las variables explicatorias que se necesitan en los captulos siguientes.
2.2.
2.2.1.
Ejemplos
Condiciones m
edicas cr
onicas
Los datos del Estudio Longitudinal Australiano de Salud de la Mujer (Brown et al.,
1996) muestran que las mujeres que viven en zonas rurales tienden a tener un menor
n
umero de consultas con medicos generales (medicos de familia) que las mujeres que
viven cerca de una rango mas amplio de servicios de salud. No esta claro si esto se
debe a que son mas saludables o por factores estructurales, como la escasez de medicos,
los mayores costos de las visitas y las distancias mas largas para viajar, act
uan como
barreras para el uso de los servicios de medicina general (MG). El Cuadro 2.1 muestra
el n
umero de condiciones medicas cronicas (por ejemplo, presion arterial alta o artritis)
reportado por las muestras de mujeres que viven en los grandes pueblos (grupo de
pueblo) o en las zonas mas rurales (grupos de rurales) en New South Wales, Australia.
Todas las mujeres tenan entre 70 y 75 a
nos, tena el mismo estatus socioeconomico y
tenan tres o menos visitas al MG durante 1996. La pregunta de interes es: tienen las
21
CAPITULO 2. AJUSTE DEL MODELO
22
Cuadro 2.1: El n
umero de condiciones medicas cronicas de 26 mujeres de pueblo y 23
mujeres de zona rural con un uso similar de los servicios de medicina general.
0
1
1
3
2
1
0
1
Pueblo
0 1 1 1 1 2 0 1 3 0 1 2
2 0
n = 26, media =1.423,
desviacion estandar =1.172, varianza =1.374
Rural
3 0 0 1 1 1 1 0 0 2 2 0 1 2 0 0
1 0 2
n = 23, media =0.913,
desviacion estandar =0.900, varianza =0.810
1
3
0
4
2
1
3
3
mujeres que tienen niveles similares de uso de los servicios de MG en los dos grupos la
misma necesidad que indica su n
umero de condiciones medicas cronicas?
La distribucion de Poisson proporciona una forma plausible de modelar estos datos
ya que son frecuencias y en cada grupo la media y la varianza muestral son aproximadamente iguales. Sea Yjk la variable aleatoria que representa el n
umero de condiciones para
la mujer k -esimo en el grupo j -esimo, donde j = 1 para el grupo de pueblo y j = 2
para el grupo rural y k = 1, . . . , Kj con K1 = 26 y K2 = 23.
Sopongase que las Yjk s son todas independientes y tienen la distribucion de Poisson
con parametro j que representa el n
umero esperado de condiciones.
La cuestion de interes puede ser formulada como una prueba de hipotesis nula
H0 = 1 = 2 = contra la hipotesis alternativa H1 = 1 6= 2 . El enfoque de ajuste
del modelo para probar H0 es ajustar dos modelos, uno que asume que H0 es cierta, es
decir
E(Yjk ) = ;
Yjk Poisson()
(2.1)
y el otro asumiendo que no es asi, de modo que
E(Yjk ) = j ;
Yjk Poisson(j ),
(2.2)
donde j = 1 o 2. La prueba H0 contra H1 involucra la comparacion de que tambien los

modelos (2.1) y (2.2) se ajustan a los datos. Si son casi igual de buenos, entonces hay
poca para rechazar H0 . Sin embargo si el modelo (2.2) es claramente mejor, entonces
H0 sera rechazada a favor de H1 .
Si H0 , es cierta, entonces la funcion de log-verosimilitud de las Yjk s es
Kj
J X
X
l0 = l(; y) =
(yjk log log yjk !),
(2.3)
j=1 k=1
donde en este caso J = 2. La estimacion de maxima verosimilitud, que se puede obtener

como se muestra en el ejemplo en la Seccion 1.6.2, es
XX
b =
yjk /N,
23
P
donde N = j Kj . Para estos datos la estimacion es b = 1.184 y el valor maximo de
la funcion de log-verosimilitud, es obtenido mediante la sustitucion de este valor b y de
los valores de los datos yjk en (2.3), es b
l = 68.3868.
Si H1 es cierta, entonces la funcion la de log-verosimilitud es
K1
K2
X
X
l1 = l(1 , 2 ; y) =
(y1k log 1 1 log y1k !) +
(y1k log 2 2 log y2k !). (2.4)
k=1
k=1
(Los subndices en l0 y l1 en (2.3) y (2.4) son usados para enfatizar las relaciones con
las hipotesis H0 y H1 , respectivamente). Apartir de (2.4) los estimadores de maxima
P
verosimilitud son bj = k yjk /Kj para j = 1 o 2. En este caso b1 =1.423, b2 =0.913
y el valor maximo de la funcion de log-verosimilitud, obtenido mediante la sustitucion
de estos valores y los datos en (2.4), es b
l = 67.0230.
El valor maximo de la funcion de log-verosimilitud l1 siempre sera mayor o igual
a la de l0 porque un parametro mas ha sido ajustado. Para decidir si la diferencia es
estadsticamente significativa necesitamos saber la distribucion muestral de la funcion
de log-verosimilitud. Esto se discute en el Captulo 4.
Si Y P oisson() entonces E(Y ) = var(Y ) = . El estimador b de E(Y ) llamado
el valor ajustado de Y . La diferencia Y b es llamada residual (otras definiciones
de residuales tambien son posibles, vease la Seccion 2.3.4). Los residuales constituyen
la base de muchos metodos para examinar la adecuacion de un modelo. Un residual es
generalmente se estandariza dividiendo por su error estandar. Para la distribucion de
Poisson un residual estandarizado aproximado es
Y b
r= p .
b
Los residuos estandarizados para modelos (2.1) y (2.2) se muestran en el cuadro
2.2 y la Figura 2.1. El examen de los residuos individuales es u
til para evaluar ciertas
caractersticas de un modelo tal como la adecuacion de la distribucion de probabilidad
utilizada para la variable respuesta o la inclusion de variables explicatorias especficas.
Por ejemplo, los residuos del Cuadro 2.2 y la Figura 2.1 muestran cierta asimetra,
como se podra esperar para la distribucion Poisson.
Los residuos tambien pueden ser agregados para producir estadsticos de resumen
que miden la adecuacion general de el modelo. Por ejemplo, para los datos de la Poisson denotados por las variables aleatorias independientes Yi , siempre que los valores
q
b
esperados i no son demasiado peque
nos, los residuos estandarizados ri = (Yi i )/ bi
aproximadamente tiene la distribucion Normal estandar N (0, 1), aunque no suelen ser
independiente. Un argumento intuitivo es que, aproximadamente, ri N (0, 1) de modo
que ri2 2 (1) y por lo tanto
X
.
ri2
X (Yi bi )2
bi
2 (m)
(2.5)
24
Cuadro 2.2: Valores observados y residuos estandarizados para los datos sobre las condiciones medicas cronicas (Cuadro 2.1), con estimaciones obtenidas a partir de modelos
(2,1) y (2,2).
valor de Y
Frecuencia
0
1
2
3
4
6
10
4
5
1
0
1
2
3
9
8
5
1
Residuos estandarizados
de (2.1); b = 1.184
Pueblo
-1.088
-0.169
0.750
1.669
2.589
Rural
-1.088
-0.169
0.750
1.669
Residuos estandarizados de (2.2);

b1 = 1.423, b2 = 0.913
-1.193
-0.355
0.484
1.322
2.160
-0.956
-0.091
1.138
2.184
Figura 2.1: Los graficos de residuales para modelos (2.1) y (2.2) de los datos de la Tabla
2.2 sobre las condiciones medicas cronicas.
De hecho, se puede mostrar que para muestras grandes, (2.5) es una buena aproximacion con m igual al n
umero de observaciones menos el n
umero de parametros estimados para calcular los valores ajustados bi (por ejemplo, vease Agresti, 1990, pagina
479). La expresion (2.5) es, de hecho, el estadistico chi-cuadrada de bondad de ajuste
para el datos de conteo que a menudo se escribe como
X (oi ei )2
X2 =
2 (m)
ei
donde oi denota la frecuencia observada y ei denota la frecuencia esperada correspon-
25
P 2
diente. En eses caso oi = Yi , ei = bi y
ri = X 2 .
Para los datos sobre las condiciones medicas cronicas, del modelo (2.1)
X
ri2 = 6 (1.088)2 + 10 (0.169)2 + + 1 (1.669)2 = 46.759
P
Este valor es consistente con ri2 iendo una observacion de la distribucion chi-cuadrada
central con m = 23 + 26 1 = 48 grados de libertad. (Recuerde que en la SeccioP
n 1.4.2,
2
2
2
2
que si X (m) entonces E(X ) = m y observe que el valor calculado X =
ri2 =
46.759 se encuentra cerca del valor esperado de 48). Del mismo modo, para el modelo
(2.2)
X
ri2 = 6 (1.193)2 + . . . + 1 (2.184)2 = 43.659.
cual es consistente con la distribucion chi-cuadrada
con m = 49 2 = 47 grados
P central
2
de libertad. La diferencia entre los valores de
ri de los modelos (2.1) y (2.2) es
peque
na: 46.759 43.659 = 3.10. Esto sugiere que el modelo (2.2) con dos parametros,
puede o no describir los datos mucho mejor que el modelo mas simple (2.1). Si esto es
as, entonces los datos proporcionan evidencia que apoya la hipotesis nula H0 = 1 = 2 .
Una Prueba de hipotesis mas formale se discute en el Captulo 4.
El siguiente ejemplo ilustra pasos del proceso de ajuste del modelo con los datos
continuos.
2.2.2.
El peso al nacer y la edad gestacional
Los datos del Cuadro 2.3 son los pesos al nacer (en gramos) y edad gestacional
estimada (en semanas) de 12 bebes mujeres y hombres nacidos en un determinado
hospital. El promedio de edad es casi la misma para ambos sexos, pero el peso promedio
al nacer para los varones es mayor que el peso medio al nacer de las ni
nas. Los datos
se muestran en el diagrama de dispersion en la Figura 2.2. Hay una tendencia lineal de
que peso al nacer aumenta con la edad gestacional y las ni
nas tienden a pesar menos
que los varones de la misma edad gestacional. La cuestion de interes es si la tasa de
aumento de peso al nacer con la edad gestacional es la misma para ni
nos y ni
nas.
Sea Yjk la variable aleatoria que representa el peso al nacer de el bebe k-esimo en
el grupo j donde j = 1 para ni
nos y j = 2 para ni
nas y k = 1, . . . , 12. Suponga que
las Yjk s son todas independientes y normalmente distribuida con medias jk = E(Yjk )
que pueden diferir entre los bebes, y la varianza 2 que es la misma para todos ellos.
Un modelo bastante general que relaciona el peso al nacer para la edad gestacional
es
E(Yjk ) = jk = j + j xjk
donde xjk es la edad gestacional del k-esimo bebe en el grupo j. Los parametros de intercepto 1 y 2 son probablemente diferentes, ya que, en promedio, los varones fueron
mas pesados que las ni
nas. Los parametros de pendiente 1 y 2 representan los incrementos promedio en el peso al nacer de cada semana adicional de la edad gestacional.
La cuestion de interes puede ser formulada en terminos de probar la hipotesis nula
H0 : 1 = 2 = (es decir, las tasas de crecimiento son iguales, por lo que las rectas
son paralelas) contra la hipotesis alternativa H1 : 1 6= 2 .
Podemos probar H0 contra H1 ajustando dos modelos
E(Yjk ) = jk = j + xjk ;
Yjk N (jk , 2 ),
(2.6)
E(Yjk ) = jk = j + j xjk ;
Yjk N (jk , 2 ).
(2.7)
26
Cuadro 2.3: El peso al nacer y la edad gestacional para ni

nos y ni
nas.
Ni
nos
Edad Peso al nacer
40
2968
38
2795
40
3163
35
2925
36
2625
37
2847
41
3292
40
3473
37
2628
38
3176
40
3421
38
2975
Media 38.33
3024.00
Ni
nas
Edad Peso al nacer
40
3317
36
2729
40
2935
38
2754
42
3210
39
2817
40
3126
37
2539
36
2412
38
2991
39
2875
40
3231
38.75
2911.33
Figura 2.2: El peso al nacer reprensentado contra la edad gestacional de los ni

nos (crculos abiertos) y ni
nas (crculos solidos); datos de el Cuadro 2.3..
La funcion de densidad de probabilidad para Yjk es

1
1
2
f (yjk ; jk ) =
exp 2 (yjk jk ) .
2
2 2
27
Comenzamos ajustando el modelo mas general (2.7). La funcion de log-verosimilitud es

J X
K
X
1
1
2
2
l1 (1 , 2 , 1 , 2 ; y) =
log(2 ) 2 (yjk jk )
2
2
j=1 k=1
J
K
1
1 XX
= JK log(2 2 ) 2
(yjk j j xjk )2
2
2 j=1 k=1
donde J = 2 y K = 12 en este caso. Cuando obtenemos las estimaciones de maxima

verosimilitud de 1 , 2 , 1 y 2 tratamos al parametro 2 como una constante conocida,
o parametro de ruido, y no lo estimamos.
Las estimaciones de maxima verosimilitud son las soluciones de las ecuaciones simultaneas
1 X
l1
= 2
(yjk j j xjk ) = 0,
j
k
1 X
l1
= 2
xjk (yjk j j xjk ) = 0,
j
k
(2.8)
donde j = 1 o 2.
Una alternativa a la estimacion de maxima verosimilitud es la estimacion por mnimos cuadrados. Para el modelo (2.7), se trata de reducir al mnimo la expresion
S1 =
J X
K
X
(yjk jk ) =
J X
K
X
(yjk j j xjk )2 .
(2.9)
j=1 k=1
j=1 k=1
Las estimaciones de mnimos cuadrados son las soluciones de las ecuaciones

X
S1
= 2
(yjk j j xjk ) = 0,
j
k
X
S1
xjk (yjk j j xjk ) = 0,
= 2
j
k
(2.10)
Las ecuaciones a resolver en (2.8) y (2.10) son las mismas y as maximizar l1 es equivalente a minimizar S1 . Para el resto de este ejemplo usaremos el enfoque de mnimos
cuadrados.
Las ecuaciones de estimacion (2.10) se puede simplificar a
K
X
yjk Kj j
k=1
K
X
k=1
xjk yjk j
K
X
xjk = 0
k=1
K
X
k=1
xjk j
K
X
x2jk = 0
k=1
para j = 1 o 2. Estas son llamadas las ecuaciones normales. La solucion es

P
P
P
K k xjk yjk ( k xjk ) ( k yjk )
bj =
,
P
P
K k x2jk ( k xjk )2
28
aj = yj bj xj ,
donde aj es la estimacion de j y bj es la estimacion de j , para j = 1 o 2. Al tener en
cuenta las segundas derivadas de (2.9) se puede verificar que la solucion de las ecuaciones
(2.10) corresponde al mnimo de S1 . El valor numerico para el valor mnimo para S1
para un conjunto de datos en particular se puede obtener mediante la sustitucion de
las estimaciones para j y j y los valores de datos para yjk y xjk en (2,9).
Para probar H0 : 1 = 2 = contra la hipotesis alternativa mas general H1
el procedimiento de estimacion descrito anteriormente para el modelo (2.7) se repite,
pero con la expresion en (2.6) usada para jk . En este caso hay tres parametros, 1 , 2
y , en lugar de cuatro a estimar. La expresion de mnimos cuadrados para minimizar
es
J X
K
X
S0 =
(yjk j xjk )2
(2.11)
j=1 k=1
A partir de (2.11) los estimadores de mnimos cuadrados son dados por la solucion de
las ecuaciones simultaneas
K
X
S0
(yjk j xjk ) = 0,
= 2
j
k=1
J X
K
X
S0
= 2
xjk (yjk j xjk ) = 0
j
j=1 k=1
(2.12)
Cuadro 2.4: Resumen de los datos sobre el peso al nacer y la edad gestacional en el
Cuadro 2.3 (suma se extiende a k = 1, . . . , K, donde K = 12).
Ni
no (j = 1)
460
36288
17672
110623496
1395370
P
Px
P y2
P x2
Py
xy
Ni
nas (j = 2)
465
34936
18055
102575468
1358497
para j = 1 y 2. La solucion es
K
b=
P P
P P
k xjk yjk
j xjk
k yjk
P P 2
P P 2
,
K j k xjk
k xjk
aj = y j bxj .
Estas estimaciones y el valor mnimo de S0 se pueden calcular a partir de los datos.
Para el ejemplo del peso al nacer y la edad gestacional, los datos se resumen en el
Cuadro 2.4 y las estimaciones de mnimos cuadrados y los valores mnimos para S0 y S1
se dan en el Cuadro 2.5. Los valores ajustados ybjk se muestran en el Cuadro 2.6. Para el
modelo (2.6), ybjk = aj + bxjk se calcula a partir de las estimaciones en la parte superior
29
de el Cuadro 2.5. El residual de cada observacion es yjk ybjk . La desviacion estandar

s de las residuales se puede calcular y se utiliza para obtener residuales estandarizados
aproximados (yjk ybjk )/s. En las Figuras 2.3 y 2.4 muestran los modelos (2.6) y (2.7),
respectivamente: los residuales estandarizados graficados contra los valores ajustados;
los residuales estandarizados graficados contra la edad gestacional y graficas de probabilidad Normal. Este tipos de graficas se discuten en la Seccion 2.3.4. Las Figuras
muestran que:
1. Los residuos estandarizados no muestran patrones sistematicos en relacion con
cualquiera de los valores ajustados o la variable explicatoria, la edad gestacional.
2. Los residuos estandarizados se distribuyen aproximadamente normal (cuando los
puntos estan cerca de las lneas continuas en los graficos inferiores).
3. Existe muy poca diferencia entre los dos modelos.
La aparente falta de diferencia entre los modelos puede ser examinado probando la
hipotesis nula H0 (correspondiente al modelo (2.6)) contra la hipotesis alternativa H1
(correspondiente al modelo (2.7)). Si H0 es correcta, entonces los valores mnimos Sb1 y
Sb0 deben ser casi iguales. Si los datos apoyan esta hipotesis, nos sentiramos justificados
en usar el modelo mas simple (2.6) para describir los datos. Por otro lado, si la hipotesis
mas general H1 es cierto, entonces Sb0 debe ser mucho mayor que Sb1 y el modelo (2.7)
sera preferible.
Para evaluar la magnitud relativa de los valores Sb1 y Sb0 tenemos que utilizar distribuciones de muestreo de las correspondientes variables aleatorias
Sb1 =
J X
K
X
(Yjk aj bj xjk )2
j=1 k=1
y
Sb0 =
J X
K
X
(Yjk aj bxjk )2 .
j=1 k=1
Se puede demostrar (vease el ejercicio 2.3) que
Sb1 =
J X
K
X
[Yjk (j + j xjk )] K
j=1 k=1
2
X
J
X
Y j j j xj
2
j=1
(bj j )2
j=1
K
X
!
x2jk Kx2j
k=1
y que las variables aleatorias Yjk , Ybj y bj son todas independientes y tienen las siguientes
distribuciones:
Yjk N (j + j xjk , 2 ),
Y j N (j + j xj , 2 /K),
bj N
j , 2 /
K
X
k=1
!!
x2jk Kx2j
30
Cuadro 2.5: Analisis de los datos sobre el peso al nacer y la edad gestacional en el
Cuadro 2.3.
Modelo
(2.6)
(2.7)
Pendientes
b = 120.894
a1
a2
b1 = 111.983 a1
b2 = 130.400 a2
Intersepto
= 1610.283
= 1773.322
= 1268.672
= 2141.667
El mnimo de la suma de cuadrados

Sb0 = 658770.8
Sb1 = 652424.5
Cuadro 2.6: Los valores observados y los valores ajustados bajo el modelo (2.6) y el
modelo (2.7) para los datos de el Cuadro 2.3.
Sexo
Ni
nos
Ni
nas
Edad
Peso al
gestacional nacer
40
2968
38
2795
40
3163
35
2925
36
2625
37
2847
41
3292
40
3473
37
2628
38
3176
40
3421
38
2975
40
36
40
38
42
39
40
37
36
38
39
40
3317
2729
2935
2754
3210
2817
3126
2539
2412
2991
2875
3231
Valor ajustado
bajo (2.6)
3225.5
2983.7
3225.5
2621.0
2741.9
2862.8
3346.4
3225.5
2862.8
2983.7
3225.5
2983.7
Valor ajustado
bajo (2.7)
3210.6
2986.7
3210.6
2650.7
2762.7
2874.7
3322.6
3210.6
2874.7
2986.7
3210.6
2986.7
3062.5
2578.9
3062.5
2820.7
3304.2
2941.6
3062.5
2699.8
2578.9
2820.7
2941.6
3062.5
3074.3
2552.7
3074.3
2813.5
3335.1
2943.9
3074.3
2683.1
2552.7
2813.5
2943.9
3074.3
31
Figura 2.3: Los graficos de residuos estandarizados para el modelo (2.6) para los datos
sobre el peso al nacer y la edad gestacional (Cuadro 2.3); para los graficos superiores
y medios, crculos abiertos corresponden a los datos de los ni
nos y los crculos solidos
corresponden a los datos de las ni
nas.
32
Figura 2.4: Los graficos de residuos estandarizados para el modelo (2.7) para los datos
sobre el peso al nacer y la edad gestacional (Cuadro 2.3); para los graficos superiores
y medios, crculos abiertos corresponden a los datos de los ni
nos y los crculos solidos
corresponden a los datos de las ni
nas.
33
Por lo tanto Sb1 / 2 es una combinacion lineal de las sumas de los cuadrados de
variables aleatorias con distribuciones normales estandars. En general, hay JK variables
aleatorias (Yjk j j xjk )2P
/ 2 , J variables
(Y j j j xjk )2 K/ 2 y J
aleatorias
2
2
2
2
variables aleatorias (bj j )
k xjk Kxj / . Ellas son todos independientes y cada
uno tiene distribucion 2 (1). De las propiedades de la distribucion chi-cuadrado en la
Seccion 1.5, se deduce que Sb1 / 2 2 (JK 2J). Del mismo modo si H0 es correcto
entonces Sb0 / 2 2 [JK (J + 1)]. En este ejemplo J = 2 asi que Sb1 / 2 2 (2K 4)
y Sb0 / 2 2 (2K 3). En cada caso el valor para los grados de libertad es el n
umero
de observaciones menos el n
umero de parametros estimados.
Si 1 y 2 no son iguales (correspondiete a H1 ), entonces Sb0 / 2 tendra una distribucion chi-cuadrada no central con JK (J +1) grados de libertad. Por otro lado, siempre
que el modelo (2.7) describe bien los datos, Sb1 / 2 tendra una distribucion chi-cuadrada
central con JK 2J grados de libertad. El estadstico Sb0 Sb1 representa la mejora en
el ajuste de (2.7) en comparacion con (2.6). Si H0 es correcta, entonces

1 b
S0 Sb1 2 (J 1).
2
Figura 2.5: Distribucion F central y no central.

Si H0 no es correcta entonces (Sb0 Sb1 )/ 2 tiene una distribucion
no central. Sin embargo, como 2 es desconocida, no podemos comparar
(Sb0 Sb1 )/ 2 con la distribucion 2 (J 1). En su lugar eliminamos 2
relacion de (Sb0 Sb1 )/ 2 y la variable aleatoria Sb1 / 2 con distribucion
central, cada uno dividido por los grados de libertad pertinentes,
F =
chi-cuadrada
directamente
utilizando la
chi-cuadrada
(Sb0 Sb1 )/ 2
Sb1 / 2
(Sb0 Sb1 )/(J 1)
/
=
.
(J 1)
(JK 2J)
Sb1 (JK 2J)
Si H0 es cierta, de la Seccion 1.4.4, F tiene distribucion F (J 1, JK 2J). Si H0 no

es cierta, F tiene distribucion F no central y el valor calculado de F sera mayor de lo
esperado que de la distribucion F central (vease en Figura 2.5).
34
Para el ejemplo sobre el peso al nacer y la edad gestacional, el valor de F es

(658770.8 652424.5)/1
= 0.19
652424.5/20
Este valor ciertamente no es estadsticamente significativo en comparacion con la distribucione F (1, 20). As, los datos no proporcionan evidencia en contra de la hipotesis
H0 : 1 = 2 , y por motivos de simplicidad del modelo (2.6), que especifica las mismas
pendientes pero diferentes intersecciones, es preferible.
Estos dos ejemplos ilustran las principales ideas y metodos de modelizacion estadstica que seran discutidos en terminos mas generales.
2.3.
2.3.1.
Algunos principios de modelizaci

on estadstica
An
alisis exploratorios de datos
Cualquier analisis de datos debe comenzar con un examen de cada variable por
separado, tanto para comprobar la calidad de datos (por ejemplo, son los valores
plausibles?) y para ayudar con la formulacion del modelo.
1. Cual es la escala de medicion? Si es continua o categorica cuantas categoras
tienen y son ellas nominal u ordinal?.
2. Cual es la forma de la distribucion? Esto puede ser examinada usando tablas de
frecuencia, graficas de puntos, histogramas y otros metodos graficos.
3. Como se asocia con otras variables? Las tabulaciones cruzadas para las variables
categoricas, graficas de dispersion para las variables continuas, graficas de caja
adyacentes para mediciones de escala continuas agrupadas de acuerdo con los
niveles de los factores de una variable categorica, y otras resumenes que puede
ayudar a identificar patrones de asociacion. Por ejemplo, los puntos en una grafica de dispersion sugieren relaciones lineales o no lineales? Las medias del grupo
aumentan o disminuyen consistentemente con una variable ordinal definiendo los
grupos?.
2.3.2.
Formulaci
on del modelo
Los modelos descritos en este libro involucran una sola variable respuesta Y y por
lo general varias variables explicatorias. El conocimiento del contexto en el que se
obtuvieron los datos, incluyendo las cuestiones sustantivas de interes, relaciones teoricas
entre las variables, el dise
no del estudio y los resultados del analisis exploratorio de datos
se pueden usar para ayudar a formular un modelo. El modelo tiene dos componentes:
1. La distribucion de probabilidad de Y , por ejemplo, Y N (, 2 ).
2. La ecuacion que une el valor esperado de Y con una combinacion lineal de las
variables explicatorias, por ejemplo, E(Y ) = + x o ln[E(Y )] = 0 + 1 sin(x).
35
Para los modelos lineales generalizados las distribuciones de probabilidad todas pertenecen
a la familia exponencial de distribuciones, que incluye la Normal, binomial, Poisson y
muchas otras distribuciones. Esta familia de distribuciones se discute en el Captulo 3.
La ecuacion en la segunda parte del modelo tiene la forma general
g [E (Y )] = 0 + 1 x1 + . . . + m xm
donde la parte 0 + 1 x1 + . . . + m xm es llamado el componente lineal. La notacion
para el componente lineal se discute en la Seccion 2.4.
2.3.3.
La estimaci
on de par
ametros
Los metodos de estimacion mas utilizados son de maxima verosimilitud y mnimos

cuadrados. Estos se describen en la Seccion 1.6. En este libro se utilizan metodos
numericos y graficos, donde es apropiado, para complementar el calculo y los metodos
algebraicos de optimizacion.
2.3.4.
Residuales y evaluaci
on del modelo
En primer lugar, considere residuales para un modelo que implica la distribucion

Normal. Supongamos que la variable de respuesta Yi se modela por
E(Yi ) = i ;
Yi N (i , 2 ).
Los valores ajustados son los estimaciones

bi . Los residuales se pueden definir como
yi
bi y los residuales estandarizados aproximados como
ri = (yi
bi )/b
,
donde
b es una estimacion del parametro desconocido . Estos residuales estandarizados estan ligeramente correlacionados porque todos ellos dependen de las estimaciones
bi y
b que fueron calculados a partir de las mismas observaciones. Ademas, no estan
exactamente Normalmente distribuidas porque se ha estimado por
b. Sin embargo,
son aproximadamente una distribucion normal y la adecuacion de la aproximacion se
puede comprobar utilizando metodos graficos apropiados (vease mas adelante).
Los parametros i son funciones de variables explicatorias. Si el modelo es una buena
descripcion de la relacion entre la respuesta y las variables explicatorias, esto debera ser
as bien capturado o explicado por las
bi s. Por lo tanto debe haber poca informacion
restante en los residuos yi
bi . Esto tambien se puede comprobar
graficamente (ver
P
mas abajo). Ademas, la suma de cuadrados de los residuos (yi
bi )2 proporciona un
estadstico general para evaluar la adecuacion del modelo; de hecho, es el componente
de la expresion de la funcion de log-verosimilitud o mnimos cuadrados que se optimiza
en el proceso de estimacion.
En segundo lugar, considerar los residuos de un modelo de Poisson. Recordemos el
modelo para enfermedades cronicas
E(Yi ) = i ;
Yi Poisson(i ).
este caso los residuos estandarizados aproximados son de la forma

yi bi
ri = q .
bi
36
Estos pueden ser considerados como races cuadradas con signo de las contribuciones a
la bondad del ajuste estadstico de Pearson.
X (oi ei )2
i
ei
donde oi es el valor observado yi y ei es el valor ajustado bi esperado del modelo. Para

otras distribuciones se utiliza una variedad de definiciones de residuos estandarizados.
Algunos de estos son transformaciones de los terminos (yi
bi ) dise
nados para mejorar
su normalidad o la independencia (por ejemplo, vease el Captulo 9 de Neter et al.,
1996). Otros se basan en races cuadradas con signo de las contribuciones a los estadsticos, como la funcion de log-verosimilitud o la suma de cuadrados, que se utilizan
como medidas generales de la adecuacion del modelo (por ejemplo, ver Cox y Snell,
1968; Pregibon, 1981; y Pierce y Shafer, 1986). Muchos de estos residuales se discuten
con mas detalle en McCullagh y Nelder (1989) o Krzanowski (1998).
Los residuales son herramientas importantes para la comprobacion de los supuestos
realizados en la formulacion de un modelo. Esto se debe a que por lo general deben ser
independientes y tienen una distribucion que es aproximadamente normal con media
cero y varianza constante. Tambien deben tener relacion con las variables explicatorias.
Por lo tanto, los residuos estandarizados se pueden comparar con la distribucion normal
para evaluar la adecuacion de los supuestos de distribuciones e identificar cualquier valor
inusual. Esto se puede hacer mediante la inspeccion de su distribucion de frecuencia y
la b
usqueda de valores mas alla del rango probable; por ejemplo, no mas de 5 % debe
ser menor de 1.96 o mayor que 1.96y no mas de 1 % debe estar mas alla de 2.58.
Un metodo mas sensible para la evaluacion de la normalidad, sin embargo, es utilizar una gr
afica de probabilidad normal. Esto implica el trazado de los residuales
contra los valores esperados, que se define de acuerdo a su orden de importancia, si se
distribuyen normalmente. Estos valores se llaman estadsticos de orden normal y
que dependen del n
umero de observaciones. Las graficas de probabilidad normal estan
disponibles en todo buen software estadstico (y graficos de probabilidad analogas para
otras distribuciones tambien estan com
unmente disponibles). En la grafica los puntos
deben caer en o cerca de una lnea recta que representa Normalidad y desviaciones
sistematicas o observaciones atipicas indica una desviacion de esta distribucion.
Los residuos estandarizados tambien deben ser graficados contra cada una de las
variables explicatorias que se incluyen en el modelo. Si el modelo describe adecuadamente el efecto de la variable, no debera haber ning
un patron evidente en la grafica.
Si es inadecuado, los puntos pueden mostrar curvatura o alg
un otro patron sistematico
lo que sugerira que pueden necesitar terminos adicionales o alternativos a ser incluidos
en el modelo. Los residuos tambien deben ser graficados contra otras variables explicatorias potenciales que no estan en el modelo. Si hay cualquier patron sistematico,
esto sugiere que las variables adicionales deben ser incluidos. Varias graficas residuales
para la deteccion de la no linealidad en los modelos lineales generalizados han sido
comparado por Cai y Tsai (1999).
Ademas, los residuos estandarizados deben ser graficados contra los valores ajustados ybi , especialmente para detectar cambios en la varianza. Por ejemplo, un aumento
en la expansion de los residuos hacia el final del rango de valores ajustados indicara un
alejamiento de la suposicion de varianza constante (a veces se denomina homocedasticidad).
37
Finalmente, se debe hacer una grafica secuencial de los residuos utilizando el orden
en el los valores yi fueron medidos. Esto podra ser en orden del tiempo, orden espacial
o cualquier otro efecto secuencial que podran causar falta de independencia entre
las observaciones. Si los residuales son independientes los puntos deben fluctuar al
azar sin ning
un patron sistematico, como alternando arriba y abajo o el aumento o
decremento. Si hay evidencia de asociacion entre los residuos, esto se puede comprobar
mediante el calculo de coeficientes de correlacion en serie entre ellos. Si los residuos
estan correlacionados, se necesitan metodos de modelado especiales - estos se describen
en el Captulo 11.
2.3.5.
Inferencia e interpretaci
on
A veces es u
til pensar en los datos cientficos como las mediciones compuestas de
un mensaje o se
nal, que es distorsionado por un ruido. Por ejemplo, en el ejemplo
sobre el peso al nacer la se
nal es la tasa de crecimiento habitual de los bebes y
el ruido proviene de todos los factores geneticos y ambientales que conducen a la
variacion individual. Uno de los objetivos de la modelizacion estadstica es extraer la
mayor cantidad de informacion posible sobre la se
nal. En la practica, esto tiene que
equilibrarse con otros criterios, como la simplicidad. El Diccionario Oxford describe la
ley de parsimonia (tambien conocido como la Navaja de Occam) como el principio de
que no mas causas deben ser asumido que tome en cuenta el efecto. En consecuencia
un modelo mas simple o mas parsimonioso que describe los datos de forma adecuada es
preferible que uno mas complicado que deja poco de la variabilidad sin explicar. Para
determinar un modelo parsimonioso consistente con los datos, comprobamos hipotesis
sobre los parametros.
La prueba de hipotesis se realiza en el contexto de ajuste del modelo mediante la
definicion de una serie de modelos anidados correspondientes a diferentes hipotesis.
Entonces la pregunta acerca de si los datos apoyan una hipotesis particular puede formularse en terminos de la adecuacion del ajuste del modelo correspondiente en relacion
con otros modelos mas complicados. Esta logica fue ilustrada en los ejemplos anteriores
en este captulo. El captulo 5 ofrece una explicacion mas detallada de los conceptos
y metodos utilizados, incluyendo las distribuciones de muestreo para las estadsticos
utilizados para describir la bondad de ajuste.
Si bien la prueba de hipotesis es u
til para identificar un buen modelo, resulta mucho
menos u
til para interpretarlo. Siempre que sea posible, los parametros en un modelo
deben tener alguna interpretacion natural; por ejemplo, la tasa de crecimiento de los
bebes, el riesgo relativo de adquirir una enfermedad o la diferencia media en las ganancias a partir de dos estrategias de marketing. La magnitud estimada del parametro y
la fiabilidad de la estimacion seg
un lo indicado por su error estandar o un intervalo
de confianza son mucho mas informativos que los niveles de significancia o p-valores.
Estos hacen posible responder a preguntas tales como: esta estimado con suficiente
precision como para ser u
til?, o es el efecto suficientemente grande como para ser de
importancia practica, social o biologica?
2.3.6.
lecturas complementarias
Una excelente discusion de los principios de modelizacion estadstica es en la parte

introductoria de Cox y Snell (1981). La importancia de adoptar un enfoque sistematico
38
es destacado por Kleinbaum et al. (1998). Las diversas etapas del modelo de eleccion,
la crtica y la validacion se describen por Krzanowski (1998). El uso de residuos se
describe en Neter et al. (1996), Draper y Smith (1998), Belsley et al. (1980) y Cook y
Weisberg (1999).
2.4.
Notaci
on y codificaci
on para las variables explicatorias
Para los modelos en este libro la ecuacion que une cada variable respuesta Y y un
conjunto de variables explicatorias x1 , x2 , . . . , xm tiene la forma
g [E (Y )] = 0 + 1 x1 + . . . + m xm .
Para las respuestas Y1 , . . . , YN esto puede escribirse en notacion matricial como
g [E(y)] = X
donde
(2.13)
Y1

y = ...
YN
es el vector de respuestas,
g [E (Y1 )]
..
g [E (y)] =
.
g [E (YN )]
denota un vector de funciones de los terminos E(Yi ) (con el mismo g para cada elemento),

1
..
= .
N
es el vector de parametros, y X es una matriz cuyos elementos son constantes que
representan los niveles de las variables explicatorias categoricas o valores medidos de
las variables explicatorias continuas.
Para una variable explicatoria continua x (como la edad gestacional en el ejemplo
de peso al nacer) el modelo contiene un termino x donde el parametro representa
el cambio en la respuesta correspondiente a un cambio de una unidad en x.
Para las variables explicatorias categoricas hay parametros para los diferentes niveles
de un factor. Los elementos correspondientes de X son eligidos para excluir o incluir
los parametros adecuados para cada nivel de factor; se les llama variables ficticias.
Si son solo ceros y unos, el termino de variable indicadora es usado.
Si hay p parametros en el modelo y N observaciones, entonces y es un vector aleatorio de N 1, es el vector de paremetros p 1 y X es una matriz N p de constantes
conocidas. X es a menudo llamada la matriz dise
no y X es el componente lineal
del modelo. Varias maneras de definir los elementos de X se ilustran en los siguientes
ejemplos.
2.4.1.
39
Ejemplo: Medias de dos grupos
Para los datos sobre las condiciones medicas cronicas la ecuacion en el modelo
E(Yik ) = j ;
Yik Poisson(j ), j = 1, 2.
se puede escribir en la forma de (2.13) con g como la funcion identidad,
Y1,1
1 0
Y1,2
1 0
.
. .
.
. .

.
. .
y = Y1,26 ,
= 1 ,
y
X = 1 0
2
Y2,1
0 1
.
. .
..
.. ..
Y2,23
0 1
La parte superior de X toma los terminos 1 correspondiente a E(Y1K ) y la parte
inferior escoge 2 para E(Y2K ). Con este modelo, el grupo de medias 1 y 2 puede
estimarse y compararse.
2.4.2.
Ejemplo: regresi
on lineal simple para dos grupos
El modelo mas general de los datos sobre el peso al nacer y la edad gestacional es
E(Yjk ) = jk = j + j xjk ;
Yjk N (jk , 2 ).
Esto se puede escribir en la forma de (2.13) si g es la funcion
Y11
1 0
Y12
1 0

. .
.
1
.
. .
.
. .
y = Y1K ,
=
,
y
X
=
1 0
1
Y21
0 1
2
.
. .
..
.. ..
Y2K
0 1
2.4.3.
identidad
x11
x12
..
.
x1K
0
..
.
0
0
0
..
.
x21
..
.
x2K
Ejemplo: formulaciones alternativas para comparar las

medias de dos grupos
Hay varias formas alternativas de la formulacion de los componentes lineales para

la comparacion de medias de dos grupos: Y11 , . . . , Y1K1 , y Y21 , . . . , Y2K2 .
a) E(Y1k ) = 1 , y E(Y
2k ) = 2 . Esta es la version utilizada en el Ejemplo 2.4.1. En
este caso = 1 y las filas de X son como sigue

2

Grupo 1 : 1 0

Grupo 2 : 0 1 .
40
b) E(Y1k ) = +1 , y E(Y2k ) = +2 . En esta version representa la media

general
y 1 y 2 son las diferencias respecto a de . En este caso = 1 y las filas

2
de X son

Grupo 1 : 1 1 0

Grupo 2 : 1 0 1 .
Esta formulacion, sin embargo, tiene demasiados parametros, ya que solo dos
parametros se pueden estimar a partir de los dos conjuntos de observaciones. Por
lo tanto, es necesaria alguna modificacion o restriccion.
c) E(Y1k ) = , y E(Y2k ) = + . Aqu Grupo 1 es tratado como el grupo de

referencia y representa el efecto adicional del Grupo 2. En este caso =
y las filas de X son

Grupo 1 : 1 0

Grupo 2 : 1 1 .
Este es un ejemplo de parametrizaci
on de punto en la esquina en el que los
efectos de grupo se definen como las diferencias de una categora de referencia
llamado el punto de esquina.
d) E(Y1k ) = + , y E(Y2k ) = . Esta version trata los dos grupos simetricamente; es el efecto promedio general y representa las diferencias entre los
grupos. Este es un ejemplo de restriccion suma cero porque
[E(Y1k ) ] + [E(Y2k )] = + () = 0

en este caso =
y las filas de X son

Grupo 1 : 1 1

Grupo 2 : 1 1 .
2.4.4.
Ejemplo: variables explicatorias ordinales
Sea Yjk que denotan una medicion continua de la calidad de vida. Los datos se
recogen para tres grupos de pacientes con enfermedad leve, moderada o grave. Los
grupos pueden ser descritos por los niveles de una variable ordinal. Esto puede ser
especificado por la definicion del modelo usando
E(Y1k ) =
41
E(Y2k ) = + 1
E(Y3k ) = + 1 + 2
y por lo tanto = 1 y las filas de X son

2

Grupo 1 : 1 0 0

Grupo 2 : 1 1 0

Grupo 3 : 1 1 1 .
As 1 representa el efecto del Grupo 2 en relacion con el Grupo 1 y 2 representa el
efecto de Grupo 3 con respecto al Grupo 2.
2.4.5.
Ejercicios
2.1 Semillas geneticamente similares son asignados al azar para ser criado en un
entorno con condiciones nutricionalmente enriquecido (grupo de tratamiento) o
condiciones estandar (grupo control) usando un dise
no experimental completamente al azar. Despues de un tiempo predeterminado todas las plantas se recogen,
se secan y se pesan. Los resultados, expresados en gramos, de 20 plantas en cada
grupo se muestran en el Cuadro 2.7.
Cuadro 2.7: Peso de las plantas secas cultivadas bajo dos condiciones.
Grupo de tratamiento
4.81
5.36
4.17
3.48
4.41
4.69
3.59
4.44
5.87
4.89
3.83
4.17
6.03
5.48
4.98
4.32
4.90
5.15
5.75
6.34
Grupo de control
4.17
4.66
3.05
5.58
5.18
3.66
4.10
4.50
6.11
3.90
4.10
4.61
5.17
5.62
3.57
4.53
5.33
6.05
5.59
5.14
Queremos comprobar si existe alguna diferencia en el rendimiento entre los dos

grupos. Sea Yjk que denota la k-esima observacion en el j-esimo grupo donde j = 1
para el grupo de tratamiento, j = 2 para el grupo de control y k = 1, . . . , 20 para
ambos grupos. Suponga que las Yjk s son variables aleatorias independientes con
Yjk N (j , 2 ). La hipotesis nula H0 : 1 = 2 = , que no hay ninguna
diferencia, debe ser comparada con la hipotesis alternativa H1 : 1 6= 2 .
42
(a) Llevar a cabo un analisis exploratorio de datos observando los distribuciones

para cada grupo (por ejemplo, usando graficas de puntos, graficas de tallo
y hoja o graficas de probabilidad normal) y el calculo de los estadsticos de
resumen (por ejemplo, medias, medianas, desviaciones estandar, maximos y
mnimos)Que se puede inferir de estas investigaciones?.
(b) Realizar una prueba t no aparejada en estos datos y calcular un intervalo de
confianza del 95 % para la diferencia entre las medias de grupo. Interpretar
estos resultados.
(c) Los siguientes modelos pueden ser utilizados para probar la hipotesis nula
H0 contra la hipotesis alternativa H1 , donde
H0 : E(Yjk ) = ;
Yjk N (, 2 ),
H1 : E(Yjk ) = : j;
Yjk N (j , 2 ),
para j = 1, 2 y k = 1, . . . , 20. Encuentra las estimaciones de maxima

verosimilitud y mnimos cuadrados de los parametros , 1 y 2 , asumiendo
que 2 es una constante conocida.
(d) Muestra que los valores mnimos del criterio de mnimos cuadrados son:
para H0 ,
Sb0 =
XX
(Yjk Y )2
donde Y =
2 X
K
X
Yjk /40,
j=1 k=1
para H1 ,
Sb1 =
XX
(Yjk Y j )2
donde Y j =
K
X
Yjk /20,
k=1
para j = 1, 2.
(e) Usando los resultados del ejercicio 1.4 muestra que
2
20
2
20 X
1 b
1 XX
2
(Y
S
=
(Y j )2
jk
j
1
2
2 j=1 k=1
2 j=1
y deducir que si H1 es cierto

1 b
S1 2 (38).
2
Similarmente mostrar que
2
20
1 b
1 XX
40
2
S
=
(Y
(Y )2
0
jk
2
2
2
j=1 k=1
y si H0 es cierta entonces
1 b
S0 2 (39).
2
(f) Usando un argumento similar al del Ejemplo 2.2.2 y los resultados de (e)
deducir que el estadstico
Sb0 Sb1
F =
Sb1 /38
tiene distribucion F central F (1, 38), di H0 es cierta y no central si H0 no es
cierta.
43
(g) Calcula el estadstico F de (f) y usalo para la prueba H0 contra H1 . Que

puedes concluir?
(h) Compara el estadstico F de (g) con el estadstico t de (b), recordando la
relacion entre la distribucion t y la distribucion F (vease la Seccion 1.4.4).
Tambien comparar las conclusiones de (b) y (g).
(i) Calcula los residuales del modelo de H0 y utilizalos para explorar los supuestos
de distribucion.
2.2 Los pesos, en kilogramos, de veinte hombres antes y despues de la participacion
en un programa de perdida de cintura se muestran en el Cuadro 2.8 (Egger et
al., 1999). Queremos saber si, en promedio, conservan una perdida de peso, doce
meses despues del programa.
Cuadro 2.8: Los pesos de veinte hombres antes y despues de la participacion en un
programa de perdida de cintura.
Hombre
1
2
3
4
5
6
7
8
9
10
Antes
100.8
102.0
105.9
108.0
92.0
116.7
110.2
135.0
123.5
95.0
Despues
97.0
107.5
97.0
108.0
84.0
111.5
102.5
127.5
118.5
94.2
Hombre
11
12
13
14
15
16
17
18
19
20
Antes
105.0
85.0
107.2
80.0
115.1
103.5
82.0
101.5
103.5
93.0
Despues
105.0
82.4
98.2
83.6
115.0
103.0
80.0
101.5
102.6
93.0
Sea Yjk denota el peso del k-esimo hombre en el momento j-esimo donde j = 1
es antes del programa y j = 2 doce meses despues. Suponga que las Yjk s son
variables aleatorias con Yjk N (j , 2 ) para j = 1, 2 y k = 1, . . . , 20.
(a) Utilce una prueba t no aparejada para la prueba de hipotesis
H0 : 1 = 2
contra
H1 : 1 6= 2 .
(b) Sea Dk = Y1k Y2k , para k = 1, . . . , 20. Formule modelos para la prueba
H0 contra H1 usando las Dk s. Usando metodos analogos al Ejercicio 2.1
anterior, suponiendo 2 es una constante conocida, probar H0 contra H1
(c) El analisis en (b) es una prueba t aparejada que utiliza la relacion natural
entre los pesos de la misma persona antes y despues del programa.Son las
mismas conclusiones las de (a) y (b)?
(d) Enumera los supuestos hechos para (a) y (b). Que analisis es mas apropiado
para estos datos?
44
2.3 Para el modelo (2.7) de los datos sobre el peso al nacer y la edad gestacional,
usando metodos similares a los de Ejercicio 1.4, Mostrar que
Sb1 =
J X
K
X
(Yjk aj bj xjk )2
j=1 k=1
J X
K
X
[Yjk (j j xjk )] K
j=1 k=1
J
X
(Y j j j xj )2
j=1
J
X
K
X
j=1
k=1
(bj j )2
!
x2jk Kx2j
y que las variables aleatorias Yjk , Y j y bj son independientes y tienen las siguientes
distribuciones
Yjk N (j + j xjk , 2 ),
Y j N (j + j xj , 2 /K),
bj N
j , 2 /
K
X
!!
x2jk Kx2j
k=1
2.4 Suponga que tienes los siguientes datos

x:
y:
1.0
3.15
1.2
4.85
1.4
6.50
1.6
7.20
1.8
8.25
2.0
16.50
y deseas ajustar un modelo con

E(Y ) = ln(0 + 1 x + 2 x2 ).
Escribe este modelo en la forma de (2.13) especificando los vectores y y y la
matriz X
2.5 El modelo para el analisis de dos factores de varianza con dos niveles de un factor,
tres niveles del otro y la no replicacion es
E(Yjk ) = jk = + j + k ;
Yjk N (jk , 2 )
donde j = 1, 2; k = 1, 2, 3 y, usando la restriccion suma cero, 1 + 2 = 0,

1 + 2 + 3 = 0. Asumiendo tambien que las Yjk s son independientes. Escribe
la ecuacion para E(Yjk ) en notacion matricial. (Ayuda: sea 2 = 1 , y 3 =
1 2 ).
Captulo 3
Familia Exponencial y Modelos
Lineales Generalizados
3.1.
Introducci
on
Los modelos lineales de la forma

E(Yi ) = i = xTi ;
Yi N (i , 2 )
(3.1)
donde las variables aleatorias Yi son independientes son la base de la mayora de los
analisis de datos continuos. El vector transpuesto xTi representa el renglon ith de la
matriz dise
no X. El ejemplo de la relacion entre el peso al nacer y la edad gestacional es
de esta forma, ver Seccion 2.2.2. Tambien es el ejercicio sobre el crecimiento de plantas
donde Yi es el peso seco de las plantas, y X tiene elementos para identificar los grupos, tratamiento y control de los grupos (Ejercicio 2.1). Las generalizaciones de estos
ejemplos para la relacion entre una respuesta continua y varias variables explicatorias
(regresion m
ultiple) y la comparacion de mas de dos medias (analisis de varianza) tambien son de esta forma.
Los avances en la teora estadstica y software nos permiten utilizar metodos analogos
a los desarrollados para modelos lineales en las siguientes situaciones mas generales:
1. Las variables de respuesta tienen distribuciones distintas de la distribucion normal
-ellas pueden incluso puede ser categoricas en lugar de continuas.
2. La relacion entre las variables de respuesta y explicatorias no necesariamente
tienen que ser de la forma lineal simple en (3.1).
Uno de estos avances ha sido el reconocimiento de que muchas de las propiedades
agradablesde la distribucion normal son compartidas por una clase mas amplia de
las distribuciones llamada la familia exponencial de distribuciones. Estas distribuciones y sus propiedades se describen en la siguiente seccion.
Un segundo avance es la extension de los metodos numericos para estimar el parametro
desde el modelo lineal descrito en (3.1) a la situacion en la que hay alguna funcion
no lineal que relaciona E(Yi ) = i con la componente lineal xTi , esto es
g(i ) = xTi
45
CAPITULO 3. FAMILIA EXPONENCIAL Y MODELOS LINEALES GENERALIZADOS46

(ver seccion 2.4). La funcion g es llamada la funci
on de liga. En la formulacion inicial
de los modelos lineales generalizados por Nelder y Wedderburn (1972) y en la mayora
de los ejemplos considerados en este libro, g es una funcion matematica simple. Estos
modelos ahora se han generalizado mas a situaciones donde las funciones pueden ser
estimadas numericamente; tales modelos se llaman modelos aditivos generalizados
(ver Hastie y Tibshirani, 1990). En teora, la estimacion es sencilla. En la practica,
esto se puede requerir una considerable cantidad de calculo que implica optimizacion
numerica de funciones no lineales. Los procedimientos para hacer estos calculos se incluyen ahora en muchos programas estadsticos.
Este captulo presenta la familia exponencial de distribuciones y define los modelos
lineales generalizados. Los metodos para la estimacion de parametros y pruebas de
hipotesis se desarrollan en los captulos 4 y 5, respectivamente.
3.2.
Familia exponencial de distribuciones
Considere una sola variable aleatoria Y cuya distribucion de probabilidad depende en

un solo parametro . La distribucion pertenece a la familia exponencial si se puede
escribir en la forma
f (y; ) = s(y)t()ea(y)b()
(3.2)
donde a, b, s y t son funciones conocidas. Notese la simetra entre y y . Esto es
enfatizado si la ecuacion (3.2)es reescrita como
f (y; ) = e[a(y)b()+c()+d(y)]
(3.3)
donde s(y) = exp d(y) y t() = exp c().

si a(y) = y, se dice que la distribucion esta en la forma can
onica (esto es, estandar)
y b() es llamado el par
ametro natural de la distribucion.
Si hay otros parametros, ademas del parametro de interes , se consideran como par
ametros de ruido que forman parte de las funciones a, b, c y d, y son tratadas como si
fueran conocidos.
Muchas distribuciones conocidas pertenecen a la familia exponencial. Por ejemplo las
distribuciones Poisson, Normal y Binomial que pueden ser escritas en la forma canonica,
ver Cuadro 3.1.
Cuadro 3.1:Distribuciones Poisson, Normal y Binomial como miembros de la familia
exponencial.
3.2.1.
Distribucion
Parametro natural
Poisson
Normal
log
Binomial
log( 1
)
c
2
2
2
log(2 2 )
1
2
n log(1 )
Distribuci
on Poisson
La funcion de probabilidad para la variable aleatoria discreta Y es

y e
f (y; ) =
y!
d
log y!
y2
2
2

n
log y

donde y toma los valores 0, 1, 2, . . . . Esta puede ser escrita como
f (y; ) = e(y log log y!)
la cual esta en la forma canonica porque a(y) = y. Ademas el parametro natural es
log .
La distribucion Poisson, indicada por Y P oisson(), se utiliza para modelar datos
de frecuencia. Normalmente, estos son el n
umero de ocurrencias de alg
un evento en un
perodo de tiempo definido o espacio, cuando la probabilidad de que ocurra un evento
en un tiempo muy peque
na (o espacio) es baja y los eventos se producen de forma
independiente. Ejemplos incluyen: el n
umero de condiciones medicas reportadas por
una persona (Ejemplo 2.2.1), el n
umero de ciclones tropicales durante una temporada
(Ejemplo 1.6.4), el n
umero de errores de ortografa en la pagina de un periodico, o el
n
umero de componentes defectuosos en un ordenador o en un lote de artculos manufacturados. Si una variable aleatoria tiene la distribucion de Poisson, su valor esperado
y la varianza son iguales. Datos reales que podran ser plausiblemente modelados por
la distribucion Poisson a menudo tienen una variacion mas grande y se dice que tienen
sobredispersi
on, y el modelo podra ser adaptado para reflejar esta caracterstica. El
Captulo 9 describe varios modelos basados en la distribucion Poisson.
3.2.2.
Distribuci
on Normal
La funcion de densidad de probabilidad es

1
1
2
exp 2 (y )
f (y; , ) =
(2 2 )1/2
2
2
donde es el parametro de interes y 2 se considera como un parametro de ruido. Esta

puede ser reescrita como

y2
y
2
1
2
2
f (y; , ) = exp 2 + 2 2 log(2 )
2
2
2
Esta
esta en la forma canonica. El parametro natural es b() = / 2 y los otros terminos
en (3.3) son
2
1
y2
c() = 2 log(2 2 ) y d(y) = 2
2
2
2
1
2
(Alternativamente, el termino 2 log(2 ) podra ser incluido en d(y)).
La distribucion normal se utiliza para modelar los datos continuos que tienen una distribucion simetrica. Es ampliamente utilizado por tres razones principales. En primer
lugar, muchos fenomenos naturales estan bien descritos por la distribucion normal; por
ejemplo, la altura o la presion arterial de las personas. En segundo lugar, a
un si los
datos no estan distribuidos normalmente (por ejemplo, si su distribucion es sesgada) de
el promedio o total de muestra aleatoria de valores estaran distribuidos aproximadamente normal; este resultado se demostro en el teorema del lmite central. En tercer
lugar, hay una gran cantidad de la teora estadstica desarrollada para la distribucion
normal, incluyendo distribuciones muestrales derivadas del mismo y aproximaciones a
otras distribuciones. Por estas razones, si los datos continuos y no se distribuyen normalmente esto a menudo valioso trata de identificar una transformacion, como y 0 = log y
o y 0 = y, la cual produce datos y0 que son aproximadamente normales.
3.2.3.
Distribuci
on Binomial
Considere la posibilidad de una serie de eventos binarios, llamado ensayos, cada

uno con solo dos posibles resultados: exitoo fracaso. Sea la variable aleatoria Y el
n
umero de exitos en n ensayos independientes en los que la probabilidad de exito, ,
es la misma en todos los ensayos. Entonces Y tiene la distribucion binomial con funcion
de densidad de probabilidad

n y
f (y; ) =
(1 )ny
y
donde y toma los valores 0, 1, 2, . . . , n. Esto se denota por Y binomial(n, ). Aqu
es el parametro de interes y n es considerado como conocido. La funcion de probabilidad
puede ser reescrita como

n
f (y; ) = exp y log y log(1 ) + n log(1 ) + log
y
la cual es de la forma (3.3) con b() = log log(1 ) = log[/(1 )].
La distribucion binomial es por lo general el modelo de primera eleccion para las observaciones de un proceso con resultados binarios. Algunos ejemplos son: el n
umero
de aspirantes que pasan una prueba (los posibles resultados para cada candidato son
pasar o fallar), o el n
umero de pacientes con alguna enfermedad quienes estan vivos
en un tiempo determinado despues del diagnostico (siendo los posibles resultados de
supervivencia o muerte).
Otros ejemplos de distribuciones pertenecientes a la familia exponencial son dados en
los ejercicios al final del captulo; no todos ellos son de la forma canonica.
3.3.
Propiedades de las distribuciones en la familia

exponencial
Necesitamos expresiones para el valor esperado y la varianza de a(Y ). Para encontrar

estas, utilizamos los siguientes resultados que se aplican para cualquier funcion de
densidad de probabilidad con la condicion de que el orden de integracion y diferenciacion
puede ser intercambiado. De la definicion de funcion de densidad de probabilidad, el
area bajo la curva es la unidad de modo que
Z
f (y; )dy = 1
(3.4)
donde la integracion es sobre todos los valores posibles de y. (Si la variable aleatoria Y
es discreta entonces la integracion se sustituye por la suma).
Si diferenciamos ambos lados de (3.4) con respecto a obtenemos
Z
d
d
f (y; )dy = (1) = 0
(3.5)
d
d
Si el orden de integracion y diferenciacion en el primer termino se invierte, entonces
(3.5) se convierte en
Z
df (y; )
dy = 0
(3.6)
d

Similarmente si (3.4) es derivada dos veces con respecto a y el orden de integracion
es invertido obtenemos
Z 2
d f (y; )
dy = 0.
(3.7)
d2
Estos resultados pueden ahora ser usados para distribuciones en la familia exponencial.
De (3.3)
f (y; ) = exp[a(y)b() + c() + d(y)]
as
df (y; )
= [a(y)b0 () + c0 ()]f (y; ).
d
por (3.6)
Z
[a(y)b0 () + c0 ()]f (y; )dy = 0.
Esta puede ser simplificada a

b0 ()E[a(y)] + c0 () = 0
(3.8)
R
R
porque a(y)f (y; )dy = E[a(y)] por la definicion de valor esperado y c0 ()f (y; )dy =
c0 () por (3.4) reorganizando (3.8) resulta
E[a(y)] = c0 ()/b0 ().
(3.9)
Un argumento similar puede ser usado para obtener var[a(y)].

d2 f (y; )
= [a(y)b00 () + c00 ()]f (y; ) + [a(y)b0 () + c0 ()]2 f (y; )
2
d
(3.10)
el segundo termino del lado derecho de (3.10) puede ser reescrito como
[b0 ()]2 {a(y) E[a(Y )]}2 f (y; )
usando (3.8). Luego por (3.7)
Z 2
d f (y; )
dy = b00 ()E[a(Y )] + c00 () + [b0 ()]2 var[a(Y )] = 0
2
d
R
porque {a(y) E[a(Y )]}2 f (y; )dy =var[a(Y )] por definicion.
Reorganizando (3.11) y sustituyendo (3.9) resulta
var[a(Y )] =
b00 ()c0 () c00 ()b0 ()

[b0 ()]3
(3.11)
(3.12)
Las ecuaciones (3.9) y (3.12) facilmente pueden ser verificadas para las distribuciones
Poisson, Normal y Binomial (ver el ejercicio 3.4) y usadas para obtener el valor esperado
y la varianza para otras distribuciones en la familia exponencial.
Tambien necesitamos expresiones para el valor esperado y la varianza de las derivadas
de la funcion de log-verosimilitud. De (3.3), la funcion de log-verosimilitud para una
distribucion en la familia exponencial es
l(; y) = a(y)b() + c() + d(y).

La derivada de l(; y) con respecto a es
U (; y) =
dl(; y)
= a(y)b0 () + c0 ().
d
La funcion U se llama el estadstico de puntuaci

on y, como depende de y, puede ser
considerada como una variable aleatoria, es decir
U = a(Y )b0 () + c0 ().
(3.13)
su valor esperado es
E(U ) = b0 ()E[a(Y )] + c0 ().
de (3.9)

c0 ()
E(U ) = b () 0
+ c0 () = 0.
b ()
0
(3.14)
La varianza de U es llamada la informaci

on y sera denotada por . Usando la formula
para la varianza de una transformacion lineal de variables aleatorias (ver (1.3) y (3.13))

= var(U ) = b0 ()2 var [a(Y )] .
Sustituyendo (3.12) resulta
var(U ) =
b00 ()c0 ()
c00 ().
b0 ()
(3.15)
El estadstico de puntuacion U se utiliza para la inferencia sobre los valores de los

parametros en modelos lineales generalizados (ver Captulo 5).
Otra propiedad de U que se utilizara mas adelante es
var(U ) = E(U 2 ) = E(U 0 ).
(3.16)
La primera igualdad se sigue del resultado general

var(X) = E(X 2 ) [E(X)]2
para cualquier variable aleatoria, y el hecho de que E(U ) = 0 a partir de (3.14). Para
obtener la segunda igualdad, diferenciamos U con respecto a ; de (3.13)
U0 =
dU
= a(Y )b00 () + c00 ().
d
Por lo tanto el valor esperado de U 0 es

E(U 0 ) = b00 ()E[a(Y )] + c00 ()
0
c ()
00
= b () 0
+ c00 ()
b ()
= var(U ) =
sustituyendo (3.9) y usando despues (3.15).
(3.17)
3.4.
Modelos Lineales Generalizados
La unidad de muchos metodos estadsticos se demostro por Nelder y Wedderburn

(1972), utilizando la idea de un modelo lineal generalizado. Este modelo esta definido
en terminos de un conjunto de variables aleatorias independientes Y1 , . . . , YN cada una
con una distribucion de la familia exponencial y las siguientes propiedades:
1. La distribucion de cada Yi tiene la forma canonica y depende de un solo parametro
i (los i no todos tienen que ser los mismos), as
f (yi ; i ) = exp[yi bi (i ) + ci (i ) + di (yi )].
2. Las distribuciones de todas las Yi s son de la misma forma del Yi (e.g., toda
Normal o toda Binomial) de manera que no son necesarios los subndices en b, c
y d.
As, la funcion de densidad de probabilidad conjunta de Y1 , . . . , YN es
f (y1 , . . . , yN ; 1 , . . . , N ) =
N
Y
exp[yi b(i ) + c(i ) + d(yi )]
(3.18)
i=1
"
= exp
N
X
i=1
yi b(i ) +
N
X
c(i ) +
i=1
N
X
#
d(yi ) .
(3.19)
i=1
Los parametros i no son tpicamente de interes directo (ya que no pueden ser uno para
cada observacion). Para la especificacion del modelo estamos generalmente interesados
en un peque
no conjunto de parametros 1 , . . . , p (donde p < N ). Supongamos que
E(Yi ) = i donde i es alguna funcion de i . Para un modelo lineal generalizado hay
una transformacion de i tal que
g(i ) = xTi .
en esta ecuacion g es una funcion monotona, diferenciable llamada la funci
on de liga;
xi es un vector p 1 de variables explicatorias (covariables y variables ficticias para
niveles de factores),

xi1

..
xi = . asi, xTi = xi1 xip
xip

1
..
y es el vector p 1 de parametros = . . El vector xi es la ith columna de la
p
matriz dise
no X.
As un modelo lineal generalizado tiene tres componentes:
1. Las variables respuesta Y1 , . . . , YN que se supone que comparten la misma distribucion de la familia exponencial;

2. Un conjunto de parametros y las variables explicatorias

xT1
x11 . . . x1p

.. ;
X = ... = ...
.
T
xN
xN 1 . . . xN p
3. Una funcion de liga g monotona tal que
g(i ) = xTi
donde i = E(Yi ). Este captulo concluye con tres ejemplos de modelos lineales
generalizados.
3.5.
3.5.1.
Ejemplos
Modelo Lineal Normal
El caso especial mas conocido de un modelo lineal generalizado es el modelo

E(Yi ) = i = xTi ;
Yi N (i , 2 )
donde Y1 , . . . , YN son independientes. Aqu la funcion de liga es la funcion identidad,

g(i ) = i . Este modelo es usualmente escrito en la forma
y = X + e
e1

donde e = ... y las ei s son variables aleatorias independientes e identicamente diseN
tribuidas con ei N (0, 2 ) para i = 1, . . . , N .
De esta forma, el componente lineal = X representa la se
nal y e representa el
ruido, variacion aleatoria o error. La regresion m
ultiple, analisis de la varianza y
analisis de covarianza son todas de esta forma. Estos modelos son considerados en el
Captulo 6.
3.5.2.
Ling
ustica hist
orica
Considere un lenguaje que es el descendiente de alg

un otro idioma; por ejemplo, el
griego moderno es un descendiente del griego antiguo y las lenguas romances son descendientes del Latn. Un modelo simple para el cambio en el vocabulario es que si
los idiomas estan separados por el tiempo t entonces la probabilidad de que tengan
palabras cognado para un significado particular es et donde es un parametro (ver
Figura 3.1). Se cree que es aproximadamente el mismo para muchos significados
com
unmente usados. Para obtener una lista de pruebas de N diferentes significados
com
unmente utilizados suponen que unos jueces ling
ustas, para cada significado, si las
palabras correspondientes en
Figura 3.1 Diagrama esquematico para el ejemplo en ling

ustica historica.
dos lenguas son cognados o no cognados. Podemos desarrollar un modelo lineal generalizado para describir esta situacion.
Definimos las variables aleatorias Y1 , . . . , YN como sigue:

Yi =
1
0
si los idiomas tienen palabras cognados para el significado i,

si las palabras no son cognados.
Entonces
P (Yi = 1) = et
y
P (Yi = 0) = 1 et .
Este es un caso especial de la distribucion binomial(n,) con n = 1 y E(Yi ) = = et .
En este caso la funcion de liga g es tomada como logartmica
g() = log = t
De modo que g[E(Y )] es lineal en el parametro . En la notacion utilizada anteriormente, xi = [t] (el mismo para todos los i) y = [].
3.5.3.
Tasas de mortalidad
Para una poblacion grande la probabilidad de que un individuo elegido al azar muera en
un momento determinado es peque
na. Si suponemos que las muertes de una enfermedad
no infecciosa son eventos independientes, entonces el n
umero de muertes Y en una
poblacion puede ser modelada por una distribucion Poisson
f (y; ) =
y e
y!
donde y puede tomar los valores 0, 1, 2, . . . y = E(Y ) es el n

umero esperado de las
muertes en un perodo de tiempo especfico, como un a
no.
El parametro dependera del tama
no de la poblacion, el perodo de observacion y
varias caractersticas de la poblacion (e.g., edad, sexo e historial medico). Se puede
modelar, por ejemplo, por
E(Y ) = = n(xT )

Cuadro 3.2: El n
umero de muertes por enfermedades coronarias y tama
nos de
poblacion por grupos de edad de 5 a
nos para los hombres en la region de New South
Wales, Australia en 1991.
Grupo de edad
N
umero de
Tama
no de
Tasa por 100,000 hombres
log Tasa de
(a
nos)
muertes, yi
poblacion, ni
por a
no, yi /ni 100, 000
muertes
30-34
35-39
40-44
45-49
50-54
55-59
60-64
1
5
5
12
25
38
54
17,742
16,554
16,059
13,083
10,784
9,645
10,706
5.6
30.2
31.1
91.7
231.8
394.0
504.4
1.7228
3.4078
3.4372
4.5185
5.4459
5.9764
6.2234
65-69
65
9,933
654.4
6.4837
Figura 3.2 Tasa de mortalidad por 100,000 hombres (en una escala logartmica)
graficada contra la edad.
donde n es el tama
no de la poblacion y (xT ) es la tasa por cada 100,000 personas
por a
no (que depende de las caractersticas de la poblacion descritos por la componente
lineal xT ).
Los cambios en la mortalidad con la edad se pueden modelar mediante la adopcion
de las variables aleatorias independientes Y1 , . . . , YN que es el n
umero de muertes que
ocurren en sucesivos grupos de edad. Por ejemplo, el Cuadro 3.2 muestra los datos
especficos de la edad de las muertes por enfermedad coronaria.
La figura 3.2 muestra como la tasa de mortalidad yi /ni 100, 000 aumenta con la edad.
Tenga en cuenta que una escala logartmica se ha usado en el eje vertical. En esta escala
el grafico de dispersion es aproximadamente lineal, lo que sugiere que la relacion entre
yi /ni y el grupo de edad i es aproximadamente exponencial. Por lo tanto un posible
modelo es
E(Yi ) = i = ni ei ; Yi P oisson(i ),

donde i = 1 para el grupo de edad 30-34 a
nos, i = 2 para 35-39,. . .,i = 8 para 65-69
a
nos.
Esto se puede escribir como un modelo lineal generalizado usado de la funcion de liga
logartmica
g(i ) = log i = log ni + i

1
T
T
la cual tiene la componente lineal xi con xi = log ni i y =
.
3.6.
Ejercicios
3.1 Las siguientes relaciones se pueden describir por modelos lineales generalizados.
Para cada uno, identifica la variable respuesta y las variables explicatorias, seleccione una distribucion de probabilidad para la respuesta (justificando su eleccion)
y anota el componente lineal.
(a) El efecto de la edad, el sexo, la altura, la ingesta media diaria de alimentos y
la media diaria del gasto de energa en el peso de una persona.
(b) Las proporciones de los ratones de laboratorio que se infectaron despues de
la exposicion a las bacterias cuando se utilizan cinco niveles de exposicion
diferentes y 20 ratones son expuestos en cada nivel.
(c) La relacion entre el n
umero de viajes por semana al supermercado para un
hogar y el n
umero de personas en el hogar, los ingresos del hogar y de la
distancia al supermercado.
3.2 Si la variable aleatoria Y tiene la distribuci
on Gamma con un parametro de
escala , que es el parametro de interes, y un parametro de forma conocido ,
entonces su funcion de densidad de probabilidad es
f (y; ) =
y 1 ey
.
()
Demostrar que esta distribucion pertenece a la familia exponencial y encontrar el

parametro natural. Tambien usando los resultados en este captulo, encuentra E(Y )
y var(Y ).
3.3 Demostrar que las siguientes funciones de densidad de probabilidad pertenecen a
la familia exponencial:
(a) Distribucion Pareto f (y; ) = y 1 .
(b) Distribucion exponencial f (y; ) = ey .
(c) Distribucion binomial negativa

f (y; ) =

y+r1 r
(1 )y
r1
3.4 Usa los resultados (3.9) y (3.12) para verificar los siguientes resultados:
(a) Para Y P oisson(), E(Y ) =var(Y ) = .

(b) Para Y N (, 2 ), E(Y ) = y var(Y ) = 2 .
(c) Para Y binomial(n, ), E(Y ) = n y var(Y ) = n(1 ).
3.5 Consideras que el modelo sugerido en el ejemplo 3.5.3 es adecuado para los datos
mostrados en la Figura 3.2? Justifica tu respuesta. Usa regresion lineal simple (con
transformaciones adecuadas de las variables) para obtener un modelo para el cambio
de las tasas de mortalidad con la edad. Que tan bien el modelo se ajusta a los
datos? (Sugerencia: compara los n
umeros observados y esperados de las muertes en
cada uno de los grupos).
3.6 Considera N variables aleatorias independiente binarias Y1 , . . . , YN con
P (Yi = 1) = i
P (Yi = 0) = 1 i .
La funcion de probabilidad de Yi se puede escribir como

iyi (1 i )1yi
donde yi = 0 o 1.
(a) Muestra que esta funcion de probabilidad pertenece a la familia exponencial
de distribuciones.
(b) Demostrar que el parametro natural es

i
.
log
1 i
De esta funcion, el logaritmo de los impares i /(1 i ), es llamada la funcion
logit.
(c) Muestra que E(Yi ) = i .
(d) Si la funcion de enlace es

g() = log
= xT
muestra que esto es equivalente a modelar la probabilidad como

T
ex
=
1 + exT
(e) En el caso paricular donde xT = 1 + 2 x, esto da
=
e1 +2 x
1 + e1 +2 x
la cual es la funci
on logstica.
(f) Dibuje la grafica de contra x en este caso, teniendo 1 y 2 como constantes.
Como interpretas este grafico si x es la dosis de un insecticida y es la
probabilidad de que muera un insecto?

3.7 Es la distribuci
on de valor extremo (Gumbel), con funcion de densidad de
probabilidad

(y )
(y )
1
exp
f (y; ) = exp
(donde > 0 es considerado como un parametro de ruido) un miembro de la

familia exponencial?
3.8 Supongamos que Y1 , . . . , YN son variables aleatorias independientes, cada una con
distribucion de Pareto y
E(Yi ) = (0 + 1 xi )2 .
Es este un modelo lineal generalizado? Justifica tu respuesta.
3.9 Sean Y1 , . . . , YN variables aleatorias independientes con
E(Yi ) = i = 0 + log(1 + 2 xi );
Yi N (, 2 )
para todo i = 1, . . . , N . Es este un modelo lineal generalizado? Justifica tu respuesta.

3.10 Para la distribucion de Pareto encuentra los estadsticos de puntuacion U y la
informacion = var(U ). Verifica que E(U ) = 0.
Captulo 4
Estimaci
on
4.1.
Introducci
on
Este captulo trata de la estimacion puntual y por intervalo de parametros para los
modelos lineales generalizados utilizando metodos basados en la maxima verosimilitud.
Aunque las expresiones matematicas explcitas se pueden encontrar para estimadores en
algunos casos especiales, por lo general se necesitan metodos numericos. Tpicamente,
estos metodos son iterativos y se basan en el algoritmo de Newton-Raphson. Para
ilustrar este principio, el captulo comienza con un ejemplo numerico. Luego la teora
de la estimacion de los modelos lineales generalizados se desarrolla. Finalmente hay
otro ejemplo numerico para demostrar los metodos en detalle.
4.2.
Ejemplo: Tiempos de fallo de recipientes de

presi
on
Los datos del Cuadro 4.1 son los tiempos de vida (tiempos hasta la falla en horas)
de recipientes de presion de Kevlar y filamentos epoxi en nivel de tension del 70 %.
Estos se dan en el Cuadro 29.1 del libro de conjuntos de datos de Andrews y Herzberg
(1985). La Figura 4.1 muestra la forma de su distribucion. Un modelo de uso com
un
para los tiempos de falla (o tiempos de supervivencia) es la distribuci
on de Weibull
que tiene la funcion de densidad de probabilidad

y
y 1
exp
(4.1)
f (t; , ) =
donde y > 0 es el tiempo de falla, es un parametro que determina la forma de la

distribucion y es un parametro que determina la escala. La Figura 4.2 es una grafica
de probabilidad de los datos de la Tabla 4.1 en comparacion con la distribucion de
Weibull con = 2. Aunque existen discrepancias entre la distribucion y los datos de
algunos de los tiempos mas cortos para la mayora de las observaciones la distribucion
parece proporcionar un buen modelo para los datos.
58

CAPITULO 4. ESTIMACION
59
Cuadro 4.1: Tiempos de vida del recipiente de presion .

1051
1337
1389
1921
1942
2322
3629
4006
4012
4063
4921
5445
5620
5817
5905
5956
6068
6121
6473
7501
7886
8108
8546
8666
8831
9106
9711
9806
10205
10396
10861
11026
11214
11362
11604
11608
11745
11762
11895
12044
13520
13670
14110
14496
15395
16179
17092
17568
17568
Figura 4.1: Distribucion de los tiempos de vida de los recipientes de presion.

Por lo tanto, vamos a utilizar una distribucion de Weibull con = 2 y estimaremos
. La distribbucion en (4.1) puede escribirse como
f (y; ) = exp[log + ( 1) log y log (y/) ].
Esta pertenece a la familia exponencial (3.2) con
a(y) = y , b() = , c() = log log ,
d(y) = ( 1) log y
(4.2)
donde es el parametro de ruido. Esta no esta en la forma canonica (a menos que

= 1, que corresponde a la distribucion exponencial) y por lo que no se puede utilizar
directamente en la especificacion de un modelo lineal generalizado. Sin embargo, es
adecuado para ilustrar la estimacion de los parametros de las distribuciones de la familia
exponencial.

60
Figura 4.2: Grafica de probabilidad de los datos sobre los tiempos de vida de los recipientes de presion comparados con la distribucion de Weibull con parametro de forma
= 2.
Sea Y1 , . . . , YN que denotan los datos, con N = 49. Si los datos son de una muestra
aleatoria de los recipientes a presion, suponemos que las Yi s son variables aleatorias
independientes. Si todas tienen la distribucion de Weibull con los mismos parametros,
su distribucion de probabilidad conjunta es

N
Y
yi1
y
f (y1 , . . . , yN ; , ) =
exp
.
i=1
La funcion de log-verosimilitud es
l(; y1 , . . . , yN , ) =
N
X
[( 1) log yi + log log ]
i=1
y
i
(4.3)
Para maximizar esta funcion se requiere la derivada con respecto a . Esta es la funcion
de puntuacion

N
X
yi
dl
=U =
+ +1
(4.4)
d
i=1
El estimador de maxima verosimilitud b es la solucion de la ecuacion U () = 0. En
este caso, es facil encontrar una expresion explcita para b si es una constante conocida, pero para fines ilustrativos, vamos a obtener una solucion numerica utilizando la
aproximacion Newton-Raphson. La Figura 4.3 muestra el principio del algoritmo de
Newton-Raphson. Queremos encontrar el valor de x en la que la funcion t cruza el eje
x, es decir, donde t(x) = 0. La pendiente de t en un valor xm1 esta dada por

t(x(m) ) t(x(m1) )
dt
= t0 (x(m1) ) =
(4.5)
dx x=xm1
x(m) x(m1)
donde la distancia xm xm1 es peque
na. Si xm es la solucion requerida para que
m
t(x ) = 0, entonces (4.5) puede ser reorganizada para dar
x(m) = x(m1)
t(x(m1) )
.
t0 (x(m1) )
(4.6)

61
Figura 4.3: Metodo de Newton-Raphson para encontrar la solucion a la ecuacion t(x) =

0.
Esta es la formula de Newton-Raphson para resolver t(x) = 0. A partir de un valor
inicial x1 se obtienen aproximaciones sucesivas utilizando (4.6) hasta que el proceso
iterativo converja. Para la estimacion de maxima verosimilitud utilizando la funcion de
puntuacion, la ecuacion de estimacion equivalente a (4.6) es
(m) = (m1)
U (m1)
.
U 0(m1)
(4.7)
De (4.4), para la distribucion Weibull con = 2,

P
2 yi2
2N
+
U =
(4.8)
que se eval
ua en las estimaciones sucesivas (m) . La derivada de U, obtenida mediante
la diferenciacion de (4,4), es

N
X
dU
( + 1)yi
0
=U =
d
2
+2
i=1
P
2N
2 3 yi2
= 2 +
(4.9)
4
Para la estimacion de maxima verosimilitud, es com
un para aproximar U 0 por su valor
esperado E(U 0 ). Para distribuciones en la familia exponencial, esto se obtiene facilmente

62
usando la expresion (3.17). La informacion es

" N
#
N
X
X
0
= E(U ) = E
Ui =
[E(Ui0 )]
i
N 00
X
b ()c0 ()
i=1
2
b0 ()
i=1

00
c ()
N
2
(4.10)
donde Ui es la puntuacion de Yi y expresiones para b y c son dadas en (4.2). As, una

ecuacion de estimacion alternativa es
(m) = (m1) +
U (m1)
(m1)
(4.11)
Esto se conoce como el m

etodo de puntuaci
on.
Cuadro 4.2: Los detalles de las iteraciones de Newton-Raphson para obtener una estimacion de maxima verosimilitud para el parametro de escala para la distribucion de
Weibull para modelar los datos de el Cuadro 4.1.
Iteracion
U 106
U 0 106
E(U 0 ) 106
U/U 0
U/E(U 0 )
1
8805.9
2915.10
-3.52
-2.53
-827.98
-1152.21
2
3
9633.9 9876.4
552.80 31.78
-2.28
-2.02
-2.11
-2.01
-242.46 -15.73
-261.99 -15.81
4
9892.1
0.21
-2.00
-2.00
-0.105
-0.105
El Cuadro 4.2 muestra los resultados usando la ecuacion (4.7), teniendo iterativamente la media de los datos en el Cuadro 4.1, y = 8805.9, como el valor inicial (1) ;
este y las aproximaciones sucesivas se muestran en la fila superior del Cuadro 4.2. Los
n
umeros en la segunda fila se obtuvieron mediante la evaluacion de (4.8) en (m) y los
valores de los datos se aproximan a cero rapidamente. Las tercera y cuarta renglones,
U 0 y E(U 0 ) = , tienen valores similares ilustrando que puede usarse bien; esto se
muestra por la mayor similitud de los n
umeros en la quinta y sexta filas. La estimacion
final es (5) = 9892.1(0.105) = 9892.2- este es el estimador de maxima verosimilitud
b para estos datos. Con este valor la funcion de log-verosimilitud, calculada a partir de
(4.3), es l = 480.850.
La Figura 4.4 muestra que la funcion de log-verosimilitud para estos datos y la
distribucion de Weibull con = 2. El valor maximo es en b = 9892.2. La curvatura
b La curvatura
de la funcion en una el entorno del maximo determina la fiabilidad de .
0
0
de l se define por la tasa de cambio de U , esto es, por U . Si U , o E(U 0 ), es peque
na
entonces l es plana y que U es aproximadamente cero para un amplio intervalo de
valores de . En este caso b no esta bien determinada y su error estandar es grande. De

63
hecho, se muestra en el Captulo 5 que la varianza de b esta inversamente relacionada

con = E(U 0 ) y el error estandar de b es aproximadamente
p
b = 1/
(4.12)
s.e.()
b = 1/ 0.000002 =
Para este ejemplo, b = 9892.2, = E(U 0 ) = 2.00 106 asi s.e.()
707. Si la distribucion muestral de b es aproximadamente Normal, un intervalo de
confianza del 95 % para esta dado aproximadamente por
9892 1.96 707,
o (8506, 11278).
Los metodos ilustrados en este ejemplo ahora se desarrollan para los modelos lineales
generalizados.
Figura 4.4: Funcion de log-verosimilitud de los datos de los recipientes de presion de el

Cuadro 4.1.
4.3.
Estimaci
on de M
axima Verosimilitud
Considere las variables aleatorias independientes Y1 , . . . .YN que satisfacen las propiedades
de los modelos lineales generalizados. Deseamos estimar los parametros que estan
relacionados con las Yi s a traves de E(Yi ) = i y g(i ) = xTi . Para cada Yi , la funcion
de log-verosimilitud es
li = yi b(i ) + c(i ) + d(yi )
(4.13)
donde las funciones b, c y d son definidas en (3.3). Tambien
E(Yi ) = i = c0 (i )/b0 (i )
var(Yi ) = [b00 (i )c0 (i ) c00 (i )b0 (i )]/[b0 (i )]3
(4.14)
(4.15)
y g(i ) = xTi = i
(4.16)
donde xi es un vector con elementos xij , j = 1, . . . , p.

64
La funcion de log-verosimilitud de todas Yi s es

l=
N
X
li =
yi b(i ) +
c(i ) +
d(yi ).
i=1
Para obtener el estimador de maxima verosimilitud para el parametro j necesitamos

X

N
N
X
l
li
li i i
= Uj =
=
(4.17)
j
j
i
i
j
i=1
i=1
usando la regla de la cadena para la diferenciacion. Consideraremos cada termino del
lado derecho de (4.17) separadamente. Primero
li
= yi b0 (i ) + c0 (i ) = b0 (i )(yi i )
i
por diferenciacion de (4.13) y sustituyendo en (4.14). Despues

i
i
= 1/
.
i
i
La diferenciacion de (4.14) da
c00 (i ) c0 (i )b00 (i )
i
= 0
+
i
b (i )
[b0 (i )]2
= b0 (i )var(Yi )
de (4.15). Finalmente de (4.16)
i
i i
i
=
=
xij
j
i i
i
Por lo tanto la puntuacion, dada en (4.17), es

N
X
(yi i )
i
Uj =
xij
.
var(Yi )
i
i=1
(4.18)
La matriz de varinzas-covarianzas de los Uj s tiene los terminos

jk = E[Uj Uk ]
que forman la matriz de informaci
on . De (4.18)
( N

)
N
X (yi i ) i X
(yl l )
l
jk = E
xij
xlj
var(Yi )
i
var(Y
l
l)
i=1
l=1

X E[(yi i )2 ]xij xik i 2
=
[var(Yi )]2
i
(4.19)
porque E[(Yi i )(Yl l )] = 0 para i 6= l ya que las Yi s son independientes. Usando

que E[(yi i )2 ] = var(Yi ), (4.19) se puede simplificar a

2
N
X
i
xij xik
jk =
.
(4.20)
var(Y
)
i
i
i=1

65
La ecuacion de estimacion (4.11) para el metodo de puntuacion se generaliza a

1 (m1)

U
(4.21)
b(m) = b(m1) + (m1)
donde b(m) es el vector de estimaciones de los parametros 1 , . . . , p en la m-esima

1
iteracion. En la ecuacion (4.21) (m1)
es la inversa de la matriz de informacion con
(m1)
los elementos jk dado por (4.20) y U
es el vector de elementos dados por (4.18)
(m1)
todo evaluado en b
. Si ambos lados de la ecuacion (4.21)son multiplicados por
(m1) obtenemos
(m1) b(m) = (m1) b(m1) + U(m1) .
(4.22)
De (4.20) puede escribirse como
= XT WX
donde W es una matriz diagonal de N N con elememtos

2
i
1
wii =
.
var(Yi ) i
(4.23)
La expresion en la parte derecha de (4.22) es el vector con elementos

2

p
N
N
X
X
X
xij xik
i
(yi i )xij i
(m1)
bk
+
var(Y
)
var(Yi )
i
i
i
i=1
k=1 i=1
evaluado en b(m1) ; esto se sigue de las ecuaciones (4.20) y (4.18). As, el lado derecho
de la ecuacion (4.22) se puede escribir como
XT Wz
donde z tiene los elementos
zi =
p
X
(m1)
xik bk

+ (yi i )
k=1
i
i

(4.24)
con i y i /i evaluadas en b(m1) .

Por lo tanto la ecuacion iterativa (4.22), se puede escribir como
XT WXb(m) = XT Wz
(4.25)
Esta es la misma forma que las ecuaciones normales para un modelo lineal obtenidos por
mnimos cuadrados ponderados, excepto que tiene que ser resuelto de forma iterativa
porque, en general, z y W depende de b. Por lo tanto para los modelos lineales generalizados, los estimadores de maxima verosimilitud se obtienen por un procedimiento
iterativo de mnimos cuadrados ponderados (Charnes et al., 1976). La mayora de los
paquetes estadsticos que incluyen procedimientos para los modelos lineales generalizados de ajuste tienen un algoritmo eficiente, basado en (4.25). Comienzan con alguna
aproximacion inicial b(0) para evaluar z y W, entonces (4.25) se resuelve para dar b(1)
que a su vez se utiliza para obtener mejores aproximaciones para z y W, y as sucesivamente hasta que se alcanza la convergencia adecuada. Cuando la diferencia entre
aproximaciones sucesivas b(m1) y b(m) es suficientemente peque
no, b(m) se toma como la estimacion de maxima verosimilitud. El siguiente ejemplo ilustra el uso de este
procedimiento de estimacion.

4.4.
66
Ejemplo de regresi
on de Poisson
Los datos artificiales del Cuadro 4.3 son conteos y observados en varios valores de
una covariable x. Estos se representan graficamente en Figura 4.5.
Supongamos que las respuestas Yi son variables aleatorias Poisson . En la practica,
tal supuesto se hara ya sea por motivos sustantivos o de darse cuenta de que en la
figura 4.5 los variabilidad incrementa con Y .
Cuadro 4.3: Los datos de ejemplo de regresion de Poisson.
yi
xi
2
-1
3
-1
6 7 8 9 10
0 0 0 0 1
12
1
15
1
Figura 4.5: Ejemplo de regresion Poisson (datos del Cuadro 4.3).

Esta observacion apoya el uso de la distribucion de Poisson, que tiene la propiedad
de que el valor esperado y la varianza de Yi son iguales
E(Yi ) = V ar(Yi ).
(4.26)
Vamos a modelar la relacion entre Yi y xi por la lnea recta

E(Yi ) = i = 1 + 2 xi
= xTi

1
1
donde =
y xi =
para i = 1, . . . , N . Por lo tanto que tomamos la funcion
2
xi
liga g(i ) como la funcion identidad
g(i ) = i = xTi = i .

67
Por lo tanto i /i = 1 lo que simplifica las ecuaciones (4.23) y (4.24). De (4.23) y

(4.26)
1
1
=
.
wii =
var(Yi )
1 + 2 xi

b
Usando la estimacion de b = 1 , para , la ecuacion (4.24) se convierte en
b2
zi = b1 + b2 xi + (yi b1 + b2 xi ) = yi
Tambien
PN
1
i=1 b1 +b2 xi
PN
= XT WX =
PN
xi
i=1 b1 +b2 xi
PN
xi
i=1 b1 +b2 xi
i=1
x2i
b1 +b2 xi
y
PN
yi
i=1 b1 +b2 xi
XT Wz =
PN
yi xi
i=1 b1 +b2 xi
Las estimaciones de maxima verosimilitud se obtienen de forma iterativa a partir de

las ecuaciones
(XT WX)(m1) b(m) = XT Wzm1
donde el superindice
denota la evaluacion en b(m1) . Para estos datosN = 9

2
1 1
3
1 1

6
1 0

x1
7
1 0
x2

y X=
8
1
0
y=z=
=
.
9
1 0

x9
10
1 1

12
1 1
15
1 1
(m1)
(1)
(1)
De la figura 4.5 podemos obtener estimaciones iniciales b1 = 7 y b2 = 5. Por lo tanto

1.821429
0.75
9.869048
T
(1)
T
(1)
(X WX) =
,
(X Wz) =
0.75
1.25
0.583333
as

1 T
b(2) = (XT WW)(1)
(X Wz)(1)

0.729167 0.4375 9.869048
=
0.4375 1.0625 0.583333

7.4514
=
.
4.9375
Este proceso iterativo se contin
ua hasta que converge. Los resultados se muestran
en el Cuadro 4.4. Las estimaciones de maxima verosimilitud son b1 = 7.45163 y b1 =
4.93530. En estos valores la inversa de la matriz de informacion = XT WX es

0.7817 0.4166
=
0.4166 1.1863

68
(esta es la matriz de varianza-covarianza de b -ver Seccion 5.4). As, por ejemplo,un

intervalo de confianza de 95 % para la pendiente 2 es
4.9353 6= 1.96 1.1863 o (2.80, 7.07).

Cuadro 4.4: Aproximaciones sucesivas para los coeficientes de regresion en el ejemplo
de regresion de Poisson.
m
(m)
b1
(m)
b2
4.5.
1
7
5
2
7.45139
4.93750
3
7.45163
4.93531
4
7.45163
4.93530
Ejercicios
4.1 Los datos del Cuadro 4.5 muestran el n

umero de casos de SIDA en Australia por
fecha de diagnostico por perodos sucesivos de 3 meses de 1984 a 1988. (Los datos
del Centro Nacional de Epidemiologa e Investigacion Clnica del VIH, 1994.) En
esta fase inicial de la epidemia, el n
umero de casos parecan estar aumentando de
manera exponencial.
Cuadro 4.5: El n
umero de casos de SIDA en Australia para los trimestres consecutivos
de 1984 a 1988.
A
no
1984
1985
1986
1987
1988
Trimestre
1
2
3
4
1
6
16 23
27 39 31 30
43 51 63 70
88 97 91 104
110 113 149 159
(a) Grafica el n
umero de casos yi contra el perodo de tiempo i (i = 1, . . . , 20).
(b) Un modelo posible es la distribucion de Poisson con parametro i = i , o
equivalentemente
log i = log i.
Grafica log yi contra log i para examinar este modelo.
(c) Ajusta un modelo lineal generalizado a estos datos mediante la distribucion
de Poisson, la funcion liga log y la ecuacion
g(i ) = log i = 1 + 2 xi ,
donde xi = logi . Primero, hacerlo desde el principio, trabajando con las
expresiones para la matriz de pesos W y otros terminos necesarios para la
ecuacion iterativa
XT WXb(m) = XT Wz

69
y el uso de software que puede realizar operaciones de la matriz para llevar

a cabo los calculos.
(d) Ajustar el modelo descrito en (c) utilizando el software estadstico que puede
realizar la regresion de Poisson. Comparar los resultados con los obtenidos
en (c).
Cuadro 4.6: El tiempo de supervivencia, yi , en semanas y log10 (recuento inicial de

globulos blancos), xi , de diecisiete pacientes con leucemia.
xi
yi
65
3.36
156
2.88
100
3.63
134
3.41
16
3.78
108 121
4.02 4.00
4
4.23
xi
yi
143
3.85
56
3.97
26
4.51
22
4.54
1
5.00
1
5
5.00 4.72
65
5.00
39
3.73
4.2 Los datos del Cuadro 4.6 son tiempos de muerte, yi , en semanas desde el diagnostico y el log10 (recuento inicial de globulos blancos), xi , diecisiete pacientes
que sufren de leucemia. (Este es el Ejemplo U de Cox y Snell, 1981).
(a) Grafica yi contra xi . Los datos muestran una tendencia?
(b) Una posible especificacion para E(Yi ) es
E(Yi ) = exp(1 + 2 xi )
que asegurara que E(Yi ) es no negativa para todos los valores de los parametros y todos los valores de x. Que funcion de enlace es apropiado en este
caso?
(c) La distribucion exponencial se utiliza a menudo para describir los tiempos
de supervivencia. La distribucion de probabilidades f (y; ) = ey . Este es
un caso especial de la distribucion gama con parametro de forma = 1.
Muestra que E(Yi ) = y var(Y ) = 2 . Ajustar un modelo con la ecuacion
para E(Yi ) dado en (b) y la distribucion exponencial utilizando el software
estadstico apropiado.
(d) Para el modelo ajustado en (c) comparar los valores observados yi y los
valores ajustados ybi = exp(b1 + b2 xi ) y usa los residuos estandarizados ri =
(yi ybi )/b
yi para investigar la adecuacion del modelo.(Nota:b
yi es usado como
el denominador de ri porque es una estimacion de la desviacion estandar de
Yi - vease (c) arriba.)
4.3 Sea Y1 , . . . , YN una muestra aleatoria de la distribucion Normal Yi N (log , 2 )
donde 2 es conocida. Encontrar el estimador de maxima verosimilitud de del
principio. Tambien verifica las ecuaciones (4.18) y (4.25) en este caso.
Captulo 5
Inferencia
5.1.
Introducci
on
Las dos herramientas principales de la inferencia estadstica son intervalos de confianza y pruebas de hipotesis. Su derivacion y uso para modelos lineales generalizados se
cubren en este captulo.
Los intervalos de confianza, tambien conocidos como estimaci
on por intervalos,
son cada vez considerados mas u
tiles que las pruebas de hipotesis porque el ancho de un
intervalo de confianza proporciona una medida de la precision con la cual las inferencias
pueden ser hechas. Esto se hace de una manera que es conceptualmente mas simple que
la potencia de una prueba estadstica (Altman et al., 2000).
Las pruebas de hip
otesis en un escenario de modelacion estadstica son realizadas
para comparar que tan bien dos modelos relacionados ajustan los datos (ver los ejemplos en el Captulo 2). Para modelos lineales generalizados, los dos modelos deberan
tener la misma distribucion de probabilidad y la misma funcion de liga pero la componente lineal de un modelo tiene mas parametros que el otro. El modelo mas simple,
que corresponde a la hipotesis nula H0 , debe ser un caso especial, del otro modelo mas
general. Si el modelo mas simple ajusta a los datos, tambien como el mas general los
modela, entonces este es preferido por razones de parsimonia y H0 es retenido. Si el
modelo mas general ajusta significativamente mejor, entonces se rechaza H0 a favor de
una hipotesis alternativa H1 la cual corresponde al modelo mas general. Para hacer
estas comparaciones, utilizamos resumenes estadsticos para describir que tan bien los
modelos ajustan los datos. Estos estadsticos de bondad de ajuste pueden estar
basados en el valor maximo de la funcion de verosimilitud, el valor maximo de la funcion de log-verosimilitud, el valor mnimo del criterio de la suma de cuadrados o una
composicion estadstica basada en los residuales. El proceso y la logica puede ser resumido como sigue:
1. Especificar un modelo M0 correspondiente a H0 . Especificar un modelo mas general M1 (con M0 como un caso especial de M1 ).
2. Ajustar M0 y calcular el estadstico de bondad de ajuste G0 . Ajustar M1 y calcular
el estadstico de bondad de ajuste G1 .
3. Calcular la mejora en el ajuste, por lo general G1 G0 pero G1 /G0 es otra
posibilidad.
70
CAPITULO 5. INFERENCIA
71
4. Usar la distribucion muestral de G1 G0 (o alg

un estadstico relacionado) para
probar la hipotesis nula de que G1 = G0 contra la hipotesis alternativa G1 6= G0 .
5. Si la hipotesis de que G1 = G0 no es rechazada, entonces H0 no es rechazada y
M0 es el modelo preferido. Si la hipotesis G1 = G0 es rechazada entonces H0 es
rechazada y M1 es considerado como el mejor modelo.
Para ambas formas de inferencia, las distribuciones muestrales son requeridas. Para
calcular un intervalo de confianza, la distribucion muestral del estimador es requerida.
Para una prueba de hipotesis, la distribucion muestral del estadstico de bondad de
ajuste es requerida. Este captulo trata de las distribuciones muestrales relevantes para
modelos lineales generalizados.
Si las variables respuesta son distribuidas normalmente, las distribuciones muestrales
usadas para la inferencia a menudo pueden ser determinadas exactamente. Para otras
distribuciones necesitamos confiar en resultados asintoticos de muestras grandes basados en el Teorema de Lmite Central. El desarrollo riguroso de estos resultados requiere
una cuidadosa atencion a diversas condiciones de regularidad. Para observaciones independientes de distribuciones que pertenecen a la familia exponencial, y en particular
para modelos lineales generalizados, las condiciones necesarias en verdad se cumplen.
En este libro consideramos solo los pasos mayores y no los puntos mas finos involucrados en la obtencion de las distribuciones muestrales. Los detalles de la teora de
distribuciones para modelos lineales generalizados son dados por Fahrmeir y Kaufman
(1985).
La idea basica es que, bajo condiciones apropiadas, si S es un estadstico de interes,
entonces aproximadamente
S E(S)
p
N (0, 1)
var(S)
o equivalentemente
[S E(S)]2
2 (1)
var(S)
donde E(S) y var(S) son la esperanza y varianza
deS respectivamente.
S1
..
Si hay un vector de estadsticos de interes s = . con esperanza asintotica E(s) y
Sp
matriz de varianza-covarianza asintotica V, entonces aproximadamente
[s E(s)]T V1 [s E(s)] 2 (p)
(5.1)
dado que V es no singular, as la u

nica matriz inversa V1 y por tanto.
5.2.
Distribuciones muestrales para estadsticos de

puntuaci
on
Supongamos que Y1 , . . . , YN son variables aleatorias independientes en un modelo lineal

generalizado con parametros donde E(Yi ) = i y g(i ) = xTi = i . De la ecuacion
72
(4.18) los estadsticos de puntuacion son

N
X
l
i
(Yi i )
Uj =
=
xij
para j = 1, . . . , p.
j
var(Y
)
i
i
i=1
Como E(Yi ) = i para todo i,
E(Uj ) = 0 para j = 1, . . . , p.
(5.2)
Coherente con el resultado general (3.14). La matriz de varianza-covarianza de los

estadsticos de puntuacion es la matriz de informacion con elementos
jk = E[Uj Uk ]
dada por la ecuacion (4.20).
Si hay solo un parametro , el estadstico de puntuacion tiene la distribucion muestral
asintotica
U2
U
N (0, 1), o equivalentemente
2 (1)
Porque E(U ) = 0 y var(U ) = .

1
U1
..
..
Si hay un vector de parametros = . entonces el vector de puntuacion U = .
p
Up
tiene distribucion normal multivariada U N (0, ), al menos asintoticamente y as
UT 1 U 2 (p)
(5.3)
para muestras grandes.
5.2.1.
Ejemplo: Estadstico de puntuaci

on para la distribuci
on
Normal
Sean Y1 , . . . , YN variables aleatorias independientes e identicamente distribuidas con

Yi N (, 2 ) donde 2 es una constante conocida. La funcion log-verosimilitud es
l=
1 X
(yi )2 N log( 2).
2
2 i=1
el estadstico de puntuacion es
U=
dl
1 X
N
(Yi ) = 2 (Y )
= 2
d
as el estimador de maxima verosimilitud, obtenido de resolver la ecuacion U = 0, es
b = Y . El valor esperado del estadstico U es

E(U ) =
1 X
[E(Yi ) ]
2
73
de la ecuacion (1.2). Como E(Yi ) = , se sigue que E(U ) = 0 como se esperaba. La

varianza de U es
N
1 X
var(Yi ) = 2
= var(U ) = 4
de la ecuacion (1.3) y var(Yi ) = 2 . Por lo tanto

U
(Y )
=
.
/ N
De acuerdo al resultado (5.1) esta tiene distribucion asintotica N (0, 1). De hecho el
resultado es exacto porque Y N (, 2 /N ) (ver ejercicio 1.4(a)). Similarmente
(Y )2
U2
=
2 (1)
U U=
2
/N
T 1
es un resultado exacto.
La distribucion muestral de U puede ser usada para hacer inferencias
acerca de .
Por ejemplo, un intervalo de confianza del 95 % para es y 1.96/ N , donde es
supuesto conocido.
5.2.2.
Ejemplo: Estadstico de puntuaci

on para la distribuci
on
Binomial
Si Y binomial(n, ) la funcion de log-verosimilitud es

n
l(; y) = y log + (n y) log(1 ) + log
y
as el estadstico de puntuacion es
U=
Y
nY
Y n
dl
=
=
.
d
1
(1 )
Pero E(Y ) = n y as E(U ) = 0 como se esperaba. Tambien var(Y ) = n(1 ) as

= var(U ) =
2 (1
1
n
var(Y ) =
2
)
(1 )
y as
U
Y n
=p
N (0, 1)
n(1 )
aproximadamente. Esta es la aproximacion Normal a la distribucion binomial (sin alguna correccion de continuidad). Esta es usada para encontrar intervalos de confianza
y pruebas de hipotesis acerca de .
5.3.
Aproximaciones por series de Taylor
Para obtener las distribuciones de muestreo asintoticas para otros varios estadsticos
u
tiles se usan las aproximaciones de series de Taylor. La aproximacion de series de
Taylor para una funcion f (x) de una sola variable x alrededor de un valor t es

2
df
1
2 d f
f (x) = f (t) + (x t)
+ (x t)
+ ...
dx x=t 2
dx2 x=t
74
suponiendo que x esta cerca de t.

Para una funcion de log-verosimilitud de un solo parametro los primeros tres terminos
de la aproximacion de la serie de Taylor cerca de una estimacion b son
1
l() = l(b) + ( b)U (b) + ( b)2 U 0 (b)
2
Donde U (b) = dl/d es la funcion de puntuacion evaluada en = b. Si U 0 = d2 l/d 2
es aproximada por este valor esperado E(U 0 ) = , la aproximacion se convierte en
1
l() = l(b) + ( b)U (b) ( b)2 (b)
2
donde (b) es la informacion valuada en = b. La aproximacion correspondiente para
la funcion de log-verosimilitud para un vector de parametros es
1
l() = l(b) + ( b)T U(b) ( b)T (b)( b)
2
(5.4)
donde U es el vector de puntuacion y es la matriz de informacion.

Para la funcion de puntuacion de un solo parametro los primeros dos terminos de la
aproximacion en series de Taylor cerca de una estimacion b da
U () = U (b) + ( b)U 0 (b).
si U 0 es aproximada por E(U 0 ) = obtenemos
U () = U (b) ( b)(b).
La expresion correspondiente para un vector de parametros es
U() = U(b) (b)( b).
5.4.
(5.5)
Distribuci
on muestral para estimadores de m
axima verosimilitud
La ecuacion (5.5) puede ser usada para obtener la distribucion muestral del estimador
b Por definicion, b es el estimador el cual maximiza l(b)
de maxima verosimilitud b = .
y as U(b) = 0. Por lo tanto
U() = (b)( b)
o equivalentemente,
(b ) = 1 U
dado que es no singular. Si es considerada como constante entonces E(b ) = 0
porque E(U) = 0 por la ecuacion (5.2). Por lo tanto E(b) = , al menos asintoticamente, as b es un estimador consistente de . La matriz de varianza-covarianza
para b es

E (b )(b )T = 1 E(UUT )1 = 1
(5.6)
75
porque = E(UUT ) y (1 )T = 1 como es simetrica. La distribucion muestral

asintotica para b, por (5.1), es
(b )T (b)(b ) 2 (p).
(5.7)
Este es el Estadstico de Wald. Para el caso uniparametrico, la forma mas comunmente usada es
b N (, 1 ).
(5.8)
Si las variables respuesta en el modelo lineal generalizado estan Normalmente distribuidas entonces (5.7) y (5.8) son resultados exactos (ver ejemplo 5.4.1 enseguida).
5.4.1.
Ejemplo: Estimadores de m
axima verosimilitud para el
modelo lineal Normal
Considera el modelo
E(Yi ) = i = xTi ; Yi N (i , 2 )
(5.9)
donde las Yi s son N variables aleatorias independientes y es un vector de p parametros (p < N ). Este es un modelo lineal generalizado con la funcion identidad como
funcion de liga. Este modelo es discutido con mas detalle en el Captulo 6.
Como la funcion de liga es la identidad, en la ecuacion (4.16) i = i y as i /i = 1.
Los elementos de la matriz de informacion, dados en la ecuacion (4.20), tienen la forma
mas simple
N
X
xij xik
jk =
2
i=1
porque var(Yi ) = 2 . Por lo tanto la matriz de informacion puede ser escrita como
=
1 T
X X.
2
(5.10)
Similarmente la expresion en (4.24) tiene la forma mas simple

zi =
p
X
(m1)
xik bk
+ (yi i ).
k=1
Pero i valuada en b(m1) es xTi b(m1) =

caso. La ecuacion de estimacion (4.25) es
Pp
k=1
(m1)
xik bk
. Por lo tanto zi = yi en este
1 T
1
X Xb = 2 XT y
2
y as el estimador de maxima verosimilitud es

b = (XT X)1 XT y
(5.11)
El modelo (5.9) puede ser escrito en notacion vectorial como y N (X, 2 I) donde I
es la matriz unitaria de N N con unos en la diagonal y ceros fuera de ella. De (5.11)
E(b) = (XT X)1 (XT X) =
76
as b es un estimador insesgado de .
Para obtener la matriz de varianza-covarianza para b usamos
b = (XT X)1 XT y
= (XT X)1 XT (y X).
As

E (b )(b )T = (XT X)1 XT E (y X)(y X)T X(XT X)1
= (XT X)1 XT [var(y)]X(XT X)1
= 2 (XT X)1
Pero 2 (XT X)1 = 1 de (5.10) as la matriz de varianza-covarianza para b es 1
como en (5.6).
El estimador de maxima verosimilitud b es una combinacion lineal de los elementos
Yi de y, de (5.11). Como las Yi s estan distribuidas Normalmente, de los resultados en
la seccion 1.4.1, los elementos de b estan tambien distribuidos Normalmente. As la
distribucion de muestreo exacta de b, en este caso, es
b N (, 1 )
o
(b )T (b ) 2 (p).
5.5.
Estadstico de raz
on de Log-verosimilitud
Una forma de evaluar la adecuacion de un modelo es compararlo con un modelo

mas general con el n
umero maximo de parametros que pueden ser estimados. Este es
llamado el modelo saturado. Este es un modelo lineal generalizado con la misma
distribucion y la misma funcion de liga que el modelo de interes.
Si hay N observaciones Yi , i = 1, . . . , N , todos con valores potencialmente diferentes
para la componente lineal xTi , entonces un modelo saturado puede ser especificado
con N parametros. Esto tambien es llamado un modelo maximal
o completo.
Si algunas de las observaciones tienen la misma componente lineal o patron de covariables, es decir, corresponden a la misma combinacion de los niveles de factor y tienen
los mismos valores de alguna variable explicatoria continua, son llamadas r
eplicas. En
este caso, el n
umero maximo de parametros que pueden ser estimados para el modelo
saturado es igual al n
umero de componentes lineales potencialmente diferentes, las
cuales deben ser menores que N .
En general, sea m el n
umero maximo de parametros que pueden ser estimados. Sea
max el vector de parametros para el modelo saturado y bmax el estimador de maxima
verosimilitud de max .La funcion de verosimilitud para el modelo saturado evaluado en
bmax , L(bmax ; y), sera mas grande que alguna otra funcion de verosimilitud para estas
observaciones, con la misma distribucion y funcion de ligas supuestas, porque esta
proporciona la mas completa descripcion de los datos. Sea L(b; y) el valor maximo de
la funcion de verosimilitud para el modelo de interes. Entonces la razon de verosimilitud
=
L(bmax ; y)
L(b; y)
77
proporciona una forma de evaluar la bondad de ajuste para el modelo. En la practica,

el logaritmo de la razon de verosimilitud, que es la diferencia entre las funciones de
log-verosimilitud,
log = l(bmax ; y) l(b; y)
es usada. Los valores grandes de sugieren que el modelo de interes es una descripcion
pobre de los datos en relacion al modelo saturado. Para determinar la region crtica
para log necesitamos su distribucion muestral.
En la siguiente seccion veremos que 2 log tiene una distribucion chi-cuadrada. Por
lo tanto 2 log en lugar de log es el estadstico mas com
unmente utilizado. Este fue
llamado la desvianza por Nelder y Wedderburn (1972).
5.6.
Distribuci
on muestral para la desvianza
La desvianza, tambien llamado estadstico (raz

on) de log-verosimilitud, es
D = 2[l(bmax ; y) l(b; y)].
De la ecuacion (5.4), si b es el estimador de maxima verosimilitud del parametro
(esto es U(b) = 0)
1
l() l(b) = ( b)T (b)( b)
2
aproximadamente. Por lo tanto el estadstico
2[l(b; y) l(; y)] = ( b)T (b)( b),
la cual tiene distribucion Chi cuadrada 2 (p) donde p es el n
umero de parametros, de
(5.7).
De este resultado la distribucion muestral para la desvianza puede ser derivada:
D = 2[l(bmax ; y) l(b; y)]
= 2[l(bmax ; y) l( max ; y)]
2[l(b; y) l(; y)] + 2[l( max ; y) l(; y)].
(5.12)
El primer termino entre corchetes en (5.12) tiene la distribucion 2 (m) donde m es el

n
umero de parametros en el modelo saturado. El segundo termino tiene la distribucion
2 (p) donde p es el n
umero de parametros en el modelo de interes. El tercer termino,
v = 2[l( max ; y) l(; y)], es una constante positiva que esta cerca de cero si el modelo
de interes ajusta a los datos casi como los ajusta el modelo saturado. Por lo tanto la
distribucion muestral de la desvianza es, aproximadamente,
D 2 (m p, v)
donde v es el parametro de no centralidad, por el resultado en la seccion 1.5. La desvianza forma la base para la mayora de pruebas de hipotesis para modelos lineales
generalizados. Esto se describe en la Seccion 5.7.
Si las variables respuesta Yi son Normalmente distribuidas entonces D tiene una distribucion Chi cuadrada exactamente. En este caso, sin embargo, D depende de var(Yi ) =
2 que, en la practica, suele ser desconocido. Esto significa que D no puede ser usado
78
directamente como un estadstico de bondad de ajuste (vease el ejemplo 5.6.2).

Para las Yi s con otras distribuciones, la distribucion muestral de D puede ser solo
aproximadamente Chi cuadrada. Sin embargo, para las distribuciones binomial y distribucion Poisson, por ejemplo, D puede ser calculada y utilizada directamente como
un estadstico de bondad de ajuste (vease el Ejemplo 5.6.1 y 5.6.3).
5.6.1.
Ejemplo: Desvianza para un modelo binomial
Si las variables respuesta Y1 , . . . , YN son independientes y Yi binomial(ni , i ),

entonces la funcion de log-verosimilitud es

N
X
ni
l(; y) =
yi log i yi log(1 i ) + ni log(1 i ) + log
.
y
i
i=1
Para un modelo saturado, las i s son todas diferentes, as = [1 , . . . , N ]T . Las
estimaciones de maxima verosimilitud son bi = yi /ni as el valor maximo de la funcion
de log-verosimilitud es

X
ni yi
ni y i
ni
yi
yi log
+ ni log
+ log
.
l(bmax ; y) =
yi log
ni
ni
ni
yi
Para cualquier otro modelo con parametros p < N , sea bi la estimacion de maxima
verosimilitud para las probabilidades y sea ybi = ni bi los valores ajustados. Entonces la
funcion de log-verosimilitud evaluada en estos valores es

X
ybi
ni ybi
ni ybi
ni
yi log
+ ni log
+ log
.
l(b; y) =
yi log
ni
ni
ni
yi
Por lo que la desvianza es
D = 2[l(bmax ; y) l(b; y)]

N
X
yi
ni y i
=2
yi log
+ (ni yi ) log
.
ybi
ni ybi
i=1
5.6.2.
Ejemplo: Desvianza para un modelo lineal Normal
Considera el modelo
E(Yi ) = i = xTi ; Yi N (i , 2 ), i = 1, . . . , N
donde las Yi s son independientes. La funcion de log-verosimilitud es
N
1 X
1
l(; y) = 2
(yi i )2 N log(2 2 ).
2 i=1
2
Para un modelo saturado todas las i s pueden ser diferentes, as que tiene N elementos 1 , . . . , N . Diferenciando la funcion de log-verosimilitud con respescto a cada i y
resolviendo las ecuaciones estimantes, obtenemos bi = yi . Por lo que el valor maximo
de la funcion de log-verosimilitud para el modelo saturado es
1
l(bmax ; y) = N log(2 2 ).
2
79
Para alg
un otro modelo con p < N parametros, sea
b = (XT X)1 XT y
es el estimador de maxima verosimilitud (de la ecuacion 5.11). El correspondiente valor
maximo para la funcion de log-verosimilitud es
l(b; y) =
1 X
1
(yi xTi b)2 N log(2 2 ).
2
2
2
por lo tanto la desvianza es

D = 2[l(bmax ; y) l(b; y)]
N
1 X
= 2
(yi xTi b)2
i=1
N
1 X
(yi bi )2
2 i=1
(5.13)
(5.14)
donde bi es el valor ajustado xTi b.

En el caso particular donde hay solo un parametro, por
cuando E(Yi ) =
Pejemplo,
N
para todo i, X es un vector de N unos y as b =
b = i=1 yi /N = y y bi = y para
todo i. Por lo que
D=
N
1 X
(yi y)2 .
2 i=1
Pero este estadstico esta relacionado a la varianza muestral S 2

N
2D
1 X
.
S =
(yi y)2 =
N 1 i=1
N 1
2
Del ejercicio 1.4(d) (N 1)S 2 / 2 2 (N 1) as D 2 (N 1) exactamente.

Mas generalmente, de (5.13)
1 X
(yi xTi b)2
2
1
= 2 (y Xb)T (y Xb)
D=
donde la matriz dise

no X tiene renglones xi . El termino (y Xb) puede ser escrito
como
y Xb = y X(XT X)1 XT y
= [I X(XT X)1 XT ]y = [I H]y
donde H = X(XT X)1 XT , que es llamado matriz sombrero. Por lo que la forma
cuadratica en D puede ser escrita como
(y Xb)T (y Xb) = {[I H]y}T [I H]y = yT [I H]y
80
porque H es idempotente (es decir,H = HT y HH = H). El rango de I es N y el

rango de H es p, as el rango de I H es N p as, de las seccion 1.4.2, parte 8, D
tiene una distribucion Chi cuadrada con N p grados de libertad y parametro de no
centralidad = (X)T (I H)(X)/ 2 . Pero (I H)X = 0 as D tiene distribucion
central 2 (N p) exactamente (para mas detalles, ver Graybill, 1976).
El termino desvianza escalada es a veces usado para
X
2D =
(yi bi )2 .
Si el modelo se ajusta bien a los datos, entonces D 2 (N p). El valor esperado
para una variable aleatoria con la distribucion 2 (N p) es (N p) (de la Seccion 1.4.2
parte 2), por lo que el valor esperado de D es N p.
Esto proporciona una estimacion de 2 como
P
(yi bi )2
2
.
=
N p
Algunos programas estadsticos, tales como Glim, produce la desvianza a escalar para
un modelo lineal Normal y se llama parametro de escala
2.
La desvianza tambien se relaciona con la suma de cuadrados de los residuales estandarizados (ver Seccion 2.3.4)
N
X
i=1
ri2
N
1 X
(yi bi )2
= 2
b i=1
donde
b2 es una estimacion de 2 . Esto proporciona una regla emprica para la magnitud
2
global de los residuos
P 2estandarizados. Si el modelo se ajusta bien D (N p),
podriamos esperar
ri = N p, aproximadamente.
5.6.3.
Ejemplo: Desvianza para un modelo Poisson
Si las variables respuesta Y1 , . . . , YN son independientes y Yi P oisson(i ), la

funcion de log-verosimilitud es
X
X
X
l(; y) =
yi log i
i
log yi !.
Para el modelo saturado, las i s son todas diferentes as = [1 , . . . , N ]T . Las estibi = yi y as el valor maximo de la funcion de
maciones de maxima verosimilitud son
log-verosimilitud es
X
X
X
l(bmax ; y) =
yi log yi
yi
log yi !.
Supongamos que el modelo de interes tiene p < N parametros. El estimador de maxima
bi y as, los valores fijos
verosimilitud b puede ser usado para calcular estimaciones
bi ; porque E(Yi ) = i . El valor maximo de la log-verosimilitud en este caso es
ybi =
X
X
X
l(b; y) =
yi log ybi
ybi
log yi !.
81
Por lo que la desvianza es

D = 2[l(bmax ; y) l(b; y)]
hX
i
X
=2
yi log(yi /b
yi )
(yi ybi ) .
Para la mayora de los modelos se puede mostrar que
Por lo tanto D puede ser escrito en la forma
X
D=2
oi log(oi /ei )
yi =
ybi - ver Ejercicio 9.1.
si oi es usado para denotar el valor observado yi y ei es usado para denotar el valor

esperado estimado ybi .
El valor de D puede calcularse a partir de los datos en este caso (a diferencia del caso
para la distribucion Normal donde D depende de la constante desconocida 2 ). Este
valor puede compararse con la distribucion 2 (N p). El siguiente ejemplo ilustra la
idea.
Los datos en el Cuadro 5.1 se refieren al Ejemplo 4.4, donde una lnea recta fue ajustada
a las respuestas Poisson. Los valores ajustados son
ybi = b1 + b2 xi
donde b1 = 7.45163 y b2 = 4.93530 (del Cuadro 4.4). El valor de D es D = 2(0.94735
0) = 1.8947 que es peque
no en relacion con los grados de libertad, N p = 9 2 = 7.
De hecho, D esta por debajo del 5 % de la cola inferior de la distribucion 2 (7) que
indica que el modelo se ajusta bien a los datos - tal vez no sea sorprendentemente, para
un conjunto de datos artificiales peque
no!
Cuadro 5.1 Resultados para la regresion Poisson ejemplo 4.4.
5.7.
xi
yi
ybi
1
1
0
0
0
0
1
1
2 2.51633
3 2.51633
6 7.45163
7 7.45163
8 7.45163
9 7.45163
10 12.38693
12 12.38693
yi log(yi /b
yi )
0.45931
0.52743
1.30004
0.43766
0.56807
1.69913
2.14057
0.38082
15
12.38693
2.87112
Total
72
72
0.94735
Prueba de hip
otesis
Las hipotesis sobre un vector de parametros de longitud p puede ser probado

b )T (
b ) 2 (p)
usando la distribucion muestral del estadstico de Wald (
(de 5.7). De vez en cuando el estadstico de puntuacion es usado: UT 1 U 2 (p) de
(5.3).
82
Un enfoque alternativo, es esbozado en la seccion 5.1 y usada en el Captulo 2, es

comparar la bondad de ajuste de dos modelos. Los modelos deben ser anidados
o jer
arquicos, es decir, tienen la misma distribucion de probabilidad y la misma funcion de liga pero la componente lineal del modelo mas simple M0 es un caso especial
de la componente lineal del modelo mas general M1 .
Considera la hipotesis nula

1
..
H0 : = 0 = .
q
correspondiente al modelo M0 y una hipotesis mas general

1
..
H1 : = 1 = .
p
correspondiente a M1 , con q < p < N .
Podemos probar H0 contra H1 usando la diferencia de los estadsticos de desvianza
D = D0 D1 = 2[l(bmax ; y) l(b0 ; y)] 2[l(bmax ; y) l(b1 ; y)]
= 2[l(b1 ; y) l(b0 ; y)].
Si ambos modelos describen los datos bien, entonces D0 2 (N q) y D1 2 (N p)
as que D 2 (p q), siempre que cierta condicion de independencia se cumpla.
Si el valor de D es consistente con la distribucion 2 (p q) tendramos que elejir
generalmente el modelo M0 correspondiente a H0 porque es mas simple.
Si el valor de D esta en la region crtica (es decir, mayor que el 100 % de la cola
derecha de la distribucion 2 (p q)) entonces rechazaramos H0 a favor de H1 con el
argumento de que el modelo M1 proporciona una significativa mejor descripcion de los
datos (aunque tambien esto puede no ajustarse bien a los datos especialmente).
Siempre que la desvianza pueda calcularse a partir de los datos, D proporciona una
buen metodo para la prueba de hipotesis. La distribucion muestral de D es usualmente
mejor aproximada por la distribucion Chi-cuadrada que es la distribucion muestral de
una sola desvianza.
Para los modelos basados en la distribucion Normal, u otras distribuciones con parametros de ruido que no son estimados, la desvianza puede no ser completamente determinada a partir de los datos. El siguiente ejemplo muestra como este problema puede ser
resuelto.
5.7.1.
Ejemplo: Prueba de hip

otesis para un modelo lineal
Normal
Para el modelo lineal Normal

E(Yi ) = i = xTi ; Yi N (i , 2 )
para variables aleatorias independientes Y1 , . . . , YN , la desvianza es
D=
N
1 X
(yi
bi )2 ,
2 i=1
83
de la ecuacion (5.14). Sea

bi (0) y
bi (1) denota los valores ajustados para el modelo M0
(correspondiente a la hipotesis nula H0 ) y el modelo M1 (correspondiente a la hipotesis
alternativa H1 ) respectivamente. Entonces
D0 =
N
1 X
[yi
bi (0)]2
2 i=1
y
N
1 X
D1 = 2
[yi
bi (1)]2 .
i=1
Es usual suponer que M1 ajusta bien los datos (y as H1 es correcta), por lo que
D1 2 (N p). Si M0 tambien se ajusta bien, entonces D0 2 (N q) y as D =
D0 D1 2 (p q). Si M0 no se ajusta bien (es decir, H0 no es correcta) entonces D
tendra una distribucion no central 2 . Para eliminar el termino 2 usamos la relacion
D0 D1 D1
/
pq N p
P
P
{ [yi
bi (0)]2 [yi
bi (1)]2 }/(p q)
P
=
[yi
bi (1)]2 /(N p)
F =
As F puede ser calculada directamente de los valores ajustados. Si H0 es correcta, F

tendra la distribucion central F (p q, N p) (al menos aproximadamente). Si H0 no es
correcta, el valor de F sera mas grande que el esperado de la distribucion F (pq, N p).
Una ilustracion numerica es proporcionada por el ejemplo de pesos al nacer y edad
gestacional en la seccion 2.2.2. Los modelos son dados en (2.6) y (2.7). El valor mnimo
de la suma de cuadrados esta relacionada a las desvianzas por Sb0 = 2 D0 y Sb1 = 2 D1 .
Hay N = 24 observaciones. El modelo mas simple (2.6) tiene q = 3 parametros a ser
estimados y el modelo mas general (2.7) tiene p = 4 parametros a ser estimados. Del
Cuadro 2.5
D0 = 658770.8/ 2
D1 = 652424.5/ 2
con N q = 21 grados de libertad

con N p = 20 grados de libertad.
Por lo tanto
F =
(658770.8 652424.5)/1
= 0.19
652424.5/20
la cual es ciertamente no significativo comparado con la distribucion F (1, 20). As los

datos son consistentes con el modelo (2.6) en el cual los pesos al nacer incrementan con
la edad gestacional a la misma tasa para los ni
nos y ni
nas.
5.8.
Ejercicios
5.1 Considera la variable respuesta simple Y con Y biomial(n, ).

(a) Encuentra el estadstico de Wald (b
)T (b
) donde
b es el estimador de
maxima verosimilitud de y es la informacion.
84
(b) Verifica que el estadstico de Wald es el mismo con el estadstico de puntuacion

U T 1 U en este caso (ver ejemplo 5.2.2).
(c) Encuentra la desvianza
2[l(b
; y) l(; y)].
(d) Para muestras grandes, ambos el estadstico de Wald/puntuacion y la desvianza
aproximadamente tienen la distribucion 2 (1). Para n = 10 y y = 3 usa ambos
estadsticos para evaluar la adecuacion de los modelos:
(i) = 0.1; (ii) = 0.3; (iii) = 0.5.
Los dos estadsticos conducen a las mismas conclusiones?
5.2 Considera una muestra aleatoria Y1 , . . . , YN con la distribucion exponencial
f (yi ; i ) = i exp(yi i ).
Deriva la desvianza comparando el modelo maximo con valores diferentes de i para
cada Yi y el modelo con i = para toda i.
5.3 Supongamos que Y1 , . . . , YN son variables aleatorias independientes e identicamente
distribuidas con distribucion Pareto con parametro .
(a) Encuentra el estimador de maxima verosimilitud b de .
(b) Encuentra el estadstico de Wald para hacer inferencias acerca de (sugerencia:
usa el resultado del ejercicio 3.10).
(c) Usa el estadstico de Wald para obtener una expresion para un intervalo de
confianza aproximado del 95 % para .
(d) Las variables aleatorias Y con distribucion Pareto con el parametro puede
ser generada a partir de n
umeros aleatorios U los cuales son distribuidos uniformemente entre 0 y 1 utilizando la relacion Y = (1/U )1/ (Evans et al., 2000).
Utilice esta relacion para generar una muestra de 100 valores de Y con = 2.
b Repita este proceso 20 veces
A partir de estos datos calcular una estimacion .
y tambien calcule intervalos de confianza del 95 % para . Compara el promedio de las estimaciones b con = 2. Cuantos de los intervalos de confianza
contienen a ?
5.4 Para los datos de supervivencia de la leucemia en el Ejercicio 4.2:
(a) Utiliza el estadstico de Wald para obtener un intervalo de confianza aproximado del 95 % para el parametro 1 .
(b) Mediante la comparacion de las desvianzas para dos modelos apropiados, prueba la hipotesis nula 2 = 0 contra la hipotesis alternativa, 2 6= 0. Que se
puede concluir acerca de la utilizacion del n
umero de globulos blancos inicial
como predictor de supervivencia?
Captulo 6
Modelos Lineales Normales
6.1.
Introducci
on
Este captulo trata de los modelos de la forma

E(Yi ) = i = xTi
Yi N (i , 2 )
(6.1)
donde Y1 , . . . , YN son variables aleatorias independentes. La funcion liga es la funcion

identidad, i.e., g(i ) = i . Este modelo es usualmente escrito como
y = X + e
donde
(6.2)
1
e1
Y1
xT1
..
..
..
..
y = . ,X = . , = . ,e = .
p
eN
xTN
YN
y las ei s son variables aleatorias independientes e identicamene distribuidas con ei

N (0, 2 ) para i = 1, . . . , N . La regresion lineal m
ultiple, el analisis de la varianza (ANOVA) y el analisis de covarianza (ANCOVA) son todos de esta forma y conjuntamente
a veces se llaman modelos lineales generales.
El alcance en este libro no esta detallado, y no se hace hincapie en aquellos aspectos
que son particularmente relevantes para el enfoque de ajuste del modelo para el analisis
estadstico. Muchos libros ofrecen mucho mas detalle; por ejemplo, vease Neter et al.
(1996).
El captulo comienza con un resumen de los resultados basicos, derivados principalmente en los captulos anteriores. A continuacion, los principales problemas se ilustran
a traves de cuatro ejemplos numericos.
6.2.
6.2.1.
Resultados B
asicos
Estimador de m
axima verosimilitud
De la Seccion 5.4.1 el estimador de maxima verosimilitud de es dado por

b = (XT X)1 XT y
85
(6.3)
CAPITULO 6. MODELOS LINEALES NORMALES
86
siempre que (XT X) es no singular. Como E(b) = , el estimador es insesgado. Tiene

matriz de varianza-covarianza 2 (XT X)1 = 1 .
En el contexto de los modelos lineales generalizados, 2 es tratado como un parametro
de ruido. Sin embargo, se puede demostrar que
b2 =
1
(y Xb)T (y Xb)
N p
(6.4)
es un estimador insesgado de 2 , y esto puede ser usado para estimar y por lo tanto
hacer inferencias sobre b.
6.2.2.
Estimaci
on de mnimos cuadrados
Si E(y) = Xb y E[(yXb)(yXb)T ] = V donde V es conocida, podemos obtener

e de , sin hacer ninguna hipotesis adicional sobre
el estimador de mnimos cuadrados
la distribucion de y . Minizamos
Sw = (y Xb)T V1 (y Xb).
La solucion de
Sw
= 2XT V1 (y Xb) = 0
es
e = (XT V1 X)1 XT V1 y,
siempre existan las matrices inversas. En particular, para el modelo (6.1), donde los
elementos de (y) son independientes y tienen varianzas comun entonces
e = (XT X)1 XT y.
As que en este caso, los estimadores de maxima verosimilitud y estimadores de

mnimos cuadrados son los mismos
6.2.3.
Desvianza
De la Seccion 5.6.1
1
(y Xb)T (y Xb)
2
1
= 2 (yT y 2bT XT + bT XT Xb)
1
= 2 (yT y bT XT y)
D=
porque XT Xb = XT y de la ecuacion (6.3)
(6.5)
6.2.4.
87
Prueba de Hip
otesis
Considere la hipotesis nula H0 y una hipotesis mas general H1 se especificada de la

siguiente manera

1
1
..
..
H0 : = 0 = . y H1 : = 1 = .
q
p
donde q < p < N . Sea X0 y X1 denotan las matrices dise
no correspondientes, b0 y
b1 los estimadores de maxima verosimilitud, y D0 y D1 las desvianzas. Probamos H0
contra H1 usando
D = D0 D1 =
=

1 T
T
T
T
y)
y)
(y
y
b
X
(y
y
b
X
1
0
1
0
2
1
(b1 XT1 y b0 XT0 y)
2
por (6.5).
Cuadro 6.1: Cuadro de Analisis de Varianza.
Origen de
la varianza
Modelo con 0
Mejora debido al
modelo con 1
Grados
de libertad
q
Suma de cuadrados
pq
bT1 XT1 y bT0 XT0 y
Residual
Total
N p
N
yT y bT1 XT1 y
yT y
Cuadrados Medios
bT0 XT0 y
T T
T
bT
1 X1 yb0 X0 y
pq
T
yT ybT
1 X1 y
N p
Como el modelo correspondiente a H1 es mas general, es mas probable que ajuste

bien los datos asi que suponemos que D1 tiene una distribucion central 2 (N p) .
Por otra parte D0 pueden tener una distribucion 2 (N p, v) no central si H0 no es
correcta - vease en la Seccion 5.6. En este caso , D = D0 D1 tendra la distribucion
2 (p q, v) no central (siempre que las condiciones adecuadas se cumplen - vease la
Seccion 1.5). Por lo tanto el estadstico
F =
D0 D1 D1
bT XT y bT1 XT1 y yT y bT1 XT1 y
/
= 0 0
/
pq N p
pq
N p
tendra la central de distribucion F (p q, N p) si H0 es correcta o de otra manera F

tendra distribucion no central. Por lo tanto los valores de F que son grandes en relacion
a la distribucion F (p q, N p) proporcionar evidencia contra H0 (vease en la Figura
2.5). Esta prueba de hipotesis a menudo se resume en el Cuadro de Analisis de Varianza
que se muestra en el Cuadro 6.1.
6.2.5.
88
Ortogonalidad
Por lo general, las inferencias acerca de un parametro para una variable explicatoria
depende de que otras variables explicatorias estan incluidas en el modelo. Una excepcion es cuando la matriz de dise
no se puede particionar en componentes X1 , . . . , Xm
correspondiente a submodelos de interes,
X = [X1 , . . . , Xm ] para m p,
donde XTj Xk = O, una matriz de ceros, para cada j 6= k. En este caso, X es llamada
ortogonal. Sea que tiene de componentes 1 , . . . , m de modo que
E(y) = X = X1 1 + X2 2 + . . . + Xm m .
Tpicamente, los componentes corresponden a las covariables o individuales grupos
de variables explicatorias asociadas , tales como variables dummy que denotan los
niveles de un factor. Si X puede ser particionada de esta manera entonces XT X es una
matriz diagonal por bloques.
Cuadro 6.2: Pruebas de Hipotesis multiples cuando la matriz dise
no X es ortogonal .
Origen de
la varianza
Modelo correspondiente a H1
..
.
Grados
de libertad
p1
..
.
Suma de Cuadrados
Modelo correspondiente a Hm
Residual
Total
pm
P
m
bTm XTm y
y y bT XT y
yT y
j=1
pj
bT1 XT1 y
..
.
T
XT1 y
O
XT1 X1
.
..
XX =
. T ambien Xy = .. .
.
XTm y
O
XTm Xm
Por lo tanto las estimaciones bj = (XTj Xj )1 XTj y no se alteran por la inclusion de
otros elementos en el modelo y tambien
bT XT y = bT1 XT1 y + . . . + bTm XTm y
Consecuentemente la hipotesis
H1 : 1 = 0, . . . , Hm : m = 0
puede ser probado de forma independiente como se muestra en el Cuadro 6.2.
En la practica, a excepcion de algunos experimentos bien dise
nados, la matriz de
dise
no X casi nunca es ortogonal. Por lo tanto las inferencias sobre cualquier subconjunto de parametros, digamos j , dependen del orden en el que otros terminos se
incluyen en el modelo. Para superar esta ambig
uedad muchos programas estadsticos
proporcionan pruebas en funcion de todos los demas terminos que se incluyen antes
de a
nadir Xj j . Las sumas resultantes de cuadrados y pruebas de hipotesis a veces se
llaman pruebas de Tipo III(si las pruebas dependen del orden secuencial del ajuste
del termino son llamados tipo I).
6.2.6.
89
Residuales
En correspondencia con la formulacion del modelo (6.2), los residuos se definen como
ebi = yi xT b = yi
bi
donde
b1 es el valor ajustado. La matriz de varianza-covarianza deel vector de residuales
b
e es

E(b
eb
eT ) = E (y Xb)(y Xb)T
= E(yyT ) XE(bbT )XT

= 2 I X(XT X)1 XT
donde I es la matriz identidad. As que los residuos estandarizados son
ri =
b
e
b(1 hii )1/2
donde hii es el i-esimo elemento de la diagonal de la matriz de proyecci

on o somT
1 T
2
2
brero H = X(X X) X y
b es un estimador de .
Estos residuos deben ser utilizados para comprobar la idoneidad del modelo ajustado
usando los diferentes graficas y otros metodos discutidos en la Seccion 2.3.4. Estas
herramientas de diagnostico incluyen la comprobacion de la linealidad de las relaciones
entre las variables, la independencia de serie de observaciones, la normalidad de los
residuos y las asociaciones con otras variables explicatorias potenciales que no estan
incluidos en el modelo.
6.2.7.
Otros diagnosticos
Ademas de los residuos, hay muchos otros metodos para evaluar la adecuacion de
un modelo y para identificar observaciones inusuales o influyentes.
Un valor atpico es una observacion que no esta bien ajustado por el modelo. Una
observacion influyente es una que tiene un efecto relativamente grande en las inferencias
basadas en el modelo. Observaciones influyentes pueden o no ser valores atpicos y
viceversa.
El valor hii , el i-esimo elemento de en la diagonal de la matriz sombrero, es llamada
la leverage de la i-esima observacion. Una observacion con un alto leverage puede
hacer una diferencia sustancial en el ajuste del modelo. Como regla general, si hii , es
mayor que dos o tres veces p/N puede ser una preocupacion (donde p es el n
umero de
parametros y N el n
umero de observaciones).
Las medidas que combinen residuos estandarizados y leverage incluyen
1/2

hii
DF IT Si = ri
1 hii
y la distancia de Cook

hii
1
Di =
r2 .
p 1 hii i
Los grandes valores de estos estadsticos indican que la observacion i-esima es influyente.
Se dan detalles de las pruebas de hipotesis para estos y otros estadsticos, por ejemplo,
por Cook y Weisberg (1999).
90
Otro enfoque para identificar observaciones influyentes es ajustar un modelo con y

sin cada observacion y ver que diferencia hace a las estimaciones b y la bondad general
de estadsticos de ajuste tales como la desvianza o el valor del criterio de los minimos
cuadrados. Por ejemplo el estadtico delta-beta es definido por
i bj = bj bj(i)
donde bj(i) denota la estimacion de j obtenida cuando la observacion i-esima se omite de
los datos. Estos estadsticos pueden normalizarse dividiendo por sus errores estandar,
y luego se pueden comparar con la distribucion normal estandar para identificar las
inusualmente grandes. Estos se pueden graficar contra los n
umeros de observacion i de
modo que las observaciones del ofensivas pueden ser facilmente identificadas.
Las delta-betas pueden ser combinaciones de todos los parametros utilizando
1
Di = (b b(i) )T XT X(b b(i) )
p
donde b(i) denota el vector de estimadores bj(i) . Este estadstico es, de hecho, igual a
la distancia de Cooks (Neter et al., 1996).
Del mismo modo la influencia de la i-esima observacion en la desvianza, llamada
delta-desvianza, se puede calcular como la diferencia entre la desvianza para el modelo
ajustado de todos los datos y la desvianza para el mismo modelo con la observacion
i-esima omitido.
Para los modelos lineales normales hay simplificaciones algebraicas de estos estadsticos que significan, de hecho, que los modelos no tienen que ser reajustados omitiendo una observacion a la vez. Los estadsticos se pueden calcular facilmente y se
proporcionan de forma rutinaria en mas softwares estadsticos. Una vision general de
estas herramientas de diagnostico viene dado por el artculo de Chatterjee y Hadi
(1986).
Una vez que se detecta una observacion influyente o un valor atpico, el primer
paso es determinar si podra ser un error de medicion, error de transcripcion o alg
un
otro error. Debera ser eliminado del conjunto de datos solo si hay una buena razon
sustantiva para hacerlo. De lo contrario, una posible solucion es retener y reportar los
resultados que se obtienen con o sin su inclusion en los calculos.
6.3.
Regresi
on Lineal Multiple
Si las variables explicatorias son continuas, la matriz de dise

no tiene una columna
de unos, que corresponde a un termino de intercepto en el componente lineal, y todos
los demas elementos son los valores de las observaciones de la variables explicatorias.
Regresion lineal m
ultiple es el modelo lineal normal mas simple para esta situacion. El
siguiente ejemplo proporciona una ilustracion.
6.3.1.
dieta de carbohidrato
Los datos del Cuadro 6.3 muestra respuestas, porcentajes de caloras totales obtenidos
a partir de los carbohidratos complejos, de veinte diabeticos insulino-dependientes masculinos que haban estado en una dieta alta en carbohidratos durante seis meses. Se
penso que el cumplimiento del regimen estar relacionada con la edad (en a
nos), el peso
91
corporal (en relacion con el peso dealpara la altura) y otros componentes de la dieta,
tales como el porcentaje de caloras como protenas. Estas otras variables son tratadas
como variables explicatorias.
Cuadro 6.3: Carbohidratos, la edad, el peso y la protena relativa para los diabeticos
insulinodependiente de veinte hombres; para las unidades, ver texto (datos de K. Webb,
comunicacion personal).
Carbohidratos
y
33
40
37
27
30
43
34
48
30
38
50
51
30
36
41
42
46
24
35
37
Edad
x1
33
47
49
35
46
52
62
23
32
42
31
61
63
40
50
64
56
61
48
28
Peso
x2
100
92
135
144
140
101
95
101
98
105
108
85
130
127
109
107
117
100
118
102
Proteinas
x1
14
15
18
12
15
15
14
17
15
14
17
19
19
20
15
16
18
13
18
14
Empezamos por el ajuste del modelo

E(Yi ) = i = 0 + 1 xi1 + 2 xi2 + 3 xi3
Yi N (i , 2 )
(6.6)
en la cual los carbohidratos Y esta linealmente relacionados con la edad x1 , peso relativo
x2 y protenas x3 (i = 1, . . . , N = 20). En este caso

Y1
1 x11 x12 x13
0
..
..
.
.
.
..
..
.. , y = ...
y = . , X = .
YN
Para estos datos
1 xN 1 xN 2 x N 3
752
34596
XT y =
82270
12105
92
20
923
2214
318
923 45697 102003 14780
XT X =
2214 102003 250346 35306
318 14780 35306 5150
Por lo tanto la solucion de XT Xb = XT y es
36.9601
0.1137
b=
0.2280
1.9577
y
(XT X)1
4.8158 0.0113 0.0188 0.1362

0.0113 0.0003
0.0000 0.0004
=
0.0188 0.0000
0.0002 0.0002
0.1362 0.0004 0.0002 0.0114
correcta a cuatro decimales. Tambien yT y = 29368, N y 2 = 28275.2 y bT XT y =

28800.337. Usando (6.4) para obtener un estimador insesgado de 2 obtenemos
b2 =
35.479 y por lo tanto se obtienen los errores estandar para los elementos de b que se
muestran en el Cuadro 6.4.
Cuadro 6.4: Estimadores para el modelo (6.6).
Termino
Estimador bj Error estandar*
Constante
36.960
13.071
Coeficiente de la edad
-0.114
0.109
Coeficiente del peso
-0.228
0.083
Coeficiente de la proteinas
1.958
0.635
*Valores calculados utilizando cifras mas significativas
para (XT X)1 que se muestra arriba.
Para ilustrar el uso de la desviaza para probar la hipotesis, H0 , que la respuesta no

depende de la edad, es decir 1 = 0. El modelo correspondiente es
E(Yi ) = 0 + 2 xi2 + 3 xi3
(6.7)
La matriz X para este modelo se obtiene de la anterior omitiendo la segunda columna

de modo que
752
20
2214
318
XT y = 82270 , XT X = 2214 250346 3530
12105
318 35306 5150
y por lo tanto
33.130
b = 0.222 .
1.824
93
Para el modelo (6.7), bXT y = 28761.978. La prueba de significacion para H0 se

resume en el Cuadro 6.5. El valor F = 38.36/35.48 = 1.08. no es significativo en
comparacion con la distribucion F (1, 16) por lo que los datos no proporcionan evidencia
contra H0, es decir, la respuesta parece estar no relacionada con la edad.
Cuadro 6.5: El analisis de la tabla de comparacion de modelos de varianza (6,6) y (6,7).
Origen
de Variacion
Modelo (6.7)
Mejoras debido
al modelo (6.6)
Residual
Total
Grados de
libertad
3
1
16
20
Suma de Cuadrado
cuadrados
medio
28761.978
38.659
38.36
567.663
29368.000
35.48
Tenga en cuenta que las estimaciones de los parametros de los modelos (6.6) y (6.7)
son diferentes; por ejemplo, el coeficiente de protenas es de 1.958 para el modelo que
incluye un termino para la edad, pero 1.824 cuando se omite el termino edad. Este es
un ejemplo de la falta de ortogonalidad. Se ilustra ademas en el Ejercicio 6.3 (c) como
la tabla de ANOVA para probar la hipotesis de que el coeficiente para la edad es cero
cuando tanto el peso y la protena estan en el modelo, el Cuadro 6.5, difiere de la tabla
de ANOVA cuando no esta incluido peso.
6.3.2.
Coeficiente de determinaci
on, R2
Una medida com

unmente usada de bondad de ajuste para modelos de regresion lineal multiple se basa en una comparacion con el modelo mas simple o mnimal utilizando
el criterio de mnimos cuadrados (en contraste con el modelo maximal y la funcion de
log-verosimilitud que se utiliza para definir la desvianza). Para el modelo especificado
en (6.2), el criterio de mnimos cuadrados es
S=
N
X
e2i = eT e = (Y X)T (Y X)
i=1
y, de la Seccion 6.2.2, el estimador de mnimos cuadrados es b = (XT X)1 XT y el valor

mnimo de S es
Sb = (y Xb)T (Y Xb) = yT y bT XT y.
El modelo mas simple es E(Yi ) = para todo i. En este caso,
nico
P tiene el u
T
T
elemento y X es un vector de N unos. As X X = N y X y =
yi de modo que
b=
b = y. En este caso, el valor de S es
X
Sb0 = yT y N y 2 =
(yi y)2 .
As Sb0 es proporcional a la varianza de las observaciones y es el valor mas grande de
los peores posibles de S. La mejora relativa del ajuste para cualquier otro modelo es
R2 =
Sb0 Sb bT XT y N y 2
= T
y y N y 2
Sb0
94
R2 es llamado el coeficiente de determinacion. Se puede interpretar como la proporcion

de la variacion total en los datos que explicado por el modelo.
Por ejemplo, para los datos carbohidrato R2 = 0.48 para el modelo (6.5), por lo
que 48 % de la variacion es explicada por el modelo. Si el termino para la edad es
eliminado, para el modelo (6.6) R2 = 0.445, por lo que el 44.5 % de la variacion es
explicada. Si el modelo no se ajusta a los datos mucho mejor que el modelo mnimal
entonces Sb sera casi igual a Sb0 y R2 sera casi cero. Por otro lado si el modelo maximal
esta ajustado, con un solo parametro para cada observacion Yi , entonces tiene N
elementos, X es la matriz identidad I de N N y b = y (es decir,
bi = yi ). As que para
T T
T
2
b
el modelo maximal b X y = y y Y y por lo tanto, S0 = 0 y R = 1, correspondiente
a un ajuste perfecto. En general, 0 < R2 < 1. La raz cuadrada de R2 se denomina
el coeficiente de correlacion m
ultiple.
A pesar de su popularidad y facilidad de interpretacion R2 tiene limitaciones como
una medida de la bondad del ajuste. Su distribucion muestral no se determina facilmente. Tambien aumenta siempre cuando mas parametros se a
naden al modelo, por
lo que las modificaciones de R2 tienen que ser utilizados para ajustar el n
umero de
parametros.
6.3.3.
La selecci
on del modelo
Muchas aplicaciones de regresion lineal m

ultiple implican numerosas variables explicatorias y es importante identificar un subconjunto de estas variables que proporciona
un buen, pero parsimonioso, modelo para la respuesta. El procedimiento habitual es
agregar o eliminar terminos secuencialmente al modelo; esto se llama regresi
on por
pasos. Los detalles de los metodos se dan en los libros de texto estandar en regresion
como Draper y Smith (1998) o Neter et al. (1996).
Si algunas de las variables explicatorias estan altamente correlacionados entre s,
esto se llama colinealidad o multicolinealidad. Esta condicion tiene varias consecuencias indeseables. En primer lugar, las columnas de la matriz de dise
no X pueden ser
T
casi linealmente dependientes tal que X X es casi singular y la ecuacion de estimacion
(XT X)b = XT y y esta mal condicionada. Esto significa que la solucion b sera inestable
en el sentido de que peque
nos cambios en los datos pueden causar grandes cambios en
b (vease la Seccion 6.2.7). Tambien al menos algunos de los elementos de 2 (XT X)1
seran grande dando grandes varianzas o covarianzas para los elementos de b. En segundo lugar, la colinealidad significa que puede ser difcil elegir el mejor subconjunto de
variables explicatorias. La Colinealidad se puede detectar mediante el calculo del factor
de inflacion de la varianza para cada variable explicatoria
V F Ij =
1
2
1 R(j)
2
donde R(j)
es el coeficiente de determinacion obtenido de la regresion de la j-esima
variable explicatoria contra todas las demas variables explicatorias. Si no esta correlacionado con todos los demas, entonces V IF = 1. V IF aumenta a medida que
aumenta la correlacion. Es sugerido, por Montgomery y Peck (1992), por ejemplo, que
uno debe preocuparse si V IF > 5. Si estan muy correlacionadas varias variables explicatorias puede ser imposible, por motivos estadsticos solamente, determinar cual debe
ser incluida en el modelo. En este caso la informacion adicional del area sustantiva de
95
procedencia de los datos, puede ser necesaria una especificacion alternativa del modelo
o alg
un otro enfoque noncomputational.
6.4.
An
alisis de varianza
Analisis de varianza es el termino usado para metodos estadsticos para comparar

medias de grupos de observaciones continuas donde los grupos son definidos por los
niveles de factores. En este caso todas las variables explicatorias son categoricas y todos
los elementos de la matriz dise
no X son variables dummy. Como se ilustra en el Ejemplo
2.4.3, la eleccion de variables ficticias es, en cierta medida, arbitraria. Una consideracion
importante es la eleccion optima de la especificacion de X. Los principales problemas
son ilustrados mediante ejemplos numericos con datos de dos dise
nos de experimentos
(dummy).
6.4.1.
An
alisis de varianza de un factor
Los datos del Cuadro 6.6 son similares a los datos de peso en plantas en el ejercicio
2.1. Un experimento fue realizado para comparar los rendimientos Yi ( medidos en peso
seco de las plantas) bajo una condicion de control y dos condiciones de tratamiento
diferentes. Por lo tanto la respuesta, peso seco, depende de un factor, condicion de
crecimiento, con tres niveles. Estamos interesados en saber si las medias de la respuesta
difieren entre los grupos.
Mas en general, si las unidades experimentales se asignan aleatoriamente a los grupos
correspondientes a J niveles de un factor, esto es llamado un experimento completamente al azar. Los datos pueden ser establecidos como se muestra en el Cuadro
6.7.
Las respuestas al nivel j, Yj1 , . . . , Yjnj , todas tienen el mismo valor esperado y son
llamadas r
eplicas. En general puede haber diferentes n
umeros de nj observaciones en
cada nivel.
Para simplificar la discusion supongamos que todos los grupos tienen el mismo tama
no
de muestra, as nj = K para j = 1, . . . , J. La respuesta y es el vector columna de todas
las N = JK mediciones
y = [Y11 , Y12 , . . . , Y1K , Y21 , . . . , Y2K , . . . , YJ1 , . . . , YJK ]T .
Consideramos tres especificaciones diferentes de un modelo para probar la hipotesis de
que las medias de respuesta difieren entre los niveles de los factores.
a) La especificacion mas simple es
E(Yjk ) = j para j = 1, . . . , K.
(6.8)
Cuadro 6.6 Pesos secos yi de plantas de tres condiciones de crecimiento diferentes.
96
Control
Tratamiento A
Tratamiento B
4.17
5.58
5.18
6.11
4.50
4.61
5.17
4.53
5.33
4.81
4.17
4.41
3.59
5.87
3.83
6.03
4.89
4.32
6.31
5.12
5.54
5.50
5.37
5.29
4.92
6.15
5.80
5.14
4.69
5.26
yi
50.32
46.61
55.26
yi2
256.27
222.92
307.13
Cuadro 6.7 Datos de un experimento completamente al azar con J niveles de un

factor A.
Nivel de factor
Total
A1
A2
...
AJ
Y11
Y12
..
.
Y21
Y22
YJ1
YJ2
..
.
Y1n1
Y2n2
YJnJ
Y1 .
Y2 .
...
YJ .
Esto puede ser escrito como

E(Yi ) =
J
X
xij j ,
i = 1, . . . , N
j=1
Donde xij = 1 si la respuesta Yi corresponde al nivel Aj y xij = 0 en otro caso.

As, E(y) = X con
1
2

= ..
.
J
1 0 ...
0 1
X = ... . O
O .
0
0
..
.
0
1
donde 0 y 1 son vectores de longitud K de ceros y unos respectivamente, y O indican

que los terminos restantes de la matriz son todos ceros. Entonces XT X es la matriz
diagonal J J
K
...
T
K
X X=
..
.
O
97
Y1.
Y2.

T
X y = .. .
.
YJ.
As de la ecuacion (6.3)
b=
1
K

Y1
Y1.
Y2.
Y2

.. = ..
.
.
YJ.
YJ
y
J
1 X 2
b X y=
Y .
K j=1 j.
T
b = [y1 , y1 , . . . , y1 , y2 , . . . , yJ ]T . La desventaja de esta

Los valores ajustados son y
simple formulacion del modelo es que no se puede generalizar a mas de un factor.
Para generalizar mas alla, necesitamos especificar el modelo para que parametros de
los niveles y combinaciones de niveles de factores reflejan efectos diferenciales mas
alla de alg
un promedio o respuesta especfica.
b) El segundo modelo es uno de tales formulaciones:
E(Yjk ) = + j ,
j = 1, . . . , J
donde es el efecto promedio para todos los niveles y j es un efecto adicional

debido al nivel Aj . Para esta parametrizacion hay J + 1 parametros.
1 1 0 ... 0
1 0 1
.
O
X=
.. O
1
1
1

= .. ,
.
J
donde 0 y 1 son vectores de longitud K y O denota una matriz de ceros. As
Y..
Y1.

XT y = .. ,
.
YJ.
N
K ... K
K
K
.
O
XT X = ..
.. O
K
K
El primer renglon (o columna) de la matriz XT X de (J + 1) (J + 1) es la suma

de los renglones restantes (o columnas), as XT X es singular y no hay una u
nica
T
T
solucion de las ecuaciones normales X Xb = X y. La solucion general puede ser
escrita como
b1
b = .. =
.
98
1
K
bJ

0
1
Y1 .
1

.. ..
.
.
YJ .
1
donde es una constante arbitraria. Es tradicional imponer adicionalmente la restricci

on suma-a-cero
J
X
j = 0
j=1
as
J
1 X
Yj. J = 0
K j=1
y por tanto
J
Y..
1 X
Yj. = .
=
JK j=1
N
esto da la solucion
b=
Y..
Yj. Y..
y
bj =
para j = 1, . . . , J.
N
K
N
por lo tanto
J
Y2 X
b X y = .. +
Yj.
N
j=1
T
Yj. Y..
K
N
J
1 X 2
=
Y
K j=1 j.
que es el mismo que para la primera version del modelo y los valores ajustados
b = [y 1 , y 1 , . . . , y J ]T son tambien lo mismo. Las restricciones Suma-a-cero son usadas
y
en la mayora de softwares estadsticos estandares.
c) Una tercera version del modelo es E(Yjk ) = + j con la restriccion de que 1 = 0.
As representa el efecto del primer nivel y j mide la diferencia entre el primer nivel
del factor de nivel y el jth nivel de factor. Esto es llamado una parametrizaci
on
punto en la esquina. Para esta version hay J parametros
2

= .. .
.
J
Y..
Y2.

as XT y = ..
.
YJ.
tambien
1 0 ...
1 1
.
..
.
X = ..
.
.. O
1
N K
...
K
K K
..
. O
XT X = ..
.
.
..
O
K
K
99
La matriz XT X de J J es no singular, as hay una solucion u

nica
Y1.
1 Y2. Y1.
b=
..
K
.
YJ. Y1.
P
P
Tambien bT XT y = K1 [Y.. Y1. + Jj=2 Yj. (Yj. Y1. )] = K1 Jj=1 Yj.2 y los valores ajusb = [y 1 , y 1 , . . . , y J ]T son los mismos como antes.
tados y
As, aunque las tres especificaciones del modelo difieren, el valor de bT XT y y por
lo tanto
" J K
#
J
XX
X
1 T
1
1
D1 = 2 (y y bT XT y) = 2
Y2
Y2
j=1 k=1 jk K j=1 j.

es el mismo en cada caso.
Estas tres versiones del modelo todas corresponden a la hipotesis de que H1 de que
las medias de la respuesta para cada nivel pueden ser diferentes. Para comparar
esto con la hipotesis nula H0 en que las medias son iguales, consideramos el modelo
E(Yjk ) = de manera que = [] y X es un vector de N unos. Entonces XT X = N ,
XT y = Y.. y as b =
b = Y.. /N as que bT XT y = Y..2 /N y
" J K
#
Y..2
1 XX 2
Y
.
D0 = 2
j=1 k=1 jk
N
Para probar H0 contra H1 suponemos que H1 es correcta, as D1 2 (N J). Si,
ademas, H0 es correcta, entonces D0 2 (N 1), de lo contrario D0 tiene una
distribucion Chi cuadrada no central. As si H0 es correcta
"
#
J
1 2
1 1 X 2
Yj. Y.. 2 (J 1)
D0 D1 = 2
K j=1
N
y as
D0 D1 D1
/
F (J 1, N J).
J 1 N J
Si H0 no es correcta entonces F es probable que sea mas grande que la predicha a
partir de la distribucion F (J 1, N J). Convencionalmente esta prueba de hipotesis
se establece en un Cuadro de ANOVA.
Para los datos de pesos de plantas
F =
Y..2
= 772.0599,
N
J
1 X 2
Y = 775.8262
K j=1 j.
as
D0 D1 = 3.7663/ 2
y
J X
K
X
Yjk2 = 786.3183
j=1 k=1
2
as D1 = 10.4921/ . Por lo que la prueba de hipotesis es resumida en el Cuadro

6.8.
100
Cuadro 6.8 Cuadro ANOVA para datos de pesos de plantas en el Cuadro 6.6.
Fuente de
Grados de
Suma de
Cuadrados
variacion
libertad
cuadrados
medios
Media
Entre tratamiento
1
2
772.0599
3.7663
1.883
Residual
27
10.4921
0.389
Total
30
786.3183
4.85
Dado que F = 4.85 es significativo al nivel de 5 % cuando es comparada con la

distribucion F (2, 27), llegamos a la conclusion de que el grupo de medias difieren.
Para investigar este resultado adicional es conveniente utilizar la primera version
del modelo (6.8), E(Yjk ) = j . Las medias estimadas son

b1
5.032
b2 = 4.661 .
b =
b3
5.526
si usamos el estimador
b2 =
1
1
(y Xb)T (y Xb) =
(yT y bT XT y)
N J
N J
(ecuacion 6.4), obtenemos

b2 = 10.4921/27 = 0.389 (es decir, el cuadrado medio de
los residuos en el Cuadro 6.8). La matriz de varianza-covarianza de b es
b2 (XT X)1
donde
10 0 0
XT X = 0 10 0 ,
0 0 10
p
as el error estandar de cada elemento de b es 0.389/10 = 0.197. Ahora puede
verse que el efecto significativo se debe a la media para el tratamiento B,
b3 = 5.526,
siendo significativamente (mas de dos desviaciones estandar) de mayor tama
no que
las otras dos medias. Tenga en cuenta que si se realizan varias comparaciones por
parejas entre los elementos de b, los errores estandar deberan ser ajustados para
tomar en cuenta comparaciones m
ultiples - vease, por ejemplo, Neter et al.(1996).
6.4.2.
An
alisis de varianza de dos factores
Considera los datos ficticios en el Cuadro 6.9 en el cual el factor A (con J = 3

niveles) y el factor B (con K = 2 niveles) son cruzados de manera que hay JK
subgrupos formados por todas las combinaciones de los niveles de A y B. En cada
subgrupo hay L = 2 observaciones o r
eplicas.
Cuadro 6.9 Datos ficticios para un ANOVA de dos factores con n
umeros igual de
observaciones en cada subgrupo.

Niveles del
101
Niveles del factor B
factor A
B1
B2
Total
A1
A2
6.8,6.6
7.5,7.4
5.3,6.1
7.2,6.5
24.8
28.6
A3
7.8,9.1
8.8,9.1
34.8
Total
45.2
43.0
88.2
Las principales hipotesis son:

HI : no hay efectos de interaccion, es decir, los efectos de A y B son aditivos;
HA : no hay diferencias en la respuesta asociada con diferentes niveles del factor A;
HB : no hay diferencias en la respuesta asociada con diferentes niveles del factor B.
Por lo tanto tenemos que considerar un modelo saturado y tres modelos reducidos formados por la omision de diversos terminos del modelo saturado.
1. El modelo saturado es
E(Yjkl ) = + j + k + ()jk
(6.9)
donde los terminos ()jk corresponden a los efectos de interacci

on y j y k
a los efectos principales de los factores;
2. El modelo aditivo es
E(Yjkl ) = + j + k .
(6.10)
Este se compara con el modelo saturado para probar la hipotesis HI .

3. El modelo formado por la omision de los efectos debidos a B es
E(Yjkl ) = + j .
(6.11)
Este se compara con el modelo aditivo para probar la hipotesis HB .

4. El modelo formado por omitir los efectos debido a A es
E(Yjkl ) = + k .
(6.12)
Este se compara con el modelo aditivo para probar la hipotesis HA .

Los modelos (6.9) al (6.12) tienen demasiados parametros porque se replican en el
mismo subgrupo que tiene el mismo valor esperado, as pueden ser a lo mas JK valores
esperados independientes, pero el modelo saturado tiene 1+J +K +JK = (J +1)(K +1)
parametros. Para superar esta dificultad (que conduce a la singularidad de XT X),
podemos imponer las restricciones adicionales
1 + 2 + 3 = 0,
()11 + ()12 = 0,
1 + 2 = 0,
()21 + ()22 = 0,
()11 + ()21 + ()31 = 0
()31 + ()32 = 0,
102
(La condicion restante ()12 + ()22 + ()32 = 0 es consecuencia de las u

ltimas
cuatro ecuaciones). Estas son las ecuaciones con restriccion convencional suma-a-cero
para AN OV A. Alternativamente, podemos tomar
1 = 1 = ()11 = ()12 = ()21 = ()31 = 0
como las restricciones de punto-esquina. En cualquier caso el n
umero de (linealmente)
parametros independientes son: 1 para , J 1 para los j s, K 1 para los k s, y
(J 1)(K 1) para los ()jk s, dando un total de JK parametros.
Estimaremos los cuatro modelos usando, por simplicidad, las restricciones del puntoesquina.
El vector de respuesta es
y = [6.8, 6.6, 5.3, 6.1, 7.5, 7.4, 7.2, 6.5, 7.8, 9.1, 8.8, 9.1]T
y yT y = 664.1.
Para el modelo saturado (6.9) con restricciones
1 = 1 = ()11 = ()12 = ()21 = ()31 = 0
100000
100000
100100
100100
88.2
Y
...
110000
2
Y2.. 28.6
110000 T
3
Y3.. 34.8
=
2 , X = 110110 , X y = Y12. = 43.0 ,
110110
()22
Y22. 13.7
101000
Y32.
17.9
()32
101000
101101
101101
12 4 4 6 2 2
6.7
4 4 0 2 2 0
0.75
1.75
4 0 4 2 0 2
T
X X=
, b = 1.0
6
2
2
6
2
2
2 2 0 2 2 0
0.4
2 0 2 2 0 2
1.5
y bT XT y = 662.62.
Para el modelo aditivo (6.10) con las restricciones 1 = 1 = 0 la matriz dise
no es
obtenida por omitir las u
ltimas dos columnas de la matriz dise
no para el modelo saturado. As

12 4 4 6
88.2
2 T
, X X = 4 4 0 2 , XT y = 28.6
=
3
4 0 4 2
34.8
2
6 2 2 6
43.0
103
y por tanto
6.383
0.950
b=
2.500
0.367
tal que bT XT y = 661.4133.
Para el modelo (6.11) omitiendo los efectos de los niveles del factor B y usando la
restriccion 1 = 0, la matriz dise
no es obtenida por omitir las u
ltimas tres columnas
de la matriz dise
no para el modelo saturado. Por lo tanto

12 4 4
88.2
= 2 , XT X = 4 4 0 , XT y = 28.6
3
4 0 4
34.8
y por tanto
6.20
b = 0.95
2.50
tal que bT XT y = 661.01.
La matriz dise
no para el modelo (6.12) con restricciones 1 = 0 comprende la primera
y la cuarta columnas de la matriz dise
no para el modelo saturado. Por lo tanto

12 6
88.2
T
T
=
,X X =
,X y =
2
6 6
43.0
y as

7.533
b=
0.367
As que bT XT y = 648.6733.
Finalmente para el modelo con solo un efecto medio E(Yjkl ) = , la estimacion es
b = [b
] = 7.35 y por tanto bT XT y = 648.27.
Los resultados de esos calculos son resumidos en el Cuadro 6.10. los subndices S, I, A, B
y M se refieren al modelo saturado, los modelos correspondientes a HI , HA y HB y el
modelo con u
nicamente la media global, respectivamente. Las desvianzas escaladas son
los terminos 2 D = yT y bT XT y. Los grados de libertad, d.f., estan dados por N
menos el n
umero de parametros en el modelo.
Cuadro 6.10 Resumen de los calculos para los datos en el Cuadro 6.9.
Modelo
+ j + k + ()jk
+ j + k
+ j
+ k
d.f.
6
8
9
10
11
bT XT y Desvianza escalada
662.6200
2 DS = 1.4800
661.4133
2 DI = 2.6867
661.0100
2 DB = 3.0900
648.6733
2 DA = 15.4267
648.2700
2 DM = 15.8300
Para probar HI suponemos que el modelo saturado es correcto, as DS 2 (6). Si HI

tambien es correcta entonces DI 2 (8) as que DI DS 2 (2) y
F =
DI DS DS
/
F (2, 6).
2
6
104
El valor de
2.6867 1.48 1.48

/ 2 = 2.45
2 2
6
Esto no es estadsticamente significativo por lo que los datos no proporcionan evidencia
en contra de HI . Dado que HI no se rechaza procedemos a probar HA y HB . Para
HB consideramos la diferencia en el ajuste entre los modelos (6.10) y (6.11), es decir,
DB DI y comparar esto con DS usando
F =
F =
3.09 2.6867 1.48

DB DI DS
/
=
/ 2 = 1.63
1
6
2
6
la cual no es significativa comparada con la distribucion F (1, 6), lo que sugiere que no
hay diferencias debidas a los niveles del factor B. La prueba correspondiente para HA da
F = 25.82, que es significativa en comparacion con la distribucion F (2, 6). As llegamos
a la conclusion de que las medias de la respuesta son afectadas solo por diferencias
en los niveles del factor A. La opcion mas apropiada para el denominador de la razon
F , DS o DI , es discutible. DS viene de un modelo mas complejo y es mas probable
que corresponda a una distribucion central chi-cuadrada, pero tiene menos grados de
libertad.
El Cuadro ANOVA para estos datos se muestran en el Cuadro 6.11. El primer n
umero
T T
en la columna de la suma de cuadrados es el valor de b X y y correspondiente al
modelo mas simple E(Yjkl ) = .
Una caracterstica de estos datos es que las pruebas de hipotesis son independientes en
el sentido de que los resultados no se ven afectados por cuales terminos - distintos de
los relativos a la hipotesis en cuestion - estan tambien en el modelo.
Cuadro 6.6: Cuadro ANOVA para los datos en el Cuadro 6.8..
Fuente de
variacion
Media
Niveles de A
Niveles de B
Interacciones
Residuales
Total
Grados de
libertad
1
2
1
2
6
12
Suma de
cuadrados
648.2700
12.7400
0.4033
1.2067
1.4800
664.1000
Cuadrados
medios
6.3700
0.4033
0.6033
0.2467
25.82
1.63
2.45
Por ejemplo, la hipotesis de no diferencias debido al factor B, HB :k = 0 para todo

k, podra igualmente ser bien probado usando los modelos E(Yjkl ) = + j + k y
E(Yjkl ) = + j y por lo tanto
2 DB 2 DI = 3.0900 2.6867 = 0.4033,
o los modelos
E(Yjkl ) = + k
E(Yjkl ) =
y por tanto
2 DM 2 DA = 15.8300 15.4267 = 0.4033.
105
La razon es que los datos estan balanceados, es decir, hay un n

umero igual de observaciones en cada subgrupo. Para los datos balanceados es posible especificar la matriz
dise
no de tal manera que sea ortogonal (vease la Seccion 6.2.5 y Ejercicio 6.7). Un
ejemplo en el que las pruebas de hipotesis no son independientes se da en el Ejercicio
6.8.
Las medias muestrales para cada subgrupo pueden ser calculadas a partir de los valores
de b. Por ejemplo, para el modelo saturado (6.9) la media estimada del subgrupo con la
c 32 = 6.7+1.751.0+1.5 = 8.95.
combinacion de tratamiento A3 y B2 es
b+b
3 +b2 +()
La estimacion para la misma media a partir del modelo aditivo (6.10) es
b+
b3 + b2 = 6.383 + 2.5 0.367 = 8.516.
Esto demuestra la importancia de decidir que modelo utilizar para resumir los datos.
Para evaluar la adecuacion de un modelo AN OV A, los residuales deberan ser calculados y examinados para determinar si hay patrones inusuales, normalidad, independencia, y as sucesivamente, como se describe en la Seccion 6.2.6.
6.5.
An
alisis de covarianza
Analisis de covarianza es el termino utilizado para los modelos en los que algunas de
las variables explicatorias son variables dummy que representan los niveles de factores
y otros son mediciones continuas, llamadas covariables. Al igual que con ANOVA,
estamos interesados en la comparacion de medias de subgrupos definidas por niveles de
factores, pero, reconociendo que las covariables tambien pueden afectar a las respuestas, comparamos las medias despues de ajustarpara efectos de covarianza.
Un ejemplo tpico es proporcionado por los datos en el Cuadro 6.12. Las respuestas Yjk son medidas con los puntajes de rendimiento en tres niveles de un factor que
representa tres diferentes metodos de entrenamiento, y las covariables xjk son puntajes
de aptitud medidos antes de que el entrenamiento comenzara. Queremos comparar los
metodos de entrenamiento, teniendo en cuenta las diferencias en la aptitud inicial entre
los tres grupos de sujetos.
Los datos se representan graficamente en la Figura 6.1. Hay evidencia de que los
puntajes de rendimiento y incrementan linealmente con la aptitud x y que los valores
de y son generalmente mas grandes para los grupos de entrenamiento B y C que para
A.
Cuadro 6.12 Puntajes de rendimiento (datos de Winer, 1971, p.776.)
106
Metodo de entrenamiento
A
Sumas totales
de
cuadrados
P
xy
y
6
4
5
3
4
3
6
31
x
3
1
3
1
2
1
4
15
y
8
9
7
9
8
5
7
53
x
4
5
5
4
3
1
2
24
y
6
7
7
7
8
5
7
47
x
3
2
2
3
4
1
4
19
147
41
413
96
321
59
75
191
132
Para probar la hipotesis de que no hay diferencias en el rendimiento promedio de

puntajes de rendimiento entre los tres metodos de entrenamiento, despues del ajuste
de aptitud inicial, comparamos el modelo saturado
E(Yjk ) = j + xjk
(6.13)
E(Yjk ) = + xjk
(6.14)
con el modelo reducido

donde j = 1 para el metodo A, j = 2 para el metodo B y j = 3 para el metodo C, y
Figura 6.1 rendimiento y puntuaciones iniciales de aptitud: los crculos denotan el

metodo de entrenamiento A, las cruces denotan el metodo B y los diamantes denotan
el metodo C.
k = 1, . . . , 7. Sea
Yj1

yj = ...
Yj7

xj1
..
xj = .
xj7
tal que, en notacion matricial, el modelo saturado (6.13) es E(y) = X con

1
y1
1 0 0 x1
2
y = y2 , =
y
X = 0 1 0 x2
3
y3
0 0 1 x3
107
donde 0 y 1 son vectores de longitud 7. Entonces

7 0 0 15
31
0 7 0 24 T
53
XT X =
,
X
y
=
0 0 7 19
47
15 24 19 196
398
y as
2.837
5.024
b=
4.698 .
0.743
tambien yT y = 881 y bT XT y = 870.698 para el modelo saturado (6.13)
2 D1 = yT y bT XT y = 10.302.
Para el modelo reducido (6.14)

1 x1
=
, X = 1 x2
1 x3
y
as
21 58
X X=
58 196
T

131
X y=
.
398
T
por lo tanto

3.447 T T
b=
,b X y = 853.766 y as 2 D0 = 27.234.
1.011
Si suponemos que el modelo saturado (6.13) es correcto, entonces D1 2 (17). Si la
hipotesis nula correspondiente al modelo (6.14) es cierta, entonces D0 2 (19), as
F =
D0 D1 D1
/
F (2, 17).
2 2
17 2
Para estos datos
16.932 10.302
/
= 13.97
2
17
lo que indica una diferencia significativa en los puntajes de rendimiento de los metodos de entrenamiento, despues del ajuste de las diferencias iniciales en aptitud. La
presentacion habitual de este analisis se da en la Cuadro 6.13.
F =
Cuadro 6.13 Cuadro ANCOVA para los datos en el cuadro 6.11.

fuente de
variacion
Media y covarianza
Niveles de factor
Residuales
Total
Grados de
libertad
2
2
17
21
Suma de Cuadrados
cuadrados
medios
F
853.766
16.932
8.466
13.97
10.302
0.606
881.000
6.6.
108
Modelos lineales generales
El termino modelo lineal general es usado para los modelos lineales Normales con
cualquier combinacion de variables explicatorias categoricas y variables explicatorias
continuas. Los factores pueden ser cruzados, como en la Seccion 6.4.2., por lo que
hay observaciones para cada combinacion de niveles de los factores. Alternativamente,
pueden ser anidados como se ilustra en el siguiente ejemplo.
El cuadro 6.14 muestra un dise
no anidado de dos factores los cuales representan un
experimento para comparar dos farmacos (A1 y A2 ), una de las cuales es probada en
tres hospitales (B1 , B2 y B3 ) y el otro en dos hospitales diferentes (B4 y B5 ). Queremos comparar los efectos de dos farmacos y las posibles diferencias entre hospitales
utilizando el mismo medicamento. En este caso, el modelo saturado sera
E(Yjkl ) = + 1 + 2 + ()11 + ()12 + ()13 + ()24 + ()25
sujeto a algunas restricciones (las restricciones de punto esquina son 1 = 0, ()11 = 0
y ()24 = 0). Los hospitales B1 , B2 y B3 solo pueden ser comparados dentro de la
medicina A1 y los hospitales B4 y B5 con A2 .
Cuadro 6.14 Experimento de dos factores anidados.

Hospitales
Respuestas
B1
Y111
..
.
Droga A1
B2
Y121
..
.
B3
Y131
..
.
Droga A2
B4
Y241
..
.
B5
Y251
..
.
Y11n1
Y12n2
Y13n3
Y24n4
Y25n5
El analisis para dise

nos anidados no es en principio, diferente del analisis para estudios
con factores cruzados. Los principales supuestos para los modelos lineales generales
son que la variable respuesta tiene la distribucion Normal, la respuesta y las variables
explicatorias estan relacionadas linealmente y la varianza 2 es la misma para todas las
respuestas. Para los modelos considerados en este captulo, las respuestas tambien se
suponen independientes (aunque este supuesto se elimina en el captulo 11). Todas estas
suposiciones pueden ser examinadas mediante el uso de residuales (Seccion 6.2.6). Si
no estan justificadas, por ejemplo, debido a que los residuales tienen una distribucion
sesgada, entonces esto usualmente vale la pena considerar transformando la variable
respuesta, as el supuesto de normalidad es mas plausible. Una herramienta u
til, ahora
disponible en muchos programas estadsticos, es la transformaci
on Box-Cox (Box y
Cox, 1964). Sea y la variable y y* una transformada, entonces la funcion
(
y 1
,
6= 0
y =
log y,
=0
proporciona una familia de transformaciones. Por ejemplo, excepto para un cambio de
ubicacion, = 1 deja a y sin cambios; = 12 corresponde a tomar la raz cuadrada;
= 1 Corresponde al recproco; y = 0 corresponde a la transformacion logartmica.
El valor de el cual produce la distribucion mas normalpuede ser estimado por el
metodo de maxima verosimilitud.
Similarmente, la transformacion de variables explicatorias continuas puede mejorar la
linealidad de relaciones con la respuesta.
6.7.
109
Ejercicios
6.1 El cuadro 6.15 muestra el consumo per capita aparente promedio de az

ucar (en kg
por a
no) en Australia, como el az
ucar refinado y los alimentos manufacturados (de
las oficina Australiana de Estadstica, 1998).
Cuadro 6.15 El consumo de az
ucar en Australia.
Perodo
1936-39
1946-49
1956-59
1966-69
1976-79
1986-89
Az
ucar
refinada
32.0
31.2
27.0
21.0
14.9
8.8
Az
ucar en
comida manufacturada
16.3
23.1
23.6
27.7
34.6
33.9
(a) Grafica el consumo de az

ucar contra el tiempo separadamente para el az
ucar
refinado y el az
ucar en alimentos manufacturados. Ajusta modelos de regresion
lineal simple para resumir el patron de consumo de cada tipo de az
ucar. Calcula intervalos de confianza del 95 % para el promedio del cambio anual en el
consumo de cada forma.
(b) Calcula el promedio total de az
ucar para cada perodo y la grafica estos datos
en funcion del tiempo. Usando modelos adecuados prueba la hipotesis de que
el consumo total de az
ucar no cambia con el tiempo.
6.2 El Cuadro 6.16 muestra la respuesta de un sistema de hierbas y pastos de leguminosas a diversos cantidades de fertilizante fosforado (datos del D.F. Sinclair; los
resultados fueron reportados en Sinclair y Probert, 1986). El rendimiento total, de
hierbas y leguminosas juntas, y la cantidad de fosforo (K) estan ambos dados en
kilogramos por hectarea. Encuentra un modelo adecuado para describir la relacion
entre el rendimiento y la cantidad de fertilizante.
(a) Grafica el Rendimiento contra el fosforo para obtener una relacion lineal aproximadamente - Es posible que tenga que probar varias transformaciones de una
o ambas variables con el fin de lograr la linealidad aproximada.
(b) Usa los resultados de (a) para especificar un posible modelo. Ajusta el modelo.
(c) Calcula los residuales estandarizados para el modelo y usa graficas apropiadas
para algunos efectos sistematicos que podran sugerir modelos alternativos y
para investigar la validez de alg
un supuesto hecho.
6.3 Analiza los datos de carbohidratos en el Cuadro 6.3 usando el software apropiado (o,
preferentemente, repite el analisis usando varios programas diferentes de regresion
y compara los resultados).
Cuadro 6.16 Rendimiento de hierbas y pastos de leguminosas y niveles de fosforo
(K).
110
K Rendimiento K Rendimiento K Rendimiento

0
1753.9
15
3107.7
10
2400.0
40
4923.1
30
4415.4
5
2861.6
50
5246.2
50
4938.4
40
3723.0
5
3184.6
5
3046.2
30
4892.3
10
3538.5
0
2553.8
40
4784.6
30
4000.0
10
3323.1
20
3184.6
15
4184.6
40
4461.5
0
2723.1
40
4692.3
20
4215.4
50
4784.6
20
3600.0
40
4153.9
15
3169.3
(a) Grafica las respuestas y contra cada una de las variables explicatorias x1 , x2 y
x3 para ver si y parece estar relacionada linealmente con ellas.
(b) Ajusta el modelo (6.6) y examina los residuales para evaluar la adecuacion del
modelo y los supuestos.
(c) Ajusta los modelos
E(Yi ) = 0 + 1 xi1 + 3 xi3
y
E(Yi ) = 0 + 3 xi3 ,
(nota la variable x2 , relativa al peso, es omitida de ambos modelos) y usa estos
para probar la hipotesis: 1 = 0. Compara tus resultados con el Cuadro 6.5.
6.4 Es bien conocido que la concentracion de colesterol en la sangre aumenta con la
edad, pero no esta tan claro si tambien se asocia el nivel de colesterol con el peso corporal. El Cuadro 6.17 muestra para treinta mujeres de colesterol serico (milimoles
por litro), edad (a
nos) y el ndice de masa corporal (peso dividido por altura al
cuadrado, donde se midio el peso en kilogramos y la altura en metros). Utilice regresion m
ultiple para probar si el colesterol se asocia con el ndice de masa corporal
cuando la edad ya esta incluida en el modelo.
6.5 El Cuadro 6.18 muestra los niveles plasmaticos de fosfato inorganicos (mg/dl) una
hora despues de una prueba de tolerancia a la glucosa estandar para los sujetos
obesos, con o sin hiperinsulinemia, y controles (datos de Jones, 1987).
(a) Realiza un analisis de un factor de varianza para probar la hipotesis de que
no hay diferencias entre medias los tres grupos. Que conclusiones puedes tu
sacar?
(b) Obten un intervalo de confianza del 95 % para la diferencia de medias entre los
dos grupos obesos.
Cuadro 6.17 Colesterol (CHOL), edad e ndice de masa corporal (BMI) para
30 mujeres.

CHOL
5.94
4.71
5.86
6.52
6.8
5.23
4.97
8.78
5.13
6.74
5.95
5.83
5.74
4.92
6.69
Edad
52
46
51
44
70
33
21
63
56
54
44
71
39
58
58
BMI
20.7
21.3
25.4
22.7
23.9
24.3
22.2
26.2
23.3
29.2
22.7
21.9
22.4
20.2
24.4
CHOL
6.48
8.83
5.1
5.81
4.65
6.82
6.28
5.15
2.92
9.27
5.57
4.92
6.72
5.57
6.25
111
Edad
65
76
47
43
30
58
78
49
36
67
42
29
33
42
66
BMI
26.3
22.7
21.5
20.7
18.9
23.9
24.3
23.8
19.6
24.3
22
22.5
24.1
22.7
27.3
Cuadro 6.18 Niveles de fosfato en plasma en obesos y control de sujetos .

Obesos
hiperinsulinemico
2.3
4.1
4.2
4.0
4.6
4.6
3.8
5.2
3.1
3.7
3.8
Obesos
Controles
no-hiperinsulinemico
3.0
3.0
4.1
2.6
3.9
3.1
3.1
2.2
3.3
2.1
2.9
2.4
3.3
2.8
3.9
3.4
2.9
2.6
3.1
3.2
(c) Usando un modelo apropiado examina los residuales estandarizados para todas
las observaciones para buscar efectos sistematicos y para comprobar el Supuesto
de normalidad.
6.6 Los pesos (en gramos) de componentes de la maquina de un tama
no estandar hecha
por cuatro trabajadores diferentes en dos das diferentes se muestran en el Cuadro
6.19; cinco componentes fueron escogidos al azar de la salida de cada trabajador
en cada da. Realiza un analisis de varianza para probar las diferencias entre los
trabajadores, entre los das, y los posibles efectos de interaccion. Cuales son sus
conclusiones?
Cuadro 6.19 Pesos de componentes de maquina hechos por los trabajadores en
diferentes das.
1
Da 1 35.7
37.1
36.7
37.7
35.3
Da 2
34.7
35.2
34.6
36.4
35.2
112
Trabajadores
2
38.4
37.2
38.1
36.9
37.2
3
34.9
34.3
34.5
33.7
36.2
4
37.1
35.5
36.5
36.0
33.8
36.9
38.5
36.4
37.8
36.1
32
35.2
33.5
32.9
33.3
35.8
32.9
35.7
38.0
36.1
6.7 Para los datos equilibrados en el Cuadro 6.9, los analisis en la Seccion 6.4.2 mostrados que las pruebas de hipotesis eran independientes. Una especificacion alternativa
de la matriz dise
no para el modelo saturado (6.9) con las restricciones punto esquina
1 = 1 = ()11 = ()12 = ()21 = ()31 = 0 de manera que
1 1 1 1 1
1
1 1 1 1 1
1
1 1 1 1 1 1
1 1 1 1 1 1
2
1 1
0 1 1 0
3
1 1
0
1
1
0
=
es
X
=
2
1 1
0
1
1
0
1 1
()22
0
1
1
0
1 0
()32
1 1 0 1
1 0
1
1
0
1
1 0
1
1
0
1
1 0
1
1
0
1
donde las columnas de X correspondientes a los terminos ()jk son los productos
de columnas correspondientes a los terminos j y k .
(a) Muestra que XT X tiene la forma de diagonal por bloque descrita en la seccion
6.2.5. Ajusta el modelo (6.9) y tambien los modelos (6.10) a (6.12) y verifica
que los resultados en la Cuadro 6.9 son los mismos para esta especificacion de
X.
(b) Mostrar que las estimaciones de la media del subgrupo con tratamientos A3 y
B2 para dos modelos diferentes son los mismos que los valores dados en el final
de la Seccion 6.4.2.
6.8 El Cuadro 6.20 muestra los datos de un experimento de dos factores ficticios.
(a) Prueba la hipotesis de que no hay efectos de interaccion.
(b) Prueba la hipotesis de que no hay efectos debido al factor A
(i) mediante la comparacion de los modelos
E(Yjkl ) = + j + k
E(Yjkl ) = + k
113
(ii) mediante la comparacion de los modelos

E(Yjkl ) = + j
E(Yjkl ) = .
Explica los resultados.

Cuadro 6.20 Dos experimentos de factor con
Factor B
Factor A B1
A1
5
A2
6,4
A3
7
datos desequilibrados
B2
3,4
4,3
6,8
Captulo 7
Variables Binarias y Regresi
on
Logstica
7.1.
Distribuciones de probabilidad
En este captulo consideramos modelos lineales generalizados en el que la variable

respuesta se mide en una escala binaria. Por ejemplo, las respuestas pueden ser vivos o
muertos, o presente o ausente.Exito

y fracaso se utilizan como terminos genericos
de las dos categoras.
Primero, se define la variable aleatoria binaria
1 si el resultado es un exito
Z=
0 si el resultado es un fracaso
con probabilidades P r(Z = 1) = y P r(Z = 0) = 1 . Si hay n variables aleatorias
Z1 , . . . , Zn que son independientes con P r(Zj = 1) = j , entonces su probabilidad
conjunta es
" n
#

X
n
n
Y
X
zj
j
zj log
j (1 )1zj = exp
+
log(1 j )
(7.1)
1 j
j=1
j=1
j=1
que es un miembro de la familia exponencial (ver ecuacion (3.3)).
A continuacion, para el caso donde j s son iguales, definimos
Y =
n
X
Zj
j=1
por lo que Y es el n
umero de exitos en n ensayos. La variable aleatoria Y tiene distribucion binomial(n, ):

n y
P r(Y = y) =
(1 )ny , y = 0, 1, . . . , n
(7.2)
y
Finalmente, consideramos el caso general de N variables aleatorias independientes
Y1 , Y2 , . . . , YN correspondiente a el n
umero de exitos en N diferentes subgrupos o estratos (Cuadro 7.1). Si Yi binomial(ni , i ) la funcion de log-verosimilitud es
" N

#

X
i
ni
+ ni log(1 i ) + log
. (7.3)
l(1 , . . . , N ; y1 , . . . , yN ) =
yi log
yi
1
i
i=1
114
LOGISTICA
CAPITULO 7. VARIABLES BINARIAS Y REGRESION
115
Cuadro 7.1: Frecuencias para N distribuciones binomiales..
Exitos
Fracasos
Totales
7.2.
1
Y1
n1 Y 1
n1
Subgrupos
2
...
Y2
...
n2 Y 2 . . .
n 2 ...
N
YN
nN YN
nN
Modelos lineales generalizados
Queremos describir la proporcion de exitos, Pi = Yi /ni , en cada subgrupo en terminos de niveles de factores y otras variables explicatorias que caracterizan el subgrupo.
Como E(Yi ) = ni i entonces E(Pi ) = i , modelamos las probabilidades i como
g(i ) = xTi .
donde xi es un vector de variables explicatorias (variables dummy para los niveles de
factor y valores medidos para covariables), es un vector de parametros y g es una
funcion liga.
El caso mas simple es el modelo lineal
= xTi
Esto se utiliza en algunas aplicaciones practicas, pero tiene la desventaja de que aunque
es una probabilidad, los valores ajustados xTi b pueden ser menor que cero o mayor
que uno.
Para asegurarse de que esta restringida al intervalo [0,1] es a menudo modelada
usando una distribucion de probabilidad acumulada
Z t
=
f (s)ds
donde f (s) 0 y f (s)ds = 1. La funcion de densidad de probabilidad f (s) es

llamada la distribuci
on de tolerancia. Algunos ejemplos de uso com
un son considerados en la Seccion 7.3
7.3.
Modelos de respuesta a dosis
Historicamente, uno de los primeros usos de los modelos de regresion para datos
binomiales fueron para los resultados de bioensayo (Finney, 1973). Las respuestas fueron
las proporciones o porcentajes de exitos; por ejemplo, la proporcion de animales
experimentales muertos por diversos niveles de dosis de una sustancia toxica. Estos
datos se denominan a veces respuestas cuantales. El objetivo es describir la probabilidad de exito, , como una funcion de la dosis, x; por ejemplo, g() = 1 + 2 x.
Si el distribucion de tolerancia f (s) de es la distribucion uniforme en el intervalo
[c1 , c2 ]
LOGISTICA
116
Figura 7.1: Distribucion uniforme: f (s) y .
f (s) =
entonces
1
c2 c1
0 en otro caso
f (s)ds =
c1
si c1 s c2 ,
x c1
,
c2 c1
para c1 x c2
(ver Figura 7.1). Esta ecuacion tiene la forma = 1 + 2 x donde

1 =
c1
c2 c1
2 =
1
c2 c1
Este modelo lineal es equivalente a usar la funcion de identidad como la funcion de

enlace g e imponer condiciones sobre x, 1 y 2 correspondiente a c1 x c2 . Estas
condiciones adicionales significan que los metodos estandar para la estimacion de 1
y 2 para los modelos lineales generalizados no pueden aplicarse directamente. En la
practica, este modelo no es ampliamente utilizado.
Uno de los modelos originales utilizados para datos bioensayo se llama el modelo
probit. La distribucion normal se utiliza como la distribucion de tolerancia (ver Figura
7.2).
"

2 #
Z x
1 s
1
exp
ds
=
2
2

x
=
donde denota la funcion de probabilidad acumulada de la distribucion Normal estandar N (0, 1). As
1 = 1 + 2 x
donde 1 = / y 2 = 1/ y la funcion liga es la inversa de la funcion de probabilidad
acumulada Normal estandar 1 . Los modelos probit son utilizados en diversas areas de
las ciencias biologicas y sociales en las que hay interpretaciones naturales del modelo;
por ejemplo, x = es llamada la dosis letal media LD(50) porque corresponde a la
dosis que se puede esperar para matar a la mitad de los animales.
LOGISTICA
117
Figura 7.2: Distribucion Normal : f (s) y .

Otro modelo que da resultados numericos muy similares a los del modelo probit, pero
que computacionalmente es algo mas facil, es el modelo logstico o logit. La distribucion
de tolerancia es
2 exp(1 + 2 s)
f (s) =
[1 + exp(1 + 2 s)]2
as
f (s)ds =
exp(1 + 2 x)
.
1 + exp(1 + 2 x)
Esto da la funcion liga

log

= 1 + 2 x.
El termino log[/(1 )] a veces es llamada la funci

on logit y tiene una interpretacion natural como el logaritmo de los momios (vease el ejercicio 7.2). El modelo
logstico es ampliamente utilizado para datos binomiales y esta implementado en muchos programas estadsticos. Las formas de las funciones f (s) y (x) son similares a las
del modelo probit (Figura 7.2), excepto en las colas de las distribuciones (vease Cox y
Snell, 1989).
Muchos otros modelos tambien se utilizan para los datos de respuesta a dosis. Por
ejemplo, si la distribuci
on de valores extremos
f (s) = 2 exp[(1 + 2 s) exp(1 + 2 s)]
es usada como la distribucion de tolerancia entonces
= 1 exp[ exp(1 + 2 x)]
y as log[ log(1 )] = 1 + 2 x. Esta liga, log[ log(1 )] es llamada la log log
funci
on complementaria . El modelo es similar a los modelos logstico y probit para
los valores de cerca de 0.5, pero difiere de ellos para cerca de 0 o 1. Estos modelos
se ilustran en el siguiente ejemplo.
LOGISTICA
118
Figura 7.3: Los datos de mortalidad del escarabajo del Cuadro 7.2: proporcion de
muertes, pi = yi /ni , graficada contra la dosis, xi (log10 CS2 mgl1 ).
7.3.1.
Ejemplo: Mortalidad del escarabajo
El Cuadro 7.2 muestra el n

umero de escarabajos muertos despues de cinco horas
de exposicion al sulfuro de carbono gaseoso en varias concentraciones (datos de Bliss,
1935). La Figura 7.3 muestra las proporciones pi = yi /ni graficada contra las dosis, xi
(en realidad xi es el logaritmo de la cantidad de disulfuro de carbono)
Cuadro 7.2: Datos de la mortalidad del escarabajo.
Dosis, xi
(log10 CS2 mgl1 )
1.6907
1.7242
1.7552
1.7842
1.8113
1.8369
1.8610
1.8839
N
umero de
escarabajos,ni
59
60
62
56
63
59
62
60
N
umero de
muertes, yi
6
13
18
28
52
53
61
60
Comenzamos ajustando el modelo logstico

i =
asi

log
exp(1 + 2 xi )
1 + exp(1 + 2 xi )
i
1 i

= 1 + 2 xi .
y
log(1 i ) = log[1 + exp(1 + 2 xi )].
LOGISTICA
119
Por lo tanto apartir de la ecuacion (7.3) la funcion de log-verosimilitud es

l=
N
X
i=1

ni
yi (1 + 2 xi ) ni log[1 + exp(1 + 2 xi )] + log
yi
y los escores con respecto a 1 y 2 son

X
X
exp(1 + 2 xi )
l
=
yi ni
=
(yi ni i )
U1 =
1
1 + exp(1 + 2 xi )

X
X
l
exp(1 + 2 xi )
U2 =
=
y i xi n i xi
=
xi (yi ni i )
2
1 + exp(1 + 2 xi )
Similarmente la matriz de informacion es

P
P
ni i (1 i )
ni xi i (1 i )
.
= P
P
2
ni xi i (1 i )
ni xi i (1 i )
El Estimador de Maxima verosimilitud es obtenido resolviendo la ecuacion iterativa
(m1) b(m) = (m1) b(m1) + U (m1)
(de (4.22)) donde el superindice (m) indica la m-esima aproximacion y b es el vector
(0)
(0)
de estimaciones. Comenzando con b1 = 0 y b2 = 0. aproximaciones sucesivas se
muestran en el Cuadro 7.3. Las estimaciones convergen por la sexta iteracion. La cuadro
tambien muestra el aumento en los
de la funcion de log-verosimilitud (7.3)
valores

ni
omitiendo el termino constantes log
. Los valores ajustados son ybi = ni bi , calculado
yi
en cada etapa (inicialmente bi = 12 para todo i ).
Para la aproximacion final, la matriz de varianza-covarianza estimada para b, [(b)]1 ,
se muestra en la parte inferior del Cuadro 7.3 junto con la desvianza
D=2
N
X
i=1

yi
n yi
yi log
+ (ni yi ) log
ybi
n ybi
(de la Seccion 5.6.1)

Los estimadores y sus errores estandar son:
b1 = 60.72, error estandar = 26.840 = 5.18

y b2 = 34.72, error estandar = 8.481 = 2.91.
Si el modelo es un buen ajuste de los datos la desvianza debe tener aproximadamente
la distribucion 2 (6) porque hay N = 8 patrones de covarianza (es decir diferentes
valores de xi ) y p = 2 parametros. Pero el valor calculado de D es casi el doble del
valor esperadode 6 y es casi tan grande como el punto 5 % superior de la distribucion
2 (6), que es 12.59. Esto sugiere que el modelo no se ajusta particularmente bien.
LOGISTICA
120
Cuadro 7.3: Ajuste de un modelo logstico lineal a los datos de mortalidad del escarabajo.
estimacion
inicial
1
0
2
0
log-verosimilitud -333.404
observaciones
y1
6
y2
13
y3
18
y4
28
y5
52
y6
53
y7
61
y8
60
1
[(b)]
29.5
30.0
31.0
28.0
31.5
29.5
31.0
30.0
Aproximaciones
primera
segunda
sexta
-37.856
-53.853
-60.717
21.337
30.384
34.270
-200.010
-187.274
-186.235
Valores ajustados
8.505
4.543
15.366
11.254
24.808
23.058
30.983
32.947
43.362
48.197
46.741
51.705
53.595
58.061
54.734 58.0366 58.743
3.458
9.842
22.451
33.898
50.096
53.291
59.222

26.840 15.082
=
, D = 11.23
15.082 8.481
Varios modelos alternativos fueron ajustados a los datos. Los resultados se muestran
en la Tabla 7.4. Entre estos modelos el modelo de valor extremo parece encajar mejor
los datos.
7.4.
Modelo de regresi
on logstica general
El modelo logstico lineal simple log[/(1 )] = 1 + 2 xi usado en el Ejemplo

7.3.1 es un caso especial del modelo de regresion logstica en general

i
logit i = log
= xTi
1 i
donde xi es un vector de mediciones continuas correspondientes a las covariables y
variables dummy correspondiente a los niveles de factor y es el vector de parametros.
Este modelo es muy utilizado para el analizar los datos relacionados con respuestas
binarias o binomiales y varias variables explicatorias. Proporciona una poderosa tecnica
analoga a la regresion m
ultiple y ANOVA para las respuestas continuas.
Las estimaciones de maxima verosimilitud de los parametros , y por consiguiente de
las probabilidades i = g(xTi ), se obtienen al maximizar la funcion de log-verosimilitud

N
X
ni
l(; y) =
yi log i + (ni yi ) log(1 i ) + log
yi
i=1
usando los metodos descritos en el Captulo 4.
(7.4)
LOGISTICA
121
Cuadro 7.4: La comparacion de los n

umeros muertos observados con valores ajustados obtenidos de varios modelos de dosis-respuesta para los datos de mortalidad del
escarabajo. Tambien se dan estadsticas desvianza.
Valor
observado
de Y
6
13
18
28
52
53
61
60
D
Modelo Modelo
Modelo
Logstico Probit de valores
extremos
3.46
3.36
5.59
9.84
10.72
11.28
22.45
23.48
20.95
33.90
33.82
30.37
50.10
49.62
47.78
53.29
53.32
54.14
59.22
59.66
61.11
58.74
59.23
59.95
11.23
10.12
3.45
El proceso de estimacion es esencialmente el mismo si los datos se agrupan como

frecuencias para cada patr
on de covariable (es decir, observaciones con los mismos
valores de todas las variables explicatorias) o cada observacion esta codificado 0 o 1
y su patron de covariable se enumera por separado. Si los datos se pueden agrupar,
la respuesta Yi , el n
umero de exitospara el patron de covarianza i, puede ser modelado por la distribucion binomial. Si cada observacion tiene un patron de covarianza
diferente, entonces ni = 1 y la respuesta Yi es binario.
La desvianza, derivada en la Seccion 5.6.1 es

N
X
ni y i
yi
+ (ni yi ) log
(7.5)
D=2
yi log
y
b
n
y
b
i
i
i
i=1
Esto tiene la forma
o
e
donde o denota las frecuencias observadas y (ni yi ) de las celdas del Cuadro 7.1
y e denota las correspondientes frecuencias estimadas esperada o valores ajustados
ybi = ni bi y (ni ybi ) = (ni ni
bi ). La suma es sobre todas las 2 N celdas del cuadro.
Observe que D no implica ning
un parametro de ruido (como 2 de datos de respuesta
normal), as la bondad de ajuste se puede evaluar y las hipotesis se puede probar
directamente utilizando la aproximacion
D=2
o log
D = 2 (N p)
donde p es el n
umero de parametros estimados y N el n
umero de patrones de covariable.
Los metodos de estimacion y distribuciones de muestreo utilizados para la inferencia
dependen de resultados asintoticos. Para los estudios peque
nos o situaciones en las
que hay pocas observaciones para cada patron de covariable, los resultados asintoticos
pueden ser aproximaciones pobres. Sin embargo software, como StatXact y Log Xact,
ha sido desarrollado utilizando metodos exactos de manera que los metodos descritos
en este captulo se pueden utilizar incluso cuando los tama
nos de muestra son peque
nos.
LOGISTICA
7.4.1.
122
Ejemplo: anteras embriog

enicas
Los datos del Cuadro 7.5, cited by Wood (1978), se han tomado de Sangwan-Norrell
(1977). Son n
umeros yjk de anteras embriogenicas de las especies de plantas Datura
innoxia Mill. Obtenidos cuando los n
umeros njk de anteras se prepararon bajo varias
condiciones diferentes. Hay un factor cualitativo con dos niveles, un tratamiento que
consiste en el almacenamiento a 3 C durante 48 horas o una condicion de control de
almacenamiento, y una variable explicatoria continua representados por tres valores
de fuerza de centrifugacion. Vamos a comparar los efectos del tratamiento y de control
sobre las proporciones despues del ajuste (si es necesario) para fuerza de centrifugacion.
Cuadro 7.5: Datos de antera Embriogenicas .
condiciones de almacenamiento
Control
Tratamiento
y1k
n1k
fuerza de centrifugacion (g)

40 150
350
55 52
57
102 99
108
y2k
n2k
55
76
50
81
50
90
La proporcion pjk = yjk /njk en los grupos de control y tratamiento se grafican contra
xk , el logaritmo de la fuerza de centrifugacion, en la Figura 7.4. Las proporciones de
respuesta parecen ser mas altas en el grupo de tratamiento que en el grupo de control y,
al menos para el grupo tratado, la respuesta disminuye con la fuerza de centrifugacion.
Vamos a comparar los tres modelos logsticos para jk , la probabilidad de que las
anteras sean embriogenicos donde j = 1 para grupo de control y j = 2 para el grupo
de tratamiento x1 = log 40 = 3.689, x2 = log 150 = 5.011 y x3 = log 350 = 5.858.
Modelo 1: logit jk = j + j xk (es decir, diferentes interceptos y pendientes)
Modelo 2: logit jk = j + xk (es decir, diferentes interceptos pero misma pendientes)
Modelo 3: logit jk = + xk (es decir, mismo intercepto y pendientes)
LOGISTICA
123
Figura 7.4: Datos de Antera del Cuadro 7.5: proporcion de germinaron pik = yik /nik
graficados contra el log (fuerza de centrifugacion); los puntos representan la condici
on
de tratamiento y los diamantes representan la condicion de control.
Estos modelos se ajustaron mediante el metodo de maxima verosimilitud. Los resultados se resumen en el Cuadro 7.6. Para probar la hipotesis nula de que la pendiente
es la misma para los grupos de tratamiento y de control, utilizamos D2 D1 = 2.591.
De las tablas para la distribucion 2 (1), el nivel de significancia es de entre 0,1 y 0,2
y as podramos concluir que los datos proporcionan poca evidencia en contra de la
hipotesis nula de igualdad de pendientes. Por otro lado, el poder de esta prueba es muy
baja y ambos Figura 7.4 y las estimaciones de Modelo 1 sugieren que, aunque la pendiente para el grupo control puede ser cero, la pendiente para el grupo de tratamiento
es negativo. La comparacion de las desvianzas de los modelos 2 y 3 da una prueba para
la igualdad de los efectos de control y tratamiento despues de un ajuste com
un para la
fuerza de centrifugacion: D3 D2 = 0.5.472, lo cual es consistente con la hipotesis de
que los efectos de almacenamiento no son diferentes. Las proporciones observados y los
valores ajustados correspondientes para los modelos 1 y 2 se muestran en la Tabla 7.7.
Obviamente, el modelo 1 ajusta a los datos muy bien, pero esto no es sorprendente,
ya que cuatro parametros se han utilizado para describir seis puntos de datos - tal
sobre-ajusteno es recomendable!.
7.5.
Estadsticos de bondad de ajuste
En lugar de utilizar la estimacion de maxima verosimilitud podramos estimar los

parametros minimizando la suma de cuadrados ponderada
Sw =
N
X
(yi ni i )2
ni i (1 i )
i=1
dado E(Yi ) = ni i y var(Yi ) = ni i (1 i ).
LOGISTICA
124
Cuadro 7.6: Estimaciones de maxima verosimilitud y desvianzas para los modelos logsticos para los datos de anteras embriogenicas (errores estandar de las estimaciones entre
parentesis) .
Modelo 1
a1 = 0.234(0.628)
a2 - a1 = 1.977(0.998)
b1 = -0.023(0.127)
b2 - b1 = -0.319(0.199)
D1 = 0.028
Modelo 2
a1 = 0.877(0.487)
a2 - a1 = 0.407(0.175)
b = -0.155(0.097)
Modelo 3
a = 1.021(0.481)
b = -0.148(0.096)
D2 = 2.619
D3 = 8.0916
Cuadro 7.7: Frecuencias observadas y esperadas para los datos de anteras embriogenicas
para varios modelos.
Condicion
Valor de
Frecuencia
almacenamiento
Control
covarianza
x1
x2
x3
x1
x2
x3
observada
55
52
57
55
50
50
Tratamiento
Modelo 1
54.82
52.47
56.72
54.83
50.43
49.74
Frecuencias
esperadas
Modelo 2
58.75
52.03
53.22
51.01
50.59
53.40
Modelo 3
62.91
56.40
58.18
46.88
46.14
48.49
Esto es equivalente a minimizar el estadstico Chi-cuadrado de Pearson

X2 =
X (o e)2
e
donde o representa las frecuencias observadas in el Cuadro 7.1, e representa las frecuencias esperadas y la sumatoria es sobre todas las 2 N celdas del Cuadro. La razon es
que
X2 =
N
X
(yi ni i )2
i=1
N
X
i=1
ni i
N
X
[(ni yi ) ni (1 i )]2
i=1
ni (1 i )
(yi ni i )2
(1 i + i ) = Sw .
ni i (1 i )
Cuando X 2 es evaluada en las frecuencias estimadas esperadas, el estadstico es

N
X
(yi ni
bi )2
X =
ni
bi (1
bi )
i=1
2
(7.6)
LOGISTICA
125
el cual es asintoticamente equivalente a la desvianza en (7.5),

N
X
yi
ni yi
D=2
yi log
+ (ni yi ) log
.
ni
bi
ni ni
bi
i=1
La prueba de la relacion entre X 2 y D usa la expansion de las series de Taylor de
s log(s/t) cerca de s = t, a saber,
s log
s
1 (s t)2
= (s t) +
+ ...
t
2
t
As
D=2
N
X
i=1
{(yi ni
bi ) +
1 (yi ni
bi )2
+ [(ni yi ) (ni ni
bi )]
2
ni
bi
bi )]2
1 [(ni yi ) (ni ni
+ . . .}
2
ni ni
bi
N
X
(yi ni
bi )2
= X 2.
=
n
b
(1
b
)
i
i
i
i=1
La distribucion asintotica de D, bajo la hipotesis de que el modelo es correcto, es

D 2 (N p), por lo tanto, aproximadamente X 2 2 (N p). La seleccion entre D
y X 2 depende de la adecuacion de la aproximacion a la distribucion 2 (N p). Existe
cierta evidencia que sugiere que X 2 es a menudo mejor que D porque D esta indebidamente influenciada por frecuencias muy peque
nas (Cressie y Read, 1989). Ambas
aproximaciones son probablemente pobres, si las frecuencias esperadas son demasiado
peque
nas (por ejemplo, menos de 1).
En particular, si cada observacion tiene un diferente patron de covariables yi que es
cero o uno, entonces ni D ni X 2 proporciona una medida u
til de ajuste. Esto puede
suceder si las variables explicatorias son continuas, por ejemplo. La aproximacion mas
com
unmente usada en esta situacion se debe a Hosmer y Lemeshow (1980). Su idea fue
a un grupo de observaciones en categoras sobre la base de sus probabilidades predichas.
Tpicamente cerca de 10 grupos son usados con aproximadamente el mismo n
umero de
observaciones en cada grupo. Los n
umeros observados de los exitos y fracasos en cada uno de los g grupos son resumidos como se muestra en el Cuadro 7.1. Entonces el
estadstico chi-cuadrado de Pearson para un cuadro de contingencia de g 2 es calculado y usado como una medida de ajuste. Denotamos este estadstico de Hosmer
2
2
Lemeshow por XHL
. La distribucion muestral de XHL
ha sido encontrada por sim2
ulacion a ser aproximadamente (g 2). El uso de esta estadstica se ilustra en el
ejemplo en la Seccion 7.9.
A veces la funcion de log-verosimilitud para el modelo ajustado es comparada con la
funcion log-verosimilitud para un modelo minimal, en el que los valores de i son todos
iguales (en contraste con el modelo saturado
el cual es usado para definir la desvianP
P
za). Bajo el modelo minimal
= ( yi )/( ni ). Sea
bi que denota la probabilidad
estimada para Yi bajo el modelo de interes (as el valor ajustado es ybi = ni
bi ).
El estadstico esta definido por
y)]
C = 2[l(b
; y) l(;
LOGISTICA
126
donde l es la funcion log-verosimilitud dada por (7.4).

as

X
ybi
ni ybi
C=2
yi log
+ (ni yi ) log
n
i
ni ni
i
De los resultados en la seccion 5.5, la distribucion muestral aproximada para C es
2 (p 1) si todos los p parametros excepto el termino intercepto 1 son cero (vease el
ejercicio 7.4). De lo contrario C tendra una distribucion no central. As C es un estadstico de prueba para la hipotesis de que ninguna de las variables explicatorias es necesaria
para un modelo parsimonioso. C es aveces llamado estadstico chi-cuadrado de
raz
on de verosimilitud.
En el ejemplo de la mortalidad de escarabajos (Seccion 7.3.1), C = 272.97 con un grado
de la libertad, lo que indica que la pendiente del parametro 1 es sin duda necesario!
Por analoga con R2 para regresion lineal m
ultiple (vease la Seccion 6.3.2) otro estadstico a veces usado es
pseudoR2 =
y) l(b
l(;
; y)
y)
l(;
el cual representa la mejora proporcional en la funcion de log-verosimilitud debido a los

terminos en el modelo de interes, comparado con el modelo minimal. Esto es producido
por algunos programas estadsticos como un estadstico de bondad de ajuste.
7.6.
Residuales
Para regresion logstica hay dos formas principales de residuales correspondientes a la

bondad de ajuste medidas D y X 2 . Si hay m patrones de covariables diferentes entonces
m residuales pueden ser calculadas. Sea Yk el n
umero de exitos, nk el n
umero de ensayos
y
bk la probabilidad estimada de exito para el k-esimo patron de covariable de orden.
El residual de Pearson o chi-cuadrado es
(yk nk
bk )
Xk = p
nk
bk (1
bk )
, k = 1, . . . , m.
(7.7)
P
2
2
stico de bondad de ajuste Chi-cuadrado de Pearson.
De (7.6), m
k=1 Xk = X , el estad
Los residuales de Pearson estandarizados son
Xk
rP k =
1 hk
donde hk es el leverach, el cual es obtenido de la matriz sombrero (ver seccion 6.2.6).
Los residuales de desvianza pueden ser definidos similarmente,

1/2
yk
nk yk
dk = sign(yk nk
bk ) 2 yk log
+ (nk yk ) log
(7.8)
nk
bk
nk nk
bk
donde el termino sign(y
bk ) asegura que dk tiene el mismo signo que Xk .
P k n2k
De la ecuacion (7.5), m
d
=
D, es la desvianza. Tambien los residuales estandarizak=1 k
dos de la desvianza estan definidos por
dk
rDk =
.
1 hk
LOGISTICA
127
Estos residuales pueden ser usados para verificar la adecuacion de un modelo, como
se describio en la Seccion 2.3.4. Por ejemplo, deben ser graficados contra cada variable explicatoria contnua en el modelo para comprobar si el supuesto de linealidad
es apropiado y contra otras posibles variables explicatorias no includas en el modelo.
Ellas deberan ser graficadas en el orden de las mediciones, en su caso, para verificar
si hay correlacion seria. Los Graficos de probabilidad Normal tambien se puede usadas
debido a que los residuos estandarizados deben tener, aproximadamente, distribucion
Normal estandar N (0, 1), proporcionados los n
umeros de observaciones para cada patron de covarianza no son demasiado peque
nos.
Si los datos son binarios, o si ni es peque
no para la mayora de los patrones de covarianza, entonces hay pocos valores distintos de los residuales y las graficas pueden ser
relativamente no informativas. En este caso, puede ser necesario confiar en la bondad
de ajuste estadstica agregada X 2 y D y otros diagnosticos (ver seccion 7.7).
Para mas detalles sobre el uso de residuales de datos binomiales y binarios ver el
Captulo 5 de Collett (1991), por ejemplo.
7.7.
Otros diagn
osticos
Por analoga con los estadsticos utilizados para detectar observaciones influenciales
en regresion lineal m
ultiple, los estadsticos delta-beta, delta-chi cuadrado y deltadesvianza estan tambien disponibles para regresion logstica (ver Seccion 6.2.7).
Para datos binarios o binomiales hay cuestiones adicionales a considerar. La primera
es comprobar la eleccion de la funcion liga. Brown (1982) desarrollo una prueba para
la liga logit la cual es implementada en algunos programas. El enfoque sugerido por
Aranda-Ordaz (1981) es considerar una familia mas general de funciones liga

(1 ) 1
.
g(, ) = log
Si = 1, entonces g() = log[/(1 )], es la funcion liga logit. Cuando, 0, entonces g() log[ log(1)], es la funcion liga log-log complementaria. En principio,
un valor optimo de puede ser estimado de los datos, pero el proceso requiere varios
pasos. En ausencia de un software adecuado para identificar la mejor funcion liga es
recomendable experimentar con varias funciones liga alternativas.
La segunda cuestion en la evaluacion de la adecuacion de modelos para datos binarios
o binomiales es la sobredispersi
on. Las observaciones Yi , que se podra esperar que
corresponden a la distribucion binomial pueden tener varianza mayor que ni pi (1 ).
Hay un indicador de este problema si la desvianza D es mucho mayor que el valor
esperado de N p. Esto podra deberse a la especificacion inadecuada del modelo (por
ejemplo, variables explicatorias relevantes han sido omitidas o la funcion liga es incorrecta) o a una estructura mas compleja. una aproximacion es incluir un parametro
extra en el modelo tal que var(Yi ) = ni i (1 i ).
Esto se implementa de diversas maneras en softwares estadsticos. Otra posible explicacion de sobredispersion es que las Yi no son independientes. Metodos para la modelacion de datos correlacionados se describe en el Captulo 11. Para una detallada
discusion de sobredispersion para datos binomiales, ver Collett (1991), Captulo 6.
LOGISTICA
7.8.
128
Ejemplo: Senilidad y WAIS
Una muestra de personas de edad avanzada fue dada para examinacion a un psiquiatra
para determinar si los sntomas de la senilidad estaban presentes. Otras medidas tomadas
en el mismo tiempo incluidas la puntuacion en un subconjunto de escala de inteligencia
de adultos de Wechsler (WAIS). Los datos se muestran en el Cuadro 7.8.
Cuadro 7.8: Sntomas de senilidad (s = 1 si los sntomas estan presentes y s = 0 en
otro caso) y WAIS puntuacion (x) para N = 54 personas.
x
9
13
6
8
10
4
14
8
11
7
9
s
1
1
1
1
1
1
1
1
1
1
1
x
7
5
14
13
16
10
12
11
14
15
18
s
1
1
1
0
0
0
0
0
0
0
0
x
7
16
9
9
11
13
15
13
10
11
6
s
0
0
0
0
0
0
0
0
0
0
0
x
17
14
19
9
11
14
10
16
10
16
14
s
0
0
0
0
0
0
0
0
0
0
0
x
13
13
9
15
10
11
12
4
14
20
s
0
0
0
0
0
0
0
0
0
0
Los datos del Cuadro 7.8 son binarios aunque algunas personas tienen el mismo
puntaje WAIS y as hay m = 17 diferentes patrones de covarianza (ver Cuadro 7.9).
Sea Yi que denota el n
umero de personas con sntomas entre las ni personas con el
patron de covarianza i-esimo. El modelo de regresion logstica

i
log
= 1 + 2 xi ;
Yi binomial(ni , i )
i = 1, . . . , m,
1 i
fue ajustado con los siguientes resultados:
b1 = 2.404, error estandar (b1 ) = 1.192,
b2 = 0.3235,
P 2 error estandarP(b22) = 0.1140,
2
X = Xi = 8.803 y D = di = 9.419.
Como hay m = 17 patrones de covarianza y p = 2 parametros, X 2 y D pueden ser
comparados con 2 (15) - por estos criterios el modelo parece ajustar bien. Para el
modelo minimal, sin x, el valor maximo de la funcion log-verosimilitud es l(
, y) =
30.9032. Para el modelo con x, el valor correspondiente es l(b
, y) = 25.5087. Por lo
tanto, de la Seccion 7.5, C = 10.789 el cual es altamente significativo comparado con
2 (1), mostrando que el parametro de pendiente es distinto de cero. Tambien el pseudo
R2 = 0.17 el cual sugiere que el modelo no es particularmente bueno.
LOGISTICA
129
Figura 7.5: Relacion entre la presencia de sntomas y puntajes WAIS de los datos en el
Cuadro 7.8 y 7.9; los puntos representan probabilidades estimadas y los diamantes las
proporciones observadas.
La figura 7.5 muestra las frecuencias relativas observadas yi /ni para cada patron de
covariable y las probabilidades ajustadas
bi graficadas contra la puntuacion WAIS, x
(para i = 1, . . . , m). El modelo parece ajustarse mejor a los valores mas altos de x.
El Cuadro 7.9 muestra los patrones de covarianza, las estimaciones
bi y los correspondientes residuales chi-cuadrado y de desvianza calculados usando las ecuaciones (7.7)
y (7.8) respectivamente.
Los residuales y las graficas de residuales asociados (no mostrados) no sugieren que
hay observaciones inusuales pero el peque
no n
umero de observaciones para cada valor
de covarianza hace que los residuales sean difciles de evaluar. La aproximacion de
Hosmer Lemeshow ofrece cierta simplificacion; El Cuadro 7.10 muestra los datos en las
categoras definidas por la agrupacion de valores de
bi de manera que el n
umero total
de observaciones por categora son aproximadamente iguales. Para esta ilustracion, se
seleccionaron g = 3P
categoras. Las frecuencias
esperadas son obtenidas de los valores
P
del Cuadro 7.9; hay ni
bi con sntomas y ni (1b
i ) sin sntomas para cada
a.
P categor
2
2
2
El estadstico de Hosmer Lemeshow XHL es obtenido por calcular X = [(o e) /e]
donde las frecuencias observadas, e, son dadas en el Cuadro 7.10 y la suma es sobre
2
todas las 6 celdas del Cuadro; XHL
= 1.15 que no es significativo cuando es comparado
2
con la distribucion (1).
7.9.
Ejercicios
7.1 El n
umero de muertes por leucemia y otros tipos de cancer entre los sobrevivientes
de la bomba atomica de Hiroshima se muestran en el Cuadro 7.11, clasificado
por la dosis de radiacion recibida. Los datos se refieren a las muertes durante el
perodo 1950- 1959 entre los sobrevivientes que fueron de 25 a 64 a
nos en 1950 (del
conjunto de datos 13 de Cox y Snell, 1981, atribuido a Otake, 1979). Obten un
modelo adecuado para describir la relacion dosis-respuesta entre la radiacion y la
LOGISTICA
130
Cuadro 7.9: Patrones de covariables y respuestas, probabilidades estimadas (b

), residuales de Pearson (X) y desvianzas (d) para senilidad y WAIS.
x
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Suma
y
1
0
1
1
0
4
5
5
2
5
5
3
4
1
1
1
1
40
b
X
d
2
0.751
-0.826
-0.766
1
0.687
0.675
0.866
2
0.614
-0.330
-0.326
3
0.535
0.458
0.464
2
0.454
1.551
1.777
6
0.376
-0.214
-0.216
6
0.303
-0.728
-0.771
6
0.240
-0.419
-0.436
2
0.186
-0.675
-0.906
6
0.142
0.176
0.172
7
0.107
1.535
1.306
3
0.080
-0.509
-0.705
4
0.059
-0.500
-0.696
1
0.043
-0.213
-0.297
1
0.032
-0.181
-0.254
1
0.023
-0.154
-0.216
1
0.017
-0.131
-0.184
54
Suma
de
8.084
9.418
cuadrados
*Las sumas de cuadrados difieren ligeramente de la bondad de ajuste estadsticos
X 2 y D mencionados en el texto debido a errores de redondeo.
las tasas de mortalidad proporcional para la leucemia.

7.2 La raz
on de momios. Considera una tabla de contingencia de 2 2 de un estudio
prospectivo en que las personas que estuvieron o no expuestas a alg
un contaminante
siguen en pie y, despues de varios a
nos, categorizadas de acuerdo a la presencia
o ausencia de una enfermedad. El cuadro 7.12 muestra las probabilidades para cada
celda. Las probabilidades de enfermarse si el grupo de exposicion es Oi = i /(1i ),
para i = 1, 2, y as el radio odds
=
1 (1 2 )
O1
=
O2
2 (1 1 )
es una medida de la probabilidad relativa de la enfermedad para los expuestos y

grupos no expuestos.
(a) Para el modelo logstico simple i = ei /(1 + ei ), muestra que si no hay
diferencia entre los grupos expuestos y no expuestos (es decir, 1 = 2 ) entonces
= 1.
(b) Considera cuadros J de 2 2 como el cuadro 7.12, uno para cada nivel xj de un
LOGISTICA
131
Cuadro 7.10: Prueba de Hosmer-Lemeshow para los datos en el Cuadro 7.9: frecuencias
observadas (o) y frecuencias esperadas (e) para n
umeros de personas con o sin sntomas,
agrupados por los valores de
b.
0.107
0.108 - 0.303
> 0.303
Valores correspondientes de x
N
umero de personas
o
con sntomas
e
14 - 20
2
1.335
10 - 13
3
4.479
4-9
9
8.186
N
umero de personas
sin sntomas
Total del n
umero de personas
16
16.665
18
17
15.521
20
7
7.814
16
Valores de
b
o
e
Cuadro 7.11: Muertes por leucemia y otros canceres clasificados por dosis de radiaci
on
recibidas por la bomba atomica de Hiroshima.
Muertes
Leucemia
Otros canceres
Total de canceres
Dosis de radiacion(rads)
0
1-9 10-49
50-99
100-199
13
5
5
3
4
378 200 151
47
31
391 205 156
50
35
200+
18
33
51
Cuadro 7.12: Cuadro 2 2 para un estudio prospectivo de la exposicion y resultados de

enfermedad.
Expuesto
No expuesto
Enfermo
1
2
No enfermo
1 1
1 2
factor, tal como el grupo de la edad, con j = 1, . . . , J. Para el modelo logstico

ij =
exp(i + i xj )
,
1 + exp(i + i xj )
i = 1, 2,
j = 1, . . . , J.
muestra que log es constante sobre todos los cuadros si 1 = 2 (McKinlay,

1978).
7.3 Los cuadros 7.13 y 7.14 muestran la supervivencia de 50 a
nos despues de la graduacion de hombres y las mujeres que se graduaron cada a
no desde 1938 hasta 1947
de diversas Facultades de la Universidad de Adelaida (datos compilados por J.A.
Keats). Las columnas etiquetadas S contienen el n
umero de graduados quienes sobrevivieron y las columnas etiquetadas T contienen el n
umero total de graduados.
Haba mujeres insuficientes graduados de las Facultades de Medicina y de Ingeniera
para justificar el analisis.
LOGISTICA
132
Cuadro 7.13: Cincuenta a

nos de supervivencia para los hombres despues de graduarse
de la Universidad de Adelaida.
A
no de
graduacion
1938
1939
1940
1941
1942
1943
1944
1945
1946
1947
Total
Medicina
S
T
18 22
16 23
7
17
12 25
24 50
16 21
22 32
12 14
22 34
28 37
177 275
Facultad
Artes
S
T
16 30
13 22
11 25
12 14
8 12
11 20
4 10
4 12
13 23
92 168
Ciencia Ingeniera
S
T
S
T
9
14 10
16
9
12
7
11
12 19 12
15
12 15
8
9
20 28
5
7
16 21
1
2
25 31 16
22
32 38 19
25
4
5
25 31 25
35
164 214 100 139
Cuadro 7.14: Cincuenta a

nos de supervivencia para los mujeres despues de graduarse
de la Universidad de Adelaida.
A
no de
graduacion
1938
1939
1940
1941
1942
1943
1944
1945
1946
1947
Total
Facultad
Artes
Ciencia
S
T
S
T
14 19 1
1
11 16 4
4
15 18 6
7
15 21 3
3
8
9
4
4
13 13 8
9
18 22 5
5
18 22 16 17
1
1
1
1
13 16 10 10
126 157 58 61
(a) Son las proporciones de graduados que sobrevivieron durante 50 a

nos despues
de la graduacion el mismo en todos los a
nos de graduacion?
(b) Son las proporciones de hombres graduados quienes sobrevivieron durante 50
a
nos despues de la graduacion el mismo para todas las facultades?
(c) Son las proporciones de mujeres graduadas que sobrevivieron durante 50 a
nos
despues de la graduacion el mismo para Artes y Ciencias?
(d) Es la diferencia entre hombres y mujeres en la proporcion de graduados quien
sobrevivio durante 50 a
nos despues de la graduacion el mismo para Artes y
LOGISTICA
133
Ciencia?
7.4 Sea l(bmin ) el valor maximo de la funcion de log-verosimilitud para el modelo
minimal con predictor lineal XT = 1 y sea l(b) el valor correspondiente para un
modelo mas general XT = 1 + 2 x1 + . . . + p xp1 .
(a) Muestra que la razon de verosimilitud del estadstico Chi-cuadrado es
C = 2[l(b) l(bmin )] = D0 D1
donde D0 es la desvianza para el modelo minimal y D1 es la desvianza para el
modelo mas general.
(b) Deduce que si 2 = . . . = p = 0 entonces C tiene distribucion Chi-cuadrada
central con (p 1) grados de libertad.
Captulo 8
Regresi
on Logstica Nominal y
Ordinal
8.1.
Introducci
on
Si la variable de respuesta es categorica, con mas de dos categoras, entonces hay

dos opciones para modelos lineales generalizados. Uno se basa en generalizaciones de
regresion logstica de respuestas dicotomicas, que se describen en el Captulo 7, a las
respuestas nominales u ordinales con mas de dos categoras. Este primer enfoque es el
tema de este captulo. La otra opcion es modelar las frecuencias o los conteos de los
patrones de covariables como las variables de respuesta con distribuciones de Poisson.
El segundo enfoque, llamado modelado log-lineal, se trata en el captulo 9.
Para regresion logstica nominal u ordinal una de las variables categoricas medidos
u observados es considerado como la respuesta, y todas las demas variables son variables explicatorias. Para los modelos log-lineales, todas las variables son tratados por
igual. La eleccion de que enfoque utilizar en una situacion particular depende de si una
variable es claramente una respuesta(por ejemplo, el resultado de un estudio prospectivo) o varias variables tienen el mismo estado (como puede ser la situacion en un
estudio transversal). Ademas, la eleccion puede depender de como los resultados seran
presentados e interpretados. La regresion logstica nominal e ordinal produc la razon
de momios estimada la cual es relativamente facil de interpretar si no hay interacciones
(o solo interacciones bastantes simples). Log-lineales modelos son buenos para probar
hipotesis sobre las interacciones complejas, pero las estimaciones de los parametros se
interpretan con menos facilidad.
Este captulo comienza con la distribucion multinomial que proporciona la base para
el modelado de datos categoricos con mas de dos categoras. A continuacion se discuten
las diversas formulaciones de modelos de regresion logstica nominales y ordinales, incluyendo la interpretacion de los parametros estimados y metodos para comprobar la
adecuacion de un modelo. Un ejemplo numerico se utiliza para ilustrar los metodos.
8.2.
Distribuci
on Multinomial
Considere una variable aleatoria Y con J categorias. Sean 1 , 2 , . . . , J que denotan

las respectivas probabilidades con 1 + 2 + . . . + J = 1. Si hay n observaciones
independientes de Y que dan a lugar a y1 resultados en la categoria 1, y2 resultados en
134
LOGISTICA NOMINAL Y ORDINAL

CAPITULO 8. REGRESION
la categoria 2, y as sucesivamente, luego sea

y1
y2

y = .. , con
.
yJ
J
X
135
yj = n
j=1
La distribucion Multinomial es
f (y | n) =
n!
y1 y2 . . . JyJ .
y1 !y2 ! . . . yJ ! 1 2
(8.1)
Si J = 2. entonces 2 = 1 1 , y2 = n y1 y (8.1) es la distribucion binomial, ver (7.2).

En general, (8.1) o cumple los requisitos para ser miembro de la familia exponencial de
distribuciones (3,3). Sin embargo, la siguiente relacion con la distribucion de Poisson
asegura que el modelado lineal generalizado es apropiado.
Sean Y1 , . . . , YJ variables independientes con distribucion Yj P oisson(j ). Su
distribucion de probabilidad es
f (y) =
y
J
Y
j j ej
j=1
donde
(8.2)
yj !

y1
y2

y = ..
.
yJ
Sea n = Y1 + Y2 + . . . + YJ , entonces n es una variable aleatoria con distribucion de

n P oisson(1 + 1 + . . . + J )(ver, por ejemplo, Kalbfleisch, 1985, pag. 142). Por lo
tanto la distribucion de Y condicionada a n es
#
" J yj
Y j ej
(1 + 1 + . . . + J )n e(1 +2 +...+J )
f (y | n) =

yj !
n!
j=1
que puede ser simplificada a

f (y | n) =
P
K
k=1
P1
k
y1

...
PJ
k
yJ
n!
y1 ! . . . yJ !
(8.3)
si j = j
k , para j = 1, . . . , J, entonces (8.3) es la misma que (8.1) y la
PJ
on multinomial puede ser
j=1 j = 1, como se requiere. Por lo tanto la distribuci
considerada como la distribucion conjunta de las variables aleatorias de Poisson, condicionada a su suma n. Este resultado proporciona una justificacion para el uso de modelos
lineales generalizados.
Para la distribucion multinomial (8.1) se puede demostrar que E(Yj ) = nj , var(Yj ) =
nj (1 j ) y cov(Yj , Yk ) = nj k (ver, por ejemplo, Agresti,1990, pag 44).
En este captulo los modelos basados en la distribucion binomial se consideran,
debido a pares de respuesta categoras se comparan, en lugar de todas las categoras J
simultaneamente.

8.3.
136
Regresi
on logstica nominal
Se utilizan modelos de regresion logstica nominales cuando no hay orden natural

entre las categoras de respuesta. Una categora es elegida arbitrariamente como la
categora de referencia. Supongamos que se trata de la primera categora. Entonces
los logits de las otras categoras se definen por

j
(8.4)
= xTj j , para j = 2, . . . , J.
logit(j ) = log
1
Las (J 1) ecuaciones logit se utilizan simultaneamente para estimar los parametros j .
Una vez obtenidas las estimacines de los parametros bj , los predictores lineales xTj bj
pueden ser calculados. De (8.4)
bj =
b1 exp(xTj bj ),
para j = 2, . . . , J
Pero
b1 +
b2 + . . . +
bj = 1 entonces
b1 =
1
1+
PJ
j=2
exp(xTj bj )
y
exp(xTj bj )
bj =
,
P
1 + Jj=2 exp(xTj bj )
para j = 2, . . . , J.
Los valores ajustados, o frecuencias esperadas, para cada patron de covariable se

pueden calcular multiplicando las probabilidades estimadas
bj por la frecuencia total
del patron de covariable.
El residuales chi-cuadrado de Person estan dados por
oi ei
ri =
ei
(8.5)
donde oi y ei son las frecuencias observadas y esperadas para i = 1, . . . , N donde N

es J veces de patrones de covariables distintas. Los residuos se pueden utilizar para
evaluar la adecuacion del modelo. El resumen de los estadsticos de bondad de ajuste
son analogos a las de regresion logstica binomial:
(i) Estadstico Chi-cuadrado
2
X =
N
X
ri2 ;
(8.6)
i=1
(ii) Desvianza se define en terminos de los valores maximos de la funcion de logverosimilitud para el modelo ajustado, l(b), y para el modelo maximal, l(bmax ),
D = 2[l(bmax ) l(b)];
(8.7)
(iii) Estadstico Chi-cuadrado de raz

on de verosimilitud , definido en terminos
del valor maximo de la funcion de log-verosimilitud para el modelo mnimal,
l(bmin ), y l(b),
C = 2[l(b) l(bmin )]
(8.8)

137
(iv)
Pseudo R2 =
l(bmin ) l(b)
l(bmin )
(8.9)
Si el modelo se ajusta bien entonces ambos X 2 y D tienen, asintoticamente, la distribucion 2 (N p) donde p es el n

umero de parametros estimados. C tiene la distribucion
2
asintotica [p (J 1)] porque el modelo mnimal tendra un parametro para cada
logit definido en (8.4).
A menudo es mas facil de interpretar los efectos de los factores explicatorios en
terminos de la razon de momios de los parametros . Por simplicidad, considere una
variable de respuesta con J categoras y una variable explicatoria binaria x que indica
si un factor de exposicion esta presente (x = 1) o ausente (x = 0). La razon de
momios de la exposicion para respuesta j(j = 2, . . . , J) en relacion con la categora de
referencia j = 1 es
jp 1p

ORj =
ja 1a
donde jp , ja denota las probabilidades de la respuesta categorica j(j = 1, . . . , J) de
acuerdo a si la exposicion esta presente o ausente, respectivamente. Para el modelo

j
log
= 0j + 1j x, j = 2, . . . , J
1
el logaritmo de los momios son

ja
log
= 0j cuando x = 0, indicando que la exposicion esta ausente, y
1a

jp
= 0j + 1j cuando x = 1, indicando que la exposicion esta presente.
log
1p
Por lo tanto el logaritmo de la razon de momios puede ser escrito como

jp
ja
log ORj = log
log
1p
1a
= 1j
Por lo tanto ORj = exp(1j ) que es estimado por exp(b1j ). Si exp(1j ) = 0 entonces
ORj = 1 que corresponde al factor de exposicion que no tiene efecto. Tambien, por
ejemplo, el limite de 95 % de confianza para ORj esta dado por exp[b1j 1.96s.e.(b1j )]
donde s.e.(b1j ) denota el error estandar de (b1j ). Los intervalos de confianza que no
incluyen la unidad corresponden a valores de significativamente diferentes de cero.
Para regresion logstica nominal, las variables explicatorias pueden ser categorica o
continua. La eleccion de la categora de referencia para la variable de respuesta afecb
tara a las estimaciones de los parametros b, pero no a las probabilidades estimadas
o los valores ajustados.
El siguiente ejemplo ilustra la principal caracterstica de regresion logstica nominal.

8.3.1.
138
Ejemplo: preferencias de autos
En un estudio de seguridad de los vehculos a motor, hombres y mujeres que conducen autos de tama
no peque
nos, medianos y grandes fueron entrevistados acerca de
la seguridad de sus vehiculos, y sus preferencias para los autos, y varias mediciones se
hicieron de lo cerca que estaban sentados al volante (McFadden et al., 2000). Hubo 50
sujetos en cada una de las seis categoras (dos sexos y tres tama
nos de automoviles). Se
les pidio que calificaran que caracteristicas fueron importantes para ellos cuando estaban comprando un auto. En el Cuadro 8.1 muestra las votaciones para el aire acondicionado y la direccion hidraulica, seg
un el sexo y la edad del sujeto(las categoras no
importantes y de poca importancia se han combinado).
Cuadro 8.1: Importancia del aire acondicinado y la direccion hidraulica en autos (porcentages por fila en parentesis*).
Sex
Mujeres
Hombres
Total
Respuesta
No o poco Importante
Edad importante
18-23 26 (58 %)
12 (27 %)
24-40
9 (20 %)
21 (47 %)
> 40
5 (8 %)
14 (23 %)
18-30
24-40
> 40
Muy
importante Total
7 (16 %)
45
15 (33 %)
45
41 (68 %)
60
40 (62 %)
17 (39 %)
8 (20 %)
17 (26 %)
15 (34 %)
15 (37 %)
8 (12 %)
12 (27 %)
18 (44 %)
65
44
41
105
94
101
300
*porcentajes de fila pueden no sumar 100 debido al redondeo.
Las proporciones de respuestas en cada categora por edad y sexo se muestran en

la Figura 8.1. Para estos datos la respuesta, importancia del aire acondicionado y la
direccion hidraulica, se califica en una escala ordinal, pero para los efectos de este
ejemplo, el orden es ignorado y la escala de 3 puntos es tratado como nominal. La
categora ninguna o poca importancia es elegida como la categora de referencia. La
edad tambien es ordinal, pero inicialmente vamos a considerarlo como nominal.
El Cuadro 8.2 muestra los resultados de ajustar el modelo de regresion logstica
nominal con categoras de referencia de Mujeres y 18 -23 a
nos, y

j
= 0j + 1j x1 + 2j x2 + 3j x3 , j = 2, 3
(8.10)
log
1
donde
(
1, para hombres
x1 =
,
0, para mujeres
(
1, para edad 24-40 a
nos
x2 =
0, en otro caso
y
(
1, para edad > 40 a
nos
x3 =
0, en otro caso

139
Figura 8.1: Preferencias para el aire acondicionado y la direccion hidraulica: proporciones de respuestas en cada categora por edad y sexo de los encuestados (lneas continuas denotan no / poca importancia, lneas discontinuas denotan importante y
las lneas punteadas denotan muy importante).

140
Cuadro 8.2: Resultados del ajuste de la regresion logstica nominal del modelo (8.10)
para los datos del Cuadro 8.1.
Parametro
Estimacion de b
Razon de momios,OR = eb
(error estandar) (Intervalo de Confianza de 95 %)

log(2 /1 ): importante vs no/poco importante
02 : constante
-0.591 (0.284)
12 : hombres
-0.388 (0.301)
0.68 (0.38, 1.22)
22 : 24-40
1.128 (0.342)
3.09 (1.58, 6.04)
32 : >40
1.588 (0.403)
4.89 (2.22, 10.78)
log(3 /1 ): muy
13 : hombres
23 : 24-40
33 : > 40
importante vs no/poco importante

-0.813 (0.321)
0.44 (0.24, 0.83)
1.478 (0.401)
4.38 (2.00, 9.62)
2.917 (0.423)
18.48 (8.07, 42.34)
El valor maximo de la funcion de log-verosimilitud para el modelo minimal (con solo

dos parametros, 02 y 03 ) es -329.27 y para el modelo ajustado (8.10) es -290.35, dando
el estadstico Chi-cuadrado de razon de verosimilitud C = 2 (290.35 + 329.27) =
77.84 y el psuedo R2 = (329.27 + 290.35)/(329.27) = 0.118. El primer estadstico,
que tiene 6 grados de libertad (8 parametros en el modelo ajustado menos dos del
modelo minimal), es muy significativo comparado con la distribucion 2 (6), mostrando
la importancia global de las variables explicatorias. Sin embargo el segundo estadstico
sugiere que tan solo 11.8 % de la variacion es explicada por estos factores. Del
estadstico de Wald [b/s.e(b)] y de la razon de momios y de los intervalos de confianza, esta claro que la importancia del aire acondicionado y la direccion hidraulica
incremento significativamente con la edad. Tambien los hombres consideran estas caracteristicas menos importantes que las mujeres, aunque la significancia estadstica del
descubrimiento es dudosa (especialmente considerando las peque
nas frecuencias en algunas celdas). Para estimar las probabilidades, primero se considera las preferencias de
las mujeres (x1 = 0) de edad 18-23 a
nos (as x2 = 0 y x3 = 0). Para este grupo

b2
b2
= 0.591 as
= e0.591 = 0.5539,
log
b1
1
b3
b3
log
= 1.039 as
= e1.039 = 0.3538
b1
b1
Pero
b1 +b
2 +b
3 = 1 as
b1 (1+0.5539+0.3538) = 1, por lo tanto
b1 = 1/1.9077 = 0.524
por lo tanto
b2 = 0.290 y
b3 = 0.186. Ahora considere los hombres (x1 = 1) con edad
mayor a 40 (as x2 = 0, pero x3 = 1), de modo que log(b
2 /b
1 ) = 0.5910.388+1.588 =
0.609, log(b
3 /b
1 ) = 1.065 y por tanto
b1 = 0.174,
b2 = 0.320 y
b3 = 0.505 (correcto a
3 decimales).

141
Cuadro 8.3: Resultados del ajuste de la regresion logstica nominal del modelo (8.10)
para los datos del Cuadro 8.1.
Sexo
Mujeres
Hombres
Edad
Calificacion de
Importancia*
18-23
1
2
3
24-40
1
2
3
>40
1
2
3
18-23
24-40
>40
Total
1
2
3
1
2
3
1
2
3
Frec.
Obs.
26
12
7
9
21
15
5
14
41
40
17
8
17
15
12
8
15
18
300
Probabilidad
Valor
estimada
ajustado
0.524
23.59
0.290
13.07
0.186
8.35
0.234
10.56
0.402
18.07
0.364
16.37
0.098
5.85
0.264
15.87
0.638
38.28
0.652
0.245
0.102
0.351
0.408
0.241
0.174
0.320
0.505
Residual de
Pearson
0.496
-0.295
-0.466
-0.479
0.690
-0.340
-0.353
-0.468
0.440
42.41
15.93
6.65
15.44
17.93
10.63
7.15
13.13
20.72
-0.370
0.267
0.522
0.396
-0.692
0.422
0.320
0.515
-0.600
300
Suma de cuadrados
3.931
* 1 denota no/poca importancia, 2 denota importante, 3 denota muy importante.
Estas probabilidades estimadas pueden ser multiplicados por la frecuencia total de

cada sexogrupo de edad para obtener las frecuencias esperadas o valores ajustados.
Estos se muestran en el Cuadro 8.3, junto con los residuales de Pearson definidos en
(8.5). La suma de los cuadrados de los residuales de Pearson, el estadstico de bondad
de ajuste chi-cuadrado (8.6), es 2 = 3.93.
El modelo maximal que puede ser ajustado a estos datos implica terminos para edad,
sexo e interacciones edadsexo. Tiene 6 parametros (una constante y los coeficientes
para el sexo, dos categoras de edad y dos interacciones de edadsexo) para j = 2 y 6
parametros para j = 3, dando un total de 12 parametros El valor maximo de la funcion
de log-verosimilitud para el modelo maximal de -288.38. Por lo tanto la desvianza
para el modelo ajustado (8.10) es D = 2 (288.38 + 290.35) = 3.94. Los grados de
libertad asociados con esta desvianza son 128 = 4 porque el modelo maximal tiene 12
parametros y el modelo ajustado tiene 8 parametros. Como era de esperar, los valores de
los estadsticos de bondad de ajuste D = 3.94 y X 2 = 3.93 son muy similares; cuando
son comparados con la distribucion 2 (4) sugieren que el modelo (8.10) proporciona

142
una buena descripcion de los datos.

Un modelo alternativo puede ser ajustado con grupo de edad como una covariable,
es decir
log (j /1 ) = 0j + 1j x1 + 2j x2 ; j = 2, 3
(8.11)
donde
(
1, para hombres
x1 =
0, para mujeres
0, para grupo de edad 18-23

x2 = 1, para grupo de edad 24-40
2, para grupo de edad >40
Este modelo ajusta a los datos casi tan bien como (8.10), pero con dos parametros
menos. El valor maximal de la funcion de log-verosimilitud es -291.05 por lo que la
diferencia en la desvianza a partir del modelo (8.10) es
D = 2 (290.35 + 291.05) = 1.4
que no es significativo en comparado con la distribucion 2 (2). As que por motivos de
parsimonia el modelo (8.11) es preferible.
8.4.
Regresi
on logstica ordinal
Si hay un orden natural obvio entre las categoras de respuesta, entonces esto puede
ser tomado en cuenta en la especificacion del modelo. El ejemplo en las preferencias
de carros (Seccion 8.3.1) proporciona un ejemplo como los participantes estudian la
importancia del aire acondicionado y la direccion hidraulica en cuatro categoras desde
no importante a muy importante. Las respuestas ordinales como esta son comunes
en areas como la investigacion de mercado, encuestas de opinion y campos como la
psiquiatra donde las medidas suavesson comunes (Ashby et al., 1989).
En algunas situaciones puede, haber conceptualmente, una variable continua z la cual es
difcil de medir, tal como la gravedad de la enfermedad. Esto es evaluado por algunos
metodos crudos que equivalen a identificar puntos de corte, Cj , para la variable
latente de modo que, por ejemplo, pacientes con valores peque
nos son clasificados
como no enfermedad, los que tienen valores mas grandes de z son clasificados como
enfermedad leveo Enfermedad

moderaday aquellos con altos valores son clasificados
como enfermedad severa(ver Figura 8.2). Los puntos de corte C1P
, . . . , CJ1 definen J
categoras ordinales con probabilidades asociadas 1 , . . . , J (con Jj=1 j = 1).
No todas las variables ordinales pueden ser pensadas de esta manera, porque el proceso
subyacente puede tener muchos componentes, como en el ejemplo de preferencias de
carros. Sin embargo, la idea es de gran ayuda para la interpretacion de los resultados
de los modelos estadsticos. Para categoras ordinales, hay varios modelos diferentes
com
unmente usados los cuales son descritos en las siguientes secciones.

143
Figura 8.2: Distribucion de variable latente continua y puntos de corte que definen una
variable respuesta ordinal.
8.4.1.
Modelo logit acumulado
El momio acumulado para la categora j-esima es

1 + 2 + . . . + j
P (z Cj )
=
;
P (z > Cj )
j+1 + . . . + J
ver figura 8.2. El modelo logit acumulado es
log
8.4.2.
1 + . . . + j
= xTj j .
j+1 + . . . + J
(8.12)
Modelo de momios proporcional
Si el predictor lineal xTj j en (8.12) tiene un termino intercepto 0j el cual depende

de la categora j, pero las otras variables explicatorias no dependen de j, entonces el
modelo es
1 + . . . + j
= 0j + 1 x1 + . . . + p1 xp1 .
(8.13)
log
j+1 + . . . + J
Este es llamado el modelo de momios proporcional. Este es basado en el supuesto de
que los efectos de las covariables x1 , . . . , xp1 son los mismos para todas las categoras,
en la escala logartmica. La figura 8.3 muestra el modelo para J = 3 categoras de
respuesta y una variable explicatoria continua x; en la escala logaritmo de momios las
categoras estan representadas por lneas paralelas.
Como para el modelo de regresion logstica nominal (8.4), la razon de momios asociada
con un incremento de una unidad en una variable explicatioria xk es exp(k ) donde
k = 1, . . . , p 1.

144
Figura 8.3: Modelo de probabilidades proporcional, en escala del logaritmo de probabilidad.

Si alguna de las categoras son amalgamadas, esto no cambia la estimacion del parametro
1 , . . . , p1 en (8.13) - aunque, por supuesto, los terminos 0j seran afectados (esto es
llamado la propiedad colapsabilidad; ver Ananth y Kleinbaum, 1997). Esta forma de
independencia entre los puntos de corte Cj (en la figura 8.2) y las variables explicatorias
xk es deseable para muchas aplicaciones.
Otra propiedad u
til del modelo de momio proporcional es que no es afectada si el etiquetado de las categoras se invierte - solo los signos de los parametros son cambiados.
La adecuacion de momios proporcional supone que puede ser probado comparando los
modelos (8.12) y (8.13), si solo hay una variable explicatoria x. Si hay varias variables
explicatorias el supuesto puede ser probado separadamente para cada variable ajustando (8.12) con el parametro relevante no dependiendo de j.
El modelo de momios proporcional es la forma usual (o por defecto) de regresion logstica ordinal proporcionado por software estadstico.
8.4.3.
Modelo logit con categoras adyacentes
Una alternativa para el modelo de momios acumulado es considerar razones de probabilidad para categoras sucesivas, por ejemplo
J1
1 2
, ,...,
.
2 3
J
El modelo logit con categoras adyacentes es

j
= xTj j .
log
j+1
(8.14)
Si este es simplificado a

log
j
j+1

= 0j + 1 x1 + . . . + p1 xp1 .
el efecto de cada variable explicatoria se supone que es el mismo para todos los pares
adyacentes de categoras. Los parametros k son usualmente interpretados como razones
de momios usando OR = exp(k ).

8.4.4.
145
Modelo logit con raz

on continua
Otra alternativa es modelar las razones de probabilidad

1 + . . . + J1
1 1 + 2
,
,...,
.
2
3
J
o
1
2
J1
,
,...,
.
2 + . . . + J 3 + . . . + J
J
La ecuacion

log
j
j+1 + . . . + J
= xTj j .
(8.15)
modela el momio que la respuesta esta en la categora j, es decir, Cj1 < z Cj condicionado en z Cj1 . Por ejemplo, para los datos de preferencias de carros (Seccion
8.3.1), uno podra estimar los momios de los encuestados respecto al aire acondicionado y direccion hidra
ulica como poco importantevs. importante y los momios de
estas caractersticas de ser muy importantedado que son importante o muy importante, usando

2
1
y
log
.
log
2 + 3
3
Este modelo puede ser mas facil de interpretar que el modelo de momio proporcional si
las probabilidades para categoras individuales j son de interes (Agresti, 1996, seccion
8.3.4).
8.4.5.
Comentarios
Las pruebas de hipotesis para los modelos de regresion logstica ordinal pueden ser
realizadas comparando el ajuste de modelos anidados o usando el estadstico de Wald
(o, menos com
unmente, con estadsticos de puntuacion) basados en estimaciones de los
parametros. Los residuales y estadsticos de bondad de ajuste son analogos a los de
regresion logstica nominal (Seccion 8.3).
La eleccion del modelo para datos ordinales depende principalmente en el problema
practico que esta siendo investigado. Las comparaciones de los modelos descritos en este
captulo y algunos otros modelos han sido publicados por Holtbrugger y Schumacher
(1991) y Ananth y Kleinbaum (1997), por ejemplo.
8.4.6.
Ejemplo: preferencias de carros
La variable de respuesta para los datos de preferencias de carros es, por supuesto,
ordinal (Cuadro 8.1). El siguiente modelo de momios proporcional fue ajustado para
estos datos:

1
= 01 + 1 x1 + 2 x2 + 3 x3
log
2 + 3

1 + 2
= 02 + 1 x1 + 2 x2 + 3 x3
(8.16)
log
3
donde x1 ,x2 y x3 son como se definen para el modelo (8.10).
Los resultados son mostrados en el Cuadro 8.4. Para el modelo (8.16), el valor maximo de la funcion de verosimilitud es l(b) = 290.648. Para el modelo minimal, con

146
solamente 01 y 02 , el valor maximo es l(bmin ) = 329.272 as, de (8.8), C = 2

(290.648+329.272) = 77.248 y, de (8.9), pseudoR2 = (329.272+290.648)/(329.272) =
0.117.
Las estimaciones de los parametros para el modelo de momios proporcional son todas
bastante similares a estos del modelo de regresion logstica nominal (ver Cuadro 8.2).
Las probabilidades estimadas son tambien similares; por ejemplo,
paramujeres entre

3
= 1.6550 y
18-23 a
nos de edad, x1 = 0, x2 = 0 y x3 = 0 as, de (8.16), log
1 + 2

2 + 3
log
= 0.0435. Si estas escuaciones son resueltas con 1 + 2 + 3 = 1, las
1
estimaciones son
b1 = 0.5109,
b2 = 0.3287 y
b3 = 0.1604. Las probabilidades para otros
patrones de covariables pueden ser estimadas similarmente y por lo tanto las frecuencias esperadas pueden ser calculadas, junto con los residuales y estadsticos de bondad
de ajuste. Para el modelo de momios proporcional, X 2 = 4.564 el cual es consistente
con la distribucion 2 (7), indicando que el modelo describio bien los datos (en este caso
N = 18, el modelo maximal tiene 12 parametros y el modelo (8.13) tiene 5 parametros
para grados de libertad = 7). Para este ejemplo, el modelo logstico de momios proporcional para datos ordinales y el modelo logstico nominal producen resultados similares.
En los terminos de parsimonia, el modelo (8.16) sera preferible porque es mas simple
y toma en cuenta el orden de las categoras de respuesta.
8.5.
Comentarios generales
Aunque los modelos descritos en este captulo son desarrolldos del modelo de regresion
logstica para datos binarios, otras funciones de liga, como la probit o funciones loglog complementarias tambien pueden ser usadas. Si las categoras de respuesta son
consideradas como medidas crudas de alguna variable latente subyacente, z (como en
la Figura 8.2), entonces la eleccion optima de la funcion de liga puede depender de
la forma de la distribucion de z (McCullagh, 1980). Las funciones logits y probits son
apropiadas si la distribucion es simetrica pero la funcion log-log complementaria puede
ser mejor si la distribucion es muy sesgada.
Cuadro 8.4: Resultados del modelo de regresion ordinal (8.16) de momios proporcional
para los datos en el cuadro 8.1.
Parametro
Estimacion
b
01
-1.655
02
-0.044
1 :hombres
-0.576
2 : 24-40
1.147
3 : > 40
2.232
Error
estandar, s.e.(b)
0.256
0.232
0.226
0.278
0.291
Razon de Momios OR
(intervalo de confianza 95 %
0.56(0.36,0.88)
3.15(1.83,5.42)
9.32(5.28,16.47)
Si hay duda acerca del orden de las categoras entonces la regresion logstica nominal por lo general sera un modelo mas apropiado que alguno de los modelos basados

147
en supuestos que las categoras de respuesta son ordinales. Aunque el modelo resultante tendra mas parametros y, por tanto, pocos grados de libertad y menos potencia
estadstica, esto puede dar resultados muy similares a los modelos ordinales (Como en
el ejemplo de preferencia de carros).
Los metodos de estimacion y distribuciones de muestreo usados para la inferencia dependen de resultados asintoticos. Para estudios peque
nos o numerosos patrones de
covariables, cada uno con pocas observaciones, los resultados asintoticos pueden ser
aproximaciones pobres.
Modelos logsticos multicategoricos solo han estado disponibles en softwares estadsticos desde los 90s. Su uso ha crecido porque los resultados son relativamente faciles
de interpretar siempre que una variable pueda claramente ser considerada como una
respuesta y los demas como variables explicatorias. Si esta distincion no esta clara, por
ejemplo, si los datos de un estudio cruzado-seccional, entonces los modelos log-lineales
pueden ser mas apropiados. Estos son discutidos en el Captulo 9.
8.6.
Ejercicios
8.1 Si son solo J = 2 respuestas categoricas, muestra que los modelos (8.4),(8.12),(8.14)
y (8.15) todos se reducen al modelo logstico para datos binarios.
8.2 Los datos del Cuadro 8.5 son de una investigacion en satisfaccion con las condiciones
de vivienda en Copenhague (derivados del Ejemplo W en Cox y Snell, 1981, a partir
de datos originales de Madsen, 1971). Los residentes en areas seleccionadas viven
en casas rentadas construidos entre 1960 y 1968 fueron interrogados acerca de su
satisfaccion y el grado de contacto con otros residentes. Los datos fueron tabulados
por tipo de vivienda.
(a) Resume los datos utilizando Cuadros apropiados de porcentajes para mostrar
las asociaciones entre los niveles de satisfaccion y el contacto con otros residentes, los niveles de satisfaccion y tipo de vivienda, y contacto y tipo de
vivienda.
Cuadro 8.5: Satisfaccion con condiciones de vivienda.
Baja
Contacto con
otros residentes
Torre
Apartamento
Casa
bajo
65
130
67
alto
34
141
130
Satisfaccion
Media
bajo
54
76
48
Alta
alto
47
116
105
bajo
100
111
62
alto
100
191
104
(b) Usa regresion logstica nominal para modelar asociaciones entre el nivel de
satisfaccion y otras dos variables. Obten un modelo parsimonioso que resume
los patrones en los datos.
(c) Cree usted que un modelo ordinal sera apropiado para las asociaciones entre
los niveles de satisfaccion y las otras variables? Justifica tu respuesta. Si tomas

148
en cuenta un modelo para ser apropiado, ajusta uno adecuado y compara los
resultados con los de (b).
(d) Del mejor modelo que obtuviste en (c), calcula los residuales estandarizados y
usalos para encontrar donde las discrepancias mas grandes entre las frecuencias
observadas y las frecuencias estimadas esperadas a partir del modelo.
8.3 Los datos del Cuadro 8.6 muestran respuestas tumorales de pacientes masculinos
y femeninos recibiendo tratamiento para el cancer de pulmon de celulas peque
nas.
Hubo dos regmenes de tratamientos. Para el tratamiento secuencial, la misma combinacion de agentes quimioterapeuticos se administro a cada ciclo de tratamiento.
Para el tratamiento alternativo, diferentes combinaciones se alternaron de ciclo a
ciclo (datos de Holtbrugger y Schumacher, 1991).
Cuadro 8.6: Respuestas de tumores de dos tratamientos diferentes: n
umero de pacientes
en cada categora.
Tratamiento
Secuencial
Alternativo
Sexo
Maculino
Femenino
Maculino
Femenino
Enfermedad
No
progresiva cambio
28
45
4
12
41
44
12
7
Remision
parcial
29
5
20
3
Remision
completa
26
2
20
1
(a) Ajusta un modelo de momios proporcional para estimar las probabilidades para
cada respuesta categorica tomando en cuenta los efectos del tratamiento y sexo.
(b) Examina la adecuacion del modelo ajustado en (a) usando residuales y estadsticos de bondad de ajuste.
(c) Usa un estadstico de Wald para probar la hipotesis de que no hay diferencia
en respuestas de los dos regmenes de tratamiento.
(d) Ajusta dos modelos de momios proporcionales para probar la hipotesis de que
no hay diferencias en los tratamientos. Comparar los resultados con los de (c).
(e) Ajusta modelos de categoras adyacentes y modelos de razon contnua utilizando funciones de liga logit, probit y log-log complementarias. Como los modelos
diferentes afectan la interpretacion de los resultados?
8.4 Considera Respuestas categoras ordinales que pueden interpretarse en terminos
de variables latentes continuas como se muestra en la Figura 8.2. Suponga que la
distribucion de esta variable subyacente es Normal. Muestra que la funcion de liga
probit es la funcion de liga natural en esta situacion (Sugerencia: vease la seccion
7.3).
Captulo 9
Datos de Conteo, Modelos de
Regresi
on Poisson y Log-Lineal
9.1.
Introducci
on
El n
umero de veces que un evento se produce es una forma com
un de datos. Como
ejemplos de datos de conteo o de frecuencia incluyen el n
umero de ciclones tropicales
que cruzan la costa norte de Queensland (Seccion 1.6.5) o el n
umero de personas en
cada celda de una tabla de contingencia que resume las respuestas de una encuesta (por
ejemplo, los ndices de satisfaccion de las condiciones de vivienda, Ejercicio 8.2).
La distribuci
on de Poisson se utiliza a menudo para modelar datos de conteo. Si
Y es el n
umero de ocurrencias, su distribucion de probabilidad se puede escribir como
f (y) =
y e
,
y!
y = 0, 1, 2, . . .
donde es el n
umero promedio de ocurrencias. Se puede demostrar que E(Y ) = y
V ar(Y ) = (ver Ejercicio 3.4).
El parametro requiere una definicion cuidadosa. A menudo necesita ser descrito
como una tasa; por ejemplo, el n
umero promedio de clientes que compran un producto
en particular de cada 100 clientes que entran en la tienda. Para el parametro, tasa de
accidentes de vehiculos de motor puede ser definido de distintas maneras: choques por
cada 1.000 habitantes, choques por cada 1,000 conductores con licencia, accidentes por
cada 1.000 vehculos de motor, o accidentes por cada 100.000 kms recorridos por los
vehculos de motor. La escala de tiempo debe ser incluida en la definicion; por ejemplo,
la tasa de accidentes de vehculos de motor por lo general se especifica como la tasa
por a
no (por ejemplo, los accidentes por cada 100.000 kms por a
no), mientras que la
tasa de los ciclones tropicales se refiere a la temporada de ciclones de noviembre a abril
en el noreste de Australia. Generalmente, la tasa se especifica en terminos de unidades
de exposicion; por ejemplo, los clientes que entran en una tienda estan expuestos
a la oportunidad de comprar el producto de interes. Para accidentes de trabajo, cada
trabajador esta expuesto durante el periodo que el o ella esta en el trabajo, por lo que
la tasa puede ser definido en terminos de a
nos-persona en riesgo.
El efecto de las variables explicatorias sobre la respuesta Y se modela mediante el
parametro . Este captulo describe los modelos para dos situaciones.
En la primera situacion, los eventos se refieren a cantidades variables de exposicion que deben tenerse en cuenta cuando se modela la tasa de eventos. La Regresi
on
149
POISSON Y LOG-LINEAL1
CAPITULO 9. DATOS DE CONTEO, MODELOS DE REGRESION
de Poisson se utiliza en este caso. Las otras variables explicatorias (ademas de exposicion) pueden ser continuas o categoricas.
En la segunda situacion, exposicion es constante (y por lo tanto no es relevante
para el modelo) y las variables explicatorias son usualmente categorica. Si solo hay unas
pocas variables explicatorias los datos se resumen en una tabla de clasificacion cruzada.
La variable de respuesta es la frecuencia o el recuento en cada celda de la tabla. Las
variables utilizadas para definir la tabla son tratadas como variables explicatorias. El
dise
no del estudio puede significar que hay algunas restricciones en las frecuencias de las
celdas (por ejemplo, los totales de cada fila de la tabla pueden ser iguales) y estas deben
ser tomadas en cuenta en el modelado. El termino modelo log-lineal que basicamente
describe el papel de la funcion liga, se utiliza para los modelos lineales generalizados
adecuado para esta situacion.
La siguiente seccion describe la regresion de Poisson. Un ejemplo numerico se utiliza
para ilustrar los conceptos y metodos, incluyendo la comprobacion de modelo y de
inferencia. Las secciones siguientes describen las relaciones entre las distribuciones de
probabilidad para los datos de conteo, restringidos de varias maneras, y los modelos
log-lineales que pueden ser utilizados para analizar los datos.
9.2.
Regresi
on Poisson
Sean Y1 , . . . , YN variables aleatorias independientes con Yi el n

umero de eventos
observados de exposicion ni para el i-esimo patron de covariable. El valor esperado de
Yi puede escribirse como
E(Yi ) = i = ni i
Por ejemplo, supongamos que Yi es el n
umero de reclamaciones de seguros para una
marca y modelo de un coche en particular. Esto dependera del n
umero de coches de
este tipo que estan asegurados, ni , y otras variables que afectan i , tales como la edad
de los coches y la ubicacion en la que se utilizan. El subndice i se utiliza para denotar
las diferentes combinaciones de marca y modelo, edad, lugar y as sucesivamente.
La dependencia de la i sobre las variables explicatorias es usualmente modelada
por
T
i = exi
(9.1)
Por lo tanto el modelo lineal generalizado es
T
E(Yi ) = i = ni exi ;
Yi Poisson(i ).
(9.2)
La funcion liga natural es la funcion logartmica

log i = log ni + xTi
(9.3)
La Ecuacion (9.3) difiere de la especificacion usual de la componente lineal debido a

la inclusion del termino log ni . Este termino se llama el offset(desface). Es una constante conocida que se incorpora facilmente en el procedimiento de estimacion. Como
de costumbre, los terminos xi y describen el patron de covariable y los parametros
respectivamente.
Para una variable explicatoria binaria denotada por una variable indicadora, xj = 0
si el factor esta ausente y xj = 1 si esta presente, la raz
on de tasas, RR para presente
contra ausente es
RR =
E(Yi | presente)
= ej
E(Yi | ausente)
de (9.1) siempre y cuando las demas variables explicatorias permanezcan constantes .

Similarmente para la variable explicatoria continua xk , un incremento de una unidad
dara lugar un efecto multiplicativo de ek sobre la tasa . Por lo tanto, la estimacion
del parametro es a menudo interpretado en la escala exponencial e en terminos de
razones de tasas.
Las hipotesis acerca del los parametros j pueden ser probadas usando los estadsticos de Wald, scores o razon de verosimilitud. Los intervalos de confianza pueden ser
estimados similarmente.
Por ejemplo, para el parametro j
bj j
N (0, 1)
s.e(bj )
(9.4)
aproximadamente. Alternativamente, la prueba de hipotesis se puede realizar mediante

la commparacion de bondad de ajuste apropiadamente definidos para modelo anidados
(vea Capitulo 4).
Los valores ajustados son dados por
T
Ybi =
bi = ni exi ,
i = 1, . . . , N
estos son a menudo denotados por ei porque son las estimaciones de los valores esperados
E(Yi ) = i . Como la var(Yi ) = E(Yi ) para la distribucion Poisson el error estandar de
Yi es estimado por ei asi los residuales de Pearson son

oi ei
ri =
ei
(9.5)
donde oi denota los valores observados de Yi . Como se indica en la Seccion 6.26, estos
residuales puede ser mas refinados a
oi ei
rpi =
ei 1 hi
donde el leverage, hi , es el i-esimo elemento de la diagonal de la matriz sombrero.
Para la distribucion Poisson, los residuales dados por (9.5) y el estadstico de bondad
de ajuste chi-cuadrado estan relacionados por
X2 =
ri2 =
X (oi ei )2
ei
que es la deficion usual de el estadstico chi-cuadrado para tablas de contingencia.

La desvianza para el modelo de Poisson es dado en la Seccion 5.6.3. Puede ser escrito
en la forma
X
D=2
[oi log(oi /ei ) (oi ei )].
(9.6)
P
P
Sin embargo para la moyoria de los modelos
oi =
ei , ver Ejercicio 9.1, as la
desvianza se simplifica a
X
D=2
[oi log(oi /ei )].
(9.7)
Los residuales de desvianza son los componentes de D en (9.6),
p
di = sign(oi ei ) 2[oi log(oi /ei ) (oi ei )], i = 1, . . . , N
(9.8)
P
as que D = d2i .
Los estadsticos de bondas de ajuste X 2 y D estan estrechamente relacionados.
Usando la expancion de las series de Taylor dado en la Seccion 7.5,
o log
o
e
= (o e) +
1 (o e)2
+ ...
2
e
as que, aproximadamente, de (9.6)

X
1 (o e)2
D=2
(oi ei ) +
(oi ei )
2
e
X (o e)2
=
= X 2.
e
Los estadsticos D y X 2 pueder ser usados directamente como medidas de bondad de
ajuste, ya que pueden ser calculados de los datos y del modelo ajustado (porque no
involucran algun parametro de ruido como 2 para la distribucion Normal). Pueden
ser comparados con la distribucion chi-cuadrado central con N p grados de libertad,
donde p es el n
umero de parametros que son estimados. La distribucion chi-cuadrado
es probablemente la mejor aproximacion para la distribucion muestral de X 2 que para
la distribucion muestral de D (ver Seccion 7.5).
Otros dos estadsticos de resumen proporcionados por algunos software son el estadstico chi-cuadrado de razon de verosimilitud y el pseudo-R2 . Estos se basan en la
comparacion entre el valor maximo de la funcion de log-verosimilitud para el modelo minimal sin covariables, log i = log ni + 1 , y el valor maximo de la funcion de
verosimilitud para el modelo (9.3) con p parametros. El estadstico chi-cuadrado de
razon de verosimilitud C = 2[l(b) l(bmin )] proporciona una prueba global para la
hipotesis que 2 = 3 = . . . = p = 0, por comparacion de la distribucion chi-cuadrado
central con p 1 grados de libertad (ver Ejercicio 7.4). Menos formalmente, el pseudo
R2 = l(bmin ) l(b)/bmin ) una medida intuitiva de ajuste. Otros diagnosticos, tal como
los delta-betas y estadsticos relacionados, estan tambien disponibles para los modelos
de Poisson.
9.2.1.
Ejemplo de Regresi
on Poisson: medicos brit
anicos muertes
por fumar y enfermedad coronaria
Los datos en el Cuadro 9.1 son de un famoso estudio realizado por Sir Richard Doll
y sus colegas. En 1951, a todos los medicos britanicos se les envio un breve cuestionario
sobre si fumaban tabaco. Desde entonces la informacion acerca de sus muertes ha sido
registradas. El Cuadro 9.1 muestra el n
umero de muertes por la enfermedad del corazon
coronari entre los medicos varones 10 a
nos despues de la encuesta. Tambien muestra
el numero total de personas-a
nos en el momento del analisis (Breslow y Day, 1987:
Apendice 1A y la pag. 112).
Las preguntas de interes son:
1. Es la tasa de mortalidad mas alta para los fumadores que para los no fumadores?
2. Si es as, Por cuanto ?
3. Esta relacionado el efecto diferencial con la edad?
Cuadro 9.1: Muertes de por la enfermedad coronaria despues de 10 a

nos entre medicos
britanicos varones categorizados por edad y por tabaquismo en 1951 .
Grupo de
edad
35 - 44
45 - 54
55 - 64
65 - 74
75 - 84
Fumadores
Muertes Personas-a
nos
32
52407
104
43248
206
28612
186
12663
102
5317
No fumadores
Muertes Personas-a
nos
2
18790
12
10673
28
5710
28
2585
31
1462
Figura 9.1: Tasas de muerte de la enfermedad coronaria por 100,000 personas-a

nos
para fumadores (diamantes) y no fumadores (puntos).
La Figura 9.1 muestra las tasas de muerte por 100,000 personas-a
nos de la enfermedad coronaria para fumadores y no fumadores. Esta claro que la tasa incrementa
con la edad pero mas pronuciada que en una linea recta. La tasa de muerte parece ser
generalmente mas alta en fumadores que en los no fumadores pero no aumenta rapidamente con la edad. Varios modelos pueden ser especificados para describir bien estos
datos (ver Ejercicio 9.2). Un modelo, en la forma de (9.3) es
log(deathsi ) = log(populationi ) + 1 + 2 smokei + 3 agecati + 4 agesqi
+ 5 smkagei
(9.9)
donde el subindice i denota el i-esimo grupo definido por el grupo de edad y el tabaquismo(i =
1, . . . , 5 para edades 35 44, . . . , 75 84 para fumadores i = 6, . . . , 10 para los correspondientes grupos de edades para los no fumadores). El termino deathsi denota el
n
umero esperado de muertes y populationi denota el n
umero de doctores en riesgo
en el grupo i. Para los demas terminos, smokei es igual uno de los fumadores y cero
de los no fumadores; agecati toma los valores i = 1, . . . , 5 para los grupos de edad
35 44, . . . , 75 84; agesqi es el cuadrado agecati para tener en cuenta la no linealidad
de la tasa de incremento; y smkagei es igual a agecati para fumadores y cero para los
no fumadores, esto describe una tasa difenrencial de crecimiento con la edad.
El Cuadro 9.2 muestra las estimaciones de los parametros en la forma de razones de
b
tasa ej . El estadstico de Wald (9.4) para la prueba j = 0 todos tienen un valor p muy
peque
no y el intervalo de confianza de 95 % para ej no contiene a la unidad, mostrando
que todos los terminos son necesarios en el modelo. Las estimaciones muestran que
el riesgo de muerte por coronaria fue, en promedio, acerca de 4 veces mayor para
los fumadores que para los no fumadores (basados en las razon de tasa para smoke)
despues el efecto de la edad se tienen en cuenta. Sin embargo, el efecto es atenuado
mientras la edad incrementa(coeficiente de smkage). El Cuadro 9.3 muestra que el
modelo se ajusta muy bien a los datos; el n
umero esperado de muertes estimado de
(9.9) son bastantes similares a los n
umeros de muertes observadas y as los Residuales
de Pearson calculdados de (9.5) y la desvianza de (9.8) son muy peque
nos.
Para el modelo minimal, con solo el paremetro 1 , el valor maximo para la funcion
de verosimilitud es l(bmin ) = 495.067. El correspondiente valor para el modelo (9.9)
es l(b) = 28.352. Por lo tanto, un prueba global del modelo (las pruebas j = 0
para j = 2, . . . , 5) es C = 2[l(b) l(bmin )] = 933.43 que es estadsticamente muy
significante comparado con la distribucion chi-cuadrado con 4 grados de libertad. El
valor del pseudo R2 es 0.94, o 94 %,lo que sugiere un buen ajuste. Pruebas mas formales
de bondad de ajuste son proporcionados por los estadsticos X 2 = 1.550 y D = 1.635
que son peque
nos comparados con la distribucion chi-cuadrado con N p = 10 5 = 5
grados de libertad.
Cuadro 9.2: Estimaciones de los parametros obtenidos por el ajuste del modelo (9.9)
para los datos en el Cuadro 9.1.
Termino
b
b
s.e.()
Estadstico de Wald
p-valor
Razon de tasas
Intervalo de confianza de 95 %
9.3.
agecat
2.376
0.208
11.43
<0.001
10.77
7.2, 16.2
agesq
-0.198
0.027
-7.22
<0.001
0.82
0.78, 0.87
smoke
1.441
0.372
3.87
<0.001
4.22
2.04, 8.76
smkage
-0.308
0.097
-3.17
0.002
0.74
0.61, 0.89
Ejemplos de tablas de contingencia
Antes de la espesificacion de los modelos log-lineal para datos de frecuencias resumidas en tablas de contingencia es importante considerar como el dise
no de estudio
puede determinar las limitaciones de los datos. El estudio del dise
no tambien afecta
la eleccion de modelos de probabilidad para describir los datos. Estas questiones son
ilustradas en los siguientes tres ejemplos.
Cuadro 9.3: N
umeros de muertes observadas y esperadas y residuos para el modelo
descrito en el Cuadro 9.2.
Categoria
Edad
1
2
3
4
5
1
2
3
4
5
Suma de cuadrados *
9.3.1.
Categoria
Muertes
Fumador Observados
1
32
1
104
1
206
1
186
1
102
0
2
0
12
0
28
0
28
0
31
Muertes Residual de
Esperados
Pearson
29.58
0.444
106.81
-0.272
208.20
-0.152
182.83
0.235
102.58
-0.057
3.41
-0.766
11.54
0.135
27.74
0.655
30.23
-0.405
31.07
-0.013
1.550
Desvianza
Residual
0.438
-0.273
-0.153
0.234
-0.057
-0.830
0.134
0.641
-0.411
-0.013
1.635
Ejemplo: Estudio transversal de un melanoma maligno
Estos datos provienen de un estudio transversal de pacientes con una forma de

cancer de piel llamado melanoma maligno. Para una muestra de n = 400 pacientes, el
sitio del tumor y su tipo histologico se registraron. Los datos, n
umero de pacientes con
cada combinacion de tipo y sitio del tumor, se dan en el Cuadro 9.4.
Cuadro 9.4: Melanoma Maligno: frecuencias para el tipo y el sitio del tumor(Roberts et
al, 1981.).
Tipo del tumor

Peca-melanotica de Hutchinson
Melanoma de extension superficial
Nodular
Indeterminado
Total
Cabeza
y cuello
22
16
19
11
68
Tronco
2
54
33
17
106
Sitio
extremidades
10
115
73
28
226
Total
34
185
125
56
400
La cuestion de interes es si existe alguna asociacion entre el tipo del tumor y sitio.
El Cuadro 9.5 muestra los datos que se muestran como porcentajes de fila y columnas
totales. Parece que peca melanotico de Hutchinson es mas com
un en la cabeza y el
cuello, pero hay poca evidencia de asociacion entre otros tipos de tumores y los sitios.
Cuadro 9.5: El melanoma maligno: porcentajes de fila y columna para el tipo de tumor
y el sitio.
Tipo del tumor

Porcentajes por Fila
Peca-melanotica de Hutchinson
Nodular
Indeterminado
Todos los tipos
Porcentanjes por Columnas
Peca-melanotico de Hutchinson
Nodular
Indeterminate
Todos los tipos
Sitio
extremidades
Cabeza
y cuello
Tronco
Total
64.7
8.6
15.2
19.6
17.0
5.9
29.2
26.4
30.4
26.5
29.4
62.2
58.4
50.0
56.5
100
100
100
100
100
32.4
23.5
27.9
16.2
100.0
1.9
50.9
31.1
16.0
99.9
4.4
50.9
32.3
12.4
100.0
8.50
46.25
31.25
14.00
100.0
Sea Yjk que denota la frecuencia para la (j, k)-esima celda con j = 1, . . . , J y
k = 1,P
. . . , K. En este ejemplo hay J = 4 filas, K = 3 columnas y la restriccion de que
P
J
K
no del estudio. Si las Yjk s son varij=1
k=1 Yjk = n, donde n = 400 es fija por el dise
ables aleatorias independientes con Distribucion Poisson con parametros E(Yjk
= jk ,
P) P
entonces su suma tiene la distribucion Poisson con parametros E(n) = =
jk .
De ah que la distribucion de probabilidad conjunta de las Yjk s , condicionada a su
suma n, es la distribucion multinomial.
f (y | n) = n!
J Y
K
Y
jkjk /yjk !
j=1 k=1
donde jk = jk /. Este P
resultado
es derivado de la Seccion 8.2. La suma de los terminos
P
jk es la unidad porque
jk = ; tambien 0 < k < 1. As jk puede interpretarse
como la probabilidad de una observacion en la (j, k)-esima celda del la tabla.
Tambien el valor esperado de Yjk es
E(Yjk ) = jk = njk .
La funcion liga usual para un modelo de Poisson da
log jk = log n + log jk
que es como la ecuacion (9.3), excepto que el termino log n es el mismo para todo las
Yjk s.
9.3.2.
Ejemplo: Ensayo controlado aleatorio de la vacuna contra la influenza
En un estudio prospectivo de una nueva vacuna atenuada recombinante para la

influenza los pacientes fueron asignados aleatoriamente a dos grupos, uno de los cuales
se le dio la nueva vacuna y el otro un placebo solucion salina. Las respuestas fueron
tres niveles de inhibicion de hemaglutinina anticuerpo que se encuentra en la sangre
seis semanas despues de la vacunacion; que se clasificaron como peque
no, medio
o grande. Las frecuencias de las celdas en los renglones del el Cuadro 9.6 estan
restringidos a asumir al n
umero de sujetos en cada grupo de tratamiento (35 y 38
respectivamente). Queremos saber si el patron de respuestas es el mismo para cada
grupo de tratamiento.
Cuadro 9.6: Ensayo de vacuna contra la gripe
Placebo
Vaccine
Peque
na
25
6
Respuesta
Moderada Grande
8
5
18
11
Total
38
35
Datos de R.S Gillet, personal de comunicaion

En este ejemplo, los totales de los renglones son fijos. As, la distribucion de probabilidad conjunta para cada fila es multinomial
f (yj1 , yj2 , . . . , yjK | yj. ) = yj. !
K
Y
jkjk /yjk !
k=1
PK
P
que la distribucion de
donde yj. = K
k=1 jk = 1. As
k=1 yjk es el total de el renglon y
probabilidad conjunta para todas las celdas de la tabla es la producto de distribuci
on
multinomiales
J
K
Y
Y
y
f (y | y1 ., y2 ., . . . , yJ .) =
yj. !
jkjk /yjk !
j=1
donde
PK
k=1 jk
k=1
= 1 para cada renglon. En este caso E(Yjk ) = yj .jk as que

log E(Yjk ) = log jk = log yj . + log jk .
Si el patron de respuesta fue la misma para ambos grupos entonces jk = .k para

k = 1, . . . , K.
9.3.3.
Ejemplo: Estudio de casos y controles de las u

lceras
g
astricas y duodenales y el uso de aspirina
En este estudio retrospectivo de casos-control de un grupo de pacientes con u

lcera
se comparo con un grupo de pacientes de control que no se sabe que tienen u
lcera
peptica, pero que eran similares a los pacientes con u
lcera con respecto a la edad, sexo
y condicion socioeconomica. Los pacientes con u
lcera fueron clasificados de acuerdo con
el sitio de la u
lcera: gastrica o duodenal. El uso de aspirina fue recomendado para todos
los sujetos. Los resultados se muestran en el Cuadro 9.7.
Cuadro 9.7: Las u
lceras gastricas y duodenales y uso de aspirina : frecuencias (Duggan
et al,. 1986).
Uso de Aspirina
No usa
Usa
Total
Ulcera Gastrica
Control
Casos
Ulcera Duedal
Control
Casos
62
39
6
25
68
64
53
49
8
8
61
57
Esta es una tabla de contingencia 2 2 2. Algunas de las preguntas de interes son:

1. Esta asociada la u
lcera gastrica con el uso de aspirina?
2. Esta asociada la u
lcera duodenal con el uso de aspirina?
3. Hay la misma asociacion del uso de aspirina para ambos sitios?
Cuando los datos se presentan como porcentajes de los totales del renglon (Cuadro 9.8),
parece que el uso de aspirina es mas com
un entre los pacientes con u
lcera que entre los
controles para la u
lcera gastrica, pero no para la u
lcera duodenal. En este ejemplo, el
n
umero de pacientes con cada tipo de u
lcera y los n
umeros en cada uno de los grupos
de controles; es decir, los cuatro totales de los renglones del Cuadro 9.7 fueron fijado.
Sea j = 1 o 2 dlos controles o los casos, respectivamente; k = 1 o 2 las u
lceras
gastricas o u
lceras duodenales, respectivamente; y l = 1 para los pacientes que no
usaban aspirina y l = 2 para los que si lo hicieron. En general, Sea Yjkl la frecuencia de
las observaciones en la categora (j, k, l) con j = 1, . . . , J, k = 1, . . . , K y l = 1, . . . , L.
Si los totales marginales yjk . son fijos, la distribucion de probabilidad conjunta para la
Yjkl s es
L
J Y
K
Y
Y
yjkl
jkl
yjk .!
yjkl !
f (y | y11 ., . . . , yJK .) =
j=1 k=1
l=1
donde y es el vector de Yjkl s y l jkl = 1, para j = 1, . . . , J, k = 1, . . . , K. Esta es

otra forma de la producto de distribuci
on multinomiales en este caso, E(Yjkl ) =
jkl = yjk .jkl , as que
log jkl = log yjk + log jkl .
Cuadro 9.8: Las u
lceras gastricas y duodenales y uso de aspirina : porcentanje por
renglon para los datos del Cuadro 9.7.
Uso de Aspirina
No usa
Usa
Total
Ulcera Gastrica
Control
Casos
Ulcera Duedal
Control
Casos
9.4.
91
61
9
39
100
100
87
86
13
14
100
100
Modelos de probabilidad para tablas de contingencia
Los ejemplos en la seccion 9.3 ilustran los modelos de probabilidad principales para
datos en tablas de contingencia. En general, sea el vector y las frecuencias Yi en N
celdas de una Tabla de clasificacion cruzada.
9.4.1.
Modelo Poisson
Si no hay restricciones en los Yi s podran ser modeladas como variables aleatorias independientes con los parametros E(Yi ) = i y la distribucion de probabilidad conjunta
f (y; ) =
N
Y
yi i ei yi !
i=1
donde es un vector de i s.
9.4.2.
Modelo Multinomial
Si la u
nica restriccion es la suma de las Yi s es n, entonces las siguiente distribucion
multinomial puede ser usada
f (y; |n) = n!
N
Y
iyi yi !
i=1
P
PN
donde N
i=1 i = 1 y
i=1 yi = n. En este caso, E(Yi ) = ni .
Para una tabla de contingencia de dos dimensiones (como el Cuadro 9.4 para datos de
melanoma), si j y k son los renglones y columnas entonces la hipotesis mas com
unmente
considerado es que los renglones y columnas de las variables son independientes de modo
que
jk = j. .k
P
P
donde j. y .k son las probabilidades marginales con j j. = 1 y k .k = 1. Esta hipotesis puede ser probada comparando el ajuste de dos modelos lineales para el
logaritmo de jk = E(Yjk ); a saber
log jk = log n + log jk
y
log jk = log n + log j. + log .k .
9.4.3.
Producto de modelos Multinomial
Si hay mas marginales totales fijas que solo el total general n, entonces los productos
apropiados de distribuciones multinomiales pueden ser usadas para modelar los datos.
Por ejemplo, para una tabla de tres dimensiones con J renglones, K columnas y L
capas, si el total de renglones son fijados en cada capa la probabilidad conjunta para
las Yjkl s es
f (y|yj.l , j = 1, . . . , J, l = 1, . . . , L) =
J Y
L
Y
yj.l !
j=1 l=1
K
Y
jkl
yjkl !
jkl
k=1
P
donde k jkl = 1 para cada combinacion de j y l. En este caso, E(Yjkl ) = yj.l jkl .
Si u
nicamente los totales de capas son fijos, entonces
f (y|y..l , l = 1, . . . , L) =
L
Y
l=1
con
P P
9.5.
y..l !
J Y
K
Y
jkl
jkl
yjkl !
j=1 k=1
jkl = 1 para l = 1, . . . , L. Tambien E(Yjkl ) = y..l jkl .
Modelos Log-lineales
Todos los modelos de probabilidad dados en la seccion 9.4 estan basados en la distribucion Poisson y en todos los casos E(Yi ) puede ser escrita como un producto de
parametros y otros terminos. As la funcion de liga natural para la distribucion Poisson,
la funcion logartmica, produce una componente lineal
log E(Yi ) = constante + xTi .
El termino del Modelo log-lineal es usado para describir todos estos modelos lineales
generalizados.
Para el ejemplo 9.3.1 del melanoma, si no hay asociaciones entre sitio y tipo de tumor,
as estas dos variables son independientes, su probabilidad conjunta jk es el producto
de las probabilidades marginales
jk = j. .k ,
j = 1, . . . , J
k = 1, . . . , K.
La hipotesis de independencia puede ser probada comparando el modelo aditivo (en la

escala logartmica)
log E(Yjk ) = log n + log j. + log .k
(9.10)
con el modelo
log E(Yjk ) = log n + log jk .
(9.11)
Esto es el analogo al analisis de varianza para un experimento de dos factores sin replica
(ver seccion 6.4.2). La ecuacion (9.11) puede ser escrita como el modelo saturado
log E(Yjk ) = + j + k + ()jk
y la ecuacion (9.10) puede ser escrita como el modelo aditivo
log E(Yjk ) = + j + k .
Dado que el termino log n tiene que estar en todos los modelos, el modelo minimal es
log E(Yjk ) = .
Para el experimento de la vacuna contra la gripe, el ejemplo 9.3.2, E(Yjk ) = yj. jk si la
distribucion de la respuesta descrita por los jk s difieren para los j grupos, o E(Yjk ) =
yj. .k si es le mismo para todos los grupos. As la hipotesis de homogeneidad de las
distribuciones de respuesta pueden ser probadas para comparar el modelo
log E(Yjk ) = + j + k + ()jk ,
correspondiente a E(Yjk ) = yj. jk , y el modelo
log E(Yjk ) = + j + k
correspondiente a E(Yjk ) = yj. .k . El modelo minimal para estos datos es
log E(Yjk ) = + j
porque el total de renglones, correspondientes al subndice j, son fijos por el dise
no del
estudio.
Mas generalmente, la especificacion de las componentes lineales de modelos log-lineales
tiene mucha semejanza a la especificacion para modelos ANOVA. Los modelos son
jer
arquicos, significa que si un termino de orden mayor (interaccion) es includo en el
modelo entonces todos los terminos de orden menor son tambien includos. Asi, si la
interaccion doble de primer orden ()jk es incluida entonces tambien lo son los efectos principales j y k y la constante . Similarmente, si las interacciones de segundo
orden ()jkl son incluidas entonces lo son tambien las interacciones de primer orden
()jk , ()jl y ()kl .
Si se especifican los modelos log-lineales de forma analoga a los modelos de ANOVA,
que incluyen demasiados parametros as la restriccion suma-cero o punto-esquina son
necesarias. La Interpretacion de los parametros es generalmente mas simple si la referencia o las categoras punto-esquina son identificadas de modo que las estimaciones
de los parametros describen efectos para otras categoras relativas a las categoras de
referencia.
Para las tablas de contingencia las principales preguntas casi siempre se relacionan con
las asociaciones entre variables. Por lo tanto, en modelos log-lineales, los terminos de
interes primordial son las interacciones que involucran dos o mas variables.
9.6.
Inferencia para modelos log-lineales
Aunque tres tipos de distribuciones de probabilidad son usadas para describir datos de
tabla de contingencia (ver seccion 9.4), Birch (1963) mostro que para cualquier modelo
log-lineal los estimadores de maxima verosimilitud son los mismos para todas estas
distribuciones siempre que los parametros que corresponden a los totales marginales
fijos son siempre includas en el modelo. Esto significa que para el proposito de estimacion, la distribucion Poisson puede siempre ser supuesta. Como la distribucion
Poisson pertenece a la familia exponencial y las restricciones de los parametros pueden
ser incorporados en la componente lineal, todos los metodos estandar para modelos
lineales generalizados pueden ser usados.
La adecuacion de un modelo puede ser evaluada usando los estadsticos de bondad de
ajuste X 2 o D (y aveces C y pseudo R2 ) resumido en la Seccion 9.2 para Regresion
Poisson. Mas conocimiento en la adecuacion del modelo a menudo puede ser obtenido
mediante la examinacion de los residuales de Pearson o de desvianza dados por las
ecuaciones (9.5) y (9.8) respectivamente. Las Pruebas de hipotesis pueden ser realizadas mediante la comparacion de la diferencia en los estadsticos de bondad de ajuste
entre un modelo general correspondiente a una hipotesis alternativa y una anidada, el
modelo mas simple correspondiente a una hipotesis nula.
Estos metodos son ilustrados en los siguientes ejemplos.
9.7.
9.7.1.
Ejemplos num
ericos
Estudio transversal de melanoma maligno
Para los datos en el Cuadro 9.4 la pregunta de interes es de que si hay una asociacion
entre el tipo de tumor y el sitio. Esto puede ser examinado probando la hipotesis nula
de que las variables son independientes.
La prueba Chi-cuadrada convencional de independencia para una tabla de dos dimensiones es realizada calculando las frecuencias esperadas para cada celda basada en P
las P
marginales totales, ejk = yj. y.k /n, calculando el estadstico chi-cuadrado
X 2 = j k (yjk ejk )2 /ejk y comparando este con la distribucion chi-cuadrada central con (J 1)(K 1) grados de libertad. Las frecuencias observadas y esperadas son
mostradas en el cuadro 9.9. Esto da
X2 =
(28 31.64)2
(22 5.78)2
+ ... +
= 65.8.
5.78
31.64
El valor X 2 = 65.8 es muy significativo comparado con la distribucion 2 (6). El examen de frecuencias observadas yjk y frecuencias esperadas ejk muestra que la peca
melanootica de Hutchinson es mas com
un en la cabeza y cuello que se esperara si el
sitio y tipo fueran independientes.
El analisis correspondiente usando modelos log-lineales involucra el ajuste del modelos aditivo (9.10) correspondiente a la hipotesis de independencia. El modelo saturado
(9.11) y el modelo minimal con solo un termino para el efecto de la media son tambien
ajustados para propositos ilustrativos. Los resultados para todos los tres modelos son
mostrados en el Cuadro 9.10.
Cuadro 9.9: Prueba Chi-cuadrada convencional de independencia para datos de
melanoma in el cuadro 9.4; frecuencias esperadas son mostradas en parentesis.
Tipo de tumor
freckle melanotico
de Hutchinson
Esparcimiento superficial
de melanoma
Nodular
indeterminado
Total
Cabeza
y Cuello
22 (5.78)
16 (31.45)
Sitio
Extemidades
2 (9.01)
10 (19.21)
Tronco
54 (49.03)
19 (21.25) 33 (33.13)
11 (9.52) 17 (14.84)
68
106
Total
34
115 (104.52)
185
73 (70.62)
28 (31.64)
226
125
56
400
Para la categora de referencia de peca melanotica de Hutchinson (HMF) en la

cabeza o cuello (HNK), las frecuencias esperadas son como sigue:
modelo minimal: e3.507 = 33.35;
modelo aditivo: e1.754 = 5.78, como en el cuadro 9.9;
modelo saturado: e3.091 = 22, equivale a la frecuencia obervada.
Para tumores inddeterminados (IND) en las extremidades (EXT), las frecuencias esperadas son:
modelo minimal: e3.507 = 33.35;
modelo aditivo: e1.754+0.499+1.201 = 31.64, como en el cuadro 9.9;
modelo saturado: e3.0910.6930.788+1.723 = 28, igual a la frecuencia observada.
El modelo saturado con 12 parametros ajusta los 12 puntos de datos exactamente.
El modelo aditivo corresponde al analisis convencional. La desvianza para el modelo
aditivo puede ser calculada de la suma de cuadrados de los residuales de desvianza dados
por (9.8), o de dos veces la diferencia entre los valores maximos de la funcion de logverosimilitud para este modelo y el modelo saturado, D = 2[29.556 (55.453)] =
51.79.
Para este ejemplo, la prueba de chi-cuadrado convencional para la independencia y
la modelacion log-lineal produce exactamente los mismos resultados. La ventaja de la
modelacion log-lineal es que proporciona un metodo para analizar datos cruzados mas
complicados, como se ilustra en el siguiente ejemplo.
9.7.2.
Estudio de casos y controles de u

lcera g
astrica y duodenal y el uso de aspirina
El analisis preliminar para tablas de 22 para u

lceras gastricas y u
lceras duodenales
sugieren que el uso de aspirina puede ser un factor de riesgo para u
lceras gastricas pero
no para u
lceras duodenales. Para el analisis de conjunto de datos completo, el cuadro
9.7, los efectos principales para el estado de casos y controles (CC), sitio de la u
lcera
(GD) y la interaccion entre estos terminos (CC GD) tienen que ser includos en
todos los modelos (porque estos corresponden al total de marginales fijas). El cuadro
9.11 muestra los resultados de ajuste y varios modelos mas complejos que implican el
uso de aspirina (AP). La comparacion del uso de aspirina entre casos y controles se
Cuadro 9.10: Modelos log-lineales para datos de melanoma en el cuadro 9.4; los coeficientes, b, con errores estandar en parentesis.
Termino*
Constante
SSM
NOD
IND
TNK
EXT
SSMTNK
SSMEXT
NODTNK
NODEXT
INDTNK
INDEXT
log-verosimilitud
X2
D
Modelo
Modelo
Saturado(9.10) Aditivo(9.9)
3.091 (0.213) 1.754 (0.204)
-0.318 (0.329) 1.694 (0.187)
-0.147 (0.313) 1.302 (0.193)
-0.693 (0.369) 0.499 (0.217)
-2.398 (0.739) 0.444 (0.155)
-0.788 (0.381) 1.201 (0.138)
3.614 (0.792)
2.761 (0.465)
2.950 (0.793)
2.134 (0.460)
2.833 (0.834)
1.723 (0.522)
-29.556
0.0
0.0
-55.453
65.813
51.795
Modelo
Minimal
3.507 (0.05)
-177.16
*Las referencias categoricas son: freckle melanotico de Hutchinson (HMF) y cabeza y

cuello (HNK). Otras categoras son: para tipo, esparcimiento superficial de malanoma
(SSM), nodular (NOD) e indeterminado (IND; para sitio, tronco (TNK) y
extremidades (EXT).
puede resumir por la diferencia de la desvianza para el segundo y tercer renglones del
Cuadro 9.11.
D = 2[25.08 (30.70)] = 11.24.
Este valor es estadsticamente significante comparado con la distribucion 2 (1), sugiriendo que la aspirina es un factor de riesgo para la u
lcera. La comparacion entre el
tercer y cuarto renglones del cuadro, D = 2[22.95 (25.08)] = 4.26, proporciona
solo poca evidencia de una diferencia entre sitios de u
lcera, posiblemente debido a la
falta de potencia estadstica (p-valor=0.04 de la distribucion 2 (1)).
El ajuste del modelo con las tres interacciones dobles es mostrada en el cuadro 9.12.
Los estadsticos de bondad de ajuste para esta cuadro son X 2 = 6.49 y D = 6.28 lo
que sugiere que el modelo no es particularmente bueno ( comparado con la distribucion
2 (1)) a pesar de que p = 7 parametros se han utilizado para describir N = 8 puntos
de datos.
Cuadro 9.11: Resultados de la modelacion log-lineal de datos en el cuadro 9.7.
Terminos en el modelo
d.f.*
GD+CC+GDCC
GD+CC+GDCC+AP
GD+CC+GDCC+AP+APCC
GD+CC+GDCC+AP+APCC+APGD
4
3
2
1
logverosimilitud**
-83.16
-30.70
-25.08
-22.95
*d.f. son los grados de libertad= n

umero de observaciones (8) menos el n
umero de
parametros;
** Valor maximo de la funcion de log-verosimilitud.
Cuadro 9.12: Comparacion de frecuencias observadas y frecuencias esperadas obtenidas

del modelo log-lineal con todas las interacciones dobles de los terminos para los datos
en el cuadro 9.7; frecuencias esperadas en parentesis.
Uso de aspirina
No-usuario
usuario
Ulcera
gastrica
Controles
Casos
Ulcera Duodenal
Controles
Casos
9.8.
Total
62 (58.53)
39 (42.47)
6 (9.47)
25 (21.53)
68
64
53 (56.47)
49 (45.53)
8 (4.53)
8 (11.47)
61
57
Observaciones
Dos cuestiones relevantes para el analisis de un conjunto de datos de conteo no han

sido discutidos a
un en este captulo.
Primero, la sobredispersi
on ocurre cuando la var(Yi ) es mayor que E(Yi ), aunque la
var(Yi ) = E(Yi ) para la distribucion Poisson. La distribuci
on binomial negativa
proporciona un modelo alternativo con var(Yi ) = E(Yi ), donde > 1 es un parametro
que puede ser estimado. La sobredispersion puede ser debido a la falta de independencia
entre las observaciones, en cuyo caso los metodos descritos en el captulo 11 para datos
correlacionados pueden ser utilizados.
En segundo lugar, las tablas de contingencia pueden incluir celdas las cuales no pueden
tener alguna observacion (por ejemplo, los casos de histerectoma masculinas). Este
fenomeno, denominado ceros estructural, puede no ser facil incorporada en la regresion Poisson a menos que los parametros puedan ser especificados para dar cabida a la
situacion. Aproximaciones alternativas son discutidas por Agresti (1990).
9.9.
Ejercicios
9.1 Sean P
Yi , . . . , YN variables aleatorias independientes con Yi Poisson(i ) y log i =
1 + Jj=2 xij j ,
i = 1, . . . , N.
(a) Muestra que el estadstico de puntuacion para 1 es U1 =
PN
i=1 (Yi
i ).
(b) P
Por lo tanto
muestra que para la estimacion de maxima verosimilitud
bi ,
P
bi = yi .
(c) Deduce que la expresion para la desvianza in (9.6) se simplifica a (9.7) en este
caso.
9.2 Los datos en el cuadro 9.13 son n
umeros de policias asegurados, n, y n
umeros
de reclamaciones, y, para carros en varias categorias de seguros, CAR, tabulado
por edad de titular de poliza, AGE, y distrito donde viva el titular de la poliza
(DIST=1, para Londres y otras ciudades mayores y DIST=0, en otro caso).El
cuadro es derivado del connjunto de datos CLAIMS en Aitkin et al. (1989) obtenido
de un artculo de Baxter, Coutts y Ross (1980).
(a) Calcula la tasa de reclamaciones y/n para cada categora y grafica las tasas
por AGE, CAR y DIST para lograr una idea de los efectos principales de estos
factores.
(b) Usa regresion Poisson para estimar los efectos principales (cada una tratada
como categorica y modelada utilizando variables indicadoras) y terminos de
interaccion.
(c) Basado en la modelacion en (b), Aitkin et al. (1989) determino que todas las
interacciones fueron sin importancia y decidio que AGE y CAR podran ser
tratadas aunque fuesen variables continuas. Ajusta un modelo incorporando
estas caractersticas y compara esto con el mejor modelo obtenido en (b). a
que conclusiones se llega?
9.3 (a) Usando la prueba chi-cuadrada convencional y un modelo log-lineal apropiado,
prueba las hipotesis de que la distribucion de la respuesta es la misma para grupos
de placebo y vacunas para los datos de los ensayos de vacunas contra la gripe en
el cuadro 9.6.
(b) Para el modelo correspondiente para la hipotesis de homogeneidad de distribuciones de respuesta, calcula los valores ajustados, los residuales de Pearson y la
desvianza y los estadsticos de bondad de ajuste X 2 y D. Cual de las celdas
del cuadro contribuyen mas a X 2 (o D)? Explica e interpreta los resultados.
(b) Re analiza estos datos usando regresion logstica ordinal para estimar puntos
de corte para una variable respuesta continua latente y para estimar un cambio
de localizacion entre los dos grupos de tratamiento. Dibuja un diagrama aspero
para ilustrar el modelo que forma la base conceptual para este analisis (vease
el ejercicio 8.4).
9.4 Para tablas de contingencia de 2 2, el modelo log-lineal maximal puede ser escrito
como
11 = + + + (),
12 = + (),
21 = + (),
donde jk
22 = + (),
PP
= log E(Yjk ) = log(njk ) y n =
Yjk . Muestra que los terminos de
Cuadro 9.13: Reclamos de seguros de carros: basados en el conjunto de datos CLAIMS

reportado por Aitkin et al. (1989).
CAR
1
1
1
1
2
2
2
2
3
3
3
3
4
4
4
4
AGE
1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
DIST=0
y
n
65 317
65 476
52 486
310 3259
98 486
159 1004
175 1355
877 7660
41 223
117 539
137 697
477 3442
11
40
35 148
39 214
167 1019
DIST=1
y
n
2
20
5
33
4
40
36 316
7
31
10 81
22 122
102 724
5
18
7
39
16 68
63 344
0
3
6
16
8
25
33 114
interaccion () estan dados por

() =
1
log
4
donde es la razon de momios (11 22 )/(12 21 ), y por lo tanto = 1 corresponde

a no interaccion.
9.5 Usa modelos log-lineal para examinar los datos de satisfaccion de la vivienda en el
cuadro 8.5.
El n
umero de personas encuestadas en cada tipo de vivienda pueden considerarse
como fijo.
(a) Primero analiza las asociaciones entre niveles de satisfaccion (tratadas como
una variable categorica nominal) y contacta con otros residentes, separadamente para cada tipo de vivienda.
(b) Despues conduce los analisis en (a) de forma simultanea para todos los tipos
de vivienda.
(c) Compara los resultados de la modelacion log-lineal con estos obtenidos usando
regresion logstica nominal u ordinal (ver ejercicio 8.2).
9.6 Considera una tabla de contingencia de 2 K (Cuadro 9.14) en la que el total de
columnas y.k son fijas para k = 1, . . . , K.
(a) Muestra que el producto de distribuciones multinomiales apra esta tabla se
reduce a

K
X
nk zk
f (z1 , . . . , zK /n1 , . . . , nK ) =
k (1 k )nk zk
z
k
k=1
Cuadro 9.14: Tabla de contingencia con 2 renglones y K columnas.
Exitos
Fracasos
Total
1
y11
y21
y.1
...
k
y1k
y2k
y.k
...
K
y1K
y2K
y.K
donde nk = y.k , zk = y1k , nk zk = y2k , k = 1k y 1 k = 2k , para k =

.1, . . . , K. Este es el producto de distribuciones multinomial y es la distribucion
conjunta para el cuadro 7.1 (con cambios apropiados en notacion).
(b) Muestra que el modelo log-lineal con
1k = log E(Zk ) = xT1k
y
2k = log E(nk Zk ) = xT2k
es equivalente al modelo logstico

k
= xTk
log
1 k
donde xk = x1k x2k , k = 1, . . . , K.
(c) Basado en (b), analiza los datos de estudio caso-control en el uso de aspirina y u
lceras usando regresion logstica y compara los resultados con aquellos
obtenidos usando modelos log-lineales.
Captulo 10
An
alisis de Supervivencia
10.1.
Introducci
on
Un tipo importante de los datos es el tiempo desde un punto de inicio bien definido
hasta alg
un evento, llamado falla, se produce. En la ingeniera, este puede ser el
tiempo del uso inicial un componente hasta que deja de funcionar correctamente. En
medicina, puede ser el tiempo desde que un paciente es diagnosticado con una enfermedad hasta que el o ella muere. El analisis de estos datos se centra en resumir las
principales caractersticas de la distribucion, como la mediana u otros percentiles de
tiempo hasta el fallo, y examinar los efectos de las variables explicatorias. Los datos
sobre los tiempos hasta el fallo, o mas optimista, la duracion de la supervivencia o
tiempos de supervivencia, tienen dos caractersticas importantes:
(a) los tiempos son no negativos y suelen tener distribuciones asimetricas con largas
colas;
(b) algunos sujetos puede sobrevivir mas alla del perodo de estudiode manera que
sus tiempos de fallo reales no pueden ser conocidos; en este caso, y otros casos
en los que los tiempos de fallo no se conocen por completo, se dice que los datos
estan censurados .
Los ejemplos de diversas formas de censura se muestran en la Figura 10.1. Las lneas
horizontales representan los tiempos de supervivencia de los sujetos. TO y TC son el
principio y el final del perodo de estudio, respectivamente. D representa muerte o
fallo y A denota vivo al final del estudio. L indica que el sujeto era conocido vivo al
tiempo indicado pero luego se perdio del estudio por lo que el curso de vida subsecuente
es desconocido.
Para los sujetos 1 y 2, todo el perodo de supervivencia (por ejemplo, desde el
diagnostico hasta la muerte, o de la instalacion de una maquina hasta el fallo) se
produjeron en el perodo de estudio. Para el sujeto 3, la muerte se produjo despues
de que el final del estudio de modo que solo la parte solida de la lnea se registra y el
tiempo se dice que esta censurado por la derecha al TC el tiempo.
Para el sujeto 4, el tiempo de supervivencia observada fue censurado derecha debido
a la perdida de seguimiento en el tiempo TL . Para el sujeto 5, el tiempo de supervivencia
inicio antes que el estudio comenzara por lo que el perodo antes de T0 (es decir, la lnea
de puntos) no se graba y el tiempo de supervivencia registrada se dice que esta censurado
por la izquierda en tiempo T0 .
169

CAPITULO 10. ANALISIS
DE SUPERVIVENCIA
170
Figura 10.1: Diagrama de tipos de censura de los tiempos de supervivencia..

El analisis de los datos de tiempo de supervivencia es el tema de numerosos libros y
articulos. Procedimientos para implementar los calculos estan disponibles en la mayora
de los programas estadsticos. En este libro, solo se consideran los datos de tiempo de
supervivencia de escala continua. Ademas solo se consideran modelos parametricos; es
decir, modelos que requieren la especificacion de una distribucion de probabilidad para
los tiempos de supervivencia. En particular, esto significa que una de las formas mas
conocidas de analisis de supervivencia, el modelo de riesgos proporcionales de Cox
(Cox, 1972), no se considera porque es un modelo semi param
etrico en la que la
dependencia de las variables explicatorias se modela de forma explcita, pero ninguna
distribucion especfica de probabilidad se supone para los tiempos de supervivencia.
Una ventaja de los modelos parametricos, en comparacion con el modelo de riesgos
proporcionales de Cox, es que las inferencias son por lo general mas precisa y hay una
amplia gama de modelos con los que describir los datos, incluidos los modelos de
tiempo de fallo acelerado (Wei, 1992). Temas importantes no considerados aqu incluyen variables explicatorias dependientes del tiempo(Kalbfleisch y Prentice, 1980) y
los modelos de tiempo de supervivencia discretas (Fleming y Harrington, 1991). Libros
bastante recientes que describen el analisis de los datos de supervivencia en detalle
incluyen Collett (1994), Lee (1992), Cox y Oakes (1984) y Crowder et al. (1991).
La siguiente seccion explica varias funciones de la distribucion de probabilidad de
los tiempos de supervivencia que son u
tiles para la especificacion del modelo. Esto
se sigue de las descripcion de las dos distribuciones mas utilizadas para los datos de
supervivencia - las distribuciones exponencial y Weibull.
La estimacion e inferencia para los datos de supervivencia son complicadas por la
presencia de los tiempos de supervivencia censurados. La funcion de verosimilitud contiene dos componentes, uno que involucra los tiempos de supervivencia sin censura y
el otro que hace el mayor uso posible de informacion acerca de los tiempos de supervivencia que estan censuradas. Para varias de las distribuciones de probabilidad mas
com
unmente utilizados no se cumplen plenamente los requisitos de los modelos lineales
generalizados. Sin embargo, la estimacion basada en el metodo de Newton-Raphson
para maximizar la funcion de verosimilitud, que se describe en el captulo 4, y los

DE SUPERVIVENCIA
171
metodos de inferencia que se describen en el captulo 5 se aplica todo bastante bien, al

menos para grande tama
nos de muestra.
Los metodos descritos en este captulo se ilustran usando un peque
no conjunto de
datos para que los calculos sean relativamente faciles, a pesar de que las propiedades
asintoticas de los metodos se aplican solo aproximadamente.
10.2.
Funciones de Supervivencia y funciones de riesgo
Sea la variable aleatoria Y que denota el tiempo de supervivencia y sea f (y) su

funcion de densidad de probabilidad. Entonces, la probabilidad de fallo antes de un
tiempo especfico y esta dada por la distribucion de probabilidad acumulada
Z y
f (t)dt.
F (y) = P r(Y < y) =
0
La funci
on de supervivencia es la probabilidad de supervivencia mas alla del tiempo
y. Esta dada por
S(y) = P r(Y y) = 1 F (y)
(10.1)
La funci
on de riesgo es la probabilidad de muerte en un tiempo infinitamente peque
no
entre y y (y + y), dado que ha sobrevivido hasta el tiempo y,
P r(y Y < y + y | Y > y)
y0
y
F (y + y) F (y)
1
= lm
.
y0
y
S(y)
h(y) = lm
Pero
F (y + y) F (y)
= f (y)
y0
y
lm
por la definicion de derivada. Por tanto

h(y) =
f (y)
S(y)
(10.2)
que tambien pues ser escrito como

h(y) =
d
[log[S(y)]]
dy
Por lo tanto
(10.3)
Z
S(y) = exp[H(y)] donde H(y) =
h(t)dt
0
o
H(y) = log[S(y)].
(10.4)
H(y) es llamada funci

on de riesgo acumulada o funci
on de riesgo integrada.
El tiempo promedio de supervivencia se estima por lo general por la mediana de
la distribucion. Esto es preferible para el valor esperado debido a la asimetra de la

DE SUPERVIVENCIA
172
distribucion. La mediana tiempo de supervivencia, y(50), es dado por la solucion

de la ecuacion F (y) = 12 . Otros percentiles pueden obtenerse similarmente; por ejemplo,
el p-esimo percentil y(p) es la solucion de F [y(p)] = p/100 o S[y(p)] = 1 (p/100).
Para algunas distribuciones estos percentiles se pueden obtener de forma explcita; para
otras,los percentiles puede ser necesario calcularlos a partir de la funcion de supervivencia estimada (ver Seccion 10.6).
10.2.1.
Distribuci
on Exponencial
El modelo mas simple para tiempo de supervivencia Y es la distribucion exponencial

con la funcion de densidad de probabilidad
f (y; ) = ey ,
y 0, > 0
(10.5)
esta es miembro de la familia de distribucion exponencial (ver Ejercicio 3.3(b)) y tiene

E(Y ) = 1/ y var(Y ) = 1/2 (ver Ejercicio 4.2). La distribucion acumulada es
Z y
F (y; ) =
et dt = 1 ey .
0
As la funcion de superviviencia es
S(y; ) = ey
(10.6)
la funcion de riesgo es
h(y; ) =
y la funcion de riesgo acumulada es
H(y; ) = y.
La funcion de riesgo no depende de y por lo que la probabilidad de fallo en el
intervalo de tiempo [y, y + y] no esta relacionada con el tiempo que el sujeto ya ha
sobrevivido. Esta propiedad de falta de memoria puede ser una limitacion porque,
en la practica, la probabilidad de fallo a menudo aumenta con el tiempo. En tales
situaciones, un modelo de tiempo de fallo acelerado, tal como la distribucion de Weibull,
puede ser mas apropiado . Una forma de examinar si los datos satisfacen la propiedad
de riesgo constante es estimar la funcion de riesgo acumulada H(y) (vease la seccion
10.3) y graficarla contra el tiempo de supervivencia y. Si la grafica es casi lineal entonces
la distribucion exponencial puede proporcionar un modelo u
til para los datos.
La mediana tiempo de supervivencia esta dado por la solucion de la ecuacion
F (y; ) =
1
2
que es y(50) =
1
log 2
Esta es una descripcion mas apropiada del promedio de tiempo de supervivencia que
E(Y ) = 1/ debido a la asimetra de la distribucion exponencial.

DE SUPERVIVENCIA
10.2.2.
173
Modelos de riesgos proporcionales
Para una distribucion exponencial, la dependencia de Y sobre las variables explicatorias podra ser modelado como E(Y ) = xT . En este caso la identidad se usaria
como funcion liga. Para garantizar que > 0, sin embargo, es mas comun el uso de
T
= ex .
En este caso la funcion de riesgo tiene la forma multiplicativa
!
p
X
T
h(y; ) = = ex = exp
xi i .
i=1
Para una variable explicatoria binaria con valores xk = 0 si la exposicion esta ausente
y xk = 1 si la exposicion esta presente, la razon de riesgo o riesgo relativo de presencia
vs. ausencia de exposicion es
h1 (y; )
(10.7)
= ek
h0 (y; )
P
siempre que i6=k xi i sea constante. Un cambio unitario en un variable explicatoria
continua xk tambien dara lugar a la razon de riesgo dada en (10.7).
Generalmente, los modelos de la forma
h1 (y) = h0 (y)ex
(10.8)
son llamados modelos proporcionales de riesgo y h0 (y), que es la funcion de riesgo

correspondiente a los niveles de referencia para todas las variables explicatorias, que se
llama el riesgo basal.
Para los modelos de riesgos proporcionales, la funcion de riesgo acumulada esta
dada por
Z
Z
y
h0 (t)ex dt = H0 (y)ex
h1 (t)dt =
H1 (y) =
as
log H1 (y) = log H0 (y) +
p
X
xi i .
i=1
Por lo tanto, para dos grupos de sujetos que difieren solo con respecto a la presencia
(denotado por P) o ausencia (denotado por A) de una cierta exposicion, de (10.7)
log HP (y) = log HA (y) + k
(10.9)
por lo que el logaritmo de las funciones de riesgo acumuladas difieren por una constante.
10.2.3.
Distribuci
on Weibull
Otro modelo com

unmente utilizado para los tiempos de supervivencia es la distribucion de Weibull que tiene la funcion de densidad de probabilidad

y 1
y
f (y; , ) =
exp
, y 0, > 0, > 0

DE SUPERVIVENCIA
174
(ver Ejemplo 4.2). Los parametros y determinan la forma y escala de la distribucion,

respectivamente. Para simplificar parte de la notacion, es conveniente reparametrizar
la distribucion usando = . Entonces la funcion de densidad de probabilidad es
f (y; , ) = y 1 exp(y )
(10.10)
La distribucon exponencial es un caso especial de la Distribucion Weibull con = 1.

La funcion de supervivencia de la Distribucion Weibull es
Z
u1 exp(u )du
S(y; , ) =
y
= exp(y ),
(10.11)
la funcion de riesgo es
h(y; , ) = y
(10.12)
y la funcion de riesgo acumulada es

H(y; , ) = y
La funcion de riesgo depende de Y y con valores adecuados de se puede aumentar
o disminuir al incrementar el tiempo de supervivencia. Por lo tanto, la distribucion
Weibull produce modelos de tiempo de fallo acelerado. La conveniencia de esta
funcion para modelar un conjunto de datos en particular se puede evaluar usando
log H(y) = log + log y
= log[ log S(y)].
(10.13)
b puede ser usada para graficar log[ log S(y)]

b
La funcion de supervivencia emprica S(y)
b
( o S(y)
puede ser graficada en la escala log-log complementario) contra el logaritmo de
los tiempos de supervivencia. Para la distribucion Weibull (o exponencial) los puntos
debera caer aproximadamente en una lnea recta. Esta tecnica se ilustra en la Seccion
10.3.
Se puede demostrar que el valor esperado del tiempo de supervivencia Y es
Z
y exp(y )dy
E(Y ) =
0
1/
=
donde (u) =
R
0
(1 + 1/)
su1 es ds. Tambien la mediana, dada por la solucion de

S(y; , ) =
1
2
es
y(50) = 1/ (log 2)1/ .
Estas estadsticos sugieren que la relacion entre Y y las variables explicatorias debe ser
modelada en terminos de y debe ser multiplicativo. En particular, si
= ex

DE SUPERVIVENCIA
175
entonces la funcion de riesgo (10.12) se convierte en

T
h(y; , ) = y 1 ex .
(10.14)
Si h0 (y) es es la funcion riesgo basal correspondiente a los niveles de referencia de todas

las variables explicatorias, entonces,
h(y) = h0 (y)ex
que es un modelo de riesgo proporcional.

De hecho, la distribucion Weibull es la u
nica distribucion para datos de tiempo
de supervivencia que tiene las propiedades de tiempos de fallo acelerado y de riesgos
proporcionales; ver Ejercicios 10.3 y 10.4 y Cox y Oakes (1984).
10.3.
Funci
on de supervivencia emprica
La funcion de riesgo acumulada H(y) es una herramienta importante para examinar

que tan bien una distribucion particular describe un conjunto de datos de tiempo de
supervivencia. Por ejemplo, para la distribucion exponencial, H(y) = y es una funcion
lineal del tiempo (vease la Seccion 10.2.1) y esto puede ser evaluado a partir de los
datos.
La funcion de supervivencia emprica, una estimacion de la probabilidad de supervivencia mayor del tiempo y, esta dada por
n
umero de sujetos con tiempos de supervivencia y
e
S(y)
=
n
umero total de sujetos
La forma mas com
un para calcular esta funcion es utilizar la estimacion de Kaplan
Meier, que tambien se llama la estimaci
on producto lmite. Se calcula primero la
organizando los tiempos de supervivencia observados en orden creciente de magnitud
y(1) y(2) . . . y(k) . Sea nj el n
umero de sujetos que estan vivos justo antes de tiempo y(j) y sea dj el n
umero de muertes que occurren en el tiempo y(j) (o, estrictamente
dentro de un peque
no intervalo de tiempo de y(j) a y(j) ). Entonces la probabilidad
estimada de supervivencia pasado y(j) es (nj dj )/nj . Suponiendo que los tiempos de
y( j) son independientes, la estimacion de Kaplan Meier de la funcion de supervivencia
en el tiempo y es

k
Y
nj dj
e
S(y) =
nj
j=1
para y entre los tiempos y(j) y y(j+1) .
10.3.1.
Ejemplo:Tiempos de remisi
on
b
El calculo de S(y)
se ilustra usando un viejo conjunto de datos de tiempos de
remision de los pacientes con leucemia (Gehan, 1965). Hay dos grupos cada uno de n =
21 pacientes. En el grupo control que fueron tratados con un placebo no hubo censura,
mientras que en el grupo de tratamiento activo, que recibieron 6 mercaptopurina, mas
de la mitad de las observaciones fueron censuradas. Los datos para ambos grupos se

DE SUPERVIVENCIA
176
b
dan en el Cuadro 10.1. Los detalles del calculo de S(y)
para el grupo de tratamiento se
muestran en el Cuadro 10.2.
Cuadro 10.1: Remision tiempos de pacientes con leucemia; datos de Gehan (1965).
Controles
1
1
2
2 3
8
8
11 11 12
Tratamiento
6
6
6 6* 7
17* 19* 20* 22 23
*indica la censura
4
12
4
15
5
17
5
22
8
23
9*
25*
10 10* 11* 13
32* 32* 34* 35*
16
Cuadro 10.2: Calculo de la estimacion de Kaplan Meier de la funcion de supervivencia

para el grupo de tratamiento de los datos en la Tabla 10.1.
Tiempo
yj
No. de vivos justo

antes del tiempo yj , nj
No. de muertes
al tiempo yj , dj
06
67
710
1013
1316
1622
2223
23
21
21
17
15
12
11
7
6
0
3
1
1
1
1
1
1
Q
b
S(y)
=
nj dj
nj
1
0.857
0.807
0.753
0.690
0.627
0.538
0.448
La Figura 10.2 muestra la grafica de puntos de los tiempos no censurados (puntos) y los tiempos censurados (cuadrados) para cada grupo. Debido al alto nivel de
censura en el grupo de tratamiento, las distribuciones no son realmente comparables.
Sin embargo,los graficos muestran las distribuciones son asimetricas y sugieren que los
tiempos de supervivencia eran mas largos en el grupo de tratamiento. La Figura 10.3
muestra las estimaciones de Kaplan Meier de las funciones de supervivencia para los
dos grupos. La lnea continua representa el grupo de control y la lnea de punteada
representa el grupo de tratamiento. La supervivencia fue obviamente mejor en el grupo
de tratamiento. Figura 10.4 muestra el logaritmo de la funcion de riesgo acumulada
graficada contra log y. Las dos lneas son bastante rectas que sugiere que la distribucion de Weibull es apropiado, a partir de (10.13). Ademas, las lneas son paralelas que
sugiere que el modelo de riesgos proporcionales es apropiado, a partir de (10.9). Las
pendientes de las lneas estan cerca de la unidad lo que sugiere que la distribucion exponencial simple puede proporcionar un buen modelo como la distribucion de Weibull.
La distancia entre las lneas es de aproximadamente 1.4 lo que indica que la relacion
de riesgo es de aproximadamente exp(1.4)
= 4, a partir de (10.9).

DE SUPERVIVENCIA
177
Figura 10.2: Grafica de puntos de los tiempos de remision de los datos en el Cuadro
10.1: los puntos representan tiempos sin censura y los cuadros tiempo censurados.
Figura 10.3: Funciones de supervivencia empricas (estimaciones de Kaplan-Meier) para

los datos del Cuadro 10.1: la lnea continua representa el grupo de control y la lnea
punteada representa el grupo de tratamiento.

DE SUPERVIVENCIA
178
Figura 10.4: El logaritmo de la funcion de riesgo acumulada graficada contra el logaritmo

los de tiempo de remision de los datos de la Tabla 10.1; los puntos representan el grupo
control y los diamantes representan el grupo de tratamiento.
10.4.
Estimaci
on
Para el j-esimo sujeto, los datos registrados son: yj el tiempo de supervivencia; j

un indicador de censura con j = 1 si el tiempo de supervivencia es sin censura y
j = 0 si es censurado; xj un vector de variables explicatorias. Sean y1 , y2 , . . . , yr las
observaciones sin censura y yr+1 , . . . , yn las censuradas. La contribucion de las variables
sin censura a la funcion de verosimilitud es
r
Y
f (yj ).
j=1
Para una variable censurada sabemos el tiempo de supervivencia Y es al menos yj

(r + 1 j n) y la probabilidad de esto es P r(Y yj ) = S(yj ), por lo que la
contribucion de las variables censuradas a la funcion de verosimilitud es
n
Y
S(yj ).
j=r+1
La verosimilitud completa
L=
n
Y
j=1
f (yj )j S(yj )1j
(10.15)

DE SUPERVIVENCIA
179
as la funcion de log-verosimilitud es
l=
=
n
X
j=1
n
X
[j log f (yj ) + (1 j ) log S(yj )]

[j log h(yj ) + log S(yj )]
(10.16)
j=1
de la Ecuacion (10.2). Estas funciones dependen de los parametros de las distribuciones

de probabilidad y los parametros en la componente lineal xT .
Los parametros pueden ser estimados utilizando los metodos descritos en el Captulo
4. Por lo general, la maximizacion numerica de la funcion de log-verosimilitud, basado
en el metodo de Newton-Raphson, es empleada. La inversa de la matriz de informacion
que se utiliza en el procedimiento iterativo proporciona una estimacion asintotica de la
matriz de varianza-covarianza de las estimaciones de los parametros.
La principal diferencia entre los modelos parametricos para los datos de supervivencia que se describen en este libro y el modelo de regresion de riesgos proporcionales de
Cox de uso general es en la funcion (10.15). Para el modelo de Cox, las funciones f y S
no se especifican plenamente; para mas detalles, vease Collett (1994), por ejemplo.
10.4.1.
Ejemplo: modelo exponencial simple
Supongamos que tenemos datos de tiempo de supervivencia con censura, pero no

hay variables explicatorias y que creemos que la distribucion exponencial es un modelo
adecuado.
Q
Entonces la funcion de verosimilitud es L(; y) = nj=1 (eyj )j (eyj )1j de las
ecuaciones (10.5),(10.6) y (10.15). La funcion de log-verosimilitud es
l(; y) =
n
X
j log +
j=1
n
X
[j (yj ) + (1 j )(yj )].
(10.17)
j=1
Como hay r observaciones no censuradas (con j = 1) y (nr) observaciones censuradas

(con j = 0), la ecuacion (10.17) se puede simplificar a
l(; y) = r log
n
X
yj
j=1
La solucion de la ecuacion
U=
r X
dl(, y)
=
yj = 0
d
da el estimador de maxima verosimilitud

r
b = P .
Yj
Si no hubiera observaciones censuradas entonces r = n y 1/b es justo la media de los
tiempos de supervivencia, Como era de esperar debido a E(Y ) = 1/.

DE SUPERVIVENCIA
180
La varianza de b puede ser obtenida de la informacion

b =
var()
1
1
=
E((U 0 ))
donde
d2 l
r
= 2.
2
d
b = 2 /r que puede ser estimada por b2 /r. Por tanto, por ejemplo, un intervalo
As var()
b r.
de confianza del 95 % aproximado para es b 1.96/
U0 =
10.4.2.
Ejemplo: Modelo Proporcional de Riesgos de Weibull
Si los datos para los sujetos j son (yj , j y xj ) y se piensa que la distribucion
de Weibull proporcionar un modelo adecuado (por ejemplo, sobre la base de analisis
exploratorio inicial), entonces la funcion de log-verosimilitud es
l=
n h
i
X
T
j log(yj1 ) (yj ex )
j=1
de las ecuaciones (10.14) y (10.16). Esta funcion puede ser maximizada numericamente
b
b
para obtener las estimaciones de ,
b, y .
10.5.
Inferencia
El procedimiento iterativo de Newton-Raphson es usado para obtener estimaciones

de maxima verosimilitud tambien produce la matriz de informacion que puede ser
invertida para dar la matriz de varianza-covarianza aproximado para los estimadores.
Por lo tanto las inferencias para cualquier parametro se pueden basar en el estimador
b es obtenido tomando la raz
de maxima verosimilitud b y el error estandar, s.e.(),
1
cuadrada del elemento que esta en la diagonal de . Entonces, el estadstico de Wald
b
b puede ser usado para probar hipotesis acerca de o para calcular lmites
()/(s.e.(
))
de confianza aproximados los para suponiendo que la estadstica tiene la distribucion
normal estandar N (0, 1) (ver seccion 5.4).
Para las distribuciones de Weibull y exponenciales, el valor maximo de la funcion de
probabilidad logartmica se puede calcular mediante la sustitucion de las estimaciones
b en la expresion
de maxima verosimilitud de los parametros, denotado por el vector ,
b y). Para datos censurados el estadstico 2l(;
b y) puede no
en (10,16) para obtener l(;
tener una distribucion chi-cuadrado, aun aproximadamente. Para los modelos anidados
M1 , con p parametros y valor maximo b
l1 de la funcion de log-verosimilitud, y M0 , con
b
q < p parametros y el valor maximo l0 de la funcion de log-verosimilitud, la diferencia
D = 2(b
l1 b
l0 )
tendra aproximadamente una distribucion chi-cuadrado con p q grados de libertad
si ambos modelos se ajustan bien. La estadstico D, que es analoga a la desvianza,
proporciona otro metodo para probar la hipotesis (vease la Seccion 5.7).

DE SUPERVIVENCIA
10.6.
181
Comprobaci
on del modelo
Para evaluar la adecuacion de un modelo es necesario para comprobar los supuestos,

tales como las propiedades de riesgos proporcionales y tiempo de fallo acelerado, ademas
de la b
usqueda de patrones en los residuales (vease la Seccion 2.3.4) y y examinando
las observaciones influyentes utilizando estadsticos analogas a los de regresion lineal
m
ultiple (vease la Seccion 6.2.7).
b
La funcion de supervivencia emprica S(y)
descrita en la Seccion 10.3 se puede
utilizar para examinar la adecuacion del modelo de probabilidad. Por ejemplo, para la
b
distribucion exponencial, la grafica de log[S(y)]
contra y debe ser aproximadamente
lineal de (10.6). Generalmente para la distribucion Weibull, la grafica del logaritmo
b
del funcion de riesgo acumulada log[ log[S(y)]]
contra el log y debe de ser lineal, de
(10.13). Si la grafica muestra curvatura entonces alg
un modelo alternativo, como la
distribucion log-logstica puede ser mejor (vease el ejercicio 10.2).
El modelo de riesgos proporcionales general dado en (10.8) es
h(y) = h0 (y)ex
donde h0 es el riesgo de basal. Considere una variable explicatoria binaria xk con valores
xk = 0 si una caracteristica esta ausente y xk = 1 si esta presente. El logaritmo de las
funciones de riesgos acumulados estan relacionados por
log HP = log HA + k ;
b
ver (10.9). Por lo tanto, si las funciones de riesgo empricas S(y)
son calculadas por
separado para los sujetos con y sin la caracterstica y el logaritmo de las funciones de
b
riesgo acumulada log[ log[S(y)]]
son graficadas contra log y, las lneas deben tener la
misma pendiente pero estar separado por una distancia k .
Generalmente, lneas paralelas de la graficas del el logaritmo de las funciones de riesgo acumulada apoyan el supuesto de riesgos proporcionales. Para un n
umero bastante
reducido de variables explicatorias categoricas, el supuesto de riesgos proporcionales se
puede examinar de esta manera. Si las lneas no son paralelas esto puede sugerir que
hay efectos de interaccion entre las variables explicatorias. Si se curvan las lneas pero
a
un as paralela, esto apoya la supuesto de riesgos proporcionales, pero sugiere que el
modelo de tiempo de fallo acelerado es inadecuado. Para situaciones mas complejas
puede ser necesario contar con diagnosticos generales basados en los residuos, aunque
estos no son especficos para la investigacion de la propiedad de riesgos proporcionales.
Los residuos mas simples para los datos de tiempo de supervivencia son los residuos
de Cox-Snell. Si el tiempo de supervivencia del sujetos j es no censurado entonces el
residuo de Cox-Snell es
b j = log[Sbj (yj )]
rCj = H
(10.18)
b j y Sbj son las funciones de supervivencia y riesgos acumulada estimadas para
donde H
el sujeto j al tiempo yj . Para los modelos de riesgos proporcionales (10.18) pueden
escribirse como
b 0 (yj )
rCj = exp(xT )H
b 0 (yj ) es la funcion de de riesgo de basal evaluada en yj .
donde H
Se puede demostrar que si el modelo se ajusta bien a los datos entonces estos residuos
tienen una distribucion exponencial con un parametro de uno. En particular, su media

DE SUPERVIVENCIA
182
y la varianza debe ser aproximadamente igual a uno. Para las observaciones censuradas,
rCj sera demasiado peque
no y se han propuesto diversas modificaciones de la forma
(
rCj ,
para observaciones no censuradas
0
rCj
= Yi =
rCj + , para observaciones censuradas
0
donde = 1 o = log 2 (Crowley y Hu, 1977). La distribucion de los rCj
s se puede
comparar con la distribucion exponencial con media de uno usando las graficas de probabilidad exponencial (analogos graficos de probabilidad normal) que estan disponibles
en varios softwares estadsticos. Una grafica de probabilidad exponencial del residuales
0
rCj
se puede ser usadas para identificar valores atpicos y desvianzas sistematicas de la
distribucion supuesta.
Los Residuos martingala proporcionan un enfoque alternativo. Para el sujeto
j-esimo el residual martingala es
rMj = j rCj
donde j = 1 si el tiempo de supervivencia es no censurado y j = 0 si son censurados.
Estos residuos tienen un valor esperado de cero, pero una distribucion con sesgo
negativo.
residuos de desvianza (que son algo mal llamada porque la suma de sus cuadrados
no es, de hecho, igual a la desvianza mencionado en la Seccion 10.5) son definidos por
rDj = sign(rM j ){2[rM j + j log(rCj )]}1/2 .
Los rDj s estan aproximadamente distribuidos simetricamente alrededor de cero y valores altos pueden indicar observaciones atipicas.
Cuadro 10.3: Los resultados del ajustede de los modelos de riesgos proporcionales basados en las distribuciones exponencial y Weibull a los datos de la Tabla 10.1.
Modelo
Exponencial
Grupo 1
1.53(0.40)
Intercepto 0
0.63(0.55)
Forma
1.00*
*parametro de forma es la unidad para la
Modelo
Weibull
1.27(0.31)
0.98(0.43)
1.37(0.20)
distribucion exponencial
En principio, cualquiera de los residuos rCj , rM j o rDj son adecuados para la secuencia de graficas en contra de la orden en el que se midieron los tiempos de supervivencia,
o de cualquier otro orden relevante (para detectar la falta de independencia entre las
observaciones) y para graficas contra las variables explicatorias que se han incluido en
el modelo (y que no los tiene) para detectar cualquier patron sistematicos que indicaria que no se ha especificado el modelo correctamente. Sin embargo en la practica, la
asimetra de la distribucion de los rCj y rM j los hace menos u
tiles que rDj .
El diagnostico para identificar observaciones influyentes puede ser definido para los
datos de tiempo de supervivencia, por analoga con estadsticos similares para la regresion lineal m
ultiple y otros modelos lineales generalizados. Por ejemplo, para cualquier

DE SUPERVIVENCIA
183
parametro k delta-betas j j uno para cada sujeto j, muestrar el efecto sobre la estimacion de k causada por omitir los datos para sujetos j de los calculos. Graficando
las j k s contra el orden de las obsrvaciones o contra los tiempo de supervivencia yj
puede indicar efectos sistematicos u observaciones particularmente influyentes.
10.7.
Ejemplo: Tiempo de remision
Figura 10.4 sugiere que un modelo proporcional de riesgos con una distribucion
Weibull, o incluso una exponencial, deben proporcionar un buen modelo para los datos
de tiempo de remision en la Tabla 10.1. Los modelos son
h(y) = exp(0 + 1 x),
h(y) = y
y Exponencial
exp(0 + 1 x),
(10.19)
y Weibull,
donde x = 0 para grupo de control, x = 1 para el grupo de tratamiento y es el

parametro de forma. Los resultados del ajuste de estos modelos se muestran en el
Cuadro 10.3. La hipotesis de que = 1 se puede probar ya sea mediante el estadstico
de Wald a partir del modelo de Weibull, es decir,z = (1.37 1.00)/0.20 = 1.85, o desde
D = 2(b
lW b
lE ) = 3.89 donde b
lW y b
lE son los valores maximos del las funciones de
log-verosimilitud de los modelos Weibull y exponencial respectivamente (Los detalles
no se muestra aqu). Comparando z con la distribucion normal estandar o D con la
distribucion chi-cuadrado con un grado de libertad solo proporciona evidencia debil en
contra de la hipotesis. Por lo tanto, podemos concluir que la distribucion exponencial es
casi tan buena como la distribucion de Weibull para el modelado de los datos. Ambos
modelos sugieren que el parametro 1 no es cero y el modelo exponencial proporciona
la estimacion exp(1.53) = 4.62 para el riesgo relativo.
Figura cuadro 10.5 muestra parcelas de Cox-Snell y residuos de desviacion para
el modelo exponencial. La asimetra de los residuos de Cox-Snell y la distribucion
mas simetrica de los residuos de desviacion es evidente. Ademas, la diferencia en la
localizacion entre las distribuciones de los grupos de tratamiento y de control sugiere
que el modelo ha fracasado para describir completamente los patrones de tiempos de
remision para los dos grupos de pacientes.
10.8.
Ejercicios
10.1 Los datos del Cuadro 10.4 son los tiempos de supervivencia, en semanas, para los
pacientes de leucemia. No hay ninguna censura. Hay dos covariables, recuento de
globulos blancos (WBC) y la prueba de resultados OFA (AG positivo y negativo
AG). El conjunto de datos es de Feigl y Zelen (1965) y los datos de los 17 pacientes
con AG resultados de la prueba positiva se describen en el Ejercicio 4.2.
b
a) Obtener las funciones de supervivencia empricos S(y)
para cada grupo (AG
positivo y negativo AG), omitiendo del WMB.
b
b) Utilice graficadas adecuadas de las estimaciones S(y)
para seleccionar una
distribucion de probabilidad apropiada para modelar los datos.

DE SUPERVIVENCIA
184
c) Use un modelo parametrico para comparar los tiempos de supervivencia

para los dos grupos, despues del ajuste para la covariable WMB, que se
transformo mejor para iniciar la sesion (WMB).
d ) Compruebe la adecuacion del modelo utilizando residuos y otros diagnosticos
pruebas.
e) Sobre la base de este analisis, es AG un indicador de pronostico u
til?
Figura 10.5: Graficas de cajas de Cox Snell y residuales de Desvianza para el modelo
exponencial (10.19) de los datos en el Cuadro 10.1.

DE SUPERVIVENCIA
185
Cuadro 10.4: Leucemia, tiempos de supervivencia.

AG Positivo
Tiempo de
Recuento de
supervivencia globulos blancos
65
2.30
156
0.75
100
4.30
134
2.60
16
6.00
108
10.50
121
10.00
4
17.00
39
5.40
143
7.00
56
9.40
26
32.00
22
35.00
1
100.00
1
100.00
5
52.00
65
100.00
AG Negativo
Tiempo de
Recuento de
supervivencia globulos blancos
56
4.40
65
3.00
17
4.00
7
1.50
16
9.00
22
5.30
3
10.00
4
19.00
2
27.00
3
28.00
8
31.00
4
26.00
3
21.00
30
79.00
4
100.00
43
100.00
10.2 La distribuci
on log-logistica con la funcion de densidad de probabilidad
f (y) =
e y 1
(1 + e y )2
es a veces usado para modelar los tiempos de supervivencia.

a) Encuentra la funcion de supervivencia S(y), la funcion de riesgo h(y) y la
funcion de riesgo acumulada H(y).
b) Muestra que la mediana de los tiempos de supervivencia es exp(/).
c) Grafica la funcion de riesgo para = 1 y = 5 con = 5, = 2 y = 12 .
10.3 Para los modelos de tiempo de fallo acelerado las variables explicatorias
para sujetos i, i , act
uan multiplicativamente sobre la variable tiempo de modo
que la funcion de riesgo para el sujeto i es
hi (y) = i h0 (i y)
donde h0 (y) es la funcion de riesgo basal. Demostrar que las distribuciones de
Weibull y log-logstica ambos tienen esta propiedad, pero que la distribucion
exponencial no(Ayuda: Obtener la funcion de riesgo para la variable aleatoria
T = i Y ).
10.4 Para los modelos de riesgos proporcionales de las variables explicatorias para
T
sujetos i, i , act
uan multiplicativamente sobre la funcion de riesgo. Si i = exi

DE SUPERVIVENCIA
186
donde la funcion de riesgo para el sujeto i es

T
hi (y) = exi h0 (y)
(10.20)
donde h0 (y) es la funcion de riesgo basal.

T
a) Para la distribucion exponencial si h0 = muestra que si i = exi para el

i-esimo sujeto, entonces (10.20) se satisface
T
b) Para la distribucion Weibull si h0 = y 1 muestra que si i = exi para

el i-esimo sujeto, entonces (10.20) se satisface
c) Para la distribucion log-logistica si h0 = e y 1 /(1 + e y ) muestra que si
T
ei = e+xi para el i-esimo sujeto, entonces (10.20) se satisface. Por lo
tanto o de otra manera, deducir que la distribucion log-logstica no tiene la
propiedad de riesgos proporcionales.
10.5 Como la funcion de supervivencia S(y) es la probabilidad de sobrevivir mas
alla del tiempo y, las probabilidades de supervivencia u
ltimos tiempos y es
O(y) =
S(y)
.
1 S(y)
Para los modelos de momios proporcionales las variables explicatorias para

sujetos i, i, act
uan multiplicativamente en los momios de supervivencia mas
alla del tiempo y
O(y) = i O0 .
donde O0 es el momio basal.
a) Encontrar los momios de supervivencia mas alla del tiempo y para las distribuciones exponencial, Weibull y log-logstica.
b) Mostrar que solo la distribucion log-logstica tiene la propiedad de momios
proporcionales.
c) Para la distrinucion log-logstica mostrar que los log-momios de los tiempos
de supervivencia mas alla del tiempo y es

S(y)
= log y
log O(y) = log
1 S(y)
bi (estimada a partir de la funcion de supervivencia empriPor lo tanto si log O
ca) graficada contra log y es aprosimadamente lineal, entonces la distribucion
puede proporcionar un modelo adecuado.
d ) De (b) y (c) deducir que para dos grupos de sujetos con variables explicatob1 y log O
b2 contra log y debe producir lneas
rias 1 y 2 , las graficas de log O
rectas aproximadamente paralelas.
10.6 Los datos en el Cuadro 10.5 son tiempos de supervivencia, en meses, de 44 pacientes hepatitis activa cronica. Ellos participaron en un ensayo controlado aleatorio de la prednisolona en comparacion con ning
un tratamiento. Haba 22 pacientes

DE SUPERVIVENCIA
187
en cada grupo. Un paciente se perdio durante el seguimiento y varios en cada grupo todava estaban vivos al final del ensayo. Los datos son de Altman y
Bland, (1998)
Cuadro 10.5: Los tiempos de supervivencia en meses de los pacientes con hepatitis cronica activa en un ensayo controlado aleatorio de prednisolona versus ning
un
tratamiento; datos de Altman y Bland, (1998.
prednisolona
2
6
12
54 56**
96 125* 128* 131* 140*
146 148* 162* 168 173*
Sin tratamiento
2
3
4
7
10
32
37
40
41
54
127* 140* 146* 158* 167*
*indica la censura, ** indica una
68
89
141* 143
181*
96
145*
22
28
29
61
63
71
182*
perdida durante el seguimiento
a) Calcular la funcion de supervivencia emprica para cada grupo.

b) Usar graficas adecuadas para investigar las propiedades de tiempos de fallo
acelerado, riesgos proporcionales y momios proporcionales, usando los resultados de Ejercicio 10.3, 10.4, y 10.5 respectivamente.
c) Basandose en los resultados de (b) ajustar un modelo apropiado para los
datos de la Tabla 10.5 ppara estimar el efecto relativo de la prednisolona.
Captulo 11
Datos agrupados y longitudinales
11.1.
Introducci
on
En todos los modelos considerados hasta ahora los resultados Yi , i = 1, . . . , n son

supuestos por ser independientes. Hay dos situaciones comunes donde este supuesto
es inplausible. En una situacion los resultados son mediciones repetidas sobre tiempo
en los mismos temas; por ejemplo, los pesos de la misma persona cuando tiene 30,
40, 50 y 60 a
nos de edad. Este es un ejemplo de dato longitudinal. Mediciones en
la misma persona en diferentes tiempos pueden ser mas parecidos que las mediciones
en diferentes personas, porque son afectadas por caractersticas persistentes, as como
potencialmente mas factores variables; por ejemplo, el peso es probable a estar relacionado con la genetica de adultos, el peso, as como sus habitos alimenticios y el nivel
de actividad fsica. Por esta razon, los datos longitudinales para un grupo de sujetos
estan propensos a exhibir correlacion entre mediciones sucesivas.
La otra situacion en la cual los datos son susceptibles a estar correlacionados es donde
hay mediciones en sujetos relacionados; por ejemplo, los pesos de muestras de mujeres
de 40 a
nos seleccionadas de localidades especficas en diferentes pases. En este caso, los pases son unidades de muestreo primarias o agrupaciones y las mujeres
son sub-muestras dentro de cada unidad de muestreo primaria. Mujeres la misma area
geografica es probables a ser mas similares que alguna otra, debido a las condiciones
socio-economicas y ambientales, por lo que hay mujeres de otras localidades. Alguna
comparacion de los pesos de mujeres entre areas que han dejado de tomar esta correlacion en cuenta podra producir resultados enga
nosos. Por ejemplo, la desviacion
estandar de la diferencia media entre dos areas sera sobre-estimada si las observaciones
las cuales son correlacionadas son supuestas por ser independientes.
El termino mediciones repetidas es usado para describir ambos datos longitudinales
y agrupados. En ambas casos los modelos que incluyen correlacion son necesarios con el
fin de hacer validas las inferencias estadsticas. Hay dos aproximaciones para el modelar
tales datos.
Una aproximacion involucra la cada del supuesto usual de independencia entre los resultados Yi y la modelacion de la estructura de correlacion explcitamente. Este metodo
se conoce con diversos nombres tales como medidas repetidas (por ejemplo, an
alisis
de medidas repetidas de varianza) y la aproximacion de la ecuaci
on de estimaci
on generalizada. La estimacion y los procedimientos de inferencia para estos
modelos son, en principio, analogos a aquellos modelos lineales generalizados para re-
188
CAPITULO 11. DATOS AGRUPADOS Y LONGITUDINALES
189
sultados independientes; aunque en la practica, los softwares pueden no ser facilmente

disponibles para hacer los calculos.
La aproximacion alternativa para modelar medicones repetidas esta basada en la consideracionde la estructura jerarquica del estudio de dise
no. Esto es llamado modelaci
on
multinivel. Por ejemplo, supongamos que son repitidas, las mediciones longitudinales,
nivel 1, en diferentes temas, nivel 2, quienes fueron aleatorizados para grupos experimentales, nivel 3. Esta estrcutura anidada es ilustrada en la figura 11.1 la cual muestra
tres grupos, cada uno de los cuatro sujetos, en la que las mediciones son hechas dos veces (por ejemplo, antes y despues de alguna intervencion). En cada rama, los resultados
en el mismo nivel son supuestos a ser independiente y la correlacion es un resultado de
la estructura multinivel (ver Seccion 11.4).
Figura 11.1: Estudio multinivel.

En la siguiente seccion un ejemplo es presentado de un experimento con resultados
de mediciones longitudinales. Los analisis de datos descriptivos son usados para explorar las hipotesis de estudio y las suposiciones que son hechas en diversos modelos los
cuales podran ser usados para probar las hipotesis.
Modelos con medidas repetidas para datos normales son descritos en la Seccion 11.3.
En la seccion 11.4, modelos con medidas repetidas son descritos para datos no-normales
tales como conteos y proporciones las cuales podran ser analizados utilizando distribuciones Poisson, binomial y otras (usualmente de la familia exponencial). Estas secciones
incluyen detalles de estimacion relevante y procedimientos inferenciales. Para modelos
con medidas repetidas, es necesario seleccionar una estructura de correlacion probable que refleje las relaciones entre las observaciones. Por lo general, los parametros
de correlacion no son de interes particular (es decir, son parametros de ruido) pero
son necesarios para ser includos en el modelo con el fin de obtener estimaciones consistentes de aquellos parametros que son de interes y para calcular correctamente los
errores estandar de estas estimaciones.
Para modelos multinivel descritos en la Seccion 11.5, los efectos de los niveles pueden
ser descritos por parametros fijos (por ejemplo, para los efectos de grupo) o variables
aleatorias (por ejemplo, para los sujetos asignados aleatoriamente a grupos). Si el predictor lineal del modelo tiene ambos efectos fijos y aleatorios modelo el termino modelo
mezclado es usado. La correlacion entre observaciones es debida a los efectos aleatorios. Esto puede hacer mas facil la correlacion para interpretar en modelos multinivel
que en modelos de medidas repetidas. Tambien los parametros de correlacion puede ser
de interes directo. Para datos distribudos normalmente, los modelos multinivel estan
bien establecidos y procedimientos de estimacion y chequeo estan disponibles en mas
softwares generales con proposito estadstico. Para conteos y proporciones, aunque la
especificacion del modelo es conceptualmente sencilla, hay software menos disponibles
190
para ajustar a los modelos.

En la seccion 11.6, ambas medidas repetidas y modelos multinivel son ajustados a los
datos del ejemplo de derrame cerebral en la seccion 11.2. Los resultados son usados
para ilustrar las conexiones entre varios modelos.
Finalmente, en la seccion 11.7, un n
umero de cuestiuones que surgen en la modelacion
de datos agrupados y longitudinales son mencionadas. Estos metodos incluyen el analisis exploratorio, las consecuencias de usar modelos inapropiados y los problemas que
surgen de datos perdidos.
11.2.
Ejemplo: recuperaci
on de un accidente cerebrovascular
Los datos en el Cuadro 11.1 son de un experimento para promover la recuperacion

de pacientes con accidentes cerebrovascular. Haba tres grupos experimentales:
A fue una nueva respuesta a la terapia ocupacional;
B fue el programa existente de rehabilitacion del accidente cerebrovascular conducido
en el mismo hospital donde A fue conducido;
C fue la atencion usual para los pacientes con accidente cerebrovascular proveniente en
un hospital diferente.
Fueron ocho los pacientes en cada grupo experimental. La variable respuesta fue una
medida de capacidad funcional, el ndice de Bartel; puntuaciones mas altas corresponden a mejores resultados y la puntuacion maxima es 100. Cada paciente fue evaluado
semanal durante las ocho semanas de estudio. El estudio fue realizado por C. Cropper,
en la Universidad de Queensland, y los datos fueron obtenidos del sitio web OzDasl desarrollado por Gordon Smyth (http://www.maths.uq.edu.au/gks/data/index.html).
La hipotesis fue que los pacientes en el grupo A sera mejor que los del grupo B o C.
La figura 11.2 muestra el tiempo del curso de puntuaciones para cada paciente. La
figura 11.3 muestra el tiempo del curso de las puntuaciones promedio para cada grupo
experimental. Claramente mas pacientes mejorados. Tambien parece ser que aquellos
en el grupo A se recuperaron mejor y aquellos en el grupo C empeoraron (sin embargo,
la gente en el grupo C pudo haber comenzado en un nivel inferior).
La matriz de graficos de dispersion en la figura 11.4 muestra los datos para todos los
24 pacientes en diferentes tiempos. Los coeficientes de correlacion de Pearson correspondientes son dados en la Tabla 11.2. Esto muestra la alta correlacion positiva entre
mediciones hechas una semana a parte y la disminucion de la correlacion entre observaciones mas altas separadas en el tiempo.
Un an
alisis ingenuo, a veces llamado an
alisis agrupado, de estos datos es para ajustar un analisis del modelo de covarianza en el cual todas las 192 observaciones (para 3
grupos 8 sujetos 8 veces) son supuestos por ser independientes con
E(Yijk ) = i + tk + eijk
(11.1)
donde Yijk es la puntuacion al tiempo tk (k = 1, . . . , 8) para pacientes j(j = 1, . . . , 8)

en el grupo i (donde i = 1 para el grupo A, i = 2 para el grupo B y i = 3 para
el grupo C); i es la media de puntuacion para el grupo i; es un parametro de
pendiente com
un; tk es el tiempo (tk = k para la semana k, k = 1, . . . , 8); y el termino
de error aleatorio eijk son todos supuestos por ser independientes. La hipotesis nula
191
H0 : 1 = 2 = 3 puede ser comparada con una hipotesis alternativa tal como H1 :

1 > 2 > 3 ajustando modelos con diferentes grupos de parametros i . La figura 11.3
sugiere que las pensientes puedens ser diferentes entre los tres grupos como el siguiente
modelo que fue tambien ajustado
E(Yijk ) = i + i tk + eijk
donde el parametro de la pendiente i es la tasa de recuperacion para el grupo i.
Cuadro 11.1: Puntajes de capacidad funcional medidas en la recuperacion de un accidente cerebrovascular en los tres grupos experimentales de mas de 8 semanas de estudio.
Sujeto
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Grupo 1
A
45
A
20
A
50
A
25
A
100
A
20
A
30
A
30
B
40
B
65
B
30
B
25
B
45
B
15
B
35
B
40
C
20
C
35
C
35
C
45
C
45
C
25
C
25
C
15
2
45
25
50
25
100
20
35
35
55
65
30
35
45
15
35
40
20
35
35
65
65
30
25
35
3
45
25
55
35
100
30
35
45
60
70
40
35
80
10
35
40
30
35
35
65
70
30
30
35
Semana
4
5
45 80
25 30
70 70
40 60
100 100
50 50
40 50
50 55
70 80
70 80
45 65
35 40
80 80
10 10
45 45
55 55
30 30
40 40
40 40
65 80
90 90
35 40
30 30
35 40
6
80
35
75
60
100
60
60
65
85
80
85
45
80
20
45
55
30
40
40
85
95
40
30
50
7
8
80 90
30 50
90 90
70 80
100 100
85 95
75 85
65 70
90 90
80 80
85 85
45 45
80 80
20 20
50 50
60 65
30 30
40 40
45 45
95 100
95 100
40 40
35 40
65 65
192
Cuadro 11.2: Coeficientes de correlacion para puntuaciones en la recuperacion de un

accidente cerebrovascular en el Cuadro 11.1.
Semana
Semana
Semana
Semana
Semana
Semana
Semana
2
3
4
5
6
7
8
1
0.93
0.88
0.83
0.79
0.71
0.62
0.55
2
0.92
0.88
0.85
0.79
0.7
0.64
Semana
3
4
0.95
0.91 0.92
0.85 0.88 0.97
0.77 0.83 0.92 0.96
0.7 0.77 0.88 0.93
0.98
Figura 11.2: puntuaciones en la recuperacion de un accidente cerebrovascular en pacientes individuales.
Figura 11.3: Promedio de las puntuaciones en la recuperacion de un accidente cerebrovascular para grupos de pacientes: la lnea discontinua larga corresponde al grupo A;
la lnea continua al grupo B; la lnea corta discontinua al grupo C.
193
Figura 11.4: Matriz de graficos de dispersion para puntuaciones en la recuperacion de

un accidente cerebrovascular en el Cuadro 11.2.
Los modelos (11.1) y (11.2) pueden ser comparados para probar la hipotesis H0 : 1 =
2 = 3 contra una hipotesis alternativa de que las s son diferentes. Ninguno de
estos modelos ingenuos se toman en cuenta del hecho de que las mediciones del mismo
paciente en diferentes momentos son probables a ser mas similares que las mediciones
de diferentes pacientes. Esto es analogo a usar de una prueba-t no pareada para datos
apareados (ver Ejercicio 2.2).
El cuadro 11.3 muestra los resultados del ajuste de estos modelos, los cuales seran
comparados despues con resultados de mas analisis apropiados. Tenga en cuenta, sin embargo, que para el modelo (11.2) los estadsticos de Wald para 2 1 (3.348/8.166=0.41)
y para 3 1 (-0.022/8.166=-0.003) son muy peque
nos comparados con la distribucion Normal estandar la cual sugiere que los interceptos no son diferentes (es decir, un
promedio de grupos comenzo con el mismo nivel de capacidad funcional).
Una forma preferible de an
alisis exploratorio, a veces llamada reducci
on de datos
o resumen de datos, consiste de resumir los perfiles de respuesta para cada sujeto por
un peque
no n
umero de estadsticos descriptivos basados en suponer que las mediciones
sobre el mismo sujeto son independientes. Para los datos del accidente cerebrovascular, el resumen de los estadsticos apropiados son el intercepto y las pendientes de las
lneas de regresion individuales. Otros ejemplos del resumen de estadsticos que pueden
ser apropiados en situaciones particulares incluyen valores pico, areas bajo curvas, o
coeficientes de terminos cuadraticos o exponenciales en curvas de crecimiento no-lineal.
Estos estadsticos de temas especficos se utilizan como los datos para analisis posteriores.
Las estimaciones del intercepto y pendiente y sus errores estandar para cada uno de
los 24 pacientes con accidente cerebrovascular son mostrados en el cuadro 11.4. Estos resultados muestran variabilidad considerable entre sujetos los cuales deberan, en
principio, ser tomados en cuenta en alg
un analisis posterior. El cuadro 11.5 y 11.6 muestran los analisis comparando los interceptos y pendientes entre grupos experimentales,
suponiendo independencia entre los sujeto pero ignorando las diferencias en precision
(errores estandar) entre las estimaciones. Tenga en cuenta que aunque las estimaciones
son las mismas como aquellos para el modelo (11.2) en el cuadro 11.3, los errores
estandar son (correctamente) mucho mas grande y los datos no proporcionan mucha
evidencia de diferencias en cualquiera de los interceptos o las pendientes.
194
Cuadro 11.3: Resultados de los analisis de puntuaciones de recuperacion de accidente

cerebrovascular en el cuadro 11.1, suponiendo que todos los datos son independientes y
usando los modelos (11.1) y (11.2).
Parametro
Modelo (11.1)
1
2 1
3 1
Modelo (11.2)
1
2 1
3 1
1
2 1
3 1
Estimacion
Error estandar
36.842
-5.625
-12.109
4.764
3.971
3.715
3.715
0.662
29.821
3.348
-0.022
6.324
-1.994
-2.686
5.774
8.166
8.166
1.143
1.617
1.617
Aunque el analisis de sujetos especficos el resumen de los estadsticos no requieren el

supuesto inplausible de independencia entre observaciones dentro de los sujetos, esto
ignora el error aleatorio en las estimaciones. Haciendo caso omiso de esta informacion
puede conducir a una subestimacion de los tama
nos del efecto y la subestimacion de la
variacion total (Fuller, 1987). Para Evitar estos sesgos, se necesitan modelos que mejor
describan la estructura de datos que surge del estudio de dise
no. Tales modelos son
descritos en las tres secciones siguientes.
11.3.
Modelos con medidas repetidas para datos Normales
Suponga que hay N unidades de estudio o sujetos con ni mediciones para sujetos i
(por ejemplo, ni observaciones longitudinales para i personas o ni observaciones para
i agrupaciones). Sea yi el vector de respuestas para el sujeto i y sea y el vector de
respuestas para todos los sujetos
y1
N
X
..
y = . , as y tiene longitud
ni .
i=1
yN
Un modelo lineal Normal para y es
E(y) = X = ;
y N(, V),
(11.2)
195
Cuadro 11.4: Estimaciones de interceptos y pendientes ( y sus errores estandar) para

cada sujeto en el cuadro 11.1.
Sujeto
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Intercepto
30.000
15.536
39.821
11.607
100.000
0.893
15.357
25.357
38.571
61.964
14.464
26.071
48.750
10.179
31.250
34.107
21.071
34.107
32.143
42.321
48.571
24.821
22.321
13.036
(error estandar)
(7.289)
(4.099)
(3.209)
(3.387)
(0.000)
(5.304)
(4.669)
(1.971)
(3.522)
(2.236)
(5.893)
(2.147)
(8.927)
(3.209)
(1.948)
(2.809)
(2.551)
(1.164)
(1.164)
(3.698)
(6.140)
(1.885)
(1.709)
(4.492)
Pendiente (error estandar)

7.500
(1.443)
3.214
(0.812)
6.429
(0.636)
8.393
(0.671)
0.000
(0.000)
11.190
(1.050)
7.976
(0.925)
5.893
(0.390)
7.262
(0.698)
2.619
(0.443)
9.702
(1.167)
2.679
(0.425)
5.000
(1.768)
1.071
(0.636)
2.500
(0.386)
3.810
(0.556)
1.429
(0.505)
0.893
(0.231)
1.607
(0.231)
7.262
(0.732)
7.262
(1.216)
2.262
(0.373)
1.845
(0.339)
6.548
(0.890)
Cuadro 11.5: Analisis de varianza de estimaciones de intercepto en el cuadro 11.4.
donde
Fuente
Grupos
Error
g.l.
2
21
Media cuadrada
F
30
0.07
459
Parametro
1
2 1
3 1
Estimacion
29.821
3.348
-0.018
Error estandar
7.572
10.709
10.709
X1
X2
X = .. ,
.
XN

1
..
= . ,
p
p-valor
0.94
196
Cuadro 11.6: Analisis de varianza de estimaciones de pendiente en el cuadro 11.4.

Fuente
Grupos
Error
g.l.
2
21
Parametro
1
2 1
3 1
Estimacion
6.324
-1.994
-2.686
Media cuadrada
F
15.56
1.67
9.34
p-valor
0.21
Error estandar
1.080
1.528
1.528
Xi es la matriz de dise
no ni p para el sujeto i y es un vector de parametros de
longitud p. La matriz de varianza-covarianza para mediciones para el sujeto i es
i11 i12 i1ni

..
...
.
i21
Vi = .
.
..
..
in1
ini ni
y la matriz de varianza-covarianza total
V1
O
V=
tiene los bloques en la diagonal de la forma
O
O
V2
O
..
.
O
VN
suponiendo que las respuestas para sujetos diferentes son independientes (donde O es
una matriz de ceros). Usualmente las matrices Vi son supuestas por tener la misma
forma para todos los sujetos.
Si los elementos de V son constantes conocidas entonces puede ser estimado de la
funcion de verosimilitud para el modelo (11.3) o por el metodo de mnimos cuadrados. El
estimador de maxima verosimilitud, obtendio de resolver las ecuaciones de puntuacion
N
U() =
X
l
= XT V1 (y X) =
XTi Vi1 (yi Xi ) = 0
i=1
(11.3)
donde l es la funcion de log-verosimilitud. La solucion es

N
N
X
X
1
T
1
1 T
1
T
1
b
= (X V X) X V y = (
Xi Vi Xi ) (
XTi Vi1 yi )
i=1
con
(11.4)
i=1
N
X
T
1
1
b
var() = (X V X) = (
XTi Vi1 Xi )1
(11.5)
i=1
b es asintoticamente Normal (ver Captulo 6).

y
En la practica, V es usualmente no conocida y tiene que ser estimada de los datos
197
por un proceso iterativo. Esto involucra enpezar con un valor inicial V (por ejemplo la
b y as los predictores lineales
b
b = X
matriz identidad), calculando una estimacion
b . Las varianzas y covarianzas de los residuales son usados
y los residuales r = y
b
para calcular V que a su vez se utiliza en (11.5) para obtener una nueva estimacion
b El proceso alternativo entre la estimacion
b y la estimacion V
b hasta convergir es
.
alcanzada.
b es probable
b es sustituda por V en la ecuacion (11.6), la varianza de
Si la estimacion V
de ser sobrestimada. Por lo tanto una alternativa preferible es
b = 1 C1
Vs ()
donde
b 1 X =
=X V
T
N
X
b Xi
XTi V
i
i=1
y
C=
N
X
b i Xi )
b TV
b 1 (yi Xi )(y
b 1 Xi
XTi V
i
i
i=1
b i es la i-esima sub-matriz de V.
b Vs () es llamado el estimador de infordonde V
maci
on sandwich, porque es la matriz de informacion (ver Captulo 5). Esto es
tambien a veces llamado el estimador Huber. Este es un estimador consistente de
b cuando V no es conocido y este es robusto a errores de especificacion de V.
var()
Hay varias formas com
unmente usadas para la matriz Vi .
1. Todos los elementos fuera de la diagonal son iguales asi que
1
1
2
Vi = ..
.. .
.
.
.
. .
1
(11.6)
Esto es apropiado para datos agrupados donde esto es plausible de que todas las
mediciones son igualmente correlacionadas, por ejemplo, para elementos con la
misma unidad de muestreo primario tal como gente que vive en la misma area.
El termino es llamado coeficiente de correlaci
on intra-clase. La matriz de
equicorrelaci
on en (11.7) es llamada cambiable o esf
erica. Si el termino
fuera de la diagonal puede ser escrito en la forma a2 /(a2 + b2 ), la matriz se dice
que tiene simetra compuesta.
2. Los terminos fuera de la diagonal decrecen con la distancia entre observaciones;
por ejemplo, si todos los vectores yi tienen la misma longitud n y
1 12 1n
1
2n
2 21
Vi = ..
(11.7)
.. .
.
.
.
. .
n1 n2 1
donde jk depende de la distancia entre observaciones j y k. Ejemplos incluyen
jk = |tj tk | para mediciones al tiempo tj y tk , o jk = exp(|j k|). Una
198
forma com
unmente usada es el modelo autoregresivo de primer orden con
|jk| donde || < 1 as que
1
2 n1

1
n2
..
1
. .
V i = 2 2
.
..
..
.
n1
(11.8)
3. Todos los terminos de correlacion pueden ser diferentes
1 12 1n
21 1
2n
Vi = 2 ..
.
.
.
. . ..
.
n1 n2
Esta matriz de correlaci

on estructurada no involucra supuestos acerca de
correlaciones entre mediciones, pero todo los vectores yi deben ser de la misma
longitud n. Esto es solo practico por usar esta forma cuando la matriz Vi no es
grande en relacion con el n
umero de sujetos porque el n
umero, n(n 1)/2, de
los parametros de ruido jk puede ser excesivo y puede conducir a problemas de
convergencia en el proceso iterativo de estimacion.
El termino an
alisis de medidas repetidas de varianza es a menudo usado
cuando los datos son supuestos por ser Normalmente distribudos. Los calculos pueden
realizarse usando software estadstico con proposito mas general, a veces, la estructura
de correlacion es supuesta por ser esferica o estructurada y las correlaciones las cuales
son funciones de tiempos entre mediciones que no pueden ser modeladas. Algunos programas tratan medidas repetidas como un caso especial de datos multivariados - por
ejemplo, al no distinguir entre las alturas de los ni
nos en la misma clase (es decir, datos
agrupados), pesos de ni
nos cuando estos son medidos en diferentes edades (es decir,
datos longitudinales), y pesos, pesos y cinchas de ni
nos (datos multivariados). Esto es
especialmente inapropiado para datos longitudinales en el cual el orden es temporal
de las observaciones. La aproximaci
on multivariada para analizar mediciones de
datos repetidos distribuidos normalmente es explicado con detalle por Hand y Crowder
(1996), mientras que la inadecuacion de estos metodos para datos longitudinales se
ilustra por Senn et al.(2000).
11.4.
Modelos de medidas repetidas para datos nonormales
Las ecuaciones de puntuacion para modelos Normales (11.4) pueden ser generalizadas
a otra distribuciones usando ideas del captulo 4. Para el modelo lineal generalizado
E(Yi ) = i ,
g(i ) = xTi = i
199
para variables aleatorias independientes Y1 , Y2 , . . . , YN con una distribucion de la familia

exponencial, las puntuaciones dadas por la ecuacion (4.18) son
Uj =
N
X
(yi i )
i=1
var(Yi )

xij
i
i
para parametros j , j = 1, . . . , p. Los u

ltimos dos terminos vienen de
i
i i
i
=
=
xij .
j
i j
i
Por lo que las ecuaciones de puntuacion para el modelo generalizado (con respuestas
independientes Yi , i = 1, . . . , N ) puede ser escrito como
Uj =
N
X
(yi i ) i
i=1
var(Yi ) j
= 0,
j = 1, . . . , p.
(11.9)
Para medidas repetidas, sea yi el vector de respuestas para el sujeto i con E(Yi ) = i ,
g(i ) = XTi y sea Di la matriz de derivadas i /j . Para simplificar la notacion
suponemos que todos los sujetos tienen el mismo n
umero de mediciones n.
Las escuaciones de estimaci
on generalizadas (GEE0 s) analogas a las ecuaciones
(11.10) son
N
X
U=
DTi Vi1 (yi i ) = 0
(11.10)
i=1
Estas son tambien llamadas ecuaciones cuasi-puntuaci

on. La matriz Vi pueden ser
escritas como
1
1
Vi = Ai2 Ri Ai2
donde Ai es la matriz diagonal con elementos var(yik ), Ri es la matriz de correlacion
para yi y es una constante para permitir la sobredispersion.
Liang y Zeger (1986) mostraron que si las matrices de correlacion Ri son correctamente
b es consistente y asintoticamente Normal. Ademas,
b es
especificadas, el estimador
bastante robusto frente a errores de especificacion de Ri . Ellos usaron el termino matriz de correlaci
on de trabajo para Ri y sugirieron que el conocimiento del dise
no
de estudio y los resultados de los analisis explicatorios deberan ser usados para seleccionar una forma plausible. Preferiblemente, Ri debera depender solo de un n
umero
peque
no de parametros, usando supuestos tales como la equicorrelacion o correlacion
autoregresiva (ver seccion 11.3 arriba).
Las GGE0 s dadas por la ecuacion (11.11) son usadas iterativamente. Empezando con
Ri como la matriz identidad y = 1, los parametros son estimados por resolver
las ecuaciones (11.11). Las estimaciones son usadas para calcular los valores ajustados bi = g 1 (XTi ) y as los residuales yi bi . Estos son usados para estimar los
parametros de Ai , Ri y . Entonces (11.11) es resuelta otra vez para obtener mejores
b etcetera, hasta que la convergencia sea alcanzada.
estimaciones ,
El software para resolver las GEE0 s ya esta disponible comercialmente en varios softwares y programas libres. Si bien los conceptos subyacentes de GEE0 s son relativamente
simples hay un n
umero de complicaciones que ocurren en la practica. Por ejemplo, para
200
datos binarios, la correlacion no es una medida natural de asociacion y las medidas alternativas usando razon de momios han sido propuestas (Lipsitz, Laird y Harrington,
1991).
b que
Para las GEE0 s es a
un mas importante utilizar un estimador sandwich para var()
para el caso Normal (ver seccion 11.3). Esto es dado por
b = 1 C1
Vs ()
donde
=
N
X
b 1 Di
DTi V
i
i=1
es la matriz de informacion y
C=
N
X
b 1 (yi
b 1 Di .
b i )(yi
b i )T V
DTi V
i
i
i=1

b tiene la distribucion N , Vs ()
b y las referencias pueden
Entonces asintoticamente,
ser hechas usando estadsticos de Wald.
11.5.
Modelos multinivel
Una aproximacion alternativa para analizar datos con medidas repetidas es utilizar
modelos jerarquicos basados en el dise
no de estudio. Considere la posibilidad de una
encuesta llevada a cabo mediante un muestreo aleatorio agrupado. Sea Yjk la respuesta
del sujeto k-esimo en el j-esimo grupo. Por ejemplo, suponga que Yjk es el resultado
del k-esimo hogar seleccionado aleatotiamente en el area del concilio j, donde las areas
del concilio, las unidades de muestreo primarias, son seleccionadas aleatoriamente de
todos los concilios de un pas o estado. Si la meta es estimar el promedio del ingreso
de los hogares, entonces un modelo adecuado podra ser
Yjk = + aj + ejk
(11.11)
donde aj es el efecto del area j y ejk es el termino de error aleatorio. Como las areas
fueron seleccionadas aleatoriamente y los efectos de las areas no son de interes primordial, los terminos aj pueden ser definidos como independientes, las variables aleatorias
identicamente distribudas con aj N (0, a2 ). Similarmente, los terminos ejk son independientes, las variables aleatorias identicamente distribudas ejk N (0, e2 ) y las aj s
y ejk s son independientes. En este caso
E(Yjk ) = ,

var(Yjk ) = E (Yjk )2 = E (aj + ejk )2 = a2 + e2 ,
cov(Yjk , Yjm ) = E [(aj + ejk )(aj + ejm )] = a2
para los hogares en la misma zona, y
cov(Yjk , Ylm ) = E [(aj + ejk )(al + elm )] = 0
201
para los hogares en diferentes areas. Si yj es el vector de respuestas para hogares en el

area j entonces la matriz de varianza-covarianza para yj es
a2 + e2
a2
a2
a2
2
a2
a2
a2 + e2
a
2
2
2
2
a + e
a
Vj =
a
..
.
.
.
.
2
2
2
2
a
a a + e
1
1
2
2 1
= a + e
..
.
.
.
.
1
donde = a2 /(a2 + e2 ) es el coeficiente de correlacion intra-clase. En este caso, es
el coeficiente de intra-grupo y este describe la proporcion de la varianza total debido
al grupo dentro de la varianza. Si las respuestas dentro de un grupo son mucho mas
no
parecidas que las respuestas de los diferentes grupos, entonces e2 es mucho mas peque
2
que a as sera proximo a la unidad; as es una medida relativa de agrupacion
similarmente. La matriz Vj es la misma que (11.7), la matriz de equicorrelacion.
En el modelo (11.12), el parametro es un efecto fijo y el termino aj es un efecto
aleatorio. Este es un ejemplo de un modelo mixto con ambos efectos fijos y aleatorios.
Los parametros de interes son , a2 y e2 (y por tanto rho).
Como otro ejemplo, considera datos longitudinales en los cuales Yjk es la medicion al
tiempo tk en el sujeto j quien fue seleccionado al azar de la poblacion de interes. Un
modelo lineal para esta situacion es
Yjk = 0 + aj + (1 + bj )tk + ejk
(11.12)
donde 0 y 1 son los parametros intercepto y de pendiente para la poblacion, aj y

bj son las diferencias de estos parametros especficos al sujeto j, tk es el tiempo de
la k-esima medicion y ejk es el termino de error aleatorio. Los terminos aj , bj y ejk
pueden ser considerados como variables aleatorias con aj N (0, a2 ), bj N (0, b2 ),
ejk N (0, e2 ) y estos son supuestos por ser independientes. Para este modelo
E(Yjk ) = 0 + 1 tk ,
var(Yjk ) = var(aj ) + t2k var(bj ) + var(ejk ) = a2 + t2k b2 + e2 ,
cov(Yjk , Yjm ) = a2 + tk tm b2
para mediciones en el mismo sujeto, y
cov(Yjk , Ylm ) = 0
para mediciones en diferentes sujetos. Por lo tanto la matriz de varianza-covarianza
para el sujeto j es de la forma mostrada en (11.8) con terminos independientes en tk
y tm . En el modelo (11.3), 0 y 1 son efectos fijos, aj y bj son efectos aleatorios y
queremos estimar 0 , 1 , a2 , b2 y e2 .
202
En general, los modelos mezclados para respuestas Normales pueden ser escritos en la
forma
y = X + Zu + e
(11.13)
donde son los efectos fijos, y u y e son efectos aleatorios. Las matrices X y Z son
matrices de dise
no. Ambos u y e son supuestos por estar distribuidos Normalmente.
E(y) = X resume la componente no aleatoria del modelo. Zu describe los efectos
aleatorios entre sujetos y e los efectos aleatorios dentro de los sujetos. Si G y R son
las matrices de varianza-covarianza para u y e respectivamente, entonces la matriz de
varianza-covarianza para y es
V(y) = ZGT Z + R.
(11.14)
Los parametros de interes son los elementos de y los elementos de varianza y covarianza en G y R. Para modelos Normales esto puede ser estimado usando los metodos
de maxima verosimilitud o resuduales de maxima verosimilitud (REML). Los procedimientos computacionales estpan disponibles en muchos programas estadsticos con
proposito general y mas softwares especializados tales como MLn (Rabash et al., 1998;
Bryk y Raudenbush, 1992). Buenas descripciones del uso de modelos mezclados (especialmente usando el software SAS) estan dados por Verbeke y Molenberghs (1997) y
Littell et al. (2000). Los libros Por Longford (1993) y Goldstein (1995) proporcionan
las descripciones detalladas de multinivel, modelos de coeficientes aleatorios o mixtos,
predominantemente para datos Normales.
Los modelos mixtos para datos no Normales son menos implementados aunque fueron
descritos por primera vez por Zeger, Liang y Albert (1988) y han sido el objeto de
mucha investigacion; ver, por ejemplo, Lee y Nelder (1996). Los modelos son especificados como sigue
E(y|u) = ,
var(y|u) = V(),
g() = X + Zu
donde los coeficientes aleatorios u tienen alguna distribucion f (u) y la distribucion

condicional de y dado u, escrita como y|u, se sigue de las propiedades usuales para un
modelo lineal generalizado con funcion de liga g. La media incondicional y la varianzacovarianza para y puede, en principio, ser obtenido por integrar sobre la distribucion
de u. Para hacer los calculos mas manejables, es com
un usar distribuciones conjugadas;
por ejemplo, Normal para y|u y Normal para u; Poisson para y|u y Gamma para u;
Binomial para y|u y Beta para u; o Binomial para y|u y normal para u. Algunos softwares, por ejemplo, MLn y Stata pueden ser usados para modelos ajustados o modelos
lineales generalizados multinivel.
11.6.
Continuaci
on del ejemplo de accidente cerebrovascular
Los resultados del analisis exploratorios y ajuste de GEE0 s y los modelos mezclados
con diferentes interceptos y pendientes para los datos de recuperacion de accidente
cerebrovascular son mostrados en el cuadro 11.7. Los modelos fueron ajustados usando
Stata. Las estimaciones Sandwich de los errores estandar fueron calculados para todos
los modelos GEE.
203
Al ajustar un GEE, se supone independencia entre observaciones para el mismo sujeto,

es el mismo como el analisis ingenuo o pobre en el cuadro 11.3. La estimacion de e
es 20.96 (esto es la raz cuadrada de la desvianza dividida por el grado de libertad
192-6=186). Estos resultados sugieren que si el intercepto o la pendiente difieren entre
grupos como las estimaciones de diferencias de
b1 y b1 son peque
nos relativos a sus
errores estandar.
La aproximacion de la reduccion de datos la cual usa los interceptos y pendientes estimados para cada sujeto como los datos para comparaciones de efectos de grupos producen
las mismas estimaciones puntuales pero diferentes errores estandar. Del cuadro 11.5 y
11.6, las desviaciones estandar son 21.42 para los interceptos y 3.056 para las pendientes
y los datos no soportan las hipotesis de las diferencias entre los grupos.
El analisis GEE, supone correlacion igual entre las observaciones en semanas diferentes,
producidas las mismas estimaciones para los parametros de intercepto y pendiente pero
diferentes errores estandar (mas grandes para interceptos y mas peque
nos para pendientes). La estimacion del coeficiente de correlacion com
un, b = 0.812, es aproximadamente el promedio de los valores en el cuadro 11.2 pero el supuesto de correlacion igual
no es muy plausible. La estimacion de e es 20.96, el mismo como para los modelos
basados en independencia.
En vista del patron de los coeficientes de correlacion en el cuadro 11.2 un modelo autoregresivo de orden 1, AR(1), mostrado en la ecuacion (11.9) parece plausible. Las
estimaciones de interceptos y pendientes, y sus errores estandar, difierene de los modelos previos. Los estadsticos de Wald para las diferencias en pendiente soportan las
hipotesis de que los pacientes en el grupo A mejoraron significativamente mas rapido
que los pacientes en los otros dos grupos.
El modelo GEE con una matriz de correlacion estructurada involucrada ajustando
28(8 7/2) parametros de correlacion. La estimacion de e fue 21.21. Mientras las estimaciones puntuales difieren de aquellas para los otros modelos GEE con correlacion,
la conclusion de que las pendientes difieren significativamente es la misma.
El modelo final ajustado fue el modelo mezclado (11.13) estimado por el metodo de
maxima verosimilitud. Las estimaciones puntuales y errores estandar para los parametros fijos fueron similares a aquellos del modelo GEE con la matriz equicorrelacionada.
Esto no es sorprendente como el coeficiente de correlacion intra-clase estimado que es
b = 0.831.
Este ejemplo ilustra tanto la importancia de tomar en cuenta la correlacion entre las
medidas repetidas y la solidez de los resultados, independientemente de como la correlacion es modelada. Sin considerar la correlacion esto no fue posible de detectar los
resultados estadsticamente mejor significativos para los pacientes en el grupo A.
11.7.
Comentarios
Los an
alisis exploratorios para datos con medidas repetidas deberan seguir los pasos principales exbozados en la seccion 11.2. Para datos longitudinales estos incluyen
el trazado de la evolucion temporal de los sujetos o grupos de sujetos individuales, y
el uso de una forma apropiada de reduccion de datos para producir un resumen de los
estadsticos que pueden ser examinados para identificar patrones de la poblacion en
general o para sub-muestras. Para datos agrupados, merece la pena calcular el resumen
de los estadsticos en cada nivel de un modelo multinivel para examinar tanto los efec-
204
Cuadro 11.7: Comparacion de analisis de los datos de recuperacion de accidente cerebrovascular usando varios modelos diferentes.
b1
Agrupado
29.821
Reduccion de datos
29.821
GEE, independiente
29.821
GEE, equicorrelacionado 29.821
GEE, AR(1)
33.538
GEE, estructurado
30.588
Efectos aleatorios
29.821
Estimaciones
(s.e)
b2
b1
(5.774)
3.348
(5.772)
3.348
(5.774)
3.348
(7.131)
3.348
(7.719) -0.342
(7.462)
2.319
(7.047)
3.348
de intercepto
(s.e)
(8.166)
(10.709)
(8.166)
(10.085)
(10.916)
(10.552)
(9.966)
b3
b1
-0.022
-0.018
-0.022
-0.022
-6.474
-1.195
-0.022
(s.e)
(8.166)
(10.709)
(8.166)
(10.085)
(10.916)
(10.552)
(9.966)
Agrupado
Reduccion de datos
GEE, independiente
GEE, equicorrelacionado
GEE, AR(1)
GEE, estructurado
Efectos aleatorios
(1.143)
(1.080)
(1.143)
(0.496)
(0.714)
(0.941)
(0.463)
Estimaciones
-1.994
-1.994
-1.994
-1.994
-2.142
-3.214
-1.994
de pendiente
(1.617)
(1.528)
(1.617)
(0.701)
(1.009)
(1.331)
(0.655)
-2.686
-2.686
-2.686
-2.686
-2.686
-2.686
-2.686
(1.617)
(1.528)
(1.617)
(0.701)
(1.009)
(1.331)
(0.655)
6.324
6.324
6.324
6.324
6.073
6.926
6.324
tos principales y la variabilidad.

Los datos faltantes pueden presentar problemas. Con el software adecuado esto puede
ser posible para realizar calculos sobre datos no balanceados (por ejemplo, diferentes
n
umeros de observaciones por asignatura), pero esto es peligroso sin una cuidadosa
consideracion de por que los datos son faltantes. Ocasionalmente pueden ser perdidos completamente aleatorios, sin relacion con las respuestas observadas o algunas
covariables (Little y Rubin, 1987). En este caso, los resultados deben ser insesgados.
Mas com
unmente, hay razones del porque los datos estan perdidos. Por ejemplo, en
un estudio longitudinal de tratamiento de algunos sujetos puede haber llegado tambien
mal para continuar en el estudio, o en una encuesta agrupada, las areas perifericas
puede haber sido omitidas debido a la falta de recursos. En estos casos los resultados
basados en los datos disponibles seran sesgada. Diggle, Liang y Zeger (1994), Diggle y
Kenward (1994) y Trozel, Harrington y Lipsitz (1998) discuten el problema con mas
detalle y ofrecer algunas sugerencias acerca de como se pueden hacer ajustes en algunas
situaciones.
Datos no balanceados y datos longitudinales en los que las observaciones no son igualmente espaciadas o no todo ocurre en los tiempos planificados pueden ser alojados en
modelos mixtos y ecuaciones de estimacion generalizadas; por ejemplo, ver Cnaan et
al. (1997), Burton et al. (1998) y Carlin et al. (1999).
Inferencia para modelos ajustados por GEE0 s es mejor emprendido usando estadsticos
de Wald con un estimador sandwich robusto para la varianza. La eleccion optima de
la matriz de correlacion no es crtica porque el estimador es robusto con respecto a
la eleccion de la matriz de correlacion de trabajo, pero una eleccion pobre puede re-
205
ducir la eficiencia del estimador. En la practica, la eleccion puede ser afectada por el
n
umero de parametros de correlacion para ser estimados; por ejemplo, el uso de una
gran matriz de correlacion estructurada grande puede producir estimaciones inestables
o los calculos pueden no converger. La seleccion de la matriz de correlacion puede ser
hecha ajustando los modelos con estructuras de covarianza alternativas y comparando el criterio de informaci
on de Akaike,el cual es una funcion de la funcion de
log-verosimilitud ajustada para el n
umero de parametros de covarianza (Cnaan et al.,
1997). La comprobacion del modelo puede ser llevado a cabo con el rango usual de
graficas de residuales.
Para datos multinivel, modelos anidados se pueden comparar usando estadsticos de
razon de verosimilitud. Los residuales usados para comprobar los supuestos del modelo
necesitan ser estandarizados o encogids, para repartir la varianza apropiadamente
en cada nivel del modelo (Goldstein, 1995). Si el interes principal esta en los efectos
aleatorios entonces metodos Bayesianos analizar los datos, por ejemplo, usando BUGS,
pueden ser mas apropiados que la aproximacion frecuentista adoptada aqu (Best y
Speigelhalter, 1996).
Cuadro 11.8: Mediciones de volumen del ventrculo izquierdo y el volumen de la conductancia en paralelo en cinco perros bajo ocho diferentes condiciones de carga: datos
de Boltwood et al. (1989).
Perro
1
2
3
4
5
11.8.
y
x
y
x
y
x
y
x
y
x
1
81.7
54.3
105
81.5
95.5
65
113.1
87.5
99.5
79.4
Condiciones
2
3
4
5
6
84.3 72.8 71.7 76.7 75.8
62
62.3 47.3 53.6
38
113.6 108.7 83.9
89
86.1
80.8 74.5 71.9 79.5
73
95.7
84
85.8 98.8 106.2
68.3 67.9
61
66
81.8
116.5 100.8 101.5 120.8
95
93.6 70.4 66.1 101.4
57
99.2 106.1 85.2 106.3 84.6
82.5 87.9 66.4 68.4 59.5
7
8
77.3 86.3
54.2
54
88.7 117.6
74.7 88.6
106.4 115
71.4
96
91.9
94
82.5 80.9
92.1 101.2
58.5 69.2
Ejercicios
1.1 La medicion del volumen ventricular izquierdo del corazon es importante para los
estudios de fisiologa cardiaca y administracion clnico de los pacientes con enfermedad del corazon. Una manera indirecta de medir el volumen, y, involucra una
medicion llamada volumen de la conductancia en paralelo, x. Boltwood et al. (1989)
encontro una asociacion lineal aproximadamente entre y y x en un estudio de perros bajo diversas condiciones de carga. Los resultados, reportados por Glantz y
Slinker (1990), son mostrados en el cuadro 11.8.
(a) Conduce un analisis exploratorio de estos datos.
206
(b) Sea (Yjk , xjk ) la k-esima medicion del perro j, (j = 1, . . . , 5; k = 1, . . . , 8).

Ajusta el modelo lineal
Y N (, 2 ),
E(Yjk ) = = + xjk ,
suponiendo que las variables aleatorias Yjk son independientes (es decir, ignorando las mediciones repetidas en los mismos perros). Compara las estimaciones
del intercepto y pendiente y sus errores estandar de este analisis agrupado con los resultados que obtuviste usando una aproximacion de reduccion de
datos.
(c) Ajusta un modelo adecuado con efectos aleatorios.
(d) Ajusta un modelo longitudinal usando un GEE.
(e) Compara los resultados que obtuviste en cada aproximacion. Que metodo(s)
piensas que son mas apropiados? Porque?
2.2 Suponga que (Yjk , xjk ) son observaciones en el k-esimo sujeto en el grupo k (con
j = 1, . . . , J; k = 1, . . . , K) y queremos ajustar un modelo de regresion a traves
del origen
E(Yjk ) = xjk
donde la matriz de varianza-covarianza para las Y s en el mismo grupo es
1
1
Vj = 2 ..
..
.
.
.
. .
1
y las Y s en diferentes grupos son independientes.
(a) De la seccion 11.3, si las Y s estan distribudas Normalmente entonces
J
J
X
X
1
T
1
b
=(
xj Vj xj ) (
xTj Vj1 yj )
j=1
con
J
X
b
var() = (
xTj Vj1 xj )1
j=1
j=1
donde xTj = [xj1 , . . . , xjK ]. Deduce que la estimacion b de es insesgada.

(b) Como
Vj1
1
1
= c ..
..
.
.
.
. .
1
1
y=
+ (K 1)]
1 + (K 2)
2
[1 + (K 1)]
P
P 2 .
Muestra que var(b) = P P 2
2
j{
k xjk + [(
k xjk )
k xjk ]}
donde c =
2 [1
(c) Si se tiene enP

cuenta
agrupacion, muestra que la estimacion b de tiene
P la
2
2
var(b ) = / j k xjk .
207
(d) Si = 0, muestra que la var(b) =var(b ) como se esperaba si no hay correlacion

entre los grupos.
(e) Si = 1, Vj / 2 es una matriz de unos, as la inversa no existe. Pero el caso
de correlacion maxima es equivalente a tener solo un elemento por grupo. Si
K = 1, muestra que var(b) =var(b ), en esta situacion.
P
P
(f) Si el estudio es dise
nP
ado P
tal que k xjk = 0 y k x2jk es el mismo para todos
los grupos, sea W = j k x2jk y muestra que
var(b) =
2 [1 + (K 1)]
.
W (1 )
(g) Con esta notacion var(b ) = 2 /W , as muestra que

var(b)
[1 + (K 1)]
=
= 1 .
var(b )
1
Deduce el efecto en el error estandar estimado de la estimacion de la pendiente
para este modelo si la agrupacion es ignorada.
Cuadro 11.9: N
umero de odos claros de la otitis media aguda a los 14 das, tabulados
por tratamiento antibiotico y edad del ni
no: datos de Rosner (1989).
Edad
<2
25
>6
Total
CEF
N
umero de claros
0 1 2 Total
8 2 8
18
6 6 10
22
0 1 3
4
14 9 21
44
AMO
N
umero de claros
0 1 2 Total
11 2 2
15
3 1 5
9
1 0 6
7
15 3 13
31
3.3 Los datos de odos u ojos de sujetos son un ejemplo clasico de agrupacion-odos
u ojos del mismo sujeto son improbables por ser independientes. Los datos en el
cuadro 11.9 son las respuestas de dos tratamientos codificados como CEF y AMO
de ni
nos quienes tienen otitis media aguda en ambos odos (datos de Rosner, 1989).
(a) Conduce un analisis exploratorio para comparar los efectos de tratamiento y
edad de los ni
nos en los exitos de los tratamientos, ignorando la agrupacion
con cada ni
no.
(b) Sea Yijkl la respuesta del l-esimo odo del k-esimo ni
no en el grupo de tratamien0
to j y el grupo de edad i. Los Yijkl
s son variables binarias con valores posibles
de 1 denotando curado y 0 no curado. Un posible modelo es

ijkl
= 0 + 1 edad + 2 tratamiento + bk
logit
1 ijkl
donde bk es el efecto aleatorio para el k-esimo ni
no y 0 , 1 y 2 son parametros
fijos. Ajusta este modelo (y posiblemente otros modelos relacionados) para comparar los dos tratamientos. Que tan bien se ajustan los modelos?, Que concluyes acerca de los tratamientos?
208
(c) Una aproximacion alternativa, similar al propuesto por Rosner, es utilizar regresion logstica nominal con categoras de respuesta 0, 1 o 2 para los oidos
curados para cada ni
no. Ajusta un modelo de este tipo y compara los resultados con los obtenidos en (b). Que aproximacion es preferible considerar con
los supuestos hechos, la facilidad del calculo y facilidad de interpretacion?

2002 Dobson IGLM

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

2002 Dobson IGLM

Cargado por

Copyright:

Formatos disponibles

Indice general

2 Ajuste del Modelo

3 Familia Exponencial y Modelos Lineales Generalizados

6 Modelos Lineales Normales

6.2.7 Otros diagnosticos . . . . . . . . .

7 Variables Binarias y Regresi

9 Datos de Conteo, Modelos de Regresi

Ejemplo: Ensayo controlado aleatorio de la vacuna contra la influenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11 Datos agrupados y longitudinales

Este libro esta dise

4. Hacer inferencias; por ejemplo, el calculo de los intervalos de confianza y pruebas

Nominal > 2 categorias

Regresion Logstica Ordinal

Tiempo de fallo (Captulo

casos especiales de los modelos lineales generalizados. En el Captulo 4 se describen

Generalmente seguimos la convencion de denotar variables aleatorias por may

donde las ai s son constantes. Entonces el valor esperado de W es

var(W ) = a21 12 + a22 22 + . . . + a2n i2 .

Distribuciones relacionadas con la distribuci

Las distribuciones de muestreo de muchos de los estimadores y estadsticos de prueba

1. Si la variable aleatoria Y tiene distribucion Normal con media y varianza 2 ,

por las ecuaciones (1.2) y (1.3).

En notacion matricial, si z = [Z1 , . . . , Zn ]T entonces zT z =

Zi2 de modo que

2. Si X 2 tiene distribucion 2 (n), entonces el valor esperado es E(X 2 ) = n y su

6. De manera mas general si y N(, V) entonces la variable aleatoria yT V1 y

Esto se llama la propiedad reproductiva de la distribucion chi-cuadrada.

donde Z N (0, 1), X 2 2 (n) y, Z y X 2 son independientes. Esto se denota por

1. Una forma cuadr

a11 a12 . . . a1n

Sea y = [Y1 , . . . , Yn ]T un vector aleatorio y sea la funcion de densidad de probabilidad

Equivalentemente, es el valor que maximiza la funci

Esto se deduce de la definicion de .

Sean Y1 , . . . , Yn variables aleatorias independientes cada una con distribucion Poisson

con el mismo parametro . Su distribucion conjunta es

Esta tambies la funcion de verosimilitud L(; y1 , . . . , yn ). Es mas facil usar la funcion

Igualamos esta para obtener la solucion

Comentarios sobre estimaci

1. Una diferencia importante entre los metodos de maxima verosimilitud y mnimos

Ejemplo: Ciclones tropicales

El Cuadro 1.2 muestra el n

Solo los primeros dos terminos en los soportes

1. Sean Y1 y Y2 variables aleatorias independientes con Y1 N (1, 3) y Y2 N (2, 5).

(a) Cual es la distribucion de Y12 ?

4. Sea Y1 , . . . , Yn variables aleatorias independientes cada una con distribucion N (, 2 ).

Cuadro 1.4 La progenie de las polillas de la manzana de color marron claro.

5. Este ejercicio es una continuacion del ejemplo en la Seccion 1.6.2 en el cual

(a) Calcula la proporcion de mujeres en cada uno de los 16 grupos de progenie.

CAPITULO 2. AJUSTE DEL MODELO

donde j = 1 o 2. La prueba H0 contra H1 involucra la comparacion de que tambien los

donde en este caso J = 2. La estimacion de maxima verosimilitud, que se puede obtener

CAPITULO 2. AJUSTE DEL MODELO

CAPITULO 2. AJUSTE DEL MODELO

Residuos estandarizados de (2.2);

CAPITULO 2. AJUSTE DEL MODELO

El peso al nacer y la edad gestacional

CAPITULO 2. AJUSTE DEL MODELO

Cuadro 2.3: El peso al nacer y la edad gestacional para ni

Figura 2.2: El peso al nacer reprensentado contra la edad gestacional de los ni

CAPITULO 2. AJUSTE DEL MODELO

Comenzamos ajustando el modelo mas general (2.7). La funcion de log-verosimilitud es

donde J = 2 y K = 12 en este caso. Cuando obtenemos las estimaciones de maxima

Las estimaciones de mnimos cuadrados son las soluciones de las ecuaciones

para j = 1 o 2. Estas son llamadas las ecuaciones normales. La solucion es