Mod Est 4 G2

Maestrı́a en Ciencias
en Estadı́stica Oficial
Modelos Estadı́sticos IV
Rogelio Ramos Quiroga
INEGI–CIMAT, 2008
1
Modelos Estadı́sticos IV
Este curso cubre tres temas, correspondientes a los análisis de tres tipos de
datos: Longitudinales, espaciales y categóricos. Se presentan modelos para
datos dependientes con estructura longitudinal; se da una introducción a
la técnica de predicción kriging para datos geográficos y se desarrollan los
temas de tablas de contingencia generales, regresión logı́stica y modelos
log-lineales para datos categóricos (nominales, ordinales). El objetivo del
curso es el de lograr un manejo metodológico fundamentado para analizar
datos con estructuras longitudinales, espaciales y en escalas categóricas.
Temario
1. Análisis exploratorio de datos longitudinales

a) Presentación gráfica de datos longitudinales
b) Exploración de estructuras de correlación
2. Modelos para datos longitudinales

a) El modelo de correlación uniforme
b) El modelo exponencial de correlación
c) Estimación bajo el modelo gaussiano
2
3. Estadı́stica espacial
a) Modelos para poblaciones espaciales
b) Variación espacial
c) Estimación vı́a máxima verosimilitud
d) Predicción vı́a kriging
4. Análisis de datos categóricos

a) Asociación parcial en tablas de contingencia
b) Métodos de Cochran–Mantel–Haenszel
c) Regresión logı́stica
5. Modelos log–lineales
a) Modelos log–lineales para tablas de contingencia
b) Inferencia
c) Modelos gráficos y colapsabilidad
d) Asociación de variables con datos ordinales
3
6. Modelos logit para datos multinomiales
a) Modelos logit con respuestas nominales
b) Modelos para respuestas ordinales
Referencias
• Diggle, P.J., Liang, K.Y. y Zeger, S.L. (1994), Analysis of longitu-

dinal data. Oxford
• Greene, W.H. (1997), Econometric analysis. Prentice Hall
• Skrondal, A. y Rabe-Hesketh, S. (2004), Generalized latent variable

modelling: Multilevel, longitudinal and structural equations models.
Chapman & Hall
• Haining, R. (1990), Spatial data analysis in the social and environ-

mental sciences. Cambridge.
• Christensen, R. (2000), Linear models for multivariate, time series,

and spatial data. Springer-Verlag
• Agresti,A. (1996), An introduction to categorical data analysis. Wiley

4
• Agresti,A. (1990), Categorical data analysis. Wiley

Evaluación del Curso
Tareas 30%
Examen Parcial 30%
Examen Final 40%
5
Datos Longitudinales
6
Introducción
La caracterı́stica definidora de un estudio longitudinal es que los

individuos (o unidades de observación) son medidos o evaluados a
través del tiempo con el fin de monitorear su patrón de desarrollo.
Los análisis para este tipo de observaciones deben responder a
preguntas tales como:
• ¿Cuál es el patrón de desarrollo intraindividual?
• ¿Existen diferencias entre unidades?
• ¿Existen diferencias entre grupos de unidades?
7
Ejemplos
• Salarios y niveles de productividad en el perı́odo 1978–1987 en

diferentes paı́ses.
• Datos de crecimiento de abetos bajo diferentes regimenes de

contaminación.
• Distancias del centro de la pituitaria a la fisura maxilar en niñas

y niños de edades 8,10,12 y 14.
• Producción de leche en granjas españolas, 1993–1998.
8
Salarios 1978−1987, Europa
Bélgica
15
Francia
Alemania
Salario USD/hora
5 10
Holanda
Italia
Reino Unido
0
1978 1980 1982 1984 1986
Salarios 1978−1987, Otros Países
Canadá
15
Japón
Corea
Salario USD/hora
USA
5 010
1978 1980 1982 1984 1986

9
Productividad 1978−1987, Europa
20 15
Productividad
5 10
Bélgica Holanda
Francia Italia
Alemania Reino Unido
0
1978 1980 1982 1984 1986
Productividad 1978−1987, Otros Países

20 15
Productividad
10
Canadá
Japón
Corea
USA
5 0
1978 1980 1982 1984 1986

10
Grupo Tratado con Ozono
8
2 x Log(Altura x Diametro)
0 2 4 6
0 200 400 600 800

Días
Grupo Control
8
2 x Log(Altura x Diametro)
0 2 4 6
0 200 400 600 800

Días 11
Niñas
30
Distancia
20 25
8 10 12 14
Edad
Niños
30
Distancia
20 25
8 10 12 14
Edad 12
Producción de Leche Vacas por Granja (log)
14
80
13
60
12
40
11
20
10
9
93 94 95 96 97 98 93 94 95 96 97 98
Mano de Obra Alimento
4e+05
4.0
3e+05
3.5
3.0
2e+05
2.5
2.0
1e+05
1.5
0e+00
1.0
93 94 95 96 97 98 93 94 95 96 97 98
13
Modelos Básicos
14
Estructura Multivariada
Una forma de conceptualizar los datos longitudinales es suponer

que los perfiles observados de cada unidad son una realización de
una variable aleatoria multivariada
   
y11 yn1
 y12   yn2 

y1 =  ..  , · · · , yn = 

 ...


.
y1m ynm
con  
σ11 σ12 · · · σ1m
 σ21 σ22 · · · σ2m 
Var(y) = 
 ... ... ... ... 

σm1 σm2 · · · σmm
y, posiblemente, con covariables
   
xT11 xTn1
 xT12   xTn2 
X1 = 
 ... ,
 · · · , Xn = 
 ... 

xT1m xTnm
15
Ejemplo: Estructura Multivariada
Los siguientes datos son parte de un estudio con pacientes diabéticos

con diferentes tipos de complicaciones. A cada uno de los 14 indi-
viduos participantes en la prueba se les pidió una pequeña prueba
de esfuerzo fı́sico al tiempo 0, y se registró una cierta respuesta
a los minutos 1, 5 y 10. Queremos simplemente comparar ambos
grupos en cuanto a sus respuestas medias.
Grupo Control
1 5 10 Diabéticos
7.6 8.7 7.0 1 5 10
10.1 8.9 8.6 8.5 5.6 8.4
11.2 9.5 9.4 7.5 5.0 9.5
10.8 11.5 11.4 12.9 13.6 15.3
3.9 4.1 3.7 8.8 7.9 7.3
6.7 7.3 6.6 5.5 6.4 6.4
2.2 2.5 2.4 3.2 3.4 3.2
2.1 2.0 2.0
16
Efecto del esfuerzo Efecto del esfuerzo
0 5 10 15 0 5 10 15
0
0
2
2
4
4
6
6
Diabéticos
Grupo Control
8
8
10
10
17
T 2 de Hotelling
Recuerde que si y1, · · · , yn son i.i.d. Np(µ, Σ), entonces, para con-
trastar la hipótesis H0 : µ = µ0 podemos usar:
T 2 = n(ȳ − µ0)T S −1(ȳ − µ0)
donde
n n
1 X 1 X
ȳ = yi, y S = (Sij ), con Sij = (yki − ȳi)(ykj − ȳj )
n i=1 n − 1 k=1
En general, la definición de la T 2 de Hotelling es T 2 = νz T A−1z,
donde z y A están independientemente distribuı́das Np(0, Γ) y
Wp(ν, Γ), respectivamente. En nuestro caso, puede verse que
√
nz = ȳ − µ0 ∼ Np(0, Σ), (n − 1)S ∼ Wp(ν = n − 1, Σ) (indep.)
y ası́, efectivamente, T 2 tiene la forma de una T 2 de Hotelling con
ν = n − 1. Una propiedad útil de esta variable es que
ν−p+1 2 p
T ∼ Fν−p+1
νp
18
T 2 de Hotelling (dos muestras)
También, si queremos comparar dos poblaciones multivariadas, en

términos de sus medias, H0 : µ1 = µ2, usamos
T 2 = (1/n1 + 1/n2)−1(ȳ1 − ȳ2)T Sp−1(ȳ1 − ȳ2)

donde
(n1 − 1)S1 + (n2 − 1)S2
Sp =
n1 + n2 − 2
y, nuevamente, bajo H0,
ν−p+1 2 p
T ∼ Fν−p+1
νp
con ν = n1 + n2 − 2.
19
Ejemplo: Control vs Diabéticos
En este caso, n1 = 8, n2 = 6 y
    
1  14.1 12.7 12.5 10.8 10.4 12.5 
Sp = (8 − 1)  12.7 12.4 11.9  + (6 − 1)  10.4 12.7 12.5 
8+6−2 12.5 11.9 11.7 12.5 12.5 16.2 
 
12.7 11.8 12.5
=  11.8 12.5 12.1 
12.5 12.1 13.6
además
ȳ1 = (6.8, 6.8, 6.4) y ȳ2 = (6.7, 7.0, 8.4)

y la T 2 de Hotelling es T 2 = 6.35. El p-valor asociado es 0.217,
de aquı́ que la evidencia no es lo suficientemente fuerte como para
declarar diferencias significativas entre el grupo control y el grupo
de diabéticos.
20
Comparación Control vs Diabéticos
control
diabéticos
15
Efecto del esfuerzo
5
0 10
0 2 4 6 8 10
21
Modelos de Regresión
22
Consideremos los datos mostra- Niñas
dos en la hoja 12. En este
30
estudio, llevado a cabo por
Distancia
25
ortodoncistas, se midió la dis-
20
tancia entre la glándula pitui-
taria y la fisura maxilar de 27 8 10 12 14
niños (11 niñas y 16 niños) (am- Niños
bos puntos fácilmente identifica-
30
bles en placas de rayos-X). Es-
Distancia
tas mediciones fueron efectuadas
25
cada dos años, iniciando el es-
20
tudio cuando los niños tenı́an 8
años y terminando a los 14. 8 10 12 14
23
De la gráfica observamos:
• Tendencia creciente de los perfiles individuales.
• Diferentes ordenadas al origen por individuo.
• Posiblemente (?) las pendientes son diferentes para cada indi-

viduo.
• Aparentemente (?) los perfiles de los niños tienden a estar a un

mayor nivel que los de las niñas.
Intereses del estudio:
• Caracterizar el crecimiento de la distancia pituitaria-fisura.
• Efectuar la caracterización por grupos (niñas, niños) si es que

es necesario.
24
Un modelo preliminar para los datos
Suponemos modelos lineales de crecimiento para la distancia pituitaria-

fisura, consideraremos modelos separados para niñas y niños.
Modelo para niñas:
yij = β0m + β1mtj + eij , para i = 1, · · · , 11, j = 1, · · · , 4

o, equivalentemente
 
1 t1 " #
 1 t2  β0m
 
yi =   + ei ≡ Xβm + ei, donde ei ∼ Np(0, Σ)
 1 t3  β1m
1 t4
en forma semejante, para los niños tenemos
yi = Xβh + ei, para i = 12, · · · , 27
25
Un modelo preliminar para los datos
Ası́, podemos escribir

     
y1 X1 e1
 ...   ... · ...
    ¸ 



 y11   X11  βm  e11 
 y12
= X12
 β +
e12
, donde ei ∼ i.i.d. Np (0, Σ)
    h  
 ...   ...   ... 
y27 X27 e27
y
(
[X, 0] si i = 1, · · · , 11
Xi =
[0, X ] si i = 12, · · · , 27
Resumiendo, tenemos
y1 ∼ N (X1 β, Σ)
... (independientes)
y27 ∼ N (X27 β, Σ)
26
Estimación del Modelo
En general, si tenemos
y1 ∼ N (X1 β, Σ)
... (independientes)
yn ∼ N (Xn β, Σ)
la verosimilitud es
n
Y 1 © T −1
ª
L(β, Σ) = p/2 Σ1/2
exp (y i − X i β) Σ (y i − X i β)
i=1
(2π)
y, (no es fácil, pero se puede ver que), los estimadores de máxima

verosimilitud son
Ã n !−1 Ã n
!
X X
βb = b −1Xi
XiT Σ b −1yi
XiT Σ
i=1 i=1
X n
b = 1
Σ b i − Xiβ)
(yi − Xi β)(y b T
n i=1
Note que estas expresiones tienen que iterarse necesariamente.
Una posibilidad es iniciar con la matriz de varianzas y covarianzas
muestral de y1, · · · , yn.
27
Iniciamos las iteraciones con una ponderación de las matrices de

varianzas y covarianzas de los dos grupos
    
 4.51 3.35 4.33 4.36 6.02 2.29 3.63 1.61 
 
 3.35 3.62 4.03 4.08   2.29 4.56 2.19 2.81 
S0 = 10   + 15  /25

 4.33 4.03 5.59 5.47 3.63 2.19 7.03 3.24 

4.36 4.08 5.47 5.94 1.61 2.81 3.24 4.35
 
5.42 2.71 3.91 2.71
 2.71 4.18 2.93 3.32 
= 
3.91 2.93 6.45 4.13 
2.71 3.32 4.13 4.99
al cabo de 4 iteraciones obtenemos las estimaciones finales
βb = (17.425, 0.476, 15.842, 0.827)
 
5.12 2.44 3.61 2.52
b = 
Σ
2.44 3.93 2.72 3.06 
 3.61 2.72 5.98 3.82 
2.52 3.06 3.82 4.62
La siguiente gráfica muestra los perfiles medios estimados.
28
Distancia Distancia
20 25 30 20 25 30
8
8
10
10
Niñas
Niños
12
12
14
14
29
Prueba de Hipótesis
Una forma para contrastar hipótesis de la forma H0 : K T β = m,

consiste en usar el estadı́stico de Wald
W = (K T βb − m)T Vbβb(K T βb − m)
b
donde Vbβb es un estimador de la varianza de β:
 −1
n
X
Vbβb =  XiT ΣX
c 
i
i=1
Si H0 es cierta, entonces esperamos que W se comporte como una
realización de una variable χ2
r , donde r es el número de renglones
de K T .
En particular, si queremos comparar los dos perfiles medios, pode-

mos usar
" #
1 0 −1 0
KT =
0 1 0 −1
30
Prueba de Hipótesis
La hipótesis considerada es
H0 : β0m = β0h y β1m = β1h

# Aproximacion de la varianza del est. de coef. de reg.
Vbe <- solve( n1*t(X1)%*%solve(S0,X1) + n2*t(X2)%*%solve(S0,X2) )
# Prueba de igualdad de modelos de regresion

Kt <- matrix( c(1,0,-1,0,0,1,0,-1), ncol=4, byrow=T )
W <- t(bet) %*% t(Kt) %*% solve( Kt%*%Vbe%*%t(Kt), Kt%*%bet ) # 16.3
1-pchisq(W,2) # 0.0002844763
El p-valor observado es pequeño, ası́ que se tiene evidencia es-

tadı́stica de que el crecimiento de la distancia pituitaria–fisura en
el maxilar de los niños es diferente al de las niñas.
31
Modelos con Efectos Aleatorios
32
Las gráficas de los datos de distancias maxilares sugieren un mo-

delo de interceptos aleatorios
(
β0i + β1mtj + eij para i = 1, · · · , 11
yij =
β0i + β1htj + eij para i = 12, · · · , 27
aquı́ suponemos que los interceptos, β0i’s, son aleatorios e inde-
pendientes con distribución N (β0, σ02); también asumimos que son
independientes de las desviaciones eij ’s las cuales son i.i.d N (0, σ 2).
En otras palabras, condicionado a la realización de una ordenada
al origen, el perfil de crecimiento de un individuo consiste de una
tendencia lineal creciente afectada por ruido aleatorio.
La estructura de covarianza dentro de cada individuo es entonces

(
σ02 + σ 2 si j = k
Cov(yij , yik ) =
σ02 si j 6= k
33
Ası́, si yi = (y1, · · · , y4)T , entonces

 
σ02 + σ 2 σ02 σ02 σ02
 2 

 σ0 σ02 + σ 2 σ02 σ02 

Var(yi) =  
 σ02 σ02 σ02 + σ 2 σ02 
σ02 σ02 σ02 σ02 + σ 2
 
1 ρ ρ ρ
 ρ 1 ρ ρ 
2  
= τ   ≡ τ 2V0, donde τ 2 = σ02 + σ 2
 ρ ρ 1 ρ 
ρ ρ ρ 1
y ρ = σ02/(σ02 + σ 2), (a la estructura de la matriz V0 se le denomina
matriz de correlación uniforme).
Si escribimos β0i = β0 + δi, con δi ∼ N (0, σ02), entonces

(
1 si i = 1, · · · , 11
yij = β0+β1mxitj +β1h(1−xi)tj +δi+eij , con xi =
0 si i = 12, · · · , 27
34
Tenemos nuevamente (ver hoja 27)


y1 ∼ N (X1β, 2
τ V0) 

... independientes

yn ∼ N (Xnβ, τ 2V0) 
donde β = (β0, β1m, β1h)T , y
  

 1 t1 0

  .. .. .. 

  . . .  si i = 1, · · · , 11



 1 t4 0

Xi =  



 1 0 t1

  .. .. .. 

  . . .  si i = 12, · · · , 27



1 0 t4
35
Ajuste del Modelo
La logverosimilitud es
n
1 X T V −1 (y −X β)− mn log(τ 2)− n log|V |
l(β, τ 2, V 0 ) = C− (yi −X i β) 0 i i 0
2τ 2 i=1 2 2
si fijamos V0, esto es “perfilamos”, los estimadores de máxima
verosimilitud son:
Ã n !−1 Ã n
!
X X
b 0) =
β(V XiT V0−1Xi XiT V0−1 yi
i=1 i=1
n
X
1 1 b T V −1(yi − Xiβ)
b
τb2 (V0 ) = SCE(V0 ) = (yi − Xi β) 0
mn nm i=1
de aquı́ que la logverosimilitud perfil es

mn n
l(V0 ) = C − log[SCE(V0 )] − log|V0 |
2 2
Note que aquı́ V0 corresponde a una matriz de correlación uni-
forme, sin embargo, podemos usar otras estructuras de correlación
que consideremos convenientes.
36
logverosimilitud perfil
−280 −260 −240 −220 −200
0.0
0.2
0.4
ρ
0.6
Estimación de ρ
0.8
1.0
37
Ajuste del Modelo
En la hoja anterior mostramos la logverosimilitud perfil para V0, la

cual, en este caso, depende de un sólo parámetro, ρ, esto es V0 =
V0(ρ). Una estimación puntual para esta correlación la tenemos
de la gráfica:
ρb = 0.6177
b
con este valor y las expresiones para β(V 2
0 ) y τb (V0 ) obtenemos
βb = (16.761, 0.522, 0.755) y τb2 = 4.926

y de las expresiones τ 2 = σ02 + σ 2 y ρ = σ02/(σ02 + σ 2), obtenemos:
σ02 = 3.043 y σ 2 = 1.883

El perfil medio esperado es
ybij = 16.761 + 0.522xitj + 0.755(1 − xi)tj
38
Errores Estándar
Para el cálculo de errores estándar, se puede ver que βb tiene la

estructura del estimador de mı́nimos cuadrados generalizados (es-
timados)
³ ´−1 ³ ´
βb = T −1
X Vb X T −1
X Vb y
y podrı́amos usar
³ ´−1
b =
Var(β) T −1
X Vb X
sin embargo, esta expresión, en general, subestima las varianzas
reales de los estimadores de mı́nimos cuadrados generalizados,
además de que es sensible a malas especificaciones de la estruc-
tura de covarianza. Comentaremos más adelante sobre una forma
más robusta de estimar errores estándar.
39
Modelo con Efectos Fijos
40
En el modelo con interceptos aleatorios se supone que cada unidad

tiene un intercepto especı́fico el cual ocurre de acuerdo con cierta
distribución de probabilidad. Una alternativa a este enfoque es
el de suponer que los interceptos especı́ficos son parámetros de-
sconocidos (efectos fijos) que hay que estimar.
Los datos siguientes (ver Greene, pág. 614) provienen de un es-

tudio sobre el costo de producción de energı́a eléctrica para un
número grande de compañı́as (aquı́ sólo tenemos 6), cada una ob-
servada por un cierto número de años. Los objetivos primarios de
ese estudio eran la estimación de las tasas de cambio tecnológico
y la evaluación de indicadores de economı́as de escala.
En la hoja 43 presentamos gráficamente los datos de las 6 compañı́as,

en azul tenemos energı́a eléctrica generada (log millones de KWh)
y, en rojo, los costos totales de generación (log millones de USD).
41
Datos Costo-Output en la Industria Eléctrica
Tiempo
t=1 t=2 t=3 t=4
Co. 1955 1960 1965 1970
i=1 costo 3.154 4.271 4.584 5.849
output 214 419 588 1,025
i=2 costo 3.859 5.535 8.127 10.966
output 696 811 1,640 2,506
i=3 costo 19.035 26.041 32.444 41.180
output 3,202 4,802 5,821 9,275
i=4 costo 35.229 51.111 61.045 77.885
output 5,668 7,612 10,206 13,702
i=5 costo 33.154 40.044 43.125 57.727
output 6,000 8,222 8,484 10,004
i=6 costo 73.050 98.846 138.880 191.560
output 11,796 15,551 27,218 30,958
42
Compañía 1 Compañía 2
10
10
8
8
6
6
4
4
2
2
0
0
1 2 3 4 1 2 3 4
10
10
8
8
6
6
4
4
2
2
0
0
1 2 3 4 1 2 3 4
10
10
8
8
6
6
4
log output
2
log costo
43
0
1 2 3 4 1 2 3 4
Costo-Output en la Industria Eléctrica
Las gráficas en las dos siguientes láminas dan formas alternativas

(y complementarias) de visualizar los datos anteriores.
• Primero tenemos el despligue de los datos en forma de datos

transversales (cross-sectional). Cada gráfica presenta la situación
en un punto dado del tiempo. Para cada año, la relación log-
costo vs logoutput es lineal y creciente; también se observa
una tendencia creciente en las pendientes.
• Luego tenemos la relación logcosto vs logoutput tanto en

una forma global como en una estructura longitudinal; ésta
última gráfica parece indicar que las economı́as de escala no
entran en acción en esta industria.
44
Año 1955 Año 1960
6
5
5
4
4
Log(Costo)
Log(Costo)
3
3
2
2
1
1
5 6 7 8 9 10 11 5 6 7 8 9 10 11
Log(Output) Log(Output)
Año 1965 Año 1970

6
6
5
5
4
4
Log(Costo)
Log(Costo)
3
3
2
2
1
5 6 7 8 9 10 11 5 6 7 8 9 10 11
45
Log(Output) Log(Output)
Relación Costo−Output
6
5
Log(Costo)
2 3 1 4
5 6 7 8 9 10 11
Log(Output)
6
5
Log(Costo)
2 3 1 4
5 6 7 8 9 10 11
Log(Output) 46
Consideremos un modelo similar al de interceptos aleatorios (ver

hoja 33),
yit = αi + xT
it β + eit , i = 1, · · · , n t = 1, · · · , m
pero ahora, las αi’s son simples parámetros desconocidos (efectos
individuales), esto es, tenemos tantos interceptos como unidades
(o individuos). Ahora, poniendo juntos los m datos de la i-ésima
unidad:
yi = 1αi + Xiβ + ei
donde
     
1 x T β1
 ..i1 
=  ... 
   .. 
1 , Xi =  .  y β= . 
1 m×1 xT
im m×k βp k×1
aquı́ estamos suponiendo que tenemos k covariables.
47
Los n modelos de la hoja anterior los ponemos en una sola ecuación:

        
y1 1 0 ··· 0 α1 X1 e1
 y2   0 1 ··· 0  α2   X2   e2 
        
 ... = ... ... ... ...  ... + ... β +  ... 
        
yn 0 0 ··· 1 αn Xn en
las dimensiones de las matrices/vectores que aparecen en esta
ecuación son, respectivamente: nm × 1 , nm × n , n × 1 , nm × k ,
k × 1 y nm × 1.
Usando una notación más compacta, podemos escribir:

y = Dα + Xβ + e
o, equivalentemente
" #
α
y = [D X] + e ≡ Wγ + e
β
48
Para estimar γ, en el modelo y = W γ + e, usamos las ecuaciones

normales W T W γ = W T y, y recordando cosas que vimos en Mo-
delos II (ver hoja 31 de ese curso)
· ¸ · ¸
DT D DT X DT y DT D DT X DT y
∼
XT D XT X XT y X T X − X T D(DT D)−1DT X
O X T y − X T D(DT D)−1 DT y
· T ¸
D D DT X DT y
∼
O XT M X XT M y
donde M = I − D(DT D)−1DT . De aquı́ es fácil ver que
βb = (X T M X)−1X T M y
b = (D T D)−1D T (y − X β)
α b
La matriz M es nm × nm, ası́ que en aplicaciones con un gran

número de unidades esto puede ser computacionalmente prohibitivo.
Sin embargo, M tiene una estructura simple que puede aprovecharse.
49
Aspectos Computacionales en el Ajuste del Modelo
Recuerde que D es mn × n, de forma:

 
1m 0 ··· 0
 0 1m ··· 0 
 
D= ... ... . . . ... 
 
0 0 · · · 1m
entonces DT D = mIn y, por lo tanto M = I − D(DT D)−1DT =
I−m 1 DD T . Ası́ que
 
M0 O · · · O
 O M0 · · · O  1
 
M = ... ... . . . ... , donde M0 = Im − Jm
  m
O O · · · M0
y Jm es una matriz m×m de puros 1’s. Además M es idempotente,
entonces (siguiente hoja · · · )
50
Aspectos Computacionales en el Ajuste del Modelo
βb = (X T M X)−1 X T M y = [(M X)T (M X)]−1 (M X)T M y

   
M0 X1 M0 y1
T T 
= ([(M0 X1 ) · · · (M0 Xn ) ] .
.. ) ([(M0X1) · · · (M0Xn) ] 
−1 T T ... )
M0 Xn M 0 yn
Ã n !−1 Ã n !
X X
= XiT M0 Xi XiT M0yi y
i=1 i=1
α T b
b = (D D)−1DT (y − X β)
 
1T 0T · · · 0T  
y − X b
β
1 
 0T 1T · · · 0T 

1
...
1

= . ... . . . ...
m  .. 
0T 0T · · · 1T yn − Xn βb
de aquı́ que α b i = 1 1T (yi − Xiβ),

b i = 1, · · · , n. Estas expresiones
m
para βb y las α
b i’s son más “fáciles” que las dadas en la hoja 49 (ver
páginas 616 y 617 del Greene).
51
Estimación del Modelo Costo-Output
Consideraremos un modelo con efectos individuales en los inter-

ceptos de la forma
logCit = αi + logYitβ + eit, i = 1, · · · , 6, t = 1, · · · , 4

En este caso, la implementación del procedimiento de estimación
anterior, nos lleva a
βb = 0.674
α
b 1 = −2.69, α
b 2 = −2.91
α
b 3 = −2.44, α
b 4 = −2.13
α
b 5 = −2.31, α
b 6 = −1.90
La siguiente lámina presenta los modelos ajustados en forma gráfica.
52
6
5
4
Log(Costo)
3 2
1
5 6 7 8 9 10 11
Log(Output)
53
Tarea 1
1. (Ver Greene pág. 642). Considere los siguientes datos de inversión (y) y
utilidad (x) de n = 3 compañı́as sobre m = 10 perı́odos:
i=1 i=2 i=3
t y x y x y x
1 13.32 12.85 20.30 22.93 8.85 8.65
2 26.30 25.69 17.47 17.96 19.60 16.55
3 2.62 5.48 9.31 9.16 3.87 1.47
4 14.94 13.79 18.01 18.73 24.19 24.91
5 15.80 15.41 7.63 11.31 3.99 5.01
6 12.20 12.59 19.84 21.15 5.73 8.34
7 14.93 16.64 13.76 16.13 26.68 22.70
8 29.82 26.45 10.00 11.61 11.49 8.36
9 20.32 19.64 19.51 19.55 18.49 15.44
10 4.77 5.43 18.32 17.06 20.84 17.87
• Combine los datos y encuentre los estimadores de mı́nimos cuadrados del

modelo
yit = α + βxit + eit
• Estime el modelo de efectos fijos
yit = αi + βxit + eit
y pruebe la hipótesis de que el término constante es el mismo para las tres
compañı́as.
• Estime el modelo anterior pero suponiendo que las αi ’s son i.i.d. N (α, σa2 ).
54
Tarea 1 (cont.)
2. Visite los siguientes sitios y haga un reporte sobre la estructura de algunas
bases de datos longitudinales disponibles en esos lugares
• www.isr.umich.edu/src/psid/index.html (Panel Study Income Dynamics)
• www.bls.gov/nls/ (National Longitudinal Survey)
3. Se efectuó un estudio para comparar el efecto de dos medicamentos (A y

B). El estudio fué efectuado primero en una prueba piloto con 5 voluntarios;
en la primera fase de esta prueba piloto se les administró el medicamento
A y se registraron los niveles de cierto antı́geno en la sangre al cabo de
1, 2, 3 y 6 horas. Después de un perı́odo de espera para eliminaciones
de efectos residuales del medicamento A, a los mismos 5 individuos se les
administró B y nuevamente se midieron los niveles de antı́genos a las 1, 2,
3, y 6 horas. Compare los dos medicamentos.
Medicamento A Medicamento B
i Tiempo (hrs) Tiempo (hrs)
1 2 3 6 1 2 3 6
1 1.08 1.99 1.46 1.21 1.48 2.50 2.62 1.95
2 1.19 2.10 1.21 0.96 0.62 0.88 0.68 0.48
3 1.22 1.91 1.36 0.90 0.65 1.52 1.32 0.95
4 0.60 1.10 1.03 0.61 0.32 2.12 1.48 1.09
5 0.55 1.00 0.82 0.52 1.48 0.90 0.75 0.44
Entregar: Lunes 28 de enero.

55
Apéndice: Inversa de una Matriz Particionada
Para futura referencia, obtenemos la inversa de la matriz W T W de la hoja 49.

· T T
¸ · T T
¸
D D D X I O D D D X I O
T T ∼ T T T −1 ∼
X D X X O I O X M X −X D(D D) I
donde M = I − D(D T D)−1 DT . Definamos H = X T M X,
· T T −1 T T −1 T −1
¸
D D O I + D XH X D(D D) −D XH
∼ T T −1
O H −X D(D D) I
de aquı́ obtenemos la inversa
· T −1 T −1 T −1 T T −1 T −1 T −1
¸
(D D) + (D D) D XH X D(D D) −(D D) D XH
(W T W )−1 = −1 T T −1
−H X D(D D) H −1
· ¸
(DT D)−1 DT (I + X(X T M X)−1X T )D(DT D)−1 −(DT D)−1DT X(X T M X)−1
=
−(X T M X)−1 X T D(DT D)−1 (X T M X)−1
56
Estimación de Errores Estándar
Recuerde el modelo de efectos fijos de la hoja 48:
y = Dα + Xβ + e, con e ∼ Nnm(0, σ 2I)

donde n es el número de individuos o unidades y m es el número
de observaciones por unidad. Suponemos (como en hoja 33) que
las desviaciones del modelo, eij ’s, son i.i.d. N (0, σ 2); esto es,
Var(y) = σ 2Inm.
En la hoja 49 tenemos los estimadores de mı́nimos cuadrados:
b = (D T D)−1D T (y − X β)
α b
primero necesitamos expresiones para las varianzas de los

b y Var(α).
estimadores Var(β) b
57
Cálculo de Varianzas de los Estimadores
en el Modelo de Efectos Fijos
b = Var(X T M X)−1X T M y)
Var(β)
= (X T M X)−1X T M Var(y)M T X(X T M X)−1
= σ 2(X T M X)−1X T M M T X(X T M X)−1 = σ 2(X T M X)−1
Por otro lado
b = Var((D T D)−1D T (y − X β))
Var(α) b
= (DT D)−1DT Var(y − X β)D(D

b T D)−1
donde
b = Var(y) + XVar(β)X
Var(y − X β) b T − 2Cov(y, X β)
b
y esta covarianza es
b = Cov(y, X(X T M X)−1X T M y) = σ 2M X(X T M X)−1X T
Cov(y, X β)
58
Cálculo de Varianzas de los Estimadores
en el Modelo de Efectos Fijos
entonces
b = Var(y) + XVar(β)X
Var(y − X β) b T − 2Cov(y, X β)
b
= σ 2I + σ 2X(X T M X)−1X T − 2σ 2M X(X T M X)−1X T

= σ 2I + σ 2[I − 2M ]X(X T M X)−1X T
de aquı́ que
b = (D T D)−1D T (σ 2I + σ 2[I − 2M ]X(X T M X)−1X T )D(D T D)−1

Var(α)
σ2 σ2 T
= I + 2 D [I − 2M ]X(X T M X)−1X T D
m m
σ2 σ2 T
= I + 2 D X(X T M X)−1X T D pues DT M = O
m m
σ2
= I + (DT X/m)Var(β)(D
b T X/m)T
m
59
En la hoja anterior tenemos la expresión DT X/m, veamos su es-

tructura:
      
1T 0T ··· 0T X T
1 X x̄T
 T  1   T 1   1 
1 T 1
 0 1T · · · 0T   X2 

1
 1 X2 
  x̄T 
 2 
D X= . ... . . . ...   ...  = ... =  ... 
m m
 ..   m


  
0T 0T · · · 1T Xn 1T Xn x̄T
n
esto es, DT X/m es una matriz n × k, donde, por ejemplo, el primer
renglón x̄T
1 es un vector con las medias de cada una de las k
covariables asociadas al individuo 1, y ası́ sucesivamente.
Entonces, la varianza de los interceptos es

 
x̄T
 1 
σ2  x̄T 
b
h i
Var(α)
b = I + 2 
 ...  Var(β) x̄1 x̄2 · · · x̄n
m  
x̄T
n
60
Finalmente, para la estimación de errores estándar necesitamos

estimar la varianza, σ 2, para ello usamos el Cuadrado Medio del
Error del modelo
n X
X m
2 1 T b 2 SCE
CME = σ
b = (yit − α
b − xit β) ≡
nm − n − k i=1 t=1 nm − n − k
Resumiendo, los errores estándar para el modelo de efectos fijos
se obtienen de las siguientes varianzas:
 −1
n
X
b = σ 2(X T M X)−1 = σ 2 
Var(β) XiT M0Xi
i=1
σ2
Var(αb i) = + x̄T b
i Var(β)x̄i , i = 1, · · · , n
m
donde M0 = Im − Jm/m, (ver pág. 617 del Greene).
61
Ejemplo
En la hoja 52 reportamos estimaciones de los parámetros de un

modelo para relacionar Costo con niveles de Producción de 6
compañı́as eléctricas:
βb = 0.674
α
b 1 = −2.69, α
b 2 = −2.91, α
b 3 = −2.44,
α
b 4 = −2.13, α
b 5 = −2.31, α
b 6 = −1.90
Con las expresiones desarrolladas en las hojas anteriores tenemos

√
b
ErrEst(β) = 0.0611, σ b = CME = 0.1246
ErrEst(α
b 1) = 0.3828, ErrEst(α
b 2) = 0.4396, ErrEst(α
b 3) = 0.5287,
ErrEst(α
b 4) = 0.5588, ErrEst(α
b 5) = 0.5533, ErrEst(α
b 6) = 0.6081
(ver pág. 618 del Greene)
62
Pruebas de Hipótesis en el Modelo con Efectos Fijos
63
En realidad el modelo de efectos fijos (bajo los supuestos que

hemos usado) es un modelo lineal usual como los tratados en el
curso de Modelos Estadı́sticos II; ası́, por ejemplo, si deseamos
una prueba para detectar diferencias entre individuos, de la forma
H0 : α1 = α2 = · · · = αn
entonces podemos usar el estadı́stico F (ver hoja 76 de notas de
Mod. Est. II)
(K T γb − m)T [K T (W T W )−1K]−1(K T γb − m)/q
F =
SCE/(nm − n − k)
En base a este estadı́stico, rechazamos la hipótesis H0 si
q
F > Fnm−n−k
64
Recuerde el modelo con efectos fijos:

y = Dα + Xβ + e, con e ∼ Nnm(0, σ 2I)
" #
α
= [D X] + e = Wγ + e
β
entonces H0 : α1 = · · · = αn, puede expresarse como H0 : K T γ = 0,
donde K T tiene q = n − 1 renglones
 
1 0 · · · 0 −1 0
 0 1 · · · 0 −1 0 
 
KT =  ... ... . . . ... ... ...  ≡ [LT 0]
 
0 0 · · · 1 −1 0
Note que, en el cálculo de F , la expresión K T (W T W )−1K, es
" #
L
[LT 0](W T W )−1 = LT RL
0T
donde R es el bloque (1,1) de (W T W )−1, (ver hoja 56).
65
Entonces, el estadı́stico F para la prueba de efectos individuales

es
b T L(LT RL)−1LT α
α b
F =
(n − 1)CME
de la hoja 56 tenemos
R = (DT D)−1DT [I + X(X T M X)−1X T ]D(DT D)−1

1 T X(X T M X)−1 X T D]
= [mIn + D
m2
1
= In + (DT X/m)(X T M X)−1(DT X/m)T
m  
x̄T
1  ..1 
= In +  .  (X T M X)−1[x̄1, · · · , x̄n]
m
x̄T
n
66
Para los datos de Costo y Producción, consideremos la hipótesis
H0 : α1 = · · · = α6
El estadı́stico de prueba es
b T L(LT RL)−1LT α/(n
α b − 1) 0.1502
F = = = 9.6715
CME 0.0155
5 > 9.6715) = 0.00016 y, por lo tanto,
y el p-valor asociado es P (F17
las compañı́as tienen interceptos estadı́sticamente diferentes.
67
Nuevamente: Conceptos Básicos en Regresión
68
Variables Regresoras Estocásticas
Consideremos el siguiente problema: En base a valores observados

de una variable x = (x1, · · · , xk )T , queremos predecir el valor de
una variable aleatoria y. Supongamos que
 
y " # Ã" # " #!
 x1  y µy σy2 T
σxy
 
 ... ≡ ∼ N1+k ,
  x µx σxy Σx
xk
El predictor que andamos buscando es una función de x1, · · · , xk ,
esto es,
m = m(x) = m(x1, · · · , xk )
y queremos que sea “bueno”. Una forma de medir esto es me-
diante el Error Cuadrático Medio: ECM = E(y − m)2.
69
Predictor Óptimo
El predictor buscado, m(x), deseamos que minimice el ECM:
ECM(m) = E(y − m)2 = Ex[ E[ (y − m)2 | x ] ],

aquı́ se está usando una propiedad del valor esperado (ver pág. 82
del Greene):
E(y) = Ex[ E(y | x) ], o, también E[h(y, x)] = Ex[ E(h(y, x) | x) ]

Ahora, el problema de encontar m que minimice ECM(m) es, en
principio, un problema difı́cil (de cálculo variacional), sin embargo,
en este caso se puede encontrar la solución fácilmente, mini-
mizando la expresión E[ (y − m)2 | x ], para cada x. Se puede
ver que esta expresión, para x dada, se minimiza si m = E[ y | x ].
Entonces, (ver Greene, pág. 90) el predictor óptimo es:
T Σ−1(x − µ )
yb = m(x) = µy + σxy x x
70
Datos y Regresión
Supongamos ahora que tenemos datos sobre (y, x1, · · · , xk ):

 
y1 x11 · · · x1k
 y2 x21 · · · x2k 
 
 ... ... ... ...  = [y X]
 
yn xn1 · · · xnk
ahora, si quiero predecir y, en base a x = (x1, · · · , xk )T , entonces,
una técnica que podemos usar es regresión:
b + xT βb
yb = α
Queremos ver que relación hay entre esta expresión y la obtenida
en la hoja anterior:
yb = T Σ−1 (x − µ )
µy + σxy x x
= T Σ−1 µ + σ T Σ−1x
µy − σxy x x xy x
= µy − µT −1 T −1
x Σx σxy + x Σx σxy
= ( µy − µT −1 T −1
x Σx σxy ) + x ( Σx σxy )
71
Ajuste de un Modelo de Regresión
Ajustemos el modelo
" #
α
y = 1α + Xβ + e = [1 X] +e
β
note que es como el modelo de la hoja 48, sólo que con 1 en vez
de D, entonces los estimadores son (ver hoja 49):
b = (1T 1)−11T (y − X β)
α b
donde M = I − 1(1T 1)−11T = I − 11T /n = I − J/n. Entonces

· ¸−1 · ¸
1 1
βb = (M X)T (M X) (M X)T (M y)
n n
1 T b
α = (1 1) 1 (y − X β) = ȳ − 1 X β = ȳ − x̄T βb
b T −1 T b
n
Note que M X es la matriz X pero con sus columnas centradas.
72
Ajuste de un Modelo de Regresión
1 (M X)T (M X) no es otra cosa que la matriz de

Ası́, la expresión n
varianzas y covarianzas estimadas de las x’s, Σ c (ver hoja 18).
x
Similarmente, n 1 (M X)T (M y) es la covarianza estimada de x con y,
σ
b xy . Esto es, los estimadores de regresión, pueden escribirse como
· −1 1 ¸ · ¸
1 T
b
β= (M X) (M X) (M X)T (M y) = Σ
c−1σ
x b xy
n n
b = ȳ − x̄T βb = µ
α bT
by − µ c−1 b
x Σx σ xy
Entonces, el predictor basado en regresión es:
³ ´
yb = b + xT βb
α = µ bT
by − µ c−1σ
Σ
x x b xy
c−1σ
+ xT Σx b xy
y el predictor óptimo (al final de hoja 71) es:
³ ´
yb = E[ y | x ] = µy − µT −1
x Σx σxy + xT ( Σ−1
x σxy )
de aquı́ vemos porqué a E[ y | x ] se le llama la regresión de y
sobre x (ver Greene, pág. 80).
73
Variables Regresoras Estocásticas
Lo que acabamos de ver en las hojas anteriores es que mı́nimos

cuadrados es razonable, aún con regresoras estocásticas. Sin em-
bargo, las propiedades estadı́sticas que vimos en Modelos II fueron
obtenidas bajo el supuesto de X fija. La siguiente lámina reproduce
la hoja 15 de Modelos II. Si eliminamos el supuesto 6, entonces
3, 4 y 5 cobran sentido. El supuesto 3 tiene que ver con insesga-
bilidad y el supuesto 4 permite que el Teorema de Gauss -Markov
siga siendo válido en el caso estocástico.
Por ejemplo, si el modelo es y = Xβ + e y βb = (X T X)−1X T y,

entonces βb es insesgado pues:
b = E E[(X T X)−1X T y | X] = E E[β + (X T X)−1X T e | X]
E(β) X X
= EX [β + 0 | X] = β
74
Supuestos Básicos
Una forma más técnica para nuestra lista de supuestos es
1. y = Xβ + e
2. X es una matriz n × p de rango p
3. E(e | X) = 0
4. Var(e | X) = σ 2I
5. e | X ∼ Nn(0, σ 2I)
6. X es una matriz no estocástica de constantes
75
Regresoras Estocásticas
En general, las propiedades estadı́sticas del estimador de mı́nimos

cuadrados son robustas a violaciones de las propiedades 5 y 6; sin
embargo, ¿Qué pasa si, por ejemplo, E(e | X) 6= 0?, una conse-
cuencia inmediata es que βb es sesgado. Una situación en la que
esto puede pasar es cuando las predictoras están correlacionadas
con el término de error, por ejemplo (ver Greene, pág 288), el
Ingreso a nivel paı́s puede expresarse como:
Ingreso = Consumo + Inversión + Gasto Público + Exportaciones
entonces, si queremos ajustar el modelo
Consumo = α + β Ingreso + e
el término de error, que captura el efecto de todas las variables
que no están presentes en el modelo, deberá estar correlacionado
con el Ingreso y ası́, el estimador de mı́nimos cuadrados tendrá
problemas. (claro que esto no nos impidió en Modelos II ajustar este modelo,
ver hoja 9 de Mod. II).
76
Variables Instrumentales
77
Consideremos el modelo y = Xβ + e, donde las variables {xT i , ei }

son i.i.d., pero no necesariamente xi es independiente de ei. Note
que
µ ¶
1 T 1 T 1
X y= X X β + XT e
n n n
con
 
e1 n
1 T 1  ..  1 X
X e = [x1, · · · , xn]  .  = xiei
n n en n i=1
entonces, por el teorema de los grandes números, un promedio de

variables i.i.d. va a converger a su media, esto es, a E(xiei), pero
E(xiei) = Exi E(xiei | xi) = Exi [xiE(ei | xi)] = 0

si el supuesto 3 es cierto y, entonces, esto justificarı́a la consis-
b ¿Qué hacer cuando este supuesto no es cierto?
tencia de β.
78
Supongamos que, en vez de X, podemos encontrar una matriz Z,

(las variables instrumentales), las cuales si cumplen
1 T
Z e→0
n
entonces, el estimador de β en variables instrumentales
βbV I = (Z T X)−1Z T y
si resulta consistente. Es importante señalar que la regresión de y
sobre Z no presentarı́a problemas de inconsistencia, sin embargo,
la que es de interés es la de y sobre X y precisamente ésta es la
que nos dá el estimador βbV I .
79
La siguiente tabla (tomada de Greene pág. 293), contiene datos

de 36 años de la economı́a americana sobre Ingreso y Consumo.
Un modelo para la función de consumo es
Consumot = α + β Ingresot + et
Año y = Ingreso c = Consumo

1950 791.8 733.2
1951 819.0 748.7
... ... ...
1984 2468.4 2239.9
1985 2509.0 2312.6
Las discrepancias, et’s, están correlacionadas con Ingresos contem-

poráneos, pero en menor grado con Ingresos pasados, o Consumos
pasados. Entonces las variables ct−1 y yt−1 pueden ser usadas
como variables instrumentales.
80
Si X es n × p y si en Z tenemos más variables instrumentales que

el número de columnas de X, entonces Z T X no es invertible y no
podemos usar la expresión para βbV I . Una modificación es usar
X̃ = Z(Z T Z)−1Z T X
como matriz de variables instrumentales (X̃ es la proyección de
X sobre el espacio de columnas de Z, esto es, las columnas de
X̃ son combinaciones lineales (finitas) de los instrumentos y, por
lo tanto, son ellas mismas variables instrumentales). Entonces el
estimador instrumental de β es
βbV I = (X̃ T X)−1X̃ T y

Para el ejemplo de la función de consumo, podemos usar
Z = [1, yt−1, ct−1]
81
El ajuste del modelo usando variables instrumentales arroja:

Coeficiente Error Est.
Intercepto 8.92135 9.8498
Ingreso 0.89969 0.00592
y ajuste correspondiente usando mı́nimos cuadrados ordinarios nos

dá:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 9.732430 10.129957 0.961 0.344
ingreso 0.899179 0.006086 147.748 <2e-16 ***
En este caso, la diferencia es mı́nima, sin embargo, no siempre

será ası́. En este ejemplo, seguramente esta diferencia negligible
es probablemente por la muy fuerte asociación que presentan los
datos de consumo e ingreso, como se muestra en la siguiente
lámina.
82
2000
Consumo
1500
1000
1000 1500 2000 2500

Ingreso
83
Errores Estándar
Los errores estándar para los estimadores instrumentales, reporta-

dos en la hoja 82, se obtienen de la expresión:
Var(βbV I ) = σ 2(Z T X)−1(Z T Z)(X T Z)−1

esta expresión es para cualquier Z instrumental, i.e. que sus colum-
nas no estén correlacionadas con el término de error. En el ejem-
plo, usamos esta expresión con X̃ en vez de Z.
La varianza se estima en la forma (casi) usual

n
1 X
σ
b = (yi − xT b )2
β
i VI
n i=1
la razón del n en el denominador (en vez de n − p), es que en
realidad las propiedades de este tipo de estimadores son solamente
válidas asintóticamente y el dividir entre n − p no harı́a insesgado
al estimador.
84
Tarea 2
1. Considere el modelo de regresión lineal simple

yi = α + βxi + ei
donde la variable regresora, xi , es estocástica. Comentamos en clase sobre
la importancia de que se cumpla que E(ei | xi ) = 0. Demuestre que si
Cov(xi , ei ) 6= 0, entonces E(ei | xi ) 6= 0.
(Recordatorio de lógica: (p ⇒ q) ⇐⇒ (∼ q ⇒ ∼ p); esto es, si se quiere
probar p ⇒ q, a veces es más fácil probar su equivalente ∼ q ⇒ ∼ p).
2. Considere el modelo de efectos fijos de la hoja 47, pero ahora con un

término constante común a todos los individuos
yit = α0 + αi + xTit β + eit , i = 1, · · · , n − 1, t = 1, · · · , m
ynt = α0 + xTnt β + ent , t = 1, · · · , m
no incluı́mos el término αn pues de otro modo no serı́a estimable el modelo.
¿Quienes son los estimadores de los parámetros de este modelo? (este es
el problema 2, pág. 642 del Greene).
3. En la tarea 1 trabajamos los incisos (a) y (b) del problema 1 de la página

642 del Greene. Ahora resuelva los incisos (c) y (d).
85
Tarea 2 (cont...)
4. En el curso de Modelos Estadı́sticos II analizamos los datos de Grunfeld

sobre inversión (ver pág 179 de las notas de ese curso). Resuelva el pro-
blema 3 del libro de Greene de la pág. 643. Aquı́ se ajustarán modelos de
efectos fijos y aleatorios a ese conjunto de datos y se tiene que decidir cuál
modelo es el más adecuado.
Fecha de Entrega: Martes 12 de febrero
86
Efectos Fijos: Estimadores “Dentro” y “Entre”
87
En esta sección retomamos el modelo de efectos fijos presentado

en la hoja 48. El resultado principal que veremos es que podemos
escribir al estimador de mı́nimos cuadrados como la suma de dos
estimadores los cuales están basados en modelos que reflejan dos
formas diferentes de variabilidad.
En la hoja 47 tenemos el modelo de efectos fijos
yit = αi + xT
it β + eit , i = 1, · · · , n t = 1, · · · , m
donde n es el número de grupos o individuos. Si promediamos
sobre todos los tiempos, tenemos
ȳi = αi + x̄T
i β + ēi , i = 1, · · · , n
ası́, tomando la diferencia, desaparecemos los interceptos
yit − ȳi = (xit − x̄i)T β + eit − ēi

88
En general, los parámetros importantes son los coeficientes de

regresión en β, ası́ que podemos obtener tres estimadores de los
tres modelos de la hoja anterior. Para ello, definamos las siguientes
sumas de cuadrados y sumas de productos cruzados:
Totales
n X
X m
t =
Sxx ¯)T
¯)(xit − x̄
(xit − x̄
i=1 t=1
n X
X m
t =
Sxy ¯)(yit − ȳ¯)
(xit − x̄
i=1 t=1
89
Dentro de Grupos
n X
X m
w
Sxx = (xit − x̄i)(xit − x̄i)T
i=1 t=1
n X
X m
w =
Sxy (xit − x̄i)(yit − ȳi)
i=1 t=1
Entre Grupos
n
X
b
Sxx = m(x̄i − x̄ ¯)T
¯)(x̄i − x̄
i=1
n
X
b =
Sxy ¯)(ȳi − ȳ¯)
m(x̄i − x̄
i=1
90
Puede verse que

t = SS w + SS b
Sxx y t = SS w + SS b
Sxy
xx xx xy xy
Por ejemplo,
n X
X m
t =
Sxx ¯)T
¯)(xit − x̄
(xit − x̄
i=1 t=1
n X
X m
= (xit − x̄i + x̄i − x̄ ¯)T
¯)(xit − x̄i + x̄i − x̄
i=1 t=1
n X
X m n
= (xit − x̄i)(xit − x̄i)T + (x̄i − x̄ ¯)T +
¯)(x̄i − x̄
i=1 t=1 o
(xit − x̄i)(x̄i ¯)T
− x̄ ¯)(xit − x̄i
+ (x̄i − x̄ )T
w + SS b
= SSxx xx
pues los productos cruzados se cancelan. En forma similar se ve
la otra igualdad.
91
Para el modelo
yit = αi + xT
it β + eit
puede verse que el estimador de mı́nimos cuadrados es
βbt = [Sxx
t ]−1S t
xy
Para el modelo
yit − ȳi = (xit − x̄i)T β + eit − ēi
el estimador dentro de grupos (corresponde al de pág 51) es
βbw = [Sxx
w ]−1S w
xy
y, para el modelo
ȳi = αi + x̄T
i β + ēi
el estimador entre grupos es
βbb = [Sxx
b ]−1 S b
xy
92
Log(Costo) Desv. Log(Costo) Log(Costo)
1.5 2.0 2.5 3.0 3.5 4.0 4.5 −0.4 −0.2 0.0 0.2 0.4 1 2 3 4 5
6
−0.5
7
7
8
0.0
8
Entre ( 0.911 )
Todos ( 0.888 )
Dentro ( 0.674 )
9
9
0.5
10
10
93
Para los datos de compañı́as generadoras de energı́a eléctrica te-

nemos
βbt = 0.88799
βbw = 0.67428
βbb = 0.91107
La mayor parte de la variación en los datos se debe a diferen-
cias entre grupos (lo cual no es de extrañar pues Greene dice
explı́citamente en su libro que ese subconjunto de datos fué tomado
precisamente para que reflejara un rango amplio de compañı́as).
Como se explica en la siguiente hoja, el estimador de mı́nimos

cuadrados es un promedio ponderado de los otros dos, donde la
ponderación refleja la importancia relativa de las dos fuentes de
variación.
94
Peso de los Estimadores “Dentro” y “Entre”
Usando las igualdades de la hoja 91, tenemos que
βbt = [Sxx
t ]−1 S t
xy
w + Sxxb ]−1 [S w + S b ]
= [Sxx xy xy
w + Sxxb ]−1 [S w β
= [Sxx bw + S b βbb]
xx xx
w + Sxxb ]−1 S w β
= [Sxx bw + [S w + Sxxb]−1S b βbb = F w βbw + F bβbb
xx xx xx
w + Sxxb ]−1 S w = I − F b .
donde F w = [Sxx xx
En el ejemplo tenemos
βbt = 0.10βbw + 0.90βbb

Esto es, el estimador entre grupos lleva un 90% del peso para
determinar el estimador de mı́nimos cuadrados.
95
Modelos de Efectos Aleatorios: Uso de lmer()
96
Consideremos el modelo de efectos aleatorios
yit = α + xT
it β + δi + eit , i = 1, · · · , n, t = 1, · · · , m
donde las δi’s son i.i.d. N (0, σ02) e independientemente distribuı́das
de los eij ’s, los cuales son i.i.d. N (0, σ 2).
Para los datos del ejemplo de compañı́as eléctricas, tenemos que

los estimadores máximo verosı́miles para los parámetros del modelo
están dados por las expresiones de la hoja 36 y (ver el programa
en el apéndice) las estimaciones son:
α
b = −3.26, βb = 0.78, σ
b02 = 0.047 y b 2 = 0.017
σ
97
El sistema R cuenta con la librerı́a nlme (nonlinear mixed effects),

esta cuenta con la función lme para el ajuste de modelos de efectos
aleatorios. A su vez, la librerı́a arm, disponible en CRAN, cuenta
con una versión revisada de lme: lmer. Usaremos esta función.
La siguiente lámina muestra el código y salida en R. La matriz

datos fué definida antes (ver apéndice, análisis corresondiente a
hoja 97). Nuestras estimaciones de la hoja anterior concuerdan
razonablemente con las reportadas por lmer. Por supuesto, esta
función nos ofrece una posibilidad de análisis mucho más poderoso.
98
lcost <- log(datos[,3])
loutp <- log(datos[,4])
compa <- as.factor(datos[,1])
ti <- datos[,2]
dat <- data.frame(compa,ti,lcost,loutp)
out <- lmer( lcost ~ loutp + (1|compa), data=dat, method="ML" )
summary(out)
Linear mixed-effects model fit by maximum likelihood

Formula: lcost ~ loutp + (1 | compa)
Data: dat
AIC BIC logLik MLdeviance REMLdeviance
-8.62 -5.08 7.31 -14.6 -7.5
Random effects:
Groups Name Variance Std.Dev.
compa (Intercept) 0.0450 0.212
Residual 0.0173 0.132
number of obs: 24, groups: compa, 6
Fixed effects:
Estimate Std. Error t value
(Intercept) -3.282 0.409 -8.03
loutp 0.780 0.048 16.27
Correlation of Fixed Effects:

(Intr)
loutp -0.975
99
Prueba para Efectos Aleatorios
La función lmer aparentemente no nos ofrece una prueba para la

hipótesis H0 : σ02 = 0; esta hipótesis es una prueba de homogenei-
dad y puede ser de interés reportarla en un estudio especı́fico. Para
ello adoptamos la prueba de Breush-Pagan que, para este caso, el
estadı́stico de prueba toma la forma (ver Greene, pág 629):
" #2
nm eT DDT e
BP = −1
2(m − 1) eT e
donde e es el vector de residuales del ajuste usando mı́nimos
cuadrados, D es la matriz de variables dummy definida en la hoja
50. Si la hipótesis de homogeneidad es cierta, entonces BP tiene
una distribución ji-cuadrada con 1 grado de libertad. Para nue-
stro ejemplo, tenemos BP = 5.9 y tiene asociado un p-valor de
0.015, lo cual apoya la existencia de variación en los niveles de las
compañı́as.
100
Prueba de Hausman
La prueba de Hausman trata de ayudar a responder a la pregunta:

¿Qué usamos?, ¿un modelo de efectos fijos o un modelo con
efectos aleatorios?.
Por un lado, el modelo con efectos fijos es costoso en términos de

grados de libertad usados para la estimación de efectos individuales
y, para estudios longitudinales con un gran número de unidades,
el modelo de efectos aleatorios es más intuitivo.
Por otro lado, si las variables regresoras están correlacionadas con

el error, entonces podemos tenes inconsistencia de los estimdores
y esta no-correlación es un supuesto implı́cito en el modelo de
efectos aleatorios, lo cual pudiera no ser razonable (esto es, que
las δi’s no estén correlacionadas con las xit’s).
101
Prueba de Hausman
La idea básica del estadı́stico de Hausman radica en comparar los

estimadores de los coeficientes de regresión bajo ambos modelos.
βbF − βbA
donde βbF se obtiene como en la hoja 51 y βbA como en la hoja
36. Ahora, si consideramos que la hipótesis H0 : no correlación
es cierta, entonces ambos estimadores son consistentes, pero si
no es cierta entonces βbA es inconsistente y βbF si es consistente.
Por lo tanto, bajo H0 esperarı́amos que la diferencia no sea muy
grande.
Ahora, necesitamos la varianza del estadı́stico propuesto:
Var(βbF − βbA) = Var(βbF ) + Var(βbA) − Cov(βbF , βbA) − Cov(βbF , βbA)T
102
Prueba de Hausman
Ahora, si H0 es cierta, entonces βbA es el más eficiente (i.e. menor

varianza) y Hausman mostró que, en este caso, “la covarianza
es cero cuando la calculamos para un estimador eficiente y su
diferencia con uno que no lo es”; esto es,
0 = Cov(βbF − βbA, βbA) = Cov(βbF , βbA) − Var(βbA)

Sustituyendo esto en la hoja anterior obtenemos
Var(βbF − βbA) = Var(βbF ) − Var(βbA) ≡ Σ

Finalmente, el estadı́stico de prueba es tomado usando el criterio
de Wald
W = (βbF − βbA)T Σ(
c βb − βb )
F A
y, bajo H0, tenemos que W ∼ χ2

k , donde k es el número de variables
regresoras.
103
Prueba de Hausman
d βb )
Para terminar de implementar el cálculo de W , usaremos Var( A
d βb ), la expresión en hoja 61.
como en hoja 39 y, para Var( F
Entonces, para el caso de compañı́as generadoras, tenemos que

(0.674279 − 0.78)2
W = 2 2
= 7.6
.0611 − 0.048
con un p-valor asociado de 0.0058. Por lo tanto, rechazamos la
no correlación y recomendarı́amos no usar el modelo de efectos
aleatorios para los datos de compañı́as generadoras.
104
Estimación de Trayectorias Individuales
105
Consideremos nuevamente el conjunto de mediciones de distancias

maxilares. Por simplicidad, no haremos distinción entre niños y
niñas.
Niñas y Niños
3025
Distancia
20
8 10 12 14
106
Para estos datos seleccionamos un modelo de efectos aleatorios

(interceptos aleatorios) semejante al considerado en la hoja 35
yij = αi + β1tj + eij , i = 1, · · · , n j = 1, · · · , m
donde las eij ’s son i.i.d. N (0, σ 2) e independientes de las αi’s, las
cuales se suponen i.i.d. N (α, σ02). Escribiendo αi = α+δi, tenemos
yij = α + β1tj + δi + eij
o, en forma matricial
yi = Xiβ + δi1 + ei, i = 1, · · · , n
En esta sección deseamos estimar la trayectoria particular
del individuo i. Para ello usaremos Xiβb + δbi1. Para el modelo de
efectos fijos esto no representa ningún problema pues los efectos
fijos (α’s y β) todos ellos son estimados explı́citamente en el mo-
delo, lo cual no hacemos en el modelo de efectos aleatorios en el
cual las α’s son aleatorias.
107
La estimación de los parámetros α, β1, σ 2 y σ02, se hace en forma

completamente análoga a como se hizo en la hoja 36:
 −1  
n
X n
X
b
β(V0) =
 XiT V0−1Xi  XiT V0−1yi
i=1 i=1
n
X
1 1 b T V −1(y − X β)
τb2(V0) = SCE(V0) = (yi − Xiβ) 0 i i
b
mn nm i=1
y, para el término ρ de V0 usamos la logverosimilitud perfil:
mn n
l(V0) = C − log[SCE(V0)] − log|V0|
2 2
108
Efectuamos el ajuste del modelo y obtuvimos α b = 16.76, βb1 =

0.66, σ b02 = 4.3, b 2 = 2.0. El perfil medio estimado se muestra
σ
en la gráfica:
Niñas y Niños
3025
Distancia
20
8 10 12 14
109
El perfil medio de crecimiento mostrado en la hoja anterior es de

la forma α b + βb1tj . Ahora nuestro interés es no sólo en el perfil
medio, sino en la estimación del comportamiento de un individuo
particular. Para ello usaremos αb + βb1tj + δbi.
Estamos suponiendo que las δi’s son aleatorias, ası́ que para obtener
su “estimación” usamos el predictor óptimo visto en la hoja 70:
δbi = E(δi | yi).
En general, tenemos el modelo de la hoja 89:
yi = Xiβ + δi1 + ei, i = 1, · · · , n

donde δi ∼ N1(0, σ02), ei ∼ Nm(0, σ 2I) y yi | δi ∼ Nm(β 1 + δi1, σ 2I)
110
Predictor Óptimo
Puede verse, que la distribución conjunta de yi y δi es normal

multivariada
" # Ã" # " #!
δi 0 σ02 σ021T
∼ N1+m ,
yi Xiβ σ021 σ02J + σ 2I
en la notación de la hoja 34 tendrı́amos σ02J + σ 2I ≡ τ 2V0.
Ahora, usaremos las siguientes propiedades de la normal multiva-

riada (pág. 90 del Greene):
· ¸ µ· ¸ · ¸¶
x1 µ1 Σ11 Σ12
Si ∼ Nn1+n2 , entonces
x2 µ2 Σ21 Σ22
E(x1 | x2 ) = µ1 + Σ12 Σ−1

22 (x2 − µ2 )
Var(x1 | x2 ) = Σ11 − Σ12Σ−1
22 Σ21
111
Predictor Óptimo
Entonces, los predictores para los efectos individuales, ası́ como

sus varianzas, están dados por
E(δi | yi) = 0 + σ021T (τ 2V0)−1(yi − Xiβ)

Var(δi | yi) = σ02 − σ021T (τ 2V0)−11σ02
Ası́, por ejemplo, la trayectoria estimada para el niño 21 (que es
el que aparece con el perfil más alto), se muestra en la siguiente
lámina. Ese perfil estimado se calcula como
b + βb1tj + E(δ
ybit = α b
i | yi )
112
Niñas y Niños
3025
Distancia
20
8 10 12 14
113
Ejercicio
114
Ejercicio
Los datos mostrados en la gráfica de la siguiente hoja provienen

de un estudio sobre resistencia de rieles de ferrocarril. Se seleccio-
naron 6 rieles al azar y cada uno fue probado 3 veces midiendo el
tiempo que tardaba cierta onda de ultrasonido en propagarse por
toda la longitud del riel.
Para los ingenieros, las cantidades de interés eran:
• El tiempo promedio de recorrido de una onda para un riel “tı́pico”.
• La variabilidad entre rieles de los tiempo promedios.
• La variabilidad de los tiempos observados para un mismo riel.
115
6
5
4
Riel
3
2
1
40 60 80 100
Tiempo
116
Ejercicio
Mediciones
Riel 1 2 3 4 5 6
55 26 78 92 49 80
53 37 91 100 51 85
54 32 85 96 50 83
De la gráfica observamos que hay una gran variabilidad entre

rieles. Una forma de modelar estos datos es mediante el modelo
simple
yij = βi + eij , i = 1, · · · , 6, j = 1, 2, 3
los rieles fueron escogidos al azar y, en realidad, no es de interés
primordial estimar los tiempos promedios para esos rieles particu-
lares que aleatoriamente cayeron en la muestra, de aquı́ que es
natural pensar en un modelo de efectos aleatorios:
βi ∼ N (β, σ02), eij ∼ N (0, σ 2)
Estime los parámetros β, σ 2 y σ02.

117
Ejercicio
Efectúe el ejercicio de predicción para los efectos aleatorios βi’s.
Va a encontrar que
Ã !−1 
1 σ 2 ³ ´−1
βbi = ³  ȳi + 2
σ0 ȳ¯
´ ³ ´−1
σ 2 −1 + σ02 m
m
Esta expresión muestra un balance entre dos modelos de efectos
fijos extremos:
yij = βi + eij y yij = β + eij
por un lado, si suponemos un intercepto fijo pero diferente para
cada riel, la estimación de esos efectos serı́a βbi = ȳi y, por otro lado,
si suponemos homogeneidad para los rieles, la estimación serı́a
βb = ȳ¯. La predicción, bajo el modelo de efectos aleatorios es un
balance (“shrinkage”) entre estas dos estimaciones, donde el peso
para cada una es inversamente proporcional a las incertidumbres
en los dos tipos de variabilidad (“dentro” y “entre”).
118
Modelos Jerárquicos
119
Los modelos de efectos aleatorios son una subclase de la familia

de modelos jerárquicos. En este tipo de modelos, la estructura
básica es la de grupo, en donde no necesariamente, como es el
caso con los datos longitudinales, las observaciones dentro de un
mismo grupo son tomadas secuencialmente en el tiempo. Los
modelos jerárquicos (o multinivel, o de efectos mixtos) incluyen
los modelos usuales de interceptos y/o pendientes aleatorios.
Por ejemplo, para estudiar el impacto de un programa guberna-

mental de capacitación para el empleo, podrı́amos relacionar el
número de horas trabajadas en un determinado perı́odo de tiempo,
con el número de horas tomadas en el programa en un perı́odo pre-
vio
yij = αi + βixij + eij , i = 1, · · · , n, j = 1, · · · , ni
120
Los interceptos y pendientes del modelo anterior pueden variar de

ciudad en ciudad (subı́ndice i)
αi = a0 + uT
i b0 + ηi1
βi = a1 + uT
i b1 + ηi2
Las variables xij y ui son predictoras a nivel individuo y a nivel
ciudad respectivamente.
Para ejemplificar algunas ideas de modelación jerárquica, consi-

deraremos un conjunto de datos sobre niveles de Radón en casas
particulares en Estados Unidos. (Datos tomados del libro “Data
analysis using regression and multilevel/hierarchical models” de
Gelman y Hill).
121
Niveles de Radón
El radón es un gas radioactivo que ocurre en forma natural y,

cuando decae, sus productos derivados tambien son radioactivos.
El radón, en altas concentraciones, es un causante de cáncer de
pulmón y se estima que su efecto provoca varios miles de muertes
al año en Estados Unidos. Con el fin de identificar zonas de alta
exposición, la Agencia de Protección del Medio Ambiente (EPA)
de ese paı́s, coordinó mediciones de radón en una muestra de 80
mil casas en todo el paı́s.
Además de niveles de radón, se cuenta con varios predictores,

en particular, se registró en piso donde se hizo la medición (0 si
es sótano, 1 si es primer piso) (el radón brota del subsuelo y es
más factible de penetrar en una casa si esta tiene sótano); se
cuenta además con lecturas de niveles de uranio (pero solo a nivel
municipal).
122
Niveles de Radón
Consideremos el objetivo de estimar los niveles de radón en Min-

nesota. Para este estado se tiene información de 85 condados y
sobre un total de 919 casas. La media de log(radón) para todo el
estado es de 1.2, pero deseamos tener estimaciones a nivel con-
dado.
Las estimaciones a nivel condado las mostramos en la primera

gráfica de la hoja 125, junto con ± un error estándar.
La segunda gráfica corresponde a un modelo de interceptos aleato-

rios
yij = αi + eij
123
Niveles de Radón
En este caso desbalanceado, se puede ver que los predictores para

los interceptos están dados por
ni 1 ȳ
¯
σ2
ȳi +
σ02
α
bi = ni 1
σ2
+
σ02
esto es, se tiene un efecto de contraimiento de los estimadores
individuales.
La observación inmediata es que si no combinamos la información

sobre todos los condados tendremos una sobreestimación de la
variabilidad, causada en gran medida por las diferencias en tamaños
de muestra dentro de cada condado. En otras palabras, las esti-
maciones basadas en la información separada por condado tiende
a hacer parecer a los condados más diferentes de lo que realmente
son.
124
Sin Combinar
logradon promedio por condado

0.0 1.0 2.0 3.0
1 2 5 10 20 50 100
num obs por condado
Modelo Multinivel
logradon promedio por condado
0.0 1.0 2.0 3.0
1 2 5 10 20 50 100
num obs por condado 125
Niveles de Radón
Ahora incorporamos variables al modelo. La variable Piso es binaria

(0,1) e indica el punto donde se hizo la medición. Si consideramos
el modelo
yij = α + β xij + δi + eij
tenemos el ajuste usando lmer:
Random effects:
county (Intercept) 0.105 0.324
Residual 0.570 0.755
number of obs: 919, groups: county, 85
Fixed effects:
(Intercept) 1.4612 0.0512 28.52
x -0.6926 0.0704 -9.84
Los modelos ajustados para algunos condados seleccionados los

mostramos en la siguiente gráfica. El condado La Qui Parle es el
más extremo en el estado de Minnesota, se observa también un
efecto de contraimiento.
126
Nivel de log(radon) Nivel de log(radon)
−1 1 3 −1 1 3
0
0
CLAY
Piso
Piso
LAC QUI PARLE
1
1

−1 1 3 −1 1 3
0
0
AITKIN
STEARNS
Piso
Piso
1
1

−1 1 3 −1 1 3
0
0
RAMSEY
Piso
Piso
KOOCHICHING
1
1

−1 1 3 −1 1 3
0
0
ST LOUIS
DOUGLAS
Piso
Piso
1
1
127
El modelo que hemos considerado es de la forma
yij ∼ N (αi + βxij , σ 2)

αi ∼ N (α, σ02)
Para los datos de niveles de Radón se cuenta con lecturas de niveles
de Uranio pero sólo a nivel condado y no a nivel individual (casa).
Una forma de incorporar esta variable es mediante el modelo
yij ∼ N (αi + βxij , σ 2)

αi ∼ N (α + γui, σ02)
esto es, queremos tratar de explicar la heterogeneidad de los in-
terceptos de los niveles de radón en base a otra variable auxiliar
(Uranio).
128
Reescribimos los modelos anteriores como
yij = αi + βxij + eij , con eij i.i.d. N (0, σ 2)

y
αi = α + γui + δi, con δi i.i.d. N (0, σ02)
O, equivalentemente,
yij = α + γui + δi + βxij + eij

donde γ es el coeficiente del nivel de uranio en el condado y β
el coeficiente asociado con el piso donde se hizo la medición del
radón. Las estimaciones de los parámetros del modelo usando
lmer se muestran en la siguiente hoja.
129
Salida de lmer
Linear mixed-effects model fit by REML
Formula: y ~ x + uexp + (1 | county)
2142 2161 -1067 2123 2134
Random effects:
Residual 0.5752 0.758
Fixed effects:
(Intercept) 1.4658 0.0379 38.6
x -0.6683 0.0688 -9.7
uexp 0.7203 0.0918 7.8

(Intr) x
x -0.357
uexp 0.145 -0.009
130
Modelo Ajustado
En la hoja anterior tenemos el ajuste del modelo

yij = α + γui + δi + βxij + eij
con parámetros estimados
αb = 1.466, βb = −0.668, γb = 0.720,
b 2 = 0.575,
σ σ
b02 = 0.025
En la hoja 126 obtuvimos σ b 2 = 0.570 y σ

b02 = 0.105 en un modelo
que no incorpora información sobre niveles de uranio. Esto es,
el tomar en cuenta los niveles de Uranio disminuye en 5 veces la
variabilidad no explicada entre condados (σ02). La estimación de
la variabilidad dentro de condados casi no cambia (lo cual es de
esperarse pues la información de uranio es sólo a nivel condado).
Las siguientes láminas muestran las relaciones estimadas para el

modelo presente.
131
LAC QUI PARLE AITKIN KOOCHICHING DOUGLAS
3
log(radon)
log(radon)
log(radon)
log(radon)
1
1
−1
−1
−1
−1
0 1 0 1 0 1 0 1
Piso Piso Piso Piso
CLAY STEARNS RAMSEY ST LOUIS

3
3
log(radon)
log(radon)
log(radon)
log(radon)
1
1
−1
−1
−1
−1
0 1 0 1 0 1 0 1
Piso Piso Piso Piso 132
3
1
1
−1
−1
−1
−1
0 1 0 1 0 1 0 1
3
1
1
−1
−1
−1
−1
0 1 0 1 0 1 0 1
WILKIN STEVENS WABASHA YELLOW MEDICINE
3
3
1
1
−1
−1
−1
−1
0 1 0 1 0 1 0 1
STEELE SCOTT PIPESTONE CARVER
3
3
1
1
−1
−1
−1
−1
0 1 0 1 0 1 0 1
ANOKA RENVILLE LE SUEUR LAKE OF THE WOODS
3
3
1
1
−1
−1
−1
−1
0 1 0 1 0 1 0 1
MURRAY PINE ROCK CLEARWATER
3
3
1
1
−1
−1
−1
−1 133
0 1 0 1 0 1 0 1
Variabilidad Explicada por los Niveles de Uranio
De la hoja 129 tenemos el modelo
αi = α + γui + δi, con δi i.i.d. N (0, σ02)

En la siguiente lámina mostramos la relación
α
bi vs ui
donde αbi = αb+γ b ui + δbi. La lı́nea sólida representa la predicción
de log(radón) (para casas con sótano, i.e. xij = 0) como función
de log(uranio) en el condado.
134
Variabilidad debida al Uranio
2.0
Interceptos Estimados
1.0 1.5
−1.0 −0.5 0.0 0.5

Uranio
135
Modelo con Interceptos y Pendientes Aleatorios
Consideraremos ahora una generalización al primer modelo mostrado

en la hoja 128; esto es, supongamos que tenemos interceptos y
pendientes (ambos) aleatorios (primero vemos el caso sin la pre-
dictora a nivel de condado, uranio)
yij ∼ N (αi + βixij , σ 2)
" # Ã" # " #!
αi α σ02 ρσ0σ1
∼ N ,
βi β ρσ0σ1 σ12
donde ρ es la correlación entre αi y βi.
En general, los modelos con interceptos aleatorios son muy usados

en situaciones con un gran número de individuos (unidades, casas)
para estimar tendencias y relaciones globales entre las diferentes
variables. Ahora, cuando consideramos pendientes aleatorias, es-
tamos requiriendo un mayor detalle en la estimación de relaciones
que nos permitan, tal vez, detectar diferencias de comportamiento
entre unidades.
136
La estimación de este tipo de modelos es similarmente llevada a

cabo usando la función lmer (ver siguiente hoja). Los parámetros
estimados del modelo son:
α
b = 1.463, βb = −0.681, b 2 = 0.557,
σ
σ
b02 = 0.122, σ
b12 = 0.118, ρb = −0.337
El modelo puede reescribirse como
yij = α + βxij + δi + γixij + eij

donde Var(eij ) = σ 2, Var(δi) = σ02, Var(γi) = σ12 y Corr(δi, γi) = ρ.
De aquı́ que un modelo con interceptos y pendientes aleatorios es
simplemente un modelo de regresión usual pero con una estructura
más complicada en los errores
yij = α + βxij + νij
137
El ajuste en R del modelo involucra la parte clave (1 + x | county),

la cual indica que pedimos interceptos y coeficientes de la variable
piso diferentes por condado.
Formula: y ~ x + (1 + x | county)
2178 2202 -1084 2161 2168
Random effects:
Groups Name Variance Std.Dev. Corr
x 0.118 0.344 -0.337
Residual 0.557 0.746
Fixed effects:
(Intercept) 1.4628 0.0539 27.15
x -0.6811 0.0876 -7.78

(Intr)
x -0.381
138
3
log(radon)
log(radon)
log(radon)
log(radon)
1
1
−1
−1
−1
−1
0 1 0 1 0 1 0 1
Piso Piso Piso Piso

3
3
log(radon)
log(radon)
log(radon)
log(radon)
1
1
−1
−1
−1
−1
0 1 0 1 0 1 0 1
Piso Piso Piso Piso 139
Podemos extender ahora el modelo de forma tal que la variabilidad

en interceptos y pendientes sea explicada por predictoras a nivel
condado.
yij ∼ N (αi + βixij , σ 2)
" # Ã" # " #!
αi α + γ0 ui σ02 ρσ0σ1
∼ N ,
βi β + γ1 ui ρσ0σ1 σ12
esto es,
yij = α + βxij + γ0 ui + γ1 ui xij + δi + ηixij + eij
La expresión en R para ajustar este modelo es (casi) una traducción
literal:
lmer( y ~ x + uexp + x * uexp + (1 + x | county) )
En la hoja 142 mostramos los comportamientos de los interceptos y pendientes

en función de los niveles de uranio: A mayor nivel de uranio, mayor el intercepto
y más inclinada (negativamente) es la relación de radón versus la variable piso.
140
Formula: y ~ x + uexp + x * uexp + (1 + x | county)
2141 2174 -1063 2114 2127
Random effects:
Groups Name Variance Std.Dev. Corr
x 0.0930 0.305 0.434
Residual 0.5617 0.749
Fixed effects:
(Intercept) 1.4687 0.0352 41.7
x -0.6712 0.0842 -8.0
uexp 0.8081 0.0905 8.9
x:uexp -0.4207 0.2267 -1.9

(Intr) x uexp
x -0.236
uexp 0.209 -0.093
x:uexp -0.094 0.175 -0.227
141
1.8
Interceptos
1.0 1.4
0.6
−0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4

Uranio
0.0
−0.5
Pendientes
−1.0 −1.5
−0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4

Uranio 142
Modelo Mixtos Generales
Consideremos nuevamente el modelo de la hoja 137
yij = α + βxij + δi + γixij + eij

y fijémonos en las observaciones correspondientes a un mismo
condado
       
yi1 1 xi1 " # 1 xi1 " # ei1
α δi
yi =  ...  =  ... ...  +  ... ...  +  ... 
     
 
β γi
yini 1 xini 1 xini eini
en general, tendremos lo que se llama un modelo mixto, en donde,
para el (individuo, unidad, condado) i-ésimo
yi = Xib + Zibi + ei
con bi ∼ N (0, Σ) y ei ∼ Nni (0, σ 2I) para i = 1, · · · , n.
143
Modelo Mixtos Generales
Finalmente, los modelos mixtos pueden ampliarse de forma que

incorporen correlación seriada en los términos de error:
yi = Xib + Zibi + νi + ei, i = 1, · · · , n

con bi ∼ N (0, Σ), νi ∼ Nni (0, τ 2H) y ei ∼ Nni (0, σ 2I), donde H
puede ser, por ejemplo, una matriz correspondiente a un proceso
autoregresivo de primer orden, (como la matriz V0 de la hoja 34)
o una matriz con correlaciones dadas por un modelo exponencial:
hkl = exp(−θ|tk − tl |).
144
Resumen
En esta primera parte del curso hemos visto:
• Métodos clásicos (T 2 de Hotelling) de análisis multivariado

para tratar con dependencias que incluyen estructuras longitu-
dinales (hoja 18).
• Estimación del modelo Gaussiano para datos con estructura

de dependencia general (hoja 27).
• Prueba de hipótesis (hoja 30).
• Modelos con efectos aleatorios y su estimación (hojas 35 y

36).
145
Resumen
• Modelos con efectos fijos (hoja 47) y su estimación (hoja 49).
• Prueba F para hipótesis sobre efectos fijos (hoja 64).
• Modelos de regresión con predictoras estocásticas y predictores

óptimos (hoja 70).
• Uso de variables instrumentales (hoja 78).
• Los estimadores “dentro” y “entre” en modelos de efectos

fijos (hoja 88).
146
Resumen
• Prueba Breush-Pagan para efectos aleatorios (hoja 100).
• Prueba de Hausman para contrastar modelos de efectos fijos

y aleatorios (hoja 101).
• Estimación de trayectorias individuales (hoja 108).
• Modelos jerárquicos (hoja 120).
• Estimación de modelos de efectos aleatorios usando lmer (hoja

131).
• Comentarios acerca de modelos mixtos generales (hoja 144).
147
Discusión
Discusión sobre el artı́culo: Small area estimation of average

household income based on unit level models for panel data,
de Fabrizi et al (2007) Survey Methodology, Vol.33, No.2, 187-
198.
148
Maestrı́a en Estadı́stica Oficial
Primer Examen Parcial de Modelos Estadı́sticos IV
Nota: El examen es por equipos de dos personas (pudiendo variar este número por
causas especiales y bajo previa autorización de mi parte). Mandar un archivo pdf con su
solución a más tardar el miércoles 2 de abril a la medianoche. (Para mayor legibilidad,
el código R que se entregue, que esté en formato courier).
1. Considere el modelo de efectos aleatorios (ver hoja 117)

yij = βi + eij , i = 1, · · · , n, j = 1, · · · , m
donde βi ∼ i.i.d. N (β, σ0 ) y eij ∼ i.i.d. N (0, σ 2 ) y son independientes de las βi ’s. Suponga
2
que σ 2 y σ02 con cantidades conocidas. Para las m observaciones de la i-ésima unidad
podemos escribir el modelo como
yi = β 1m + δi 1m + ei , i = 1, · · · , n
o, equivalentemente, como yi = β 1m + νi , i = 1, · · · , n, donde νi ∼ i.i.d. Nm (0, σ02 Jm + σ 2 I).
Puede verse que el estimador de máxima verosimilitud para β (o, lo que es lo mismo en
este caso, el estimador de mı́nimos cuadrados generalizados para β) está dado por β b = ȳ¯,
PP
donde ȳ¯ = yij /nm (no hay que demostrar esta expresión para β b, simplemente la
usaremos). Encuentre los predictores óptimos para los efectos aleatorios:
β b (δi | yi) = βb + σ021Tm(σ02Jm + σ2I)−1(yi − βb1m),
bi = βb + E (ver hoja 112)
bi dada en la hoja 118.
en otras palabras, a donde tiene que llegar es a la expresión para β
Puede usar la fórmula
1 b
(aI + bJm )−1 = cI + dJm , donde c = , d = −
a a(a + mb)
149
2. Considere el modelo de efectos aleatorios
yij = αi + βxij + eij , i = 1, · · · , n, j = 1, · · · , m
donde αi ∼ i.i.d. N (α, σ02 ) y eij ∼ i.i.d. N (0, σ 2 ) y son independientes de las αi ’s; n denota
al número de individuos y m es el número de observaciones por individuo.
(a) Suponga que tenemos una sola observación por individuo (m = 1) (datos de sección
transversal). Una consecuencia de esto es que no todos los parámetros pueden ser
estimados, ¿cuáles?, ¿porqué?.
(b) Consideremos ahora el caso en el que tenemos dos observaciones por individuo (m =
2). Podemos tomar ventaja de esta estructura longitudinal tomando primeras diferen-
cias (dentro de cada individuo) para eliminar las αi ’s. Use esta idea para encontrar un
estimador para β, indique también cómo estimarı́a el error estándar de este estimador.
3. ¿Es similar Pennsylvania a Minnesota en cuanto a sus observaciones de Radón?. En clase

analizamos los datos de radón en 919 unidades habitacionales del estado de Minnesota,
aquı́ queremos ver si Pennsylvania muestra comportamientos similares en cuanto a niveles
y relaciones entre lecturas de radón y el nivel (0, 1) donde fue tomada la lectura, ası́
como el efecto de niveles de uranio en los condados respectivos. Una forma de atacar
este problema consiste en replicar los análisis vistos pero para las (aprox.) 2370 casas en
la muestra tomada de Pennsylvania, sin embargo, esperamos un poco más de creatividad
para hacer la comparación (resumenes gráficos comparativos, modelos que combinen todas
las observaciones de ambos estados, etc.)
150
4. Considere el artı́culo:
• Steele, F. (2008) Multilevel models for longitudinal data. JRSS-A, 171, 5–19.
Haga un resumen/discusión acerca de la sección 2.1 de este artı́culo, donde se presenta un
modelo para curvas de crecimiento (discuta también el ejemplo presentado en la sección
2.1.1). Aunque la autora comenta acerca de la relación de modelos multinivel con los
modelos de ecuaciones estructurales (SEM’s), para nuestros fines no tenemos que discutir
este tipo de modelos.
151
Análisis de Datos Categóricos
152
Datos Categóricos
Una variable categórica (o nominal) es una variable cuyos posibles

valores consisten de un conjunto de categorı́as.
• Estatus de empleo: empleado, desempleado.
• Preferencia de un producto: A, B o C.
• Calidad de vida: buena, regular, mala.
En términos generales, el análisis de datos categóricos consiste

en evaluar asociaciones entre variables y/o evaluar el impacto de
covariables sobre los niveles de una variable categórica.
153
Modelo Multinomial
La distribución multinomial es la base de muchos procedimientos

para el análisis de datos categóricos. Daremos ahora un resumen
de sus propiedades.
Consideremos un experimento en el que puede ocurrir alguna de c

posibles categorı́as con probabilidades π1, π2, · · · , πc. Supongamos
que efectuamos un total de n repeticiones independientes del ex-
perimento, si denotamos por yi el total de ocurrencias de la i-ésima
categorı́a, entonces
n! n n
P (y1 = n1, y2 = n2, · · · , yc = nc) = π1 1 π2 2 · · · πcnc
n1!n2! · · · nc!
donde n1 + n2 + · · · + nc = n y π1 + π2 + · · · + πc = 1 . El
vector aleatorio y = (y1, y2, · · · , yc)T es una variable aleatoria
multinomial.
154
Modelo Multinomial
En forma similar al caso de la Binomial, una variable Multinomial

se puede escribir como la suma de n variables “Bernoulli” inde-
pendientes
y = w1 + w2 + · · · + wn
donde wi = (yi1, yi2, · · · , yic)T , con yij = 1 si en el experimento i
ocurrió la categorı́a j y yij = 0 si fue de otra forma (ver pág. 6
del Agresti). Note que
E(wi) = (π1, π2, · · · , πc)T ≡ π

además
(
πj (1 − πj ) si j = k
Cov(yij , yik ) = E(yij yik ) − πj πk =
−πj πk si j 6= k
155
Modelo Multinomial
De la expresión anterior tenemos

 
π1(1 − π1) −π1π2 ··· −π1πc
 −π2π1 π2(1 − π2) ··· −π2πc 
 
Var(wi) =  ... ... ... ... ≡Σ
 
−πcπ1 −πcπ2 · · · πc(1 − πc)
Con estos resultados tenemos que la media y varianza de una

variable multinomial están dadas por
E(y) = nπ y Var(y) = nΣ
(ver A. pág. 579)
156
Estimación en el Modelo Multinomial
Si los datos de un experimento multinomial son
(n1, n2, · · · , nc)T

entonces, para estimar los parámetros, πi’s, del modelo multino-
mial, maximizamos la logverosimilitud, la cual es de la forma (ver
A. pág. 21)
L(π) = n1log(π1) + n2log(π2) + · · · + nclog(πc)

o, equivalentemente
 
c−1
X
L(π) = n1log(π1) + · · · + nc−1log(πc−1) + nclog 1 − πi
i=1
Derivando e igualando a 0, obtenemos
∂L n nc n
= k− =0 ⇒ πk = πc k , k = 1, · · · , c − 1
∂πk πk πc nc
157
Estimación en el Modelo Multinomial
Sumando las expresiones obtenidas en la hoja anterior:

c−1
X 1 c−1
X n − nc
πk = πc nk ⇒ 1 − πc = πc
k=1
nc k=1 nc
y de aquı́ obtenemos que π b c = nc/n y, de la hoja anterior, también
tenemos: π b k = nk /n. Esto es, los estimadores de máxima verosimi-
litud para las probabilidades de ocurrencia, πi, de las cateogorı́as,
son las proporciones observadas ni/n, lo cual era lo lógico de es-
perar.
Para obtener errores estándar, podemos usar las propiedades asintóticas

del estimador de máxima verosimilitud (ver A. pág 10) que nos di-
cen que la varianza es el inverso de la Matriz de Información:
" Ã !#−1
∂ 2L(π)
Var(π
b ) = −E
∂π∂π T
158
Errores Estándar
En realidad, la matriz de información, tal como esta escrita en la

hoja anterior, es no invertible pues considera todas las entradas
del vector πb , el cual tiene entradas redundantes (suman 1). Sin
embargo, si tomamos sólo la submatriz principal (c − 1) × (c − 1),
puede verse que la varianza estimada del estimador de máxima
verosimiltud es:
1
Var(πb) = Σ
n
(alternativamente, [y más fácil], πb = y/n y de aquı́ se sigue el
resultado anterior).
159
Prueba Ji-Cuadrada
La prueba ji-cuadrada (introducida por K. Pearson en 1900) es uno

de los procedimientos inferenciales más antiguos y, sin embargo,
sigue siendo ampliamente usada. Consideremos la hipótesis
H0 : π1 = π10, · · · , πc = πc0
esto es, deseamos ver si las probabilidades multinomiales son con-
sistentes con ciertos determinados valores. El estadı́stico ji-cuadrada
de Pearson se define como
c (n − µ )2
X j j
χ2 =
j=1 µj
donde µj es el valor esperado de la clase j (bajo H0) y es igual a

nπj0. Si H0 es cierta entonces (para muestras grandes) χ2 ∼ χ2 c−1
y, por lo tanto, podemos decidir que H0 es falsa si χ2 > χ2
c−1,α .
160
Prueba de Cociente de Verosimilitudes
La prueba de cociente de verosimilitudes es una prueba de uso ge-

neral (probablemente es la prueba estándar en Estadı́stica). Con-
sideremos las hipótesis
H 0 : θ ∈ Θ0 vs Ha : θ ∈ Θ − Θ0
donde Θ es el espacio parametral y Θ0 es un espacio parame-
tral “reducido” (ver A. pág 11). El estadı́stico cociente de
verosimilitudes es
l
Λ= 0
l1
donde l0 es la verosimilitud maximizada sobre Θ0 y l1 la verosimi-
tud pero maximizada sobre todo Θ. Note que siempre tendremos
0 < Λ ≤ 1 y, mientras más cercano se encuentre Λ de 1 más creı́ble
es H0.
161
Una propiedad asintótica de Λ es que, si H0 es cierta, entonces

G2 = −2logΛ tiende a una ji-cuadrada con grados de libertad
iguales a dim(Θ) − dim(Θ0), donde dim(Θ) es igual al número de
parámetros libres en Θ.
Consideremos nuevamente la hipótesis de la hoja 160:

H0 : π1 = π10, · · · , πc = πc0
P
la verosimilitud maximizada sobre Θ = {(π1, · · · , πc)| πi = 1} es
n! n
l= π b cnc
b11 · · · π
n1! · · · nc!
donde πi = ni/n. En este caso, bajo H0 no hay parámetros libres
sobre los cuales maximizar, entonces
n! n nc
l0 = π101 · · · πc0
n1! · · · nc!
162
El estadı́stico cociente de verosimilitudes es

n nc
l0 π101 · · · πc0
Λ= = n1
l1 π
b1 · · · π b cnc
entonces (ver A. pág. 24)

X πbi X n
G2 = −2logΛ = 2 nilog = 2 nilog i
πi0 nπi0
Aquı́ tenemos dim(Θ) = c − 1 pues hay sólo c − 1 parámetros libres
y dim(Θ0) = 0 pues bajo H0 los parámetros están completamente
especificados. Entonces, rechazamos H0 si G2 > χ2 c−1,α .
Hay una relación estrecha entre el estadı́stico G2 y la χ2 de Pearson

de la hoja 160, como vemos en la siguiente hoja.
163
Relación de G2 con χ2 de Pearson
Consideremos la serie de Taylor de la función g(x) = xlog xx alrede-

0
dor de x0:
x0 x0 11
g(x) = x0log + (1 + log )(x − x0) + (x − x0)2 + · · ·
x0 x0 2 x0
11
g(x) ≈ (x − x0) + (x − x0)2
2 x0
Entonces
X ni X X (ni − nπi0)2
G2 = 2 nilog ≈ 2 (ni − nπi0) +
nπi0 nπi0
P
el término 2 (ni − nπi0) desaparece pues las πi0’s suman 1. En-
tonces los estadı́sticos G2 y χ2 de Pearson son equivalentes.
164
Ejemplo: Distribución Multinomial Parametrizada
En genética, la Ley de Hardy-Weinberg dice que si las frecuencias

de ciertos genes están en equilibrio entoncs los genotipos AA,
Aa y aa deben ocurrir en la población con frecuencias (1 − θ)2,
2θ(1 − θ) y θ2. En una muestra de 1029 individuos se observaron
las siguientes frecuencias de tipos de sangre, donde A y B son
eritrocitos antı́genos
Tipo de Sangre
A AB B Total
Frecuencia 342 500 187 1029
Queremos ilustrar dos problemas: ¿Cómo estimar θ? y ¿Son con-

gruentes los datos con la Ley de Hardy-Weinberg?
165
Distribución Multinomial Parametrizada
El modelo probabilı́stico para los datos corresponde a una multi-

nomial
n! y y y
P (y1, y2, y3) = π11 π22 π33
n1!n2!n3!
donde, de acuerdo con la Ley H-W, π1 = (1 − θ)2, π2 = 2θ(1 − θ)
y π3 = θ2 y 0 < θ < 1. De aquı́, la logverosimilitud es
L(θ) = y1log(1 − θ)2 + y2log[2θ(1 − θ)] + y3logθ2

Derivando e igualando a 0, puede obtenerse la forma explı́cita del
estimador de máxima verosimilitud para θ:
b 2y3 + y2 2 × 187 + 500

θ= = = 0.4247
2n 2 × 1029
con lo cual tenemos resuelto el primer problema.
166
Paréntesis: Bootstrap
En la hoja anterior obtuvimos θb = 0.4247. Ahora, ¿cómo calcular

su error estándar?. Una opción es usar la expresión para la varianza
b Otra opción
asintótica (Σ) y de ahı́ deducir la correspondiente a θ.
es usar Bootstrap.
Bootstrap es un procedimiento basado en simulación para el cálculo

de errores estándar e intervalos de confianza. Esta basado en la
idea de que si conocieramos θ, podrı́amos simular muestras de
tamaño n = 1029, luego, para cada una de ellas calcuları́amos
b con estos valores tendrı́amos una buena idea de la distribución
θ,
muestral de θb y, consecuentemente, de su error estándar.
Usando este procedimiento, obtenemos que una estimación del

error estándar asociado a θb = 0.4247 es de 0.011. En la siguiente
hoja mostramos el código en R para hacer este cálculo y, en la
siguiente, mostramos la distribución muestral de θb
167
Paréntesis: Bootstrap
# Errores estandar via bootstarp
n1 <- 342
n2 <- 500
n3 <- 187
N <- n1+n2+n3
te <- (2*n3+n2)/(2*N) # 0.4246842
p1 <- (1-te)^2 # 0.3309883
p2 <- 2*te*(1-te) # 0.488655
p3 <- te^2 # 0.1803566
B <- 1000
tb <- rep(0,B)
for(i in 1:B){
mu <- sample( 1:3, size=N, replace=T, prob=c(p1,p2,p3) )
ns <- table(mu)
tb[i] <- (2*ns[3]+ns[2])/(2*N) }
sdb <- sd(tb) # 0.01089234
hist(tb,main="Distribucion Bootstrap (p.262)", xlab="Teta", ylab="",
col="cyan", cex.main=.8, cex.axis=.7,cex.lab=.7, mgp=c(1.5,.5,0))
168
Distribución Bootstrap (p.262)
150
100
50
0
0.40 0.42 0.44 0.46

Teta
169
Continuación del Ejemplo
Volvemos al segundo problema planteado en la hoja 165, ¿Son

congruentes los datos
Tipo de Sangre
A AB B Total
Frecuencia 342 500 187 1029
con la Ley de Hardy-Weinberg?
Usando la ji-cuadrada de Pearson

3 (n − µ )2
X 3 (n − µ
X b j )2
j j j
χ2 = 7→ χ2
= = 0.0319
j=1 µj j=1 µ
bj
donde µ b j0. Con este valor de χ2 no rechazamos la hipótesis

b j = nπ
nula de que H-W es válida para esta población. Nota: La dis-
tribución nula de χ2, cuando estimamos parámetros, no es χ2 c−1,
sino χ2c−1−r , donde r es el número de parámetros que fueron es-
timados; en el ejemplo tenemos c − 1 − r = 3 − 1 − 1 = 1 (ver A.
pág. 25).
170
Tablas de Contingencia
171
Tablas de Contingencia
Sean X y Y dos variables categóricas, con I y J niveles, respecti-

vamente. Tenemos interés en estudiar la distribución conjunta de
X y Y . Si observamos una muestra aleatoria de n individuos en
una población, entonces a la tabla de frecuencias observadas nij
se le llama tabla de contingencia.
Y
1 2 ··· J
1 n11 n12 ··· n1J
2 n21 n22 ··· n2J
X ... ... ... ... ...
I nI1 nI2 ··· nIJ
n
donde nij es el número de veces que se presenta la combinación

(Xi, Yj ) en la muestra de n individuos. Las nij ’s tienen una dis-
tribución multinomial.
172
Prueba de Independencia
Denotemos por πij a la probabilidad de ocurrencia de la combi-

nación (Xi, Yj ) o, por simplicidad, (i, j), (recuerde que 1, 2, · · · , I
son sólo etiquetas de los diferentes niveles de la variable categórica
X, lo mismo que para Y ). Sean
J
X I
X
πi. = πij y π.j = πij
j=1 i=1
las probabilidades marginales de que una observación caiga en el
renglón i y en la columna j, respectivamente. La hipótesis de
independencia entre renglones y columnas se puede plantear como
H0 : πij = πi.π.j i = 1, · · · , I, j = 1, · · · , J
Para esta hipótesis, (ver A. pág. 78) podemos usar cualquiera de
los dos métodos: Ji-cuadrada de Pearson o G2.
173
¿Cómo estimar πij bajo H0?. La logverosimiltud para la tabla es

X X X X X
L= nij logπij = nij logπi.+ nij logπ.j = ni.logπi.+ n.j logπ.j
ij ij ij i j
I−1
X J−1
X
L= ni.logπi. + nI.logπI. + n.j logπ.j + n.J logπ.J
i=1 j=1
y, procediendo como en la hoja 157, es fácil ver que (lo lógico):
n n.j
b i. = i.
π y πb .j =
n n
b ij = (ni./n)(n.j /n). El estadı́stico χ2 es
de aquı́ que π
I X
X J (n − µ b ij )2 I X
X J (n − n n /n)2
ij ij i. .j
χ2 = =
i=1 j=1 µ
b ij
i=1 j=1 ni.n.j /n
174
En la hoja 170 comentamos que los grados de libertad de la χ2

son “c − 1 − r”; en el caso de una tabla I × J tenemos c = IJ
celdas multinomiales y hemos estimado I − 1 marginales πi. y J − 1
marginales π.j , ası́ que los grados de libertad del estadı́stico χ2
para probar la hipótesis de independencia son
gl = IJ − 1 − (I − 1) − (J − 1) = IJ − I − J + 1 = (I − 1)(J − 1)
Veamos un ejemplo de la prueba de independencia en una tabla 2×

2. En 1979, la Oficina de Veteranos del Ejército de E. U. condujo
una encuesta bastante extensa sobre salud en 11,230 veteranos;
los datos de la siguiente tabla son una pequeña parte del estudio,
se refieren a 1,783 veteranos que se enlistaron en el ejército entre
1965 y 1975.
175
Activo en Vietnam
Problemas de sueño Si No Total
Si 173 160 333
No 599 851 1,450
Total 772 1,011 1,783
Deseamos ver si estos datos indican (estadı́sticamente) si existe

una asociación o no entre haber estado activo en Vietnam y tener
problemas de sueño. Bajo la hipótesis de no asociación tenemos
que los niveles esperados de la tabla serı́an
Activo en Vietnam
Problemas de sueño Si No Total
Si 144.2 188.8 333
No 627.8 822.2 1,450
Total 772 1,011 1,783
Estos valores fueron calculados usando

ni.n.j
µij =
b
n
176
De las tablas anteriores obtenemos que χ2 = 12.49 con un p-valor

muy pequeño basado en la distribución χ2 1 y, por lo tanto podemos
decir que, efectivamente, el haber estado activo en Vietnam afecta
el nivel de sueño de los veteranos del ejército.
Note que estamos dando una dirección a la conclusión, lo cual

no se deduce del rechazo de la hipótesis de independencia. En
realidad, debemos complementar con, por ejemplo, el cálculo del
riesgo relativo:
P (P S|AV ) 173/772 .224
RR = = = = 1.42
P (P S|N AV ) 160/1011 .158
de aquı́ que P (P S|AV ) > P (P S|N AV ) (más adelante comentare-
mos sobre el cálculo de intervalos de confianza para estas canti-
dades).
177
Prueba de Independencia: G2
Es fácil ver que

Q ³ ni. n.j ńij Ã !n
Y ni.n.j ij
ij n n
Λ = Q ³ nij ńij =
ij n ij nnij
de aquı́ que
Ã ! Ã !
XX nij XX nij
G2 = 2 nij log =2 nij log
i j nπ
b ij
i j µ
b ij
y, en forma similar que en la hoja 175, los grados de libertad son

(I − 1)(J − 1), (ver A. pág 79).
Con los datos del ejemplo, tenemos G2 = 12.39 el cual también

es altamente significativo.
178
Prueba de Homogeneidad
Con frecuencia los renglones de una tabla son observaciones multi-

nomiales y el interés es el de comparar estas diferentes poblaciones
multinomiales.
Y
1 2 ··· J Totales
1 n11 n12 ··· n1J n1.
2 n21 n22 ··· n2J n2.
Población
... ... ... ... ...
I nI1 nI2 ··· nIJ nI.
Supongamos que tenemos observaciones independientes sobre I

distribuciones multinomiales, cada una con J categorı́as y de-
seamos probar si los I vectores de probabilidades multinomiales
son iguales entre si (prueba de homogeneidad):
H0 : π1j = π2j = · · · = πIj j = 1, 2, · · · , J
179
Utilizaremos ahora la prueba de cocientes de verosimilitudes para

este caso. Bajo H0, la verosimilitud es el producto de I multino-
miales:
" # " #
n1.! n n nI.! n n
l= π1 11 · · · πJ 1J · · · π1 I1 · · · πJ IJ
n11! · · · n1J ! nI1! · · · nIJ !
 
I
Y ni.!  π n.1 · · · π n.J
l= 1 J
i=1 ni1 ! · · · niJ !
y, en forma completamente análoga a la maximización que vimos
en la hoja 157, tenemos que π
b j = n.j /n. Entonces
 
I
Y µ ¶n µ ¶n

n i. ! 
n .1 .1 n.J .J
l0 = ···
i=1 ni1 ! · · · niJ ! n n
Ahora vemos el denominador, l1, de Λ; aquı́ vamos a tener el
producto de I multinomiales diferentes.
180
" # " #
n1.! n n nI.! n n
l= π1111 · · · π1J1J · · · πI1I1 · · · πIJIJ
n11! · · · n1J ! nI1! · · · nIJ !
 
I
Y h i h i
n i. ! n n n n
l=  π
11
11 1J I1 IJ
· · · π1J · · · πI1 · · · πIJ
i=1 ni1! · · · niJ !
aquı́ también es fácil ver que los máximos se obtienen con π
b ij =
nij /ni.; entonces
  "Ã !n Ã !n # "Ã !n Ã !n #
I
Y 11 1J I1 IJ
ni.! n11 n1J nI1 nIJ
l1 =   ··· ··· ···
i=1 ni1 ! · · · niJ ! n1. n1. nI. nI.
los coeficientes multinomiales son los mismos para l1 y l0, ası́ que
se van a cancelar al formar el cociente.
³´ ³ ´
n.1 n.1 n.J n.J
l0 n ··· n
Λ= = h³ ´
n11 n11
³ ´
n1J n1J
i h³ ´
nI1 nI1
³ ´
nIJ nIJ
i
l1 ··· n ··· n ··· n
n1. 1. I. I.
181
Después de un poco de álgebra tenemos

n1. nI. n.1 n.J Q Q ³ ń
ij Ã !n
n1. · · · nI. n.1 · · · n.J i j n n
i. .j Y Y ni.n.j ij
Λ= Q Q nij = Q Q nij =
n n n nnij
i j nij n i j nij i j
Q Q
pues nn = i j nnij . Ası́ que el estadı́stico G2 para probar homo-
geneidad de poblaciones multinomiales está dado por
Ã !
XX nij
G2 = −2logΛ = 2 nij log
i j µ
b ij
donde µb ij = ni.n.j /n; los grados de libertad son dim(Θ) − dim(Θ0)

que resulta en I(J − 1) − (J − 1) = (I − 1)(J − 1).
En la hoja 178 (y en el Agresti, pág. 79), encontramos esta misma

expresión pero para la hipótesis de independencia; esto es, se usa
exactamente el mismo estadı́stico para probar homogeneidad que
para probar independencia.
182
Ejemplo: Prueba de Homogeneidad
La siguiente tabla muestra la afiliación polı́tica de 310 estudiantes

(de E. U.), ası́ como la carrera que estan estudiando:
Afiliación
Rep. Dem. Indep. Total
Letras 34 61 16 111
Ingenierı́a 31 19 17 67
Agronomı́a 19 23 16 58
Educación 23 39 12 74
Totales 107 142 61 310
¿Hay homogeneidad en las facultades en relación a las preferencias

partidarias de los estudiantes?. Haciendo los cálculos tenemos
que G2 = 16.39 con un p-valor correspondiente de 0.0118, de
modo que si hay diferencias en las preferencias electorales de los
estudiantes de diferentes carreras.
183
Afiliación Política
60
Let
Ing
50 Agr
Edu
40
porcentaje
30 20
10
Rep. Dem. Indep.
184
De la gráfica es claro que los estudiantes de Ingenierı́a muestran

un comportamiento muy diferente en términos de su afiliación
polı́tica. Si de la tabla de contingencia eliminamos el renglón de
Ingenierı́a, nos quedamos con una tabla 3 × 3 y el correspondiente
valor de G2 es 5.54 con un p-valor asociado de 0.237 (usando
una ji-cuadrada con (3 − 1)(3 − 1) = 4 grados de libertad), de
modo que no rechazarı́amos la hipótesis de homogeneidad en las
preferencias electorales entre los estudiantes de Letras, Agronomı́a
y Educación.
185
Medidas de Asociación
186
Tasa de Momios
Los datos de la siguiente tabla provienen de uno de los primeros

estudios sobre la asociación entre cáncer de pulmón y fumar.
Cáncer Controles
Fuma 688 650
No Fuma 21 59
709 709
El estudio fue efectuado en 20 hospitales en Inglaterra; los con-

troles fueron pacientes (sin cáncer) seleccionados del mismo sexo,
mismos hospitales y aproximadamente de la misma edad que los
pacientes con cáncer. La cantidad que es de interés es el Riesgo
Relativo
P (Can | F um)
RR =
P (Can | N oF um)
sin embargo, para este estudio, estas cantidades no son estimables
¿por qué?.
187
Tasa de Momios
Los momios de la ocurrencia de un evento A se definen como

P (A)
ω=
1 − P (A)
Ası́, si A ≡ Can | F um, los momios de cáncer dado que la persona
fuma, se definen como
P (Can | F um) P (C | F )
ω1 = ≡
1 − P (Can | F um) 1 − P (C | F )
y queremos comparar estos momios contra los momios de cáncer
dado que la persona no fuma
P (Can | N oF um) P (C | N F )
ω2 = ≡
1 − P (Can | N oF um) 1 − P (C | N F )
para ello usamos la tasa de momios
ω1 P (C | F )[1 − P (C | N F )]
θ= =
ω2 P (C | N F )[1 − P (C | F )]
188
Tasa de Momios
La expresión para la tasa de momios de la hoja anterior aparente-

mente tiene el mismo problema de no estimabilidad de las prob-
abilidades que la conforman; sin embargo, tenemos la siguiente
relación:
ω1 P (C | F )[1 − P (C | N F )] P (F | C)[1 − P (F | N C)]
θ= = =
ω2 P (C | N F )[1 − P (C | F )] P (F | N C)[1 − P (F | C)]
las cuales si pueden ser estimadas del estudio retrospectivo.
[688/709] [59/709] 688 × 59
θb = = = 2.97
[650/709] [21/709] 650 × 21
De aquı́ que los momios de cáncer en fumadores son 3 veces
más altos que los momios de cáncer en no fumadores.
En general, en una tabla 2 × 2, los momios se calculan como:

b n11 n22
θ=
n12 n21
189
Tasa de Momios (Nota Técnica)
P (C,F ) P (N F )−P (C,N F )

P (C | F )[1 − P (C | N F )] P (F )
× P (N F )
θ= =
P (C | N F )[1 − P (C | F )] P (C,N F ) P (F )−P (C,F )
P (N F )
× P (F )
P (F,C) P (N F,N C)
P (F, C)P (N F, N C) P (C)
× P (N C)
= =
P (N F, C)P (F, N C) P (N F,C) P (F,N C)
P (C)
× P (N C)
P (F | C) P (N F | N C) P (F | C)[1 − P (F | N C)]
= × =
P (N F | C) P (F | N C) P (F | N C)[1 − P (F | C)]
la cual es la relación que querı́amos demostrar.
Para obtener la expresión de la segunda lı́nea, se usó la relación:
P (A) = P (A, B) + P (A, N B)
190
Tasa de Momios (Errores Estándar)
Vimos que si y = (n11, n12, n21, n22)T es un vector aleatorio multi-

nomial, entonces E(y) = nπ, donde π = (π11, π12, π21, π22)T y
además Var(y) = nΣ, donde Σ se define en forma similar a la
matriz dada en la hoja 156.
En general, si quiero encontrar Var[g(y)], entonces podemos usar

el “método delta” que consiste en usar una aproximación de primer
orden para g:
g(y) ≈ g(µ) + g 0(µ)T (y − µ)
entonces Var[g(y)] ≈ ng 0(µ)T Σg 0(µ).
Consideremos el log de la tasa de momios

b = logn
g(y) = log(θ) 11 − logn12 − logn21 + logn22
191
Tasa de Momios (Errores Estándar)
g 0(y) = (1/n11, −1/n12, −1/n21, 1/n22)T

evaluando en µ = nπ = (nπ11, nπ12, nπ21, nπ22)T :
g 0(µ) = (1/π11, −1/π12, −1/π21, 1/π22)T /n
b es aproximadamente
de aquı́ que Var(logθ)  
π11 (1 − π11 ) −π11 π12 −π11 π21 −π11 π22 1/π11
1 −π12 π11 π12 (1 − π12 ) −π12 π21 −π12 π22 −1/π12
(1/π11 , −1/π12 , −1/π21 , 1/π22 )  
−1/π21

n −π21 π11 −π21 π12 π21 (1 − π21 ) −π21 π22
−π22 π11 −π22 π12 −π22 π21 π22 (1 − π22 ) 1/π22
 
1/π11 µ ¶
1
b ≈ (1, −1, −1, 1)  −1/π12  1 1 1 1 1
Var(logθ)  −1/π  = + + +
n 21 n π11 π12 π21 π22
1/π22
Entonces estimamos la varianza del log(tasa de momios) mediante
b = 1 1 1 1
Var(logθ) + + +
n11 n12 n21 n22
192
Tasa de Momios (Intervalo de Confianza)
Asintóticamente, la distribución de logθb es normal (ver A. pág.

71), entonces un intervalo de confianza se obtiene mediante
s
1 1 1 1
logθb ± zα/2 + + +
n11 n12 n21 n22
Tomando exponencial a los extremos de este intervalo obtenemos
un correspondiente intervalo para θ. Ası́, por ejemplo, para los
datos de cáncer, obtenemos intervalos de confianza del 95%:
0.58 < logθ < 1.56

y para la tasa de momios
1.79 < θ < 4.95

ası́, podemos asegurar (con un 95% de confianza) que los momios
de contraer cáncer entre fumadores son, al menos, 1.8 veces más
grandes que los momios de cáncer entre no fumadores.
193
Riesgo Relativo
El riesgo relativo tı́picamente se refiere a la comparación de las

probabilidades de ocurrencia de un evento bajo condiciones dife-
rentes, ası́, si B es un factor de riesgo que puede o no puede estar
presente, entonces el riesgo relativo de A se define como
P (A | B)
RR =
P (A | N B)
En una tabla 2 × 2, (donde, por ejemplo, A = 1 indica que A
ocurre)
A
B 1 2
1 n11 n12 n1.
2 n21 n22 n2.
el riesgo relativo serı́a estimado por

n11/n1.
RR =
n21/n2.
194
Riesgo Relativo: Errores Estándar
Suponiendo muestreo multinomial por renglones (i.e. binomial en

este caso), los totales de renglón serı́an fijos por diseño y el cálculo
para la varianza de log(RR) es como sigue:
log(RR) = log(n11) − log(n1.) − log(n21) − log(n2.)
Var(log(RR)) = Var(log(n11)) + Var(log(n21))

ahora, en general, si Y es una variable aleatoria con media µ y
varianza σ 2, entonces
1 σ2
Var(log(Y )) ≈ Var( log(µ) + (Y − µ) ) =
µ µ2
ası́ que
n1.π11(1 − π11) 1 − π11
Var(log(n11)) ≈ =
n2 π 2
1. 11 n1.π11
195
Riesgo Relativo: Errores Estándar
Entonces, aproximadamente
1 − π11 1 − π21
Var(log(RR)) = +
n1.π11 n2.π21
y estimarı́amos esta varianza (usando π
b i1 = ni1/ni.) como:
d 1 1 1 1
Var(log(RR)) = − + −
n11 n1. n21 n2.
Un intervalo de confianza (basado en la normalidad asintótica del
log riesgo relativo) es
s
1 1 1 1
log(RR) ± zα/2 − + −
n11 n1. n21 n2.
Igual que para la tasa de momios, un intervalo de confianza para

el riesgo relativo se obtiene sacando exponencial a los extremos
de este intervalo.
196
Nota: Normalidad Asintótica
Lo siguiente es una sobresimplificación pero ni modo:
Si θb es el estimador de máxima verosimilitud de θ entonces θb

es asintóticamente normal y asintóticamente insesgado; más
b es también asintóticamente normal.
aún, g(θ)
Esta última afirmación se justifica vı́a aproximaciones de primer

orden
b ≈ g(θ) + g 0(θ)(θb − θ)
g(θ)
de aquı́ que la normalidad de θb induce la normalidad de g(θ).
b Estos
comentarios son para hacer plausibles los usos de normalidad en
los intervalos de confianza para las tasas de momios y los riesgos
relativos, ya que ellos son funciones de los estimadores de máxima
verosimilitud.
197
Ejemplo: Intervalo de Confianza para el RR
Los datos de la siguiente tabla provienen de un estudio “ciego”

sobre la relación (aparentemente benéfica) del uso de aspirina
y prevalencia de ataques al corazón. Aproximadamente 22,000
médicos participaron en ese estudio (prospectivo). Cada tercer
dı́a los participantes tomaban una tableta, aproximadamente la
mitad de ellos recibı́an aspirina y la otra mitad un placebo.
Infarto Resultado
Severo Leve No Infarto Infarto No Infarto
7→
Placebo 18 171 10,845 Placebo 189 10,845
Aspirina 5 99 10,933 Aspirina 104 10,933
El riesgo relativo de infarto del grupo placebo contra el grupo

aspirina es estimado como
189/(189 + 10, 845) 0.0171
RR = = = 1.82
104/(104 + 10, 933) 0.0094
esto es, la probabilidad de infarto del grupo placebo es 1.8 veces la
probabilidad de infarto en el grupo que usó aspirina, lo cual indica
que hay un efecto positivo...
198
Ejemplo: Intervalo de Confianza para el RR
La afirmación al final de la hoja anterior debe uno soportarla vı́a,

por ejemplo, un intervalo de confianza. Un intervalo del 95% de
confianza para el riesgo relativo está dado por
( s )
1 1 1 1
exp log(RR) ± z.025 − + −
n11 n1. n21 n2.
Esto es,
π11
1.433 < < 2.306
π21
Note que la diferencia π b 11 − π
b 21 = 0.0171 − 0.0094 = 0.0077
aparentemente no es importante; esto nos lleva a que, para com-
parar probabilidades pequeñas es más recomendable usar el co-
ciente que la diferencia.
199
Tasas de Momios en Tablas I × J
La expresión
P (X = a | Y = c)
P (X = b | Y = c)
compara la ocurrencia de X = a contra la de X = b cuando Y está
fija en c, similarmente, podemos construı́r
P (X = a | Y = d)
P (X = b | Y = d)
si estas cantidades son iguales eso indicarı́a que el cambio de X de
a a b no se vé afectado por que Y se encuentre en c o d, esto lo
podemos interpretar como que la ocurrencia de X en sus niveles a
y b son independientes de la ocurrencia de Y en c o d. Al cociente
ası́ formado se le llama tasa de momios ab, cd
P (X=a | Y =c)
P (X=b | Y =c) P (X = a | Y = c)P (X = b | Y = d) π π
ω= = = ab bd
P (X=a | Y =d) P (X = b | Y = c)P (X = a | Y = d) πbcπad
P (X=b | Y =d)
200
Tasas de Momios en Tablas I × J
Los momios estimados para los renglones a y b y las columnas c y

d son
n n
b = ab bd
ω
nbcnad
En una tabla I × J, se pueden construı́r
Ã !Ã !
I J
2 2
posibles tasas de momios de la forma anterior, sin embargo muchas
de elloas son redundantes. Puede verse que se puede construı́r un
conjunto mı́nimo de (I − 1)(J − 1) de tasas de momios, de los
cuales se pueden obtener todos los demás (ver A. pág. 55). En
particular, un conjunto de momios “base” esta dado por
πij πi+1,j+1
θij = , i = 1, · · · , I − 1, j = 1, · · · , J − 1
πi,j+1πi+1,j
201
Indicadores de Asociación
A veces es difı́cil dar una interpretación de asociación global en

base a las (I − 1)(J − 1) tasas de momios base, nos gustarı́a tener
un sólo número que representara esta asociación, por ejemplo,
podrı́amos usar el promedio de todos las tasas de momios.
El estadı́stico χ2 nos dá un medida global de asociación, pero debe

ser normalizado; puede verse que el máximo valor de
I X
X J (n − n n /n)2
ij i. .j
χ2 =
i=1 j=1 ni.n.j /n
es n(q − 1), donde q = min(I, J), ası́, una medida de asociación
puede definirse como
χ2
V2 =
n(q − 1)
con 0 ≤ V 2 ≤ 1, con 0 indicando independencia y 1 dependencia.
202
Indicadores de Asociación
Para tablas 2 × 2 a V 2 = χ2/n se le denota por φ2. Otra medida

de asociación es el coeficiente de contingencia de Pearson:
v
u
u χ2
p=t
n + χ2
Una clase de medidas de asociación están basadas en cuantifica-

ciones de la reducción en variabilidad:
Var(Y ) − E(Var(Y | X))
Var(Y )
Goodman y Kruskal propusieron el llamado coeficiente de con-
centración, τ , usando esta expresión, con
X XX
V (Y ) = π.j (1 − π.j) y E(V(Y | X)) = 1 − 2 /π
πij i.
j i j
203
Nota: Máximo Valor de χ2
I X
X J (n − n n /n)2 X X (npij − npi.p.j )2
ij i. .j
χ2 = =
i=1 j=1 ni.n.j /n i j npi.p.j
 
X X p2 2 2
ij − 2pij pi. p.j + pi. p.j X X pij 2
=n =n  − 2 + 1
i j pi.p.j i j pi. p.j
donde p2ij ≤ pi. p.j . Ahora, la máxima dependencia ocurre cuando
las probabilidades en cada renglón (o columna) están concentradas
en una sola casilla, por ejemplo:
x
x
x
x o
x
x
de aquı́ que χ2 ≤ n [ min(I, J) − 1 ].

204
Coeficiente de Concentración τ
En la hoja 203 tenemos la expresión

X X
V (Y ) = π.j (1 − π.j) = 1 − 2
π.j
j j
a esta cantidad se le llama medida de concentración de Gini
y se interpreta como una medida de variabilidad pues su mı́nimo
valor es cero cuando toda la marginal de Y está concentrada en
una sola categorı́a (0 concentración) y su máximo ocurre cuando
la distribución es uniforme π.j = 1/J para todo j.
La cuantificación de la reducción en variabilidad consiste en com-

parar esta medida V (Y ) contra la variabilidad esperada por renglón
X πij µ πij
¶
V (Y | X = i) = 1−
j
πi. πi.
 
X X πij µ πij
¶ X X πij
2
E( V (Y | X) ) = 1− πi. = 1 −
 πi. πi.  πi.
i j i j
205
Entonces la reducción relativa en variabilidad es

Ã !
³ P 2 ´ P P 2
πij
1 − j π.j − 1 − i j πi.
V(Y ) − E(V(Y | X))
= P 2
V(Y ) 1 − j π.j
2
P P πij P 2
i j πi. − j π.j
= P 2
1 − j π.j
El estimador máximo verosı́mil de esta cantidad es el Coeficiente
de Concentración, τ , de Goodman y Kendall:
P P n2ij P
n i j n − j n2.j
i.
τ = P
n2 − j n2
.j
206
La siguiente tabla muestra preferencias polı́ticas de 500 individuos

de Gran Bretaña, en 1970:
Preferencia Preferencia de Partido
de Aliado Izq. Centro Der. Totales
E.U.A. 206 53 225 484
U.R.S.S. 12 1 3 16
Totales 218 54 228 500
(datos tomados de Bishop et al (1975) Discrete Multivariate Analysis).
Para esta tabla tenemos que χ2 = 6.67 con un p-valor de 0.036,

con lo cual se detectarı́a una dependencia entre preferencias. El
coeficiente de concentración, en este caso, es τ = 0.0133; esto es,
sólo el 1.3% de la variación en preferencia de aliado es explicado
por el conocimiento de la afiliación polı́tica de un individuo. Este
ejemplo muestra que puede haber una asociación significativa en
una tabla y, sin embargo, puede haber poca variación explicada.
207
Error Estándar de τ
Bajo muestreo multinomial, τ es una función nolineal de los esti-

madores de máxima verosimilitud y, para muestras grandes, tiene
un comportamiento normal con media el τ poblacional y varianza
asintótica
  2
1 X X X πik X πkl
σ 2(τ )
= 4
πij 2ν π.k − δ 2 − 
nδ ij k6=j
π
k6=j i.
π
k,l:l6=j k.
X (πij − πi.π.j )2
con ν =
ij πi.
X
y δ =1− 2
π.j
j
el error estándar de τ se obtiene sustituyendo los estimadores
usuales en estas expresiones. En nuestro ejemplo tenemos σ b 2(τ ) =
0.137 y un intervalo de confianza para el τ parametral contendrı́a
el cero y concluirı́amos que no hay una reducción significativa en
variabilidad (i.e. no siempre concuerdan todas nuestras pruebas).
208
Consideremos otra forma de ver a este coeficiente.
Supongamos que tenemos la tabla (dist. conjunta de X y Y ):

Y
1 2 ··· J
1 π11 π12 ··· π1J π1.
2 π21 π22 ··· π2J π2.
X ... ... ... ... ... ...
I πI1 πI2 ··· πIJ πI.
π.1 π.2 ··· π.J 1
y queremos clasificar a un individuo en su categorı́a Y . Una forma

de hacerlo es:
clasificarlo en la clase j con probabilidad π.j
209
τ y Clasificación
La probabilidad de tomar una buena decisión es:

J
X
P(bien clasif.) = P(bien clasif. | Y = j)P(Y = j)
j=1
X X
= π.j π.j = 2
π.j
j j
P 2 . Ahora, supongamos que ya sabemos
ası́ que P(error) = 1 − j π.j
que el individuo tiene X = i. Con esta información podemos ahora:
πij
clasificarlo en la clase j con probabilidad
πi.
entonces, condicionado a que X = i, la probabilidad de una buena

decisión es:
J
X
P(bien clasif. | X = i) = P(bien clasif. | Y = j, X = i)P(Y = j | X = i)
j=1
210
entonces
2
X πij
X πij πij
P(bien clasif. | X = i) = = 2
j π i. πi. j π i.
X πij 2
y P(error | X = i) = 1 − 2
j π i.
ası́, la probabilidad de error (no condicional) cuando hacemos uso
del conocimiento de X, es
   
I
X 2
X πij I
X 2
X πij 2
X X πij
P(error) = 1 −  πi. = πi. −  =1−
2
i=1 j πi. i=1 j πi. i j πi.
La probabilidad de error disminuye cuando usamos más infor-
mación pero, ¿cuánto disminuye?.
211
La reducción en la probabilidad de mala clasificación es

Ã !
³ P ´ P P 2
πij
2 2
1− j π.j − 1− i j P P πij P 2
πi. i j πi. − j π.j
P 2 = P 2
1 − j π.j 1 − j π.j
lo cual es precisamente el Coeficiente de Concentración Pobla-
cional de Goodman y Kendall (ver hoja 206). En otras palabras,
τ cuantifica la reducción en error de predicción cuando usamos la
información de la categorı́a X para predecir la categorı́a Y .
Es natural preguntarse que pasa si usamos otro criterio de clasifi-

cación. Por ejemplo, el clasificador de Bayes escogerı́a la clase de
Y que tuviera la más alta probabilidad. Esto nos lleva a la medida
de asociación, λ, también de Goodman y Kendall.
212
λ de Goodman y Kendall
Sea m la clase más probable de Y . Si clasificamos a un individuo

en esta clase, entonces
P(error) = 1 − π.m
Ahora, consideremos este mismo ejercicio de clasificación pero
ahora suponiendo que y sabemos que X = i, entonces diremos que
Y = mi donde mi = argmaxk {πik /πi.}. En este caso, P(error | X =
i) = 1 − πimi /πi. y, entonces
" #
X X πimi
P(error) = P(error | X = i)P(X = i) = 1− πi.
i i πi.
X
=1− πimi
i
Entonces, la reducción relativa de la probabilidad del error de
predicción es
³ P ´
P
(1 − π.m) − 1 − i πimi i πimi− π.m
=
1 − π.m 1 − π.m
213
Usando los estimadores usuales en la expresión anterior tenemos

la medidad de asociación λ de Goodman y Kendall:
P
i nimi − n.m
λ=
n − n.m
Esta medidad está entre 0 y 1, vale 0 cuando todos los máximos
(en cada renglón) caen en la columna m, i.e. el saber X no ayuda
a predecir Y ; λ toma el valor 1 cuando en cada renglón hay una
P
sola casilla no nula; en este caso i πimi = 1 y entonces λ = 1.
Para los datos de preferencias polı́ticas y afinidad con superpoten-

cias notamos que λ = 0, de aquı́ que debemos usar esta medida
con precaución (ver Agresti, pág. 69, problema 2.39, en particular
la frase “independencia implica λ = 0 pero el converso no es cierto
en general”).
214
Una caracterı́stica interesante de las medidas τ y λ es que son

asimétricas (a diferencia de la χ2 que es simétrica) y, por lo tanto,
son útiles cuando hay una relación de causalidad natural que de-
seamos establecer (esto es, cuando X es tratada como variable
predictora).
Podemos obtener otras medidas, por ejemplo, si definimos

P
i πimi − π.m
λY |X =
1 − π.m
de forma similar tenemos
P
j πmj j − πm.
λX|Y =
1 − πm.
y una combinación de ellas
P P
(1 − πm.)λX|Y + (1 − π.m)λY |X i πimi + j πmj j − πm. − π.m
λs = =
(1 − πm.) − (1 − πm.) 2 − πm. − π.m
215
Note que λ puede definirse de la forma general de la hoja 206,

[V (Y ) − E(V (Y |X))]/V (Y ), tomado
n o
V (Y ) = 1 − max π.j = 1 − π.m
pues con V definido ası́,
n o
V (Y |X = i) = 1 − max πij /πi. = 1 − πimi /πi.
tenemos
X³ ´ X
E(V (Y |X)) = 1 − πimi /πi. πi. = 1 − πimi
i i
de aquı́ que
P
V (Y ) − E(V (Y |X)) i πimi− π.m
λ= =
V (Y ) 1 − π.m
216
Medidas de Asociación Ordinal
Cuando las variables que definen una tabla de contingencia son

ordinales, podemos, potencialmente, detectar y cuantificar rela-
ciones de tendencia, por ejemplo, si cuando X crece, hay o no
hay una tendencia de crecimiento en Y . En una escala ordinal
podemos decidir cual de dos sujetos tiene, por ejemplo, una clasi-
ficación más alta (aunque no necesariamente decidir el cuánto
más alta).
Cuando clasificamos a dos sujetos con respecto a dos atributos

ordinales X y Y podemos decir si la pareja de sujetos es concor-
dante o discordante con respecto a X y Y . Diremos que son
concordantes si el sujeto que tiene la más alta clasificación en X
también tiene la más alta clasificación en Y . La pareja será dis-
cordante si el que tiene la más alta en X resulta que tiene la más
baja en Y . Consideraremos medidas de asociación basadas en el
número de parejas concordantes y discordantes.
217
Consideremos los siguientes datos tomados de una encuesta de

1984 en Estados Unidos.
Satisfación con su Empleo
Muy Algo Moderadamente Muy
Ingreso Inconforme Inconforme Satisfecho Satisfecho
< 6, 000 20 24 80 82
6, 000 − 15, 000 22 38 104 125
15, 000 − 25, 000 13 28 81 113
> 25, 000 7 18 54 92
El número de parejas concordantes es
C =20(38 + 104 + · · · + 92) + 24(104 + 125 + · · · + 92)

+ 80(125 + 113 + 92) + 22(28 + 81 + · · · + 92)
+ 38(81 + 113 + 54 + 92) + 104(113 + 92)
+ 13(18 + 54 + 92) + 28(54 + 92) + 81(92) = 109, 520
218
El número de parejas discordantes es
D = 24(22 + 13 + 7) + 80(22 + 38 + 13 + 28 + 7 + 18)

+ 82(22 + 38 + · · · + 54) + 38(13 + 7) + 104(13 + · · · + 18)
+ 125(13 + · · · + 54) + 28(7) + 81(7 + 18) + 113(7 + · · · + 54)
= 84, 915
Para este conjunto de datos, C > D sugiere que individuos con
ingreso bajo tienden a mostrar poca satisfacción con su empleo e
individuos con ingreso alto a mostrar una alta satisfacción con el
mismo.
En general, consideremos dos observaciones

n o independientes prove-
nientes de la distribución conjunta πij de dos variables ordinales,
¿cuáles son las probabilidades de concordancia y discordancia?
219
Parejas Concordantes / Discordantes
Las probabilidades de concordancia y discordancia son:

   
XX X X XX X X
Πc = 2 πij  πhk  y Πd = 2 πij  πhk 
i j h>i k>j i j h>i k<j
Diremos que hay una asociación positiva si Πc − Πd > 0 y negativa
si Πc − Πd < 0.
En la literatura existen varias medidas de asociación ordinal basadas

en la diferencia de estas probabilidades de concordancia y discor-
dancia: La γ de Goodman y Kendall, la τb de Kendall y la d de
Somers, entre otras (ver Liebetrau, A.M. (1983) Measures of
Association. Sage).
220
γ de Goodman y Kendall
Si un par de observaciones no tiene empates, entonces o son con-

cordantes o son discordantes y, por lo tanto, su probabilidad de
concordancia es Πc/(Πc + Πd) y su probabilidad de discordancia
es Πd/(Πc + Πd). La diferencia entre estas dos probabilidades es
denominada γ :
Πc − Πd
γ=
Πc + Πd
La versión muestral de γ es γb :
C−D
γb =
C+D
El coeficiente γ satisface:
• −1 ≤ γ ≤ 1.
• γ = 1 si Πd = 0 y γ = −1 si Πc = 0.
221
γ de Goodman y Kendall
La siguiente tabla muestra tablas con varios valores de γ. Note que

γ = 0 no implica independencia, como puede verse en la tercera
tabla.
Valores de γ Valores de γ
(Ejemplos) (Ejemplos)
γ=1 1/3 0 0 γ=0 .2 0 .2
0 1/3 0 .2 0 .2
0 0 1/3 0 .2 0
γ=1 .2 0 0 γ = −1 0 .30
.2 0 0 .30 .67
0 .2 .2
Para los datos de satisfacción con su trabajo, tenemos que

109, 520 − 84, 915
γb = = 0.127
109, 520 + 84, 915
ası́ que hay una tendencia (débil) en términos de ingreso y satis-
facción.
222
Q de Yule
Para el caso particular de tablas 2 × 2 el coeficiente γ se reduce a:

Πc − Πd π11π22 − π12π21
γ= = ≡Q
Πc + Πd π11π22 + π12π21
a esta medida se le llama la Q de Yule. Se relaciona con la tasa
de momios θ = (π11π22)/(π12π21) mediante
θ−1
Q=
θ+1
b el cual es asintóticamente
Usando los estimadores usuales, tenemos Q
normal con varianza
Ã !
b = (1 − Q2)2 1 1 1 1
Var(Q) + + +
4n π11 π12 π21 π22
El coeficiente γ de Goodman y Kendall también puede verse como
una reducción en variabilidad (ver Rousson, V. (2007) The gamma
coefficient revisited. Statistics & Probability Letters, 77, 1696-
1704).
223
Tablas I × J × K
224
Tablas I × J × K
Hemos considerado distribuciones conjuntas de variables discre-

tas bivariadas (X, Y ), el siguiente paso natural es examinar el caso
trivariado (X, Y, Z). La siguiente tabla muestra datos de 674 casos
criminales obtenidos en un estudio en Estados Unidos para deter-
minar si la raza de un reo determinaba en algun grado el hecho de
recibir una sentencia de muerte.
Raza de Raza del Pena de Muerte Porcentaje de
Vı́ctima Acusado Si No Sentencias de M.
Blanca Blanca 53 414 11.3
Negra 11 37 22.9
Negra Blanca 0 16 0.0
Negra 4 139 2.8
Total Blanca 53 430 11.0

Negra 15 176 7.9
Esta es una tabla de contingencia 2 × 2 × 2.

225
Ejemplo: Pena de Muerte
A cada caso (de los 674) lo podemos conceptualizar como la rea-

lización de la variable aleatoria (X, Y, Z), donde
X = raza de acusado, Y = veredicto: pena de muerte, Z = raza de vı́ctima
note que hemos asignado roles a las variables: X es la variable
predictora, Y es la variable de interés y Z es una variable de “con-
trol”; esto es, una variable que puede afectar a la relación X ↔ Y ,
el cual es el caso aquı́ pues si ignoramos la raza de la vı́ctima, la
relación observada entre X y Y esta dada por la tabla
Y
X Si No
Blanca 53 430
Negra 15 176
lo cual implicarı́a que los momios de recibir sentencia de muerte

para un blanco son 45% más altos que los momios de que un negro
reciba la sentencia de muerte. Sin embargo, cuando tomamos en
consideración a la variable Z, las relaciones se invierten.
226
Paradoja de Simpson
En el ejemplo anterior tenemos que la naturaleza de la asociación

marginal tiene una dirección diferente a la de las asociaciones
condicionales. A esta situación se le llama Paradoja de Simpson
y puede ocurrir debido a los diferentes pesos de las subpoblaciones.
Un segundo ejemplo sobre este fenómeno es el siguiente

Paciente
Hombre Mujer
Tratamiento éxito fracaso éxito fracaso
1 60 20 40 80
2 100 50 10 30
Aquı́, el tratamiento 1 es mejor para los hombres (la probabilidad

de éxito es mayor para el tratamiento 1 que para el 2), lo mismo
se puede ver para las mujeres; sin embargo, al colapsar la tabla
observaremos que 2 es mejor que 1. La moraleja de esto es que no
debemos confiar ciegamente en conclusiones obtenidas de tablas
marginales (a menos de que ocurran ciertas condiciones).
227
Tasas de Momios Condicionales y Marginales
Consideremos tablas 2 × 2 × K, donde K es el número de niveles

de la variable de control Z. Sean {nijk } las frecuencias observadas
y {µijk } las frecuencias esperadas. Si fijamos el nivel de Z en k,
entonces
µ11k µ22k
θXY (k) =
µ12k µ21k
describe la asociación condicional XY y se calcula a partir de la
k-ésima tabla parcial. De modo que tendremos K tasas de momios
condicionales. Podemos formar también la tasa de momios marginal,
colapsando las k tablas:
µ11.µ22.
θXY =
µ12.µ21.
Ası́, para los datos de pena de muerte, podemos calcular:
53 × 37 0 × 139
θXY (1) = = 0.43, y θXY (2) = =0
414 × 11 16 × 4
Mientras que
53 × 176
θXY = = 1.45
430 × 15
228
Prueba de Cochran–Mantel–Haenszel
En el caso anterior de tablas 2 × 2 × K con frecuencia es de interés

examinar la relación entre X y Y para cada nivel de la variable
de control Z. La siguiente tabla presenta datos de un estudio en
China sobre cáncer de pulmón.
Cáncer
Ciudad Fuma Si No Momios µ11k Var(n11k )
Beijing Si 126 100 2.20 113.0 16.9
No 35 61
Shanghai Si 908 688 2.14 773.2 179.3
No 497 807
Shenyang Si 913 747 2.18 799.3 149.3
No 336 598
Nanjing Si 235 172 2.85 203.5 31.1
No 58 121
Harbin Si 402 308 2.32 355.0 57.1
No 121 215
Zhengzhou Si 182 156 1.59 169.0 28.3
No 72 98
Taiyuan Si 60 99 2.37 53.0 9.0
No 11 43
Nanchang Si 104 89 2.14 773.2 179.3
No 21 36
229
La notación para la k-ésima tabla es

n11k n12k n1.k
n21k n22k n2.k
n.1k n.2k n..k
Puede verse que, para varios tipos de muestreo (p.ej. multino-

mial, binomial por renglón), condicional a marginales fijas, la dis-
tribución de n11k es hipergeométrica. Bajo la hipótesis nula de
independencia entre X y Y la media y varianza de n11k son
n n
µ11k = E(n11k ) = 1.k .1k
n..k
n n n n
Var(n11k ) = 1.k2 2.k .1k .2k
n..k (n..k − 1)
230
El estadı́stico de Cochran–Mantel–Haenszel cuantifica las discre-

pancias entre las frecuencias observadas y las esperadas:
P
[ k (n11k − µ11k )]2
CHM = P
k Var(n11k )
tiene, asintóticamente, una distribución χ2 con 1 grado de libertad.
La hipótesis nula es la de independencia condicional entre X y Y
(condicional a Z). La prueba no es apropiada en el caso en el
que la asociación cambia demasiado de tabla a tabla. Cuando la
relación verdadera es similar en cada tabla, esta prueba es más
poderosa que el hacer pruebas individuales en cada tabla.
Con los datos del estudio en China, obtenemos CM H = 280.1

el cual es altamente significativo, indicando una fuerte asociación
condicional entre fumar y cáncer.
231
Combinación de Tasas de Momios
Cuando las asociaciones en las tablas parciales son razonablemente

estables, es útil reportar un único valor de la tasa de momios. Ası́,
bajo el supuesto θXY (1) = · · · = θXY (K), un estimador del valor
común es el estimador de Mantel-Haenszel
P
b k n11k n22k /n..k
θM H = P = 2.17
k n12k n21k /n..k
Si los momios verdaderos no son idénticos (pero no son radical-
mente diferentes), θbM H de todos modos es un valor que sumariza
en forma útil las K asociaciones parciales.
232
Modelos Loglineales
233
Modelos Loglineales para Tablas I × J
Los modelos loglineales van a ser muy útiles en tablas con 3 o más
factores; sin embargo, aprovecharemos el caso I × J para intro-
ducir notación. En este caso, si las variables son independientes,
tenemos
πij = πi.π.j
entonces
µij = nπij = nπi.π.j

log(µij ) = log(n) + log(πi.) + log(π.j )
y
log(µij ) = λ + λxi + λj
Esto es, el log de la frecuencia esperada (bajo independencia)
lo podemos expresar como una función aditiva de los efectos de
renglón y efectos de columna.
234
Los parámetros de un modelo loglineal no son todos identificables,

por ejemplo, en una tabla 3 × 3, tenemos
     
log(µ11 ) λ+ λx1 + λy1 1 1 0 0 1 0 0  
 log(µ12 )   λ+ λx1 + λy2   1 1 0 0 0 1 0  λ
     
 log(µ13 )   λ+ λx1 + λy3   1 1 0 0 0 0 1  λx1 
      
 log(µ21 )   λ+ λx2 + λy1   1 0 1 0 1 0 0  λx2 
      
log(µ) =  log(µ22 ) = λ+ λx2 + λy2 = 1 0 1 0 0 1 0  λx3  = Xθ
 log(µ23 )   λ+ λx2 + λy3   1 0 1 0 0 0 1  λy1 
      
 log(µ31 )   λ+ λx3 + λy1   1 0 0 1 1 0 0  λy2 
     
 log(µ32 )   λ+ λx3 + λy2   1 0 0 1 0 1 0  λy3
log(µ33 ) λ+ λx3 + λy3 1 0 0 1 0 0 1
es claro que la matriz X no tiene columnas independientes y, en-

tonces, log(µ) no se puede representar en forma única como Xθ.
Una forma de mitigar esta indeterminación es eliminando (haciendo
y
cero) dos parámetros. Una acción común es hacer λxI = λJ = 0.
235
En la hoja 198 tenemos una tabla 2×2 de un estudio sobre aspirina;

aquı́ reproducimos la tabla y anexamos estimaciones de los valores
esperados en cada celda, bajo el supuesto de independencia:
Esperados
Infarto No Infarto Infarto No Infarto
Placebo 189 10,845 146.4801 10887.52
Aspirina 104 10,933 146.5199 10890.48
Los valores estimados satisfacen el modelo de independencia, ası́,

en este caso, un posible conjunto de valores para los parámetros
del modelo loglineal es:
λ = 9.2956, λx1 = −0.0003, λx2 = 0, λy1 = −4.3085, λx1 = 0
· ¸ · ¸
b11) log(µ
log(µ b12) 4.9869 9.2954
log(µb) = =
b21) log(µ
log(µ b22) 4.9872 9.2956
· x y x y
¸ · ¸
λ + λ1 + λ1 λ + λ1 + λ2 9.2956 − 0.0003 − 4.3085 9.2956 − 0.0003
= x y x y =
λ + λ2 + λ1 λ + λ2 + λ2 9.2956 − 4.3085 9.2956
236
En general, puede verse que para cualquier tabla I × J, podemos

escribir
y xy
log(µij ) = λ + λxi + λj + λij
xy
donde el término λij refleja desviaciones de independencia (a estos
términos se les llama “interacciones”). Las restricciones usuales
para identificabilidad son
y xy xy
λxI = λJ = λiJ = λIj = 0
La idea básica para el análisis de tablas de contingencia generales

es la de comparación de modelos. Ası́ que estaremos usando,
en particular, el estadı́stico G2 de cociente de verosimilitudes.
237
Interpretación de Parámetros
y
En el modelo bajo independencia log(µij ) = λ + λxi + λj tenemos,
por ejemplo, en una tabla I × 2:
P(Y = 1 | X = i)
logit [P(Y = 1 | X = i)] = log
P(Y = 2 | X = i)
πi1 µi1
= log = log = log(µi1) − log(µi2)
πi2 µi2
y y
= (λ + λxi + λ1) − (λ + λxi + λ2)
y y
= λ1 − λ2
Un par de observaciones: Primero, la comparación entre P(Y = 1)
y P(Y = 2) no depende del renglón i (lo cual es obvio si conside-
ramos que estamos en un modelo bajo independencia); segundo,
no importa cual haya sido el conjunto de restriciones para identi-
y y
ficabilidad, la diferencia λ1 − λ2 no se altera.
238
En tablas I × J tenemos algo semejante:

P(Y = j | X = i) y y
log = λj − λk
P(Y = k | X = i)
esto es, la diferencia entre dos parámetros de una variable dada, se
interpreta como el logmomio de que ocurra un nivel de la variable
relativo a la ocurrencia de otro nivel de esa variable. En el modelo
general,
y xy
log(µij ) = λ + λxi + λj + λij
las anteriores interpretaciones dejan de ser adecuadas; sin em-
xy
bargo, podemos interpretar los términos λij por su rol en medidas
de asociación, por ejemplo, los logmomios en una tabla 2 × 2 son:
µ µ y xy y xy
log 11 22 = λ + λx1 + λ1 + λ11 + λ + λx2 + λ2 + λ22
µ12µ21
y xy y xy xy xy xy xy
− λ − λx1 − λ2 − λ12 − λ − λx2 − λ1 − λ21 = λ11 + λ22 − λ12 − λ21
239
Tablas I × J × K
• Modelo para Independencia. Supongamos que tres variables,

X, Y y Z son independientes, esto implica que
πijk = πi.. π.j. π..k
nπijk = nπi.. π.j. π..k
y
log(µijk ) = λ + λxi + λj + λzk (∗)
y viceversa, puede verse que un modelo loglineal de la forma (∗)
implica independencia de las variables X, Y y Z.
• Z independiente de X y Y . En este caso se tiene

πijk = πij. π..k
nπijk = nπij. π..k
log(µijk ) = λ + log(µij.) + λzk
como no suponemos nada acerca de X y Y entonces para la parte
de log(µij.) podemos usar un modelo loglineal general para X y Y .
240
Tablas I × J × K
• (Cont...) Z independiente de X y Y .
y xy
log(µijk ) = λ + λxi + λj + λzk + λij
De forma similar se pueden escribir modelos loglineales para X
independiente de Y y Z y Y independiente de X y Z. (Y vi-
ceversa, también se puede ver que si tenemos un modelo de la
forma log(µijk ) = λ + g(x, y) + λzk , tendremos precisamente el caso
Z independiente de X y Y ).
• X y Y condicionalmente independientes, dado Z. Esta es

una forma más débil de independencia e implica que
πij|k = πi.|k π.j|k
πijk = πi.k π.jk /π..k
nπijk = nπi.k nπ.jk /(nπ..k )
µijk = µi.k µ.jk /µ..k
y yz
log(µijk ) = λ + λxi + λj + λzk + λxz
ik + λjk
241
Resumen: Tipos de Asociación
Asociación Modelo Forma de πijk
No asociación: log(µijk ) =
Variables mutuamente λ + λxi + λyj + λzk πijk = πi.. π.j.π..k
independientes
X independiente log(µijk ) = πijk = πi.. π.jk
de (Y, Z) λ + λxi + λyj + λzk + λyz
jk
X y Y condicionalmente log(µijk ) =
independientes λ + λxi + λyj + λzk πijk = πi.k π.jk /π..k
yz
dado Z +λxzik + λjk
(veremos) log(µijk ) =
Asociación homogénea λ + λxi + λyj + λzk no hay
+λxy xz yz
ij + λik + λjk
General log(µijk ) =
(modelo saturado) λ + λxi + λyj + λzk πijk
+λxy xz yz xyz
ij + λik + λjk + λijk
242
Nota: Muestreo Poisson y la Distribución Multinomial
Hemos considerado tablas de contingencia en las cuales las obser-

vaciones se obtienen suponiendo un muestreo multinomial, también
hemos considerado el caso de varias multinomiales independientes.
Ahora, veremos que la distribución multinomial también se aplica,
aún en el caso de observaciones Poisson independientes (condicio-
nando al tamaño de muestra).
Supongamos una tabla I × J con conteos Poisson independientes
Cij ∼ P(µij )
la distribución conjunta de todas las variables aleatorias (conteos
en cada celda) es
n
e−µij µijij
P(C11 = n11, · · · , CIJ = nIJ ) = Πij
nij !
243
Nota: Muestreo Poisson y la Distribución Multinomial
Recuerde que la suma de Poissons independientes es Poisson.

  n
1 X   X
P (N = n) = exp − µij  µij 
n!  
ij ij
Entonces
P(Cij = nij )
P(C11 =n11, · · · , CIJ = nIJ | N = n) =
P(N = n)
−µij nij
e µ n
Πij n ! ij n! Πij µijij
ij
= n o ³P ń = ³P ń
1 exp − P µ Πij nij !
n! ij ij ij µij ij µij
n11 nIJ Ã !n
µ · · · µ µ ij
n! 11 IJ n! ij
= ³P ń
11
³P ń =
IJ
Πij P
Πij nij ! ij µij ··· ij µij
Πij nij ! ij µij
P
la cual es una multinomial con parámetros n y πij = µij / ij µij .
Esto es, la distribución de una tabla de observaciones Poisson inde-
pendientes es multinomial (condicionada al tamaño de muestra).
244
Ajuste de Modelos
245
Ajuste de Modelos
Consideremos una tabla I × J × K, con modelo general

y xy yz xyz
log(µijk ) = λ + λxi + λj + λzk + λij + λxz
ik + λjk + λijk
Queremos ejemplificar el proceso de estimación para el caso parti-
cular del modelo que supone independencia de X y Y , condicionada
a Z; esto es
y yz
log(µijk ) = λ + λxi + λj + λzk + λxz ik + λjk
La bondad del ajuste la cuantificamos mediante los estadı́sticos
usuales:
Ã !
2
X nijk
G = nijk log
ijk
µ
b ijk
b ijk )2
X (nijk − µ
χ2 =
ijk
µ
b ijk
ası́ que necesitamos µ

b ijk (los valores esperados bajo el modelo de
independencia condicional).
246
Ajuste del Modelo de Independencia Condicional
Independencia condicional quiere decir que
P(X = i, Y = j|Z = k) = P(X = i|Z = k)P(Y = j|Z = k)

i.e. πij|k = πi.|k π.j|k
de aquı́ que
πijk πi.k π.jk
=
π..k π..k π..k
y, por lo tanto
µi.k µ.jk
µijk =
µ..k
usaremos esta expresión para calcular los estimados de los valores
esperados:
µ
b i.k µ b .jk
µ
b ijk =
µ
b ..k
247
Las estimaciones estarán basadas en el método de máxima vero-

similitud. Suponiendo muestreo Poisson, tenemos
nijk
exp{−µijk } µijk
l(θ) = Πijk
nijk !
ası́, la logverosimilitud es
X X
L = log l(θ) = − µijk + nijk log(µijk ) + C
ijk ijk
donde µijk es una función de todos los parámetros en θ. Para
ilustrar, supongamos I = J = K = 2; en este caso los parámetros
son
y y yz yz yz yz
λ, λx1, λx2, λ1, λ2, λz1, λz2, λxz xz xz xz
11 , λ12 , λ21 , λ22 , λ11 , λ12 , λ21 , λ22
pero, usando las restricciones de identificabilidad, tenemos solo:
y yz
λ, λx1, λ1, λz1, λxz
11 , λ11 , notación : θ = (λ, λx, λy , λz , λxz , λyz )T
248
La logverosimilitud puede escribirse como

L(θ) = −1T µ + dT log(µ) + C
donde log(µ) es el vector (µ111, µ112, · · · , µ222)T y d es el vector
de observaciones (n111, n112, · · · , n222)T . Note que log(µ) puede
escribirse en forma matricial como Xθ:
     
log µ111 λ + λx + λy + λz + λxz + λyz 1 1 1 1 1 1
 log µ112   λ + λx + λy   1 1 1 0 0 0 
 log µ121   λ + λx + + λz + λxz   1 1 0 1 1 0 

log(µ) = 
log µ122 = λ + λx = 1 1 0 0 0 0 θ
log µ211   λ + λy + λz + λyz   1 0 1 1 0 1 
   λy
  
 log µ212   λ +   1 0 1 0 0 0 
log µ221 λ + λz 1 0 0 1 0 0
log µ222 λ 1 0 0 0 0 0
Entonces
L(θ) = −1T exp(Xθ) + dT Xθ + C
al derivar e igualar a cero obtenemos: X T µ
b = X T d (ver Agresti,
pág. 335).
249
A partir de X T µ
b = X T d, obtenemos 6 relaciones
µb ... = n, µ
b 1.. = n1.., µ
b .1. = n.1., µ
b ..1 = n..1, µ
b 1.1 = n1.1, µ
b .11 = n.11
Usando estas relaciones obtenemos
b111
µ b1.1
=µ b.11/µ
µ b..1 = n1.1 n.11 /n..1
b112
µ b1.2
=µ b.12/µ
µ b..2 b1.. − µ
= (µ b1.1)(µb.1. − µ
b.11)/(µ
b... − µ
b..1) = n1.2 n.12/n..2
b121
µ b1.1
=µ b.21/µ
µ b..1 = n1.1 (n..1 − n.11 )/n..1 = n1.1 n.21 /n..1 , etc.
b122
µ b1.2
=µ b.22/µ
µ b..2 = n1.2 n.22 /n..2
b211
µ b2.1
=µ b.11/µ
µ b..1 = n2.1 n.11 /n..1
b212
µ b2.2
=µ b.12/µ
µ b..2 = n2.2 n.12 /n..2
b221
µ b2.1
=µ b.21/µ
µ b..1 = n2.1 n.21 /n..1
b222
µ b2.2
=µ b.22/µ
µ b..2 = n2.2 n.22 /n..2
Hay que notar que las ecuaciones para los máximos verosı́miles,
XT µ
b = X T d, son generales para cualquier modelo loglineal, sin
embargo, por otro lado, son ecuaciones nolineales en θ y no ne-
cesariamente se pueden obtener soluciones analı́ticas como en el
presente ejemplo (en ese caso, hay que usar métodos iterativos).
250
Ejemplo de Ajuste de un Modelo
Consideremos los resultados de un estudio de 1992 sobre adic-

ciones en 2,276 estudiantes de preparatoria de Dayton, Ohio (ver
Agresti, pág.322).
Marihuana
Alcohol Tabaco Sı́ No
Sı́ Sı́ 911 538
No 44 456
No Sı́ 3 43
No 2 279
Sea X, Y y Z las variables de uso de Alcohol, Tabaco y Marihuana,

respectivamente. Supongamos que deseamos ver si el uso del
Alcohol y Tabaco son independientes (condicional a uso, o no
uso, de Marihuana), (probablemente no sea la cuestión de más
interés, pero es sólo como ilustración del método de estimación).
251
Ejemplo de Ajuste de un Modelo
Aquı́ anexamos los valores esperados en cada celda de la tabla (ver

los cálculos en el apéndice).
Marihuana Frecuencias
Alcohol Tabaco Sı́ No Esperadas
Sı́ Sı́ 911 538 909.24 438.84
No 44 456 45.76 555.16
No Sı́ 3 43 4.76 142.16
No 2 279 0.24 179.84
Los estadı́sticos de Pearson y de Cociente de Verosimilitudes son
χ2 = 177.6, G2 = 187.8
ambos con 2 grados de libertad (2 = 8 − 6, número de celdas
Poisson menos número de parámetros en el modelo); el modelo es
fuertemente rechazado.
252
Ajuste de Modelos con R
Los modelos loglineales pueden ser ajustados en R usando la li-

brerı́a MASS. La siguiente tabla muestra los ajustes de los 9 mo-
delos posibles para los datos de adicciones (ver el código R en el
apéndice) (esta tabla es la tabla 8.6 del Agresti, pág.324).
modelo G2 X2 gl pvalor
X Y Z 1286.02 1411.39 4 0.00
XY 843.83 704.91 3 0.00
XZ 939.56 824.16 3 0.00
YZ 534.21 505.60 3 0.00
XY XZ 497.37 443.76 2 0.00
XY YZ 92.02 80.81 2 0.00
XZ YZ 187.75 177.61 2 0.00
XY XZ YZ 0.37 0.40 1 0.54
XY XZ YZ XYZ 0.00 0.00 0 NaN
Todos los modelos se rechazan, excepto el de asociación ho-

mogénea (p-valor = 0.54).
253
Asociación Homogénea
Consideremos una tabla I × J × K.

Z=1 ··· Z=K
Y Y
1 2 ··· J ··· 1 2 ··· J
1 π111 π121 · · · π1J1 ··· π11K π12K ··· π1JK
2 π211 π221 · · · π2J1 ··· π21K π22K ··· π2JK
.. .. .. ... .. .. .. ... ..
X . . . . ··· . . .
I πI11 πI21 ··· πIJ1 ··· πI1K πI2K ··· πIJK
π..1 π..K
En la hoja 228 definimos, para tablas 2 × 2 × K, los momios condi-

cionales de X y Y dado Z. Similarmente, definimos los momios
condicionales
πijk πi+1,j+1,k
θij(k) =
πi,j+1,k πi+1,jk
254
Note que
P(Y =j | X=i,Z=k)
πijk πi+1,j+1,k P(Y =j+1 | X=i,Z=k)
θij(k) = =
πi,j+1,k πi+1,jk P(Y =j | X=i+1,Z=k)
P(Y =j+1 | X=i+1,Z=k)
ası́, θij(k), compara dos cosas: El numerador, que es el “brinco”
de Y = j a Y = j + 1 (cuando fijamos X = i y Z = k), contra
el denominador, que es el mismo “brinco” de Y = j a Y = j + 1
pero ahora fijando X = i + 1 y Z = k. Entonces, si llegaramos
a tener, por ejemplo, que θij(k) = 1, entonces dirı́amos que los
niveles X = i y X = i + 1 no afectan el cambio de Y = j a
Y = j + 1.
Ahora, ¿Qué relación hay entre estos momios y los parámetros de

un modelo loglineal?, en particular con
y xy yz
ik + λjk ?
255
log(θij(k)) = log µijk + log µi+1,j+1,k − log µi,j+1,k + log µi+1,j+1,k

= λ + λxi + λyj + λzk + λxy xz yz
ij + λik + λjk
+ λ + λxi+1 + λyj+1 + λzk + λxy xz yz
i+1,j+1 + λi+1,k + λj+1,k
− λ − λxi − λyj+1 − λzk − λxy xz yz
i,j+1 − λik − λj+1,k
− λ − λxi+1 − λyj − λzk − λxy
i+1,j − λ xz
i+1,k − λ yz
jk
= λxy xy xy xy
ij + λi+1,j+1 − λi,j+1 − λi+1,j
Estos logmomios no dependen del nivel particular de Z, ası́ que

el modelo implica homogeneidad (con respecto a Z) de asociación
entre X y Y (claro, esta asociación entre X y Y depende del
renglón especı́fico i y de la columna particular j, pero no de Z = k).
En forma completamente análoga, podemos ver que este modelo
también implica homogeneidad (con respecto a X) de asociación
entre Y y Z y y homogeneidad de asociación entre X y Z con
respecto a Y :
θij(1) = · · · = θij(K), θi(1)k = · · · = θi(J)k , θ(1)jk = · · · = θ(I)jk
256
Para los datos del estudio sobre cáncer en China (hoja 229) el mo-
delo que mejor ajusta a los datos es precisamente el de asociación
homogénea:
loglm(formula = frec ~ fuma + cancer + ciudad + fuma*cancer +
fuma*ciudad + cancer*ciudad, data = dat, param = T, fit = T)
Statistics:
X^2 df P(> X^2)
Likelihood Ratio 5.195802 7 0.6360822
Pearson 5.199854 7 0.6355886
lo cual implica que es aceptable que los momios de cáncer sean

homogéneos en las diferentes ciudades y, por ello, es razonable
combinar los momios como se hizo en la hoja 232 con el estimador
de Mantel-Haenszel.
257
Ejemplo: Tabla 5 × 4 × 4
O1 = Comerciante O2 = Profesionista
E1 E2 E3 E4 Total E1 E2 E3 E4 Total
A1 42 55 22 3 122 A1 1 2 8 18 30
A2 72 82 60 12 226 A2 1 2 15 33 51
A3 90 106 85 25 306 A3 2 5 25 83 115
A4 27 48 47 8 130 A4 2 2 10 45 59
A5 8 18 19 5 50 A5 0 0 12 19 31
Total 239 309 233 53 834 Total 6 11 70 199 286
O3 = Maestro O4 = Empleado
E1 E2 E3 E4 Total E1 E2 E3 E4 Total
A1 0 0 1 19 20 A1 172 151 107 42 472
A2 0 3 3 60 66 A2 208 198 206 92 704
A3 1 4 5 86 96 A3 279 271 331 191 1,072
A4 0 0 2 36 38 A4 99 126 179 97 501
A5 0 0 1 14 15 A5 36 35 99 79 249
Total 1 7 12 215 235 Total 794 781 922 501 2,998
258
Antecedentes
De 500,000 candidatos a ingresar a programas de entrenamiento

de la Fuerza Aérea de E.U. (durante la segunda guerra mundial),
aproximadamente 75,000 aprobaron un examen de admisión, pos-
teriormente, durante el perı́odo de entrenamiento (julio-diciembre
1943), se sometieron a diversas pruebas de aptitud. En los 50’s,
se tomo una muestra aleatoria de 17,000 (del grupo de 75,000)
con el objetivo de explorar la capacidad predictiva de las pruebas
de aptitud en relación con el éxito profesional de los participantes.
De los 17,000, 2,000 todavı́a estaban activos en las fuerzas ar-
madas y 1,500 habı́an fallecido. De los 13,500 restantes, 9,700
respondieron a una encuesta por parte del estudio. En 1969, se
hizo un estudio de seguimiento sobre 7,500 de los 9,700 (7,500
eran aquellos sobre los que se tenı́an direcciones actulizadas), fi-
nalmente, de los 7,500 respondieron 4,353.
259
Tabla 5 × 4 × 4
La tabla de datos presenta la clasificación cruzada de los 4,353

individuos en el estudio, de acuerdo a su ocupación actual (Z)
(en 1969), niveles de aptitud (de acuerdo a las pruebas de 1943)
y nivel de escolaridad alcanzado (Y ) (debido a requerimientos de
entrada a la Fuerza Aérea, casi todos tenı́an, mı́nimo, preparatoria
completa). La siguiente tabla muestra los ajustes de los 8 modelos
posibles para estos datos.
Modelo G2 χ2 gl p-valor
X Y Z 1356.97 1519.80 69 0.00
XY 1179.64 1336.77 57 0.00
XZ 1319.56 1424.15 57 0.00
YZ 228.22 226.66 60 0.00
XY XZ 1142.23 1301.13 45 0.00
XY YZ 50.89 48.01 48 0.36
XZ YZ 190.81 184.64 48 0.00
XY XZ YZ 25.10 23.65 36 0.91
Los grados de libertad se calculan como: Número de celdas -

número de parámetros no redundantes.
260
Modelos
Los modelos que ajustan bien son:
• X y Z condicionalmente independientes dado Y .

y xy yz
log(µijk ) = λ + λxi + λj + λzk + λij + λjk
• Asociación homogénea.
y xy yz
ik + λjk
El primer modelo (que es más sencillo) implica que, dado el nivel de
educación, los scores en las pruebas de aptitud son independientes
de los niveles actuales de ocupación. Para ver más de cerca esta
conclusión, en la siguiente lámina se muestran las tablas Aptitud
vs Ocupación, I ×K, para cada nivel de Educación (1, · · · , J). En 3
de los 4 niveles de Educación no se rechaza independencia (sin em-
bargo, la tabla colapsada por Educación rechazarı́a independencia
y esta serı́a una conclusión limitada).
261
Aptitud vs Ocupación
E1 E2
O1 O2 O3 O4 O1 O2 O3 O4
A1 42 1 0 172 A1 55 2 0 151
A2 72 1 0 208 A2 82 2 3 198
A3 90 2 1 279 A3 106 5 4 271
A4 27 2 0 99 A4 48 2 0 126
A5 8 0 0 36 A5 18 0 0 35
χ2 = 8.19, p = 0.77 1,040 χ2 = 7.07, p = 0.85 1,108
E3 E4
O1 O2 O3 O4 O1 O2 O3 O4
A1 22 8 1 107 A1 3 19 19 42
A2 60 15 3 206 A2 12 33 60 92
A3 85 25 5 331 A3 25 83 86 191
A4 47 10 2 179 A4 8 45 36 97
A5 19 12 1 99 A5 5 19 14 79
χ2 = 7.31, p = 0.84 1,237 χ2 = 25.44, p = 0.01 968
262
Aptitud vs Ocupación
La tabla colapsada por Educación rechazarı́a fuertemente la inde-

pendencia entre los scores en las pruebas de Aptitud y Ocupación,
pero en este caso, el colapsamiento no está justificado, de hecho,
al hacerlo estamos ocultando independencias condicionales.
O1 O2 O3 O4
A1 122 30 20 472
A2 226 51 66 704
A3 306 115 96 1,072
A4 130 59 38 501
A5 50 31 15 249
χ2 = 35.8, p = 0.00035 4,353
Es interesante ver las estimaciones de los parámetros del mo-

delo, en particular, los parámetros de interacciones (ver tablas de
yz
parámetros estimados adelante). Parámetros λjk : Los niveles de
Ocupación 1 y 4 (Comerciantes y Empleados) están positivamente
relacionados con el primer nivel de educación y negativamente rela-
cionados con los niveles altos de educación.
263
En cambio, sucede lo opuesto para las ocupaciones de maestros

y profesionistas (note que los valores de los parámetros van cam-
biando en forma más o menos suave desde un extremo al otro en
la escala (ordinal) de Educación).
xy
Parámetros λij : Note que los niveles primeros de educación
están positivamente relacionados con los niveles bajos de Aptitud
y, también, los niveles altos estaán positivamente relacionados’.
Observamos además una relación inversa entre los niveles bajos
de Educación con nivel alto de Aptitud, etc.
En resumen, Educación está correlacionada con Aptitud en la

forma como uno esperarı́a y, controlando (fijando) el nivel de Ed-
ucación, en general, tenemos que los resultados de los exámenes
de Aptitud no están relacionados con el tipo de Ocupación.
264
Parámetros Estimados
$‘(Intercept)‘ : 2.636711
$aptitud: A1 A2 A3 A4 A5
-0.20233091 0.33985695 0.76617487 -0.03576561 -0.86793531
$educacion: E1 E2 E3 E4
-0.9845389 -0.2452641 0.4003941 0.8294089
$ocupacion: O1 O2 O3 O4
0.7487304 -0.9761897 -1.9586897 2.1861491
$aptitud.educacion
educacion
aptitud E1 E2 E3 E4
A1 0.46014764 0.32254088 -0.27521838 -0.50747014
A2 0.18567643 0.09530413 -0.09568568 -0.18529487
A3 0.03989769 -0.02766561 -0.07065889 0.05842681
A4 -0.22502542 -0.01107851 0.10323330 0.13287062
A5 -0.46069635 -0.37910089 0.33832965 0.50146758
$educacion.ocupacion
ocupacion
educacion O1 O2 O3 O4
E1 1.24140656 -0.7183774 -1.5276369 1.0046078
E2 0.80018044 -0.8103455 -0.2798306 0.2899956
E3 -0.05043831 0.4719386 -0.3091500 -0.1123502
E4 -1.99114868 1.0567843 2.1166175 -1.1822532
265
Colapsabilidad de Tablas
Consideremos tres variables X, Y y Z y su correspondiente tabla

I × J × K. Se puede ver (en Agresti, pág. 405, ejercicio 9.26) que:
Podemos colapsar sobre la variable Z si Z es condicional-

mente independiente de X dado Y (o si Z es condicional-
mente independiente de Y dado X).
En otras palabras, podemos estudiar la naturaleza de la asociación

entre X y Y , colapsando sobre la tercera variable Z, si se cumple
alguna de las dos condiciones mencionadas. Esto es, si alguno de
los siguientes dos modelos es válido:
(XY, XZ) o (XY, Y Z)
266
Colapsabilidad de Tablas
En el ejemplo de Aptitud, Educación y Ocupación, vimos que

el modelo “X y Z condicionalmente independientes dado Y ” era
adecuado; esto es, Aptitud y Ocupación son independientes con-
trolando por Educación. Entonces podemos estudiar las asocia-
ciones Aptitud × Educación y Educación × Ocupación fijandonos
en las correspondientes tablas marginales (i.e. tablas colapsadas):
E1 E2 E3 E4
O1 O2 O3 O4
A1 215 208 138 83
E1 239 6 1 794
A2 281 285 284 197
E2 309 11 7 781
A3 372 386 446 385
E3 233 70 12 922
A4 128 176 238 186
E4 53 199 215 501
A5 44 53 131 117
χ2 = 1254.1, p = 0 4,353
χ2 = 172.5, p = 0 4,353
En el ejemplo de adicciones (modelo (XY, XZ, Y Z)), no debemos

colapsar sobre ninguna pareja marginal.
267
Revisitando Máxima Verosimilitud
Para hacer estimación de parámetros, R resuelve el problema de

redundancia de parámetros forzando que sumen cero los efectos
principales para cada variable y, para las interacciones, hace cero
la suma de cada renglón y columna (ver hoja 265). En este curso
hemos usado el hacer cero el parámetro correspondiente al último
nivel de cada variable y ceros los últimos renglones y columnas de
cada interacción. Para ilustrar la técnica de máxima verosimilitud
directa, mostramos enseguida los parámetros estimados usando
esta última parametrización (ver código R en el ápendice). Si
comparamos los valores ajustados, µ b ijk , con ambas parametriza-
ciones, veremos que son iguales. Las estimaciones mostradas en
la siguiente hoja fueron obtenidas maximizando directamente (ver
hoja 249) la logverosimilitud:
L(θ) = −1T µ + dT log(µ) + C

268
Revisitando Máxima Verosimilitud
Intercepto : 4.10356
Aptitud : -0.3433406 0.5210276 1.1910657 0.4635684 0.0000000
Educacion : -0.5892641 -0.4830193 0.4777324 0.0000000
Ocupacion : -2.2463282 -0.9233105 -0.8459732 0.0000000
Aptitud x Educacion :
[,1] [,2] [,3] [,4]
[1,] 1.9297842 1.7105987 0.39540573 0
[2,] 1.3331412 1.1611898 0.25275184 0
[3,] 0.9436452 0.7945019 0.03406725 0
[4,] 0.6042796 0.7366378 0.13351444 0
[5,] 0.0000000 0.0000000 0.00000000 0
Educacion x Ocupacion :
[,1] [,2] [,3] [,4]
[1,] 1.0457163 -3.961994 -5.831195 0
[2,] 1.3190957 -3.339285 -3.868675 0
[3,] 0.8708282 -1.654731 -3.495709 0
[4,] 0.0000000 0.000000 0.000000 0
269
Comparación de Modelos
En la hoja 260 tenemos los modelos en competencia para las va-

riables X, Y y Z. Optamos por el modelo XY Y Z en base a
un criterio de parsimonia, lo cual es sensato, pero comentamos
ahora un criterio analı́tico para tomar una decisión (en el caso de
modelos anidados).
Consideremos el caso de decidir entre los modelos M1 y M0, donde

M0 es un submodelo de M1. La hipótesis de base es [ H0 : M0 es
adecuado ]; para ello usamos la prueba de cociente de verosimili-
tudes, que toma la forma:
Rech. H0 si G2 2 2
0 − G1 > χα,gl0 −gl1
En nuestro ejemplo, tenemos G2 2
0 −G1 = 50.89−25.10 = 25.79, con
gl = gl0 − gl1 = 48 − 36 = 12. El p-valor asociado es p = 0.0115,
lo cual indicarı́a que deberı́amos quedarnos con el modelo más
complejo XY XZ Y Z (pero siendo subjetivistas como somos, nos
quedamos con el modelo más simple).
270
Modelos con Variables Ordinales
271
En la hoja 218 presentamos una tabla con los resultados de una

encuesta sobre satisfacción con el empleo
< 6, 000 20 24 80 82
(14.2) (24.7) (72.9) (94.2)
1.83 -0.17 1.17 -1.94
6, 000 − 15, 000 22 38 104 125
(19.9) (34.6) (102.3) (132.2)
0.60 0.74 0.25 -1.02
15, 000 − 25, 000 13 28 81 113
(16.2) (28.2) (83.2) (107.5)
-0.95 -0.04 -0.35 0.84
> 25, 000 7 18 54 92
(11.8) (20.5) (60.5) (78.2)
-1.60 -0.65 -1.16 2.35
El p-valor para la hipótesis de independencia es de 0.21, de modo

que, si acaso, la evidencia de asociación serı́a muy débil. La tabla
agrega los valores predichos (entre paréntesis), ası́ como los resi-
duales estandarizados.
272
Podemos observar en la tabla un patrón interesante en los re-

siduales: Hay residuales grandes positivos en las esquinas de la
tabla donde ambas variables están a sus niveles bajos y donde am-
bas variables están a sus niveles altos. También se observa que
hay residuales grandes, pero negativos, cuando una variable está
en niveles bajos y la otra en niveles altos. Este comportamiento
indica una falta de ajuste que no capta una tendencia positiva.
Los modelos loglineales están diseñados para lidiar con variables

nominales; ası́ que es necesario adaptar estos modelos para que
describan relaciones tales como tendencias. Supongamos que se
pueden asignar scores {ui} y {vi} a los renglones y columnas que
reflejen un ordenamiento en las categorı́as.
u1 ≤ u2 ≤ · · · ≤ uI , y v1 ≤ v2 ≤ · · · ≤ vJ
273
El modelo es
y
log(µijk ) = λ + λxi + λj + βuivj
el cual puede ser estimado mediante máxima verosimilitud. Bajo
muestreo Poisson, la logverosimilitud es
XX XX
L(θ) = nij log(µij ) − µij
i j i j
Los valores predichos, despues de hacer el ajuste, se muestran en
la siguiente hoja. Este modelo predice mejor las esquinas de la
tabla que el de independencia.
Nota 1: Usamos las codificaciones para renglones y columnas:
ui = i − (I + 1)/2, y vi = j − (J + 1)/2
Nota 2: Los residuales estandarizados son (ver pág. 81 del Agresti)
bij
nij − µ
p
bij (1 − µ
µ bi.)(1 − µ
bij )
274
< 6, 000 20 24 80 82
(14.2) (24.7) (72.9) (94.2)
(19.3) (29.4) (74.9) (82.3)
6, 000 − 15, 000 22 38 104 125
(19.9) (34.6) (102.3) (132.2)
(21.4) (36.4) (103.7) (127.4)
15, 000 − 25, 000 13 28 81 113
(16.2) (28.2) (83.2) (107.5)
(13.6) (25.9) (82.4) (113.2)
> 25, 000 7 18 54 92
(11.8) (20.5) (60.5) (78.2)
(7.6) (16.3) (58.0) (89.1)
275
Modelos Para Respuestas Multinomiales
276
Los modelos loglineales tratan a todas las variables en forma

simétrica. En ocasiones es natural que una variable, Y , juegue
el rol de variable de respuesta y el interés radica en cuantificar el
efecto de covariables (digamos X y Z) sobre esta respuesta.
Una forma natural de representar a una variable categórica, Y , es

mediante logits:
P(Y = j)
log
P(Y = J)
y una forma de incorporar el impacto de las covariables X y Z es
mediante
P(Y = j | X = i, Z = k) πj|ik µijk
log = log = log
P(Y = J | X = i, Z = k) πJ|ik µiJk
277
Consideremos un modelo loglineal para X, Y y Z de la forma

y xy yz
logµijk = λ + λxi + λj + λzk + λij + λxz
ik + λjk
Entonces, el logit queda como
πj|ik y xy yz
log = λ + λxi + λj + λzk + λij + λxz
ik + λjk
πJ|ik
y xy yz
− λ − λxi − λJ − λzk − λiJ − λxz
ik − λJk
y y xy xy yz yz
= (λj − λJ ) + (λij − λiJ ) + (λjk − λJk )
y xy yz
= αj + βij + βjk
ası́, para una j dada, la comparación de πj|ik contra πJ|ik es de la
forma “y = f (x, z)”:
πj|ik
log = α + βix + βkz
πJ|ik
278
Ejemplo: Modelo Logit
Consideremos los datos de un estudio sobre los factores que in-

fluyen en la elección primaria de alimento de cocodrilos en el estado
de Florida.
Elección de Alimento
Lago Sexo Tamaño Pez Invertebrados Reptiles Aves Otros
Hancock macho ≤ 2.3 7 1 0 0 5
> 2.3 4 0 0 1 2
hembra ≤ 2.3 16 3 2 2 3
> 2.3 3 0 1 2 3
Oklawaha macho ≤ 2.3 2 2 0 0 1
> 2.3 13 7 6 0 0
hembra ≤ 2.3 3 9 1 0 2
> 2.3 0 1 0 1 0
Trafford macho ≤ 2.3 3 7 1 0 1
> 2.3 8 6 6 3 5
hembra ≤ 2.3 2 4 1 1 4
> 2.3 0 1 0 0 0
George macho ≤ 2.3 13 10 0 2 2
> 2.3 9 0 0 1 2
hembra ≤ 2.3 3 9 1 0 1
> 2.3 8 1 0 0 1
Deseamos investigar la relevancia de las “predictoras” Lago (L),

Sexo (S) y Tamaño (T), sobre la “respuesta”, Elección Primaria
de Alimento (A).
279
Después de un proceso de selección del modelo logineal básico

para las variables, nos quedamos con (ver Agresti, pág. 269)
logµijk = λ + λli + λtj + λak + λlt la ta

ij + λik + λjk
loglm(formula = frec ~ lago + tamanio + eleccion + tamanio *
eleccion + lago * eleccion + lago * tamanio, data = dat2,
param = T, fit = T)
Statistics:
X^2 df P(> X^2)
Likelihood Ratio 17.07985 12 0.1466182
Pearson 15.03981 12 0.2392666
De aquı́, tenemos el modelo logit

µijk
log = (λak − λa1) + (λla
ik − λla ) + (λta − λta )
i1 jk j1
µij1
(tomando como base el primer nivel de alimento (peces)).
280
Los parámetros estimados del Modelo Logit son

inverteb reptiles aves otros
-0.7195306 -1.8309953 -2.1258500 -1.1514713
lago
eleccion hancock oklawaha trafford george
inverteb -1.76 0.84 1.02 -0.10
reptiles -0.42 0.80 1.28 -1.66
aves 0.41 -0.94 0.81 -0.28
otros 0.24 -0.58 0.93 -0.59
tamanio
eleccion <2.3 >2.3
inverteb 0.73 -0.73
reptiles -0.18 0.18
aves -0.32 0.32
otros 0.17 -0.17
281
FIN DEL CURSO
282
Apéndice
Aquı́ presentamos la mayorı́a de los programas en R usados

para producir los análisis y gráficas del presente curso.
283
Gráficas en hojas 9 y 10
# Salarios (USD/hr) 1978-1987
datos <- matrix( c(
1014, 1184, 1315, 1131, 949, 907, 862, 995, 1235, 1508,
725, 769, 847, 932, 1020, 1097, 1107, 1088, 1104, 1198,
643, 769, 894, 802, 785, 774, 729, 752, 1027, 1236,
965, 1129, 1233, 1053, 1028, 1023, 943, 956, 1335, 1683,
998, 1141, 1206, 991, 978, 949, 870, 870, 1224, 1511,
609, 712, 800, 739, 730, 761, 721, 740, 1001, 1233,
554, 549, 561, 618, 570, 613, 634, 647, 947, 1134,
80, 106, 101, 106, 113, 120, 128, 131, 139, 169,
434, 561, 743, 720, 682, 639, 595, 619, 750, 907,
827, 902, 984, 1084, 1164, 1210, 1251, 1296, 1321, 1346),
ncol=10, byrow=T )/100
ti <- 1978:1987
paises <- c("Belgica","Canada","Francia","Alemania","Holanda","Italia",
"Japon","Corea","Reino Unido","USA")
# Grafica de los datos de sueldos

par(mfrow=c(2,1),mar=c(2, 3, 2, 2))
plot( ti, datos[1,], ylim=c(0,17), xaxt="n", col=gray(.8),
xlab="", ylab="Salario USD/hora", mgp=c(1.5,.5,0),
cex=.7, cex.lab=.8, cex.axis=.8, type="l",
main="Salarios 1978-1987, Europa", cex.main=.7, xlim=c(1977.5,1987.5))
axis(1,at=c(1978,1980,1982,1984,1986), mgp=c(1.5,.5,0), cex.axis=.7)
for( i in c(3:6,9) ){lines( ti, datos[i,], col=gray(.8) )}
for( i in c(1,3:6,9) ){points( ti, datos[i,], pch=i, cex=.7 )}
legend( 1983.5,17, bty="n", legend=paises[c(1,3,4)], pch=c(1,3,4), cex=.7 )
284
legend( 1986,4, bty="n", legend=paises[c(5,6,9)], pch=c(5,6,9), cex=.7 )

xlab="", ylab="Salario USD/hora", mgp=c(1.5,.5,0),
main="Salarios 1978-1987, Otros Paises",
cex.main=.7, xlim=c(1977.5,1987.5))
for( i in c(7,8,10) ){lines( ti, datos[i,], col=gray(.8) )}
for( i in c(2,7,8,10) ){points( ti, datos[i,], pch=i, cex=.7 )}
legend( 1978,17, bty="n", legend=paises[c(2,7,8,10)], pch=c(2,7,8,10),cex=.7)
#######
# Datos de Productividad
produ <- matrix( c(

121, 127, 136, 145, 154, 168, 176, 181, 188, 194,
139, 141, 135, 142, 135, 145, 157, 162, 162, 166,
111, 116, 117, 121, 129, 132, 135, 138, 143, 147,
116, 121, 122, 125, 126, 134, 139, 144, 144, 146,
130, 137, 139, 142, 145, 155, 171, 177, 176, 177,
119, 128, 135, 145, 150, 161, 171, 176, 177, 183,
88, 93, 100, 103, 110, 116, 124, 131, 133, 139,
20, 23, 24, 29, 28, 29, 36, 42, 46, 53,
69, 70, 69, 73, 77, 84, 88, 91, 94, 100,
150, 150, 150, 153, 156, 165, 174, 182, 189, 195)/10,
ncol=10, byrow=T )
285
# Grafica de los datos de productividad
par(mfrow=c(2,1),mar=c(2, 3, 2, 2))
plot( ti, produ[1,], ylim=c(0,20), xaxt="n", col=gray(.8),
xlab="", ylab="Productividad", mgp=c(1.5,.5,0),
main="Productividad 1978-1987, Europa", cex.main=.7, xlim=c(1977.5,1987.5))
for( i in c(3:6,9) ){lines( ti, produ[i,], col=gray(.8) )}
for( i in c(1,3:6,9) ){points( ti, produ[i,], pch=i, cex=.7 )}
legend( 1983.5,6, bty="n", legend=paises[c(1,3,4)], pch=c(1,3,4), cex=.7 )
legend( 1986,6, bty="n", legend=paises[c(5,6,9)], pch=c(5,6,9), cex=.7 )
plot( ti, produ[2,], ylim=c(0,20), xaxt="n", col=gray(.8),

xlab="", ylab="Productividad", mgp=c(1.5,.5,0),
main="Productividad 1978-1987, Otros Paises",
cex.main=.7, xlim=c(1977.5,1987.5))
for( i in c(7,8,10) ){lines( ti, produ[i,], col=gray(.8) )}
for( i in c(2,7,8,10) ){points( ti, produ[i,], pch=i, cex=.7 )}
legend( 1983,11, bty="n",legend=paises[c(2,7,8,10)],pch=c(2,7,8,10),cex=.7)
Termina gráficas en hojas 9 y 10
286
Gráfica en hoja 11
# Ejemplo 4.1 del Diggle, Liang & Zeger (p.72)
# Analisis de datos de crecimiento de arboles "spruce".
tiempo <- c(152,174,201,227,258,469,496,528,556,579,613,639,674)

b1 <- matrix( c(
451, 424, 398, 436, 434, 459, 441, 424, 482, 384, 407, 428, 447, 446,
460, 373, 467, 296, 324, 436, 404, 353, 422, 279, 330, 334, 376,
498, 420, 436, 477, 495, 508, 456, 464, 517, 417, 431, 480, 489, 484,
408, 415, 488, 347, 393, 477, 464, 425, 469, 310, 390, 381, 436,
541, 468, 479, 510, 542, 536, 495, 495, 576, 467, 490, 527, 523, 511,
417, 461, 518, 376, 476, 502, 486, 468, 507, 330, 434, 421, 470,
590, 492, 499, 530, 597, 576, 523, 538, 612, 467, 510, 555, 555, 534,
435, 487, 534, 389, 462, 526, 509, 497, 537, 338, 496, 454, 544,
615, 496, 503, 536, 628, 600, 533, 548, 624, 480, 510, 565, 574, 546,
459, 493, 549, 430, 464, 545, 525, 518, 558, 355, 540, 486, 532,
616, 520, 587, 553, 650, 633, 613, 561, 648, 494, 526, 576, 599, 547,
465, 524, 644, 415, 463, 544, 525, 564, 576, 361, 546, 493, 565,
618, 522, 588, 556, 650, 634, 614, 563, 650, 494, 526, 577, 601, 549,
469, 525, 644, 415, 464, 544, 527, 564, 580, 365, 549, 496, 567,
648, 539, 604, 568, 679, 639, 636, 582, 677, 505, 538, 598, 608, 570,
501, 525, 661, 441, 477, 549, 550, 553, 611, 393, 577, 515, 563,
665, 565, 634, 593, 683, 678, 657, 618, 714, 533, 566, 618, 639, 593,
521, 545, 674, 472, 508, 573, 565, 574, 637, 418, 603, 548, 604,
687, 571, 649, 621, 710, 691, 678, 642, 726, 553, 581, 639, 645, 606,
538, 565, 706, 476, 527, 577, 569, 578, 635, 413, 607, 549, 602,
695, 578, 658, 626, 717, 699, 682, 648, 730, 556, 584, 643, 657, 615,
558, 565, 711, 493, 530, 601, 597, 594, 658, 436, 620, 570, 605,
287
699, 582, 665, 620, 721, 701, 681, 647, 691, 557, 593, 644, 657, 612,
546, 576, 704, 498, 543, 596, 597, 618, 655, 443, 626, 574, 603,
704, 585, 661, 619, 716, 705, 686, 646, 728, 560, 589, 641, 658, 612,
550, 583, 711, 507, 520, 596, 589, 599, 655, 439, 628, 574, 591)/100,
ncol=13, byrow=F)
b2 <- matrix( c(
449, 488, 488, 380, 446, 429, 406, 516, 381, 509, 413, 485, 411, 495,
436, 405, 376, 284, 433, 399, 350, 331, 303, 327, 356, 339, 372,
476, 514, 532, 416, 462, 482, 458, 543, 412, 562, 471, 536, 462, 539,
465, 465, 427, 325, 480, 455, 375, 345, 355, 383, 418, 373, 416,
515, 552, 563, 445, 500, 532, 481, 571, 442, 590, 527, 552, 495, 582,
504, 509, 459, 369, 509, 491, 397, 416, 397, 444, 470, 392, 455,
537, 608, 575, 489, 540, 546, 512, 608, 462, 636, 556, 596, 528, 642,
538, 544, 510, 416, 542, 526, 471, 448, 440, 480, 527, 411, 503,
556, 617, 594, 505, 549, 550, 527, 621, 460, 649, 572, 613, 543, 648,
547, 560, 525, 421, 561, 530, 485, 454, 458, 489, 528, 415, 502,
573, 632, 609, 506, 568, 554, 548, 637, 474, 672, 606, 622, 580, 661,
548, 579, 541, 430, 585, 569, 501, 472, 447, 508, 550, 449, 516,
573, 633, 609, 506, 572, 554, 551, 638, 476, 672, 606, 624, 580, 661,
548, 580, 544, 430, 588, 569, 502, 474, 447, 509, 550, 452, 516,
580, 637, 614, 513, 595, 554, 558, 641, 494, 674, 621, 641, 587, 666,
547, 607, 548, 445, 601, 590, 527, 493, 466, 534, 577, 482, 528,
597, 668, 651, 532, 613, 560, 593, 664, 510, 687, 644, 658, 620, 673,
584, 614, 593, 459, 622, 589, 545, 507, 480, 563, 598, 518, 552,
610, 683, 661, 546, 632, 557, 636, 682, 521, 687, 666, 678, 644, 683,
597, 630, 597, 474, 645, 598, 559, 526, 510, 581, 605, 526, 570,
616, 694, 668, 546, 633, 555, 617, 689, 523, 687, 671, 683, 644, 690,
593, 632, 608, 484, 655, 605, 567, 526, 508, 593, 619, 532, 570,
288
622, 693, 664, 542, 633, 555, 607, 711, 522, 683, 665, 682, 640, 683,
595, 634, 629, 464, 655, 625, 583, 535, 512, 594, 614, 528, 567,
613, 695, 674, 549, 630, 555, 613, 714, 523, 697, 664, 680, 644, 663,
601, 642, 624, 464, 655, 625, 586, 535, 512, 594, 614, 528, 567)/100,
ncol=13, byrow=F)
b3 <- matrix( c(
453, 497, 437, 458, 400, 473, 515, 410, 322, 223, 365, 340,
505, 532, 481, 499, 450, 505, 563, 446, 385, 289, 436, 392,
518, 583, 503, 537, 492, 533, 611, 484, 447, 316, 476, 450,
541, 629, 519, 568, 544, 592, 639, 529, 485, 340, 518, 497,
542, 645, 540, 593, 587, 601, 661, 548, 511, 352, 544, 514,
571, 661, 557, 614, 602, 626, 682, 568, 528, 389, 570, 534,
571, 661, 559, 617, 604, 626, 682, 568, 528, 393, 570, 535,
596, 679, 582, 643, 611, 636, 695, 585, 545, 422, 589, 561,
617, 713, 603, 656, 647, 649, 711, 599, 574, 451, 609, 583,
634, 724, 617, 669, 661, 663, 744, 608, 595, 465, 639, 603,
644, 732, 632, 681, 666, 692, 753, 625, 605, 470, 657, 609,
646, 729, 625, 682, 670, 692, 746, 615, 607, 473, 636, 598,
643, 735, 629, 676, 665, 692, 756, 618, 602, 468, 644, 595)/100,
ncol=13, byrow=F)
b4 <- matrix( c(
516, 404, 452, 456, 490, 483, 546, 417, 335, 333, 341, 450, 299,
549, 452, 491, 512, 535, 510, 579, 467, 405, 382, 368, 480, 361,
574, 515, 504, 540, 571, 543, 612, 516, 451, 438, 403, 528, 448,
605, 559, 571, 569, 612, 559, 641, 556, 522, 499, 428, 583, 491,
621, 587, 597, 589, 625, 604, 663, 575, 544, 517, 454, 616, 506,
637, 596, 611, 616, 639, 621, 673, 600, 579, 540, 452, 633, 523,
637, 596, 612, 617, 639, 621, 673, 602, 582, 540, 457, 634, 525,
289
652, 617, 624, 613, 652, 646, 677, 614, 605, 573, 501, 656, 556,
665, 637, 644, 644, 686, 645, 668, 628, 629, 585, 513, 663, 595,
686, 653, 654, 672, 705, 659, 675, 655, 622, 575, 511, 675, 598,
687, 660, 665, 681, 709, 670, 675, 666, 639, 599, 530, 689, 621,
688, 652, 663, 687, 690, 663, 662, 663, 647, 610, 546, 696, 628,
684, 659, 664, 680, 688, 666, 660, 663, 642, 615, 535, 694, 634)/100,
ncol=13, byrow=F)
par(mfrow=c(2,1),mar=c(3, 3, 2, 2))
plot(tiempo[1:5],b1[1,1:5], type="n", xlab="Dias", mgp=c(1.5,.5,0),
ylab="2 x Log(Altura x Diametro)", xlim=c(0,800), ylim=c(0,8),
cex=.7, cex.lab=.8, cex.axis=.8)
abline( h=c(2,4,6), col=5 )
for(i in 1:27){lines(tiempo[1:5],b1[i,1:5])}
title(main="Grupo Tratado con Ozono", cex.main=.8)
plot(tiempo[1:5],b3[1,1:5], type="n", xlab="Dias", mgp=c(1.5,.5,0),

ylab="2 x Log(Altura x Diametro)", xlim=c(0,800), ylim=c(0,8),
cex=.7, cex.lab=.8, cex.axis=.8)
abline( h=c(2,4,6), col=5 )
title(main="Grupo Control", cex.main=.8)
Termina gráfica en hoja 11

290
# Distancias (mm) del centro de la pituitaria a la fisura maxilar en
# ninhas y ninhos de edades 8,10,12 y 14 (Pothoff and Roy 1964)
datos <- matrix( c(

21.0, 20.0, 21.5, 23.0,
21.0, 21.5, 24.0, 25.5,
20.5, 24.0, 24.5, 26.0,
23.5, 24.5, 25.0, 26.5,
21.5, 23.0, 22.5, 23.5,
20.0, 21.0, 21.0, 22.5,
21.5, 22.5, 23.0, 25.0,
23.0, 23.0, 23.5, 24.0,
20.0, 21.0, 22.0, 21.5,
16.5, 19.0, 19.0, 19.5,
24.5, 25.0, 28.0, 28.0,
26.0, 25.0, 29.0, 31.0,
21.5, 22.5, 23.0, 26.5,
23.0, 22.5, 24.0, 27.5,
25.5, 27.5, 26.5, 27.0,
20.0, 23.5, 22.5, 26.0,
24.5, 25.5, 27.0, 28.5,
22.0, 22.0, 24.5, 26.5,
24.0, 21.5, 24.5, 25.5,
23.0, 20.5, 31.0, 26.0,
27.5, 28.0, 31.0, 31.5,
23.0, 23.0, 23.5, 25.0,
21.5, 23.5, 24.0, 28.0,
291
17.0, 24.5, 26.0, 29.5,
22.5, 25.5, 25.5, 26.0,
23.0, 24.5, 26.0, 30.0,
22.0, 21.5, 23.5, 25.0), ncol=4, byrow=T )
ti <- c(8,10,12,14)
n1 <- 11
n2 <- 16
# Grafica de los datos

par(mfrow=c(2,1),mar=c(3, 3, 2, 2))
xlab="Edad", ylab="Distancia", mgp=c(1.5,.5,0),
main="Ninhas", cex.main=.7, xlim=c(7.8,14.2))
axis(1,at=ti, mgp=c(1.5,.5,0), cex.axis=.8)
for( i in 2:n1 ){lines( ti, datos[i,], col=gray(.8) )}
abline( a=be[1], b=be[2], lwd=2, col="blue")
plot( ti, datos[(n1+1),], ylim=c(16,32), xaxt="n",

xlab="Edad", ylab="Distancia", mgp=c(1.5,.5,0),
cex=.7, cex.lab=.8, cex.axis=.8, type="l", col=gray(.8),
main="Ninhos", cex.main=.7, xlim=c(7.8,14.2))
for( i in (n1+2):(n1+n2) ){lines( ti, datos[i,], col=gray(.8) )}
abline( a=be[3], b=be[4], lwd=2, col="blue")

292
# Datos tomados de: http://pages.stern.nyu.edu/~wgreene/Econometrics/PanelDataSets.htm
# Produccion lechera en granjas espanholas 1993-1998
datos <- read.csv(
"c:\\Documents and Settings\\Rogelio Ramos\\My Documents\\INEGI\\M4G2\\dairy.csv",
header=TRUE) # datos: 1482 x 28
# FARM YEAR COWS LAND MILK LABOR FEED YIT X1 X2
# X3 X4 X11 X22 X33 X44 X12 X13 X14 X23
# X24 X34 YEAR93 YEAR94 YEAR95 YEAR96 YEAR97 YEAR98
par(mfrow=c(2,2),mar=c(3, 3, 2, 2))
tit <- c("Produccion de Leche", "Vacas por Granja (log)", "Mano de Obra", "Alimento")
ccol <- c(8,3,6,7)
for(j in 1:4){
sel <- (datos[,1]==1)
or <- order(datos[sel,2])
yy <- range(datos[,ccol[j]])
yy <- c(.95*yy[1],1.05*yy[2])
dd <- datos[sel,ccol[j]][or]
if(j == 3){dd <- jitter(dd)}
plot(datos[sel,2][or], dd, xlab="", mgp=c(1.5,.5,0),
ylab="", xlim=c(92.5,98.5), ylim=yy, type="l",
main=tit[j], cex=.7, cex.lab=.8, cex.axis=.8, col=gray(.7))
for(i in 2:247){
sel <- (datos[,1]==i)
or <- order(datos[sel,2])
dd <- datos[sel,ccol[j]][or]
if(j == 3){dd <- jitter(dd)}
lines(datos[sel,2][or],dd, col=gray(.7))}}

293
# Diabetes (ver Crowder & Hand p.61)
datc <- matrix( c(
7.6, 8.7, 7.0, 10.1, 8.9, 8.6,
11.2, 9.5, 9.4, 10.8, 11.5, 11.4,
3.9, 4.1, 3.7, 6.7, 7.3, 6.6,
2.2, 2.5, 2.4, 2.1, 2.0, 2.0), ncol=3, byrow=T)
datd <- matrix( c(
8.5, 5.6, 8.4, 7.5, 5.0, 9.5,
12.9, 13.6, 15.3, 8.8, 7.9, 7.3,
5.5, 6.4, 6.4, 3.2, 3.4, 3.2), ncol=3, byrow=T)
par(mfrow=c(2,1),mar=c(2, 3, 2, 2))
plot( c(1,5,10), datc[1,], ylim=c(0,15), xaxt="n", col="red",
xlab="", ylab="Efecto del esfuerzo", mgp=c(1.5,.5,0),
cex=.7, cex.lab=.8, cex.axis=.8, type="l",lwd=1,
main="Grupo Control", cex.main=.7, xlim=c(0,11))
axis(1,at=c(0,2,4,6,8,10), mgp=c(1.5,.5,0), cex.axis=.7)
for( i in 2:8 ){lines( c(1,5,10), datc[i,], col="red",lwd=1 )}
lines(c(1,5,10),colMeans(datc),col="blue",lwd=2)
plot( c(1,5,10), datd[1,], ylim=c(0,15), xaxt="n", col="red",

cex=.7, cex.lab=.8, cex.axis=.8, type="l",lwd=1,
main="Diabeticos", cex.main=.7, xlim=c(0,11))
for( i in 2:6 ){lines( c(1,5,10), datd[i,], col="red",lwd=1 )}
lines(c(1,5,10),colMeans(datd),col="blue",lwd=2)

294
Análisis en hoja 20
datc <- matrix( c(
7.6, 8.7, 7.0, 10.1, 8.9, 8.6,
11.2, 9.5, 9.4, 10.8, 11.5, 11.4,
3.9, 4.1, 3.7, 6.7, 7.3, 6.6,
2.2, 2.5, 2.4, 2.1, 2.0, 2.0), ncol=3, byrow=T)
datd <- matrix( c(
8.5, 5.6, 8.4, 7.5, 5.0, 9.5,
12.9, 13.6, 15.3, 8.8, 7.9, 7.3,
5.5, 6.4, 6.4, 3.2, 3.4, 3.2), ncol=3, byrow=T)
# Medias y Matrices de covarianza muestrales

n1 <- dim(datc)[1]
m1 <- colMeans(datc)
S1 <- cov(datc)
n2 <- dim(datd)[1]
m2 <- colMeans(datd)
S2 <- cov(datd)
# Estimacion de la varianza
Sp <- ((n1-1)*S1+(n2-1)*S2)/(n1+n2-2)
# T2 de Hotelling
T2 <- (sum((m1-m2)*solve(Sp,m1-m2)))/(1/n1 + 1/n2)
# p-valor
nu <- n1+n2-2
p <- 3
pv <- 1-pf( (nu-p+1)*T2/(nu*p), p, nu-p+1)
Termina análisis en hoja 20

295
plot( c(1,5,10), datc[1,], ylim=c(0,17), xaxt="n", col="red",

cex=.7, cex.lab=.8, cex.axis=.8, type="p", pch=16,
main="Comparacion Control vs Diabeticos", cex.main=.7, xlim=c(0,11))
for( i in 2:8 ){points( c(1,5,10), datc[i,], col="red", pch=16 )}
lines(c(1,5,10),colMeans(datc),col="red",lwd=2)
for( i in 1:6 ){points( c(1,5,10), datd[i,], col="blue", pch=19 )}
lines(c(1,5,10),colMeans(datd),col="blue",lwd=2)
legend(0,17,legend=c("control","diabeticos"), lwd=2, col=c("red","blue"))
# Distancias (mm) del centro de la pituitaria a la fisura maxilar en

# nias y nios de edades 8,10,12 y 14 (Pothoff and Roy 1964)
# (matriz de datos 27 x 4 definida para la grafica de hoja 12)
# Proceso iterativo de estimacion
ti <- c(8,10,12,14)
p <- 4
X <- cbind( rep(1,p), ti )
X1 <- cbind(X,matrix(0,p,2))
X2 <- cbind(matrix(0,p,2),X)
n1 <- 11
n2 <- 16
296
n <- n1+n2
S0 <- ((n1-1)*var(datos[1:n1,]) + (n2-1)*var(datos[(n1+1):27,]))/(n1+n2-2)
round(S0,2)
[,1] [,2] [,3] [,4]
[1,] 5.42 2.72 3.91 2.71
[2,] 2.72 4.18 2.93 3.32
[3,] 3.91 2.93 6.46 4.13
[4,] 2.71 3.32 4.13 4.99
test <- TRUE

k <- 0
itermax <- 100
tolera <- 1e-6
bet <- rep(0,p)
while( test ){
auo <- c(bet,as.vector(S0))
k <- k+1
li <- n1*t(X1)%*%solve(S0,X1) + n2*t(X2)%*%solve(S0,X2)
ld <- t(X1)%*%solve(S0,colSums(datos[1:n1,]))
ld <- ld + t(X2)%*%solve(S0,colSums(datos[(n1+1):(n2+n1),]))
bet <- solve(li,ld)
vv <- matrix(0,p,p)
297
for(i in 1:n1){
aa <- as.vector(datos[i,] - X1%*%bet)
vv <- vv + outer(aa,aa)}
for(i in (n1+1):n){
aa <- as.vector(datos[i,] - X2%*%bet)
vv <- vv + outer(aa,aa)}
S0 <- vv/n
aux <- c(bet,as.vector(S0)) - auo
tol <- max( sqrt( aux*aux ) )
if( k > itermax ){
cat("Numero de iteraciones excede al maximo","\n")
test <- FALSE }
if( tol<tolera ){
cat("Convergencia","\n")
test <- FALSE } }
# bet: 17.4253685 0.4763647 15.8422893 0.8268033
# round(S0,2)
[,1] [,2] [,3] [,4]
[1,] 5.12 2.44 3.61 2.52
[2,] 2.44 3.93 2.72 3.06
[3,] 3.61 2.72 5.98 3.82
[4,] 2.52 3.06 3.82 4.62
298
Gráfica y análisis en hojas 37 y 38
# Ajuste de un modelo con interceptos aleatorios.
# (matriz de datos 27 x 4 definida para la grafica de hoja 12)
ti <- c(8,10,12,14)
p <- 4
n1 <- 11; n2 <- 16; n <- n1+n2
Xm <- cbind(rep(1,4),ti,rep(0,4))
Xh <- cbind(rep(1,4),rep(0,4),ti)
logvn <- function(r){

N <- p*n
cte <- N/2 + (N/2)*log(2*pi) - (N/2)*log(N)
V0 <- (1-r)*diag(p) + r*matrix(1,p,p)
ym <- colSums( datos[1:n1,] )
yh <- colSums( datos[(n1+1):(n1+n2),] )
li <- n1*t(Xm)%*%solve(V0,Xm) + n2*t(Xh)%*%solve(V0,Xh)
ld <- t(Xm)%*%solve(V0,ym) + t(Xh)%*%solve(V0,yh)
bet <<- solve(li,ld)
sce <- 0
for( i in 1:n1 ){
y <- datos[i,]
sce <- sce + t(y-Xm%*%bet) %*% solve(V0,y-Xm%*%bet) }
for( i in (n1+1):(n1+n2) ){
y <- datos[i,]
sce <- sce + t(y-Xh%*%bet) %*% solve(V0,y-Xh%*%bet) }
sce <<- sce
return( cte + (N/2)*log(sce) + (n/2)*log(det(V0)) ) }
299
out <- nlminb(start=.5, objective=logvn, lower = 0.0001, upper = .9999)
ro <- out$par # 0.6177417
mm <- logvn(ro)
bet # 16.7611111 0.5220401 0.7551599
sce # 531.9709
tao2 <- sce/(p*n) # 4.925657
s20 <- ro*tao2 # 3.042783
s2 <- tao2 - s20 # 1.882873
rs <- seq(.001,.999,length=200)
ys <- rep(0,200)
for( i in 1:200 ){ys[i] <- -logvn(rs[i])}
plot(rs,ys,type="l",xlab=expression(rho),
main=expression(paste("Estimacin de ",rho)),
ylab="logverosimilitud perfil",ylim=c(-285,-200), lwd=2,
col="red", mgp=c(1.5,.5,0),cex=.8, cex.lab=.9, cex.axis=.8)
segments(ro,-285,ro,-mm,col=gray(.7))
Termina gráfica y análisis en hojas 37 y 38
300
# Datos tomados de Greene, p.614

datos <- matrix(c(
rep(1:6,rep(4,6)), rep(1:4,6),
3.154, 4.271, 4.584, 5.849, 3.859, 5.535, 8.127, 10.966,
19.035, 26.041, 32.444, 41.180, 35.229, 51.111, 61.045, 77.885,
33.154, 40.044, 43.125, 57.727, 73.050, 98.846, 138.88, 191.56,
214, 419, 588, 1025, 696, 811, 1640, 2506,
3202, 4802, 5821, 9275, 5668, 7612, 10206, 13702,
6000, 8222, 8484, 10004, 11796, 15551, 27218, 30958),
ncol=4, byrow=F)

par(mfrow=c(3,2),mar=c(2, 2, 2, 1))
for(i in 1:6){
plot(datos[sel,2], lcost[sel], ylim=c(0,11), col="red",
xlab="", ylab="", mgp=c(1.5,.5,0),lwd=2,
main=paste("Compania ",i), cex.main=.8, xlim=c(.5,4.5))
lines(datos[sel,2],loutp[sel],col="blue",lwd=2)}
legend(3,3.5,legend=c("log output","log costo"),col=c("blue","red"),lwd=2)
301
Gráficas en hojas 45 y 46
# Matriz datos 24 x 4 definida para grafica de hoja 43
tt <- c(1955,1960,1965,1970)
par(mfrow=c(2,2),mar=c(3, 3, 2, 1))
for(i in 1:4){
plot(loutp[sel], lcost[sel], ylim=c(.5,6), col="blue",
mgp=c(1.5,.5,0),xlab="Log(Output)", pch=16,
cex=.7, cex.lab=.8, cex.axis=.8, ylab="Log(Costo)",
main=paste("Anio ",tt[i]), cex.main=.8, xlim=c(5,11))
oux <- lm(lcost~loutp, subset=sel)
abline(oux,lwd=2,col="red")}
par(mfrow=c(2,1),mar=c(3, 3, 2, 1))
plot(loutp, lcost, ylim=c(.5,6), col="blue", pch=16,
mgp=c(1.5,.5,0),xlab="Log(Output)",ylab="Log(Costo)",
cex=.7, cex.lab=.8, cex.axis=.8, type="p",
main="Relacion Costo-Output", cex.main=.8, xlim=c(5,11))
out <- lm(lcost ~loutp); abline(out,col="red",lwd=2)
for(i in 1:6){
ran <- range(loutp[sel])
oux <- lm(lcost~loutp, subset=sel)
pre <- predict(oux,data.frame(loutp=ran))
segments(ran[1],pre[1],ran[2],pre[2],col="red",lwd=2)}
Termina gráficas en hojas 45 y 46

302
Análisis y gráfica en hojas 52 y 53
# Modelo con Efectos Fijos
# Matriz datos y vectores lcost y loutp definidos para grafica de hoja 43
m <- 4; n <- 6
M0 <- diag(m)-matrix(1,m,m)/m
li <- 0; ld <- 0
for(i in 1:n){
Xi <- loutp[sel]
yi <- lcost[sel]
li <- li + sum(Xi*(M0%*%Xi))
ld <- ld + sum(Xi*(M0%*%yi))}
bet <- ld/li # 0.674279
alf <- rep(0,n)
for(i in 1:n){
Xi <- loutp[sel]
yi <- lcost[sel]
alf[i] <- mean(yi-Xi*bet)} # -2.69 -2.91 -2.44 -2.13 -2.31 -1.90
for(i in 1:6){
ran <- range(loutp[sel])
pre <- alf[i] + bet*ran
segments(ran[1],pre[1],ran[2],pre[2],col="red",lwd=2)}
Termina análisis y gráfica en hojas 52 y 53

303
# Errores Estandar, Modelo con Efectos Fijos

# Estimaciones alf y bet definidos en la hoja anterior en este apendice.
# El termino li tambien esta definido en la hoja anterior.
k <- 1
sce <- 0
for(i in 1:n){
Xi <- loutp[sel]
yi <- lcost[sel]
sce <- sce + sum((yi-alf[i]-Xi*bet)^2)}
cme <- sce/(n*m-n-k) # cuadrado medio del error

vbe <- cme/li # estimacion de varianza de beta
vae <- rep(0,n)
for(i in 1:n){
Xi <- loutp[sel]
vae[i] <- cme/m + vbe*(mean(Xi))^2} # estimacion de varianza de alfas
sqrt(cme) # 0.1246
sqrt(vbe) # 0.0611
sqrt(vae) # 0.3828 0.4396 0.5287 0.5588 0.5533 0.6081

304
# Errores Estandar, Modelo con Efectos Fijos

# Estimaciones alf y bet definidos en hojas anteriores, tambien li y cme
# fueron definidos antes
# Prueba de igualdad de interceptos

Lt <- cbind( diag(n-1), rep(-1,n-1) )
R <- matrix(0,n,n)
for( i in 1:n ){
Xbi <- mean(loutp[sel])
for( j in 1:n ){
sel <- (datos[,1]==j)
Xbj <- mean(loutp[sel])
if( j == i ){ R[i,i] <- 1/m + Xbi*Xbj/li
}else{ R[i,j] <- Xbi*Xbj/li } } }
num <- t(Lt%*%alf) %*% solve( Lt%*%R%*%t(Lt), Lt%*%alf )/(n-1)
FF <- num/cme # 9.671526
pval <- 1-pf(FF,n-1,n*m-n-k) # 0.0001644001
305
datos <- matrix( c(
7918, 8190, 8443, 8800, 8940, 9445, 9894, 10121, 10288, 10672,
10911, 11232, 11702, 12073, 12910, 13657, 14313, 14932, 15513, 15998,
16881, 17284, 17974, 19163, 18966, 19317, 20010, 20666, 21674, 22162,
22143, 22486, 22615, 23346, 24684, 25090,
7332, 7487, 7714, 8025, 8227, 8738, 8998, 9197, 9329, 9794,
10051, 10252, 10690, 11084, 11706, 12364, 12989, 13377, 14059, 14567,
14920, 15388, 16219, 16896, 16740, 17119, 18039, 18838, 19610, 20044,
20004, 20242, 20507, 21459, 22399, 23126),ncol=2,byrow=F)/10
n <- dim(datos)[1]
datos <- datos[n:1,]
ingreso <- datos[,1]
consumo <- datos[,2]
xr <- range(ingreso); d <- xr[2]-xr[1]; xr <- xr+.05*d*c(-1,1)
yr <- range(consumo); d <- yr[2]-yr[1]; yr <- yr+.05*d*c(-1,1)
plot(ingreso, consumo, mgp=c(1.5,.5,0), col="black", cex.axis=.7,
cex.lab=.7, main="", cex.main=.7, type="p", xlim=xr, ylim=yr,
xlab="Ingreso", ylab="Consumo", pch=19 )
ingl <- ingreso[-n]; conl <- consumo[-n]
out <- lm(conl ~ ingl); summary(out)
Z <- cbind(rep(1,n-1),datos[-1,])
X <- cbind(rep(1,n-1),ingreso[-n])
Xg <- Z%*%solve(t(Z)%*%Z,t(Z)%*%X)
bvi <- solve(t(Xg)%*%X,t(Xg)%*%consumo[-n])
s2 <- sum((consumo[-n] - as.vector(X%*%bvi))^2)/(n-1)
vv <- s2*solve(t(Xg)%*%X,t(Xg)%*%Xg)%*%solve(t(X)%*%Xg)
sqrt(diag(vv))

306
Gráfica y análisis en hojas 93 y 94
# Estimadores "between"y "within" pag 618 Greene
datos <- matrix(c(

rep(1:6,rep(4,6)), rep(1:4,6),
3.154, 4.271, 4.584, 5.849, 3.859, 5.535, 8.127, 10.966,
19.035, 26.041, 32.444, 41.180, 35.229, 51.111, 61.045, 77.885,
33.154, 40.044, 43.125, 57.727, 73.050, 98.846, 138.88, 191.56,
214, 419, 588, 1025, 696, 811, 1640, 2506,
3202, 4802, 5821, 9275, 5668, 7612, 10206, 13702,
6000, 8222, 8484, 10004, 11796, 15551, 27218, 30958),
ncol=4, byrow=F)
n <- 6
m <- 4
lcost <- log(datos[,3]) # y
loutp <- log(datos[,4]) # x
Sxxt <- (n*m-1)*var(loutp)
Sxyt <- (n*m-1)*cov(loutp,lcost)
bmc <- Sxyt/Sxxt # minimos cuadrados
Sxxw <- 0
Sxyw <- 0
for(i in 1:n){
Sxxw <- Sxxw + (m-1)*var(loutp[sel])
Sxyw <- Sxyw + (m-1)*cov(loutp[sel],lcost[sel])}
bw <- Sxyw/Sxxw # dentro de grupos
307
xbb <- mean(loutp)
ybb <- mean(lcost)
Sxxb <- 0
Sxyb <- 0
for(i in 1:n){
Sxxb <- Sxxb + m*(mean(loutp[sel])-xbb)^2
Sxyb <- Sxyb + m*(mean(loutp[sel])-xbb)*(mean(lcost[sel])-ybb)}
bb <- Sxyb/Sxxb # entre grupos
pesow <- Sxxw/(Sxxw+Sxxb) # 0.097496
# Grafica
desvy <- rep(0,n*m)
desvx <- rep(0,n*m)
my <- rep(0,n)
mx <- rep(0,n)
for(i in 1:n){
my[i] <- mean(lcost[sel])
mx[i] <- mean(loutp[sel])
desvy[sel] <- lcost[sel]-mean(lcost[sel])
desvx[sel] <- loutp[sel]-mean(loutp[sel]) }
par(mfrow=c(3,1),mar=c(3, 3, 2, 1))
plot(loutp, lcost, col="blue", pch=16,
mgp=c(1.5,.5,0),xlab="",ylab="Log(Costo)",
cex=.7, cex.lab=.8, cex.axis=.8, type="n",
main=paste("Todos ","(",round(bmc,3),")"), cex.main=.9)
308
for(i in 1:6){
points(loutp[sel],lcost[sel],col=i,pch=i)}
plot(desvx, desvy, col="blue", pch=16,
mgp=c(1.5,.5,0),xlab="",ylab="Desv. Log(Costo)",
main=paste("Dentro ","(",round(bw,3),")"), cex.main=.9)
plot(mx, my, col="blue", pch=16,
mgp=c(1.5,.5,0),xlab="",ylab="Log(Costo)",
main=paste("Entre ","(",round(bb,3),")"), cex.main=.9)
Termina gráfica y análisis en hojas 93 y 94
# Estimacion de un modelo de interceptos aleatorios
datos <- matrix(c(
rep(1:6,rep(4,6)), rep(1:4,6),
3.154, 4.271, 4.584, 5.849, 3.859, 5.535, 8.127, 10.966,
19.035, 26.041, 32.444, 41.180, 35.229, 51.111, 61.045, 77.885,
33.154, 40.044, 43.125, 57.727, 73.050, 98.846, 138.88, 191.56,
214, 419, 588, 1025, 696, 811, 1640, 2506,
3202, 4802, 5821, 9275, 5668, 7612, 10206, 13702,
6000, 8222, 8484, 10004, 11796, 15551, 27218, 30958),
ncol=4, byrow=F)

n <- 6
m <- 4
N <- n*m
309
V0 <- (1-r)*diag(m) + r*matrix(1,m,m)
li <- matrix(0,2,2)
ld <- rep(0,2)
for(i in 1:n){
y <- lcost[sel]
X <- cbind(rep(1,m),loutp[sel])
li <- li + t(X)%*%solve(V0,X)
ld <- ld + t(X)%*%solve(V0,y) }
aa <- 0
for(i in 1:n){
y <- lcost[sel]
aa <- aa + t(y-X%*%bet)%*%solve(V0,y-X%*%bet) }
sce <<- aa
return( cte + (N/2)*log(aa) + (n/2)*log(det(V0)) ) }
rs <- seq(.01,.90,length=200)
ys <- rep(0,200)
for( i in 1:200 ){ys[i] <- -logvn(rs[i])}
plot(rs,ys,type="l",xlab="ro",ylab="logverosimilitud")
310
ro <- out$par # 0.73
mm <- logvn(ro)
beta <- bet # -3.26 0.78
tao2 <- sce/N # 0.064
sce # 1.5
s20 <- ro*tao2 # 0.047
s2 <- tao2 - s20 # 0.017
sqrt(s20) # 0.22
sqrt(s2) # 0.13
# Prueba sobre efectos aleatorios

# pag 628, Greene
out <- lm(lcost ~ loutp)

ei <- out$residuals
sume <- rep(0,n)
for(i in 1:n){
sume[i] <- sum(ei[sel]) }
LM <- n*m*((sum(sume^2)/sum(ei^2) -1)^2)/(2*(m-1)) # 5.9
pval <- 1-pchisq(LM,1) # 0.015
311
####### Este anlisis es continuacion del correspondiente a hoja 97.

####### Varianza de los coeficientes de regresion
# (usados para prueba de Hausman)
V0 <- (1-ro)*diag(m) + ro*matrix(1,m,m)

li <- matrix(0,2,2)
for(i in 1:n){
y <- lcost[sel]
li <- li + t(X)%*%solve(V0,X) }
vv <- diag( as.vector(tao2)*solve(li) )
dvv <- sqrt(vv) # 0.411 0.048
# Prueba de Hausman
W <- ((0.674279 - beta[2])^2)/(.0611^2 - vv[2]) # 7.6
pval <- 1-pchisq(W,1) # 0.0058
312
# Distancias (mm) del centro de la pituitaria a la fisura maxilar.
# Estimacion de Trayectorias Individuales
datos <- matrix( c(
21.0, 20.0, 21.5, 23.0, 21.0, 21.5, 24.0, 25.5,
20.5, 24.0, 24.5, 26.0, 23.5, 24.5, 25.0, 26.5,
21.5, 23.0, 22.5, 23.5, 20.0, 21.0, 21.0, 22.5,
21.5, 22.5, 23.0, 25.0, 23.0, 23.0, 23.5, 24.0,
20.0, 21.0, 22.0, 21.5, 16.5, 19.0, 19.0, 19.5,
24.5, 25.0, 28.0, 28.0, 26.0, 25.0, 29.0, 31.0,
21.5, 22.5, 23.0, 26.5, 23.0, 22.5, 24.0, 27.5,
25.5, 27.5, 26.5, 27.0, 20.0, 23.5, 22.5, 26.0,
24.5, 25.5, 27.0, 28.5, 22.0, 22.0, 24.5, 26.5,
24.0, 21.5, 24.5, 25.5, 23.0, 20.5, 31.0, 26.0,
27.5, 28.0, 31.0, 31.5, 23.0, 23.0, 23.5, 25.0,
21.5, 23.5, 24.0, 28.0, 17.0, 24.5, 26.0, 29.5,
22.5, 25.5, 25.5, 26.0, 23.0, 24.5, 26.0, 30.0,
22.0, 21.5, 23.5, 25.0), ncol=4, byrow=T )
ti <- c(8,10,12,14); n <- dim(datos)[1]; m <- 4
plot( ti, datos[1,], ylim=c(16,32), xaxt="n", col="blue",
xlab="", ylab="Distancia", mgp=c(1.5,.5,0),
main="Ninas y Ninos", cex.main=.8, xlim=c(7.8,14.2))
for( i in 1:n ){lines( ti, datos[i,], col="blue" )}
segments(8,16.76+0.66*8,14,16.76+0.66*14,col="red",lwd=2)
# Suponiendo un modelo de interceptos aleatorios
X <- cbind(rep(1,4),ti)
313
N <- m*n
V0 <- (1-r)*diag(m) + r*matrix(1,m,m)
y <- colSums( datos )
li <- n*t(X)%*%solve(V0,X)
ld <- t(X)%*%solve(V0,y)
aa <- 0
for( i in 1:n ){
y <- datos[i,]
aa <- aa + t(y-X%*%bet) %*% solve(V0,y-X%*%bet) }
sce <<- aa
return( cte + (N/2)*log(sce) + (n/2)*log(det(V0)) ) }
ro <- out$par # 0.68
mm <- logvn(ro)
bet # 16.76 0.66
sce # 682
tao2 <- sce/(m*n) # 6.3
s20 <- ro*tao2 # 4.3
s2 <- tao2 - s20 # 2.0
y <- datos[21,]
xb <- bet[1]+ti*bet[2]
V0 <- (1-ro)*diag(m) + ro*matrix(1,m,m)
di <- ro*sum(solve(V0,y-xb))
tr <- xb+di
lines(ti,tr,lwd=2,col="red")

314
libray(nlme)
plot( Rail$travel[Rail$Rail==1], rep(1,3), xlim=range(Rail$travel),
ylim=c(.5,6.5), xlab="Tiempo", ylab="Riel", mgp=c(1.5,.5,0),
cex=.7, cex.lab=.8, cex.axis=.8, type="n", pch=19)
abline(h=1:6,col=gray(.7))
for(i in 1:6){points(Rail$travel[Rail$Rail==i], rep(i,3),pch=19)}
# Lectura datos de radon 12777 x 25
dir <- "C:\\Documents and Settings\\Rogelio Ramos\\My Documents\\INEGI\\M4G2\\srrs2.dat"
datos <- read.table(dir, header=T, sep=",")
# Nos quedamos con Minnesota

mn <- (datos$state=="MN")
# logDatos de actividad
radon <- (datos$activity[mn])
lradon <- log( ifelse(radon==0, .1, radon) )
# Toma de datos: sotano o primer piso

piso <- datos$floor[mn] # 0 si sotano, 1 si primer piso
n <- length(radon) # 919 registros

y <- lradon
x <- piso
315
# Variable indicadora de condado
countynom <- as.vector(datos$county[mn])
uniq <- unique(countynom)
J <- length(uniq) $ 85 condados en MN
county <- rep(0,J)
for(i in 1:J){ county[countynom==uniq[i]] <- i }
# Tamanhos de muestras
nobs <- as.vector( table(county) )
nobsj <- nobs*exp(runif(J, -.1, .1))
# Media global
lrmed <- mean(y) # 1.2
# media por condado

condmed <- tapply(y,county,mean)
# varianzas por condado

condvar <- tapply(y,county,var)
# estimador de varianza
varest <- sum((nobs[!is.na(condvar)]-1)*(condvar[!is.na(condvar)]))/(n-J+1)
desv <- sqrt(varest)
# errores estandar de las medias por condado

errstd <- desv/sqrt(nobs)
316
par(mfrow=c(2,1),mar=c(3, 3, 2, 1))
# Grafica de medias por condado
plot( nobsj, condmed, xlab="num obs por condado",log="x",mgp=c(1.5,.5,0),
ylab="logradon promedio por condado",pch=20, ylim=c(0,3.2),cex.axis=.8,
main="Sin Combinar", cex.main=.9)
abline(h=lrmed)
for( i in 1:J){
lines( rep(nobsj[i],2), condmed[i]+c(-1,1)*errstd[i] )}
# Usando modelo de efectos aleatorios

out <- lmer( y ~ 1 + (1|county), method="ML")
medea <- coef(out)
medea <- (medea$county)$"(Intercept)"
errea <- se.ranef(out)
errea <- as.vector((errea$county))
plot( nobsj, medea, xlab="num obs por condado",log="x",mgp=c(1.5,.5,0),

ylab="logradon promedio por condado",pch=20, ylim=c(0,3.2),cex.axis=.8,
main="Modelo Multinivel", cex.main=.9)
abline(h=lrmed)
for( i in 1:J){ lines( rep(nobsj[i],2), medea[i]+c(-1,1)*errea[i] )}
317
# Incorporacion de covariables: Piso donde se hicieron las mediciones

out <- lmer( y ~ x + (1|county), method="ML")
summary(out) # Analisis hoja 126
sel <- c(36,1,35,21,14,71,61,70)
aest <- fixef(out)[1] + ranef(out)$county
best <- fixef(out)[2]
xj <- x + runif(n,-.05,.05)
yr <- range(y[!is.na(match(county,sel))])
par (mfrow=c(2,4), mar=c(3,3,3,1))
for (j in sel){
plot(xj[county==j], y[county==j], xlim=c(-.1,1.1), ylim=yr,mgp=c(1.5,.5,0),
xlab="Piso", ylab="Nivel de log(radon)", cex.lab=.8, cex.axis=.8,
pch=20, xaxt="n", yaxt="n", cex.main=1, col.main="blue", main=uniq[j])
axis(1, c(0,1), mgp=c(1.5,.5,0), cex.axis=.8)
axis(2, seq(-1,3,2), mgp=c(1.5,.5,0), cex.axis=.8)
curve(aest[j,] + best*x, col="red", lwd=2, add=TRUE) }
Análisis y gráficas en hojas 130-133
# Incorporacion de los niveles de Uranio

datfips <- 1000*datos$stfips + datos$cntyfips
dir <- c("C:\\Documents and Settings\\Rogelio Ramos\\My Documents\\INEGI\\M4G2\\cty.dat")
uracon <- read.table(dir, header=T, sep=",")
usafips <- 1000*uracon$stfips + uracon$ctfips
usarows <- match(unique(datfips[mn]), usafips)
318
uranio <- uracon[usarows,"Uppm"]
u <- log(uranio)
uexp <- u[county]
out2 <- lmer(y ~ x + uexp + (1|county))
summary(out2)
aest2 <- fixef(out2)[1] + fixef(out2)[3]*u + as.vector(ranef(out2)$county)
best2 <- fixef(out2)[2]
sel <- c(36,1,35,21,14,71,61,70)
par(mfrow=c(2,4), mar=c(3,3,3,1), oma=c(1,1,2,1))
for(j in sel){
plot (xj[county==j], y[county==j], xlim=c(-.1,1.1), ylim=yr,
xlab="Piso", ylab="log(radon)", cex.lab=.8, cex.axis=.8,col.main="blue",
pch=20, mgp=c(1.5,.5,0), xaxt="n", yaxt="n", cex.main=1, main=uniq[j])
curve(aest[j,] + best*x, lwd=1, col="red", add=TRUE)
curve(aest2[j,] + best2*x, col="blue", lwd=2, add=TRUE) }
aa <- sample((1:85)[-sel],size=16)
sel <- c(sel,aa)
par(mfrow=c(6,4), mar=c(1,1,1,1))
for(j in sel){
xlab="", ylab="", cex.lab=.8, cex.axis=.8,col.main="blue",
pch=20, mgp=c(1.5,.5,0), xaxt="n", yaxt="n", cex.main=.8, main=uniq[j])
curve(aest2[j,] + best2*x, col="red", lwd=1, add=TRUE) }
Termina análisis y gráficas en hojas 130-133

319
# Interceptos vs Uranio
errsta <- as.vector(se.coef(out2)$county)
plot(u, t(aest2), cex.lab=.8, cex.axis=.8, xlim=c(-1,.75),
xlab="Uranio", ylab="Interceptos Estimados", pch=20, ylim=c(0.6,2.1),
main="Variabilidad debida al Uranio", yaxt="n", xaxt="n", mgp=c(1.5,.5,0))
axis(1, seq(-1,.75,.5), cex.axis=.8, mgp=c(1.5,.5,0))
axis(2, seq(.5,2,.5), cex.axis=.8, mgp=c(1.5,.5,0))
curve(fixef(out2)["(Intercept)"]+fixef(out2)["uexp"]*x,col="blue", add=TRUE)
for(j in 1:J){
lines(rep(u[j],2), aest2[j,] + c(-1,1)*errsta[j], lwd=.5, col="red")}
# Modelo con interceptos y pendientes aleatorias (sin predictora a nivel condado)
out3 <- lmer(y ~ x + (1 + x | county))
summary(out3)
aest3 <- coef(out3)$county[,1]
best3 <- coef(out3)$county[,2]
par(mfrow=c(2,4), mar=c(3,3,3,1), oma=c(1,1,2,1))
for(j in sel){
xlab="Piso", ylab="log(radon)", cex.lab=.8, cex.axis=.8,col.main="blue",
pch=20, mgp=c(1.5,.5,0), xaxt="n", yaxt="n", cex.main=1, main=uniq[j])
curve(aest3[j] + best3[j]*x, lwd=2, col="blue", add=TRUE) }

320
# incorporacion de la variable uranio
out4 <- lmer (y ~ x + uexp + x*uexp + (1 + x | county))

summary(out4)
aest4 <- coef(out4)$county[,1] + coef(out4)$county[,3]*u

best4 <- coef(out4)$county[,2] + coef(out4)$county[,4]*u
errsta <- se.coef(out4)$county[,1]
errstb <- se.coef(out4)$county[,2]
par(mfrow=c(2,1),mar=c(3,3,2,1))
# intercepto vs uranio
linf <- aest4 - errsta
lsup <- aest4 + errsta
plot(u, aest4, cex.lab=.8, cex.axis=.8, ylim=range(linf,lsup),
xlab="Uranio", ylab="Interceptos", pch=20, mgp=c(1.5,.5,0))
curve(fixef(out4)[1] + fixef(out4)[3]*x, col="blue", add=TRUE)
segments(u, linf, u, lsup, lwd=.5, col="red")
# pendiente vs uranio
linf <- best4 - errstb
lsup <- best4 + errstb
plot(u, best4, cex.lab=.8, cex.axis=.8, ylim=range(linf,lsup),
xlab="Uranio", ylab="Pendientes", pch=20, mgp=c(1.5,.5,0))
curve(fixef(out4)[2] + fixef(out4)[4]*x, col="blue", add=TRUE)
segments(u, linf, u, lsup, lwd=.5, col="red")

321
obs <- matrix( c(173, 160, 599, 851),ncol=2,byrow=T )
esp <- outer( rowSums(obs), colSums(obs) )/sum(obs)
ji2 <- sum( (obs-esp)^2/esp ) # 12.49
pv <- 1-pchisq(ji2,1) # 0.000409
Análisis y gráfica en hojas 183-184
pref <- matrix( c( 34 , 61 , 16, 31 , 19 , 17,
19 , 23 , 16, 23 , 39 , 12),ncol=3,byrow=T)
esp <- outer( rowSums(pref), colSums(pref) )/sum(pref)
G2 <- 2*sum(pref*log(pref/esp)) # 16.39
gl <- (dim(pref)[1]-1)*(dim(pref)[2]-1)
pv <- 1-pchisq(G2,gl) # 0.0118
x <- 1:3; y <- log(pref)
co <- c("red","blue","orange","green")
x <- 1:3; y <- 100*pref/rowSums(pref)
co <- c("red","blue","yellow","green")
plot( 1:3, y[1,], ylim=c(10,60), xaxt="n", col=co[1],
xlab="", ylab="porcentaje", mgp=c(1.5,.5,0), lwd=2,
main="Afiliacion Politica", cex.main=.8, xlim=c(.5,3.5))
axis(1,at=x, labels=c("Rep.","Dem.","Indep."), mgp=c(1.5,.5,0), cex.axis=.7)
for( i in 2:4 ){lines( x, y[i,], col=co[i], lwd=2 )}
for( i in 1:4 ){points( x, y[i,], col=co[i] )}
legend(2.6,55, bty="n",legend=c("Let","Ing","Agr","Edu"),lty=1,lwd=2,col=co )
Termina análisis y gráfica en hojas 183-184

322
# cancer
n11 <- 688; n12 <- 650; n21 <- 21; n22 <- 59
tet <- n11*n22/(n12*n21)
alf <- .05
za <- qnorm(1-alf/2)
icl <- log(tet) + za*sqrt(1/n11+1/n12+1/n21+1/n22)*c(-1,1)
ict <- exp(icl)
# intervalo para el riesgo relativo

n11 <- 189; n12 <- 10845; n21 <- 104; n22 <- 10933
rr <- (n11/(n11+n12))/(n21/(n21+n22))
alf <- .05
za <- qnorm(1-alf/2)
irr <- exp(log(rr)+za*sqrt(1/n11-1/(n11+n12)+1/n21-1/(n21+n22))*c(-1,1))
# 1.433031 2.305884
323
Análisis en hojas 207 y 208
# Coeficiente de Concentracion de Goodman & Kendall
nij <- matrix( c(206 , 53 , 225 , 12 , 1 , 3), ncol=2)

II <- dim(nij)[1]
JJ <- dim(nij)[2]
obs <- nij
esp <- outer( rowSums(obs), colSums(obs) )/sum(obs)
ji2 <- sum( (obs-esp)^2/esp ) # 6.67
pv <- 1-pchisq(ji2,(II-1)*(JJ-1)) # 0.036
n <- sum(nij)
nip <- rowSums(nij)
npj <- colSums(nij)
tao <- ( n*sum((nij^2)/nip) - sum(npj^2) ) / ( n^2 - sum(npj^2) ) # 0.0133
pij <- obs/n
pip <- nip/n
ppj <- npj/n
del <- 1 - sum(ppj^2)
nu <- sum( (pij - outer( pip, ppj ))^2 / pip )
aa <- pij
for(i in 1:II){
for(j in 1:JJ){
bb <- 2*nu*sum(ppj[-j])
aa[i,j] <- (bb - del*(2*sum(pij[i,-j])/pip[i] - sum((pij/pip)[,-j])))^2 } }
s2t <- (sum(pij*aa))/(n*del^4)
est <- sqrt(s2t) # 0.137
Termina análisis en hojas 207 y 208

324
# Concordantes
dat <- matrix( c(
20 , 24 , 80 ,82 , 22 , 38 , 104 , 125,
13 , 28 , 81 , 113 , 7 , 18 , 54 , 92), ncol=4, byrow=T)
II <- dim(dat)[1]
JJ <- dim(dat)[2]
cc <- 0
for(i in 1:(II-1)){
for(j in 1:(JJ-1)){
cc <- cc + dat[i,j]*sum(dat[-(1:i),-(1:j)]) }} # 109520
# Discordantes
dd <- 0
for(i in 1:(II-1)){
for(j in 2:JJ){
dd <- dd + dat[i,j]*sum(dat[-(1:i),-(j:JJ)]) }} # 84915
# ji-cuadrada datos de satisfaccion con empleo

esp <- outer( rowSums(dat), colSums(dat) )/sum(dat)
ji2 <- sum( (dat-esp)^2/esp ) # 11.98857
pv <- 1-pchisq(ji2,(II-1)*(JJ-1)) # 0.2139542
325
II <- JJ <- KK <- 2
obs <- esp <- array(dim=c(II,JJ,KK))
obs[,,1] <- matrix( c(911,3,44,2), ncol=2 )
obs[,,2] <- matrix( c(538,43,456,279), ncol=2 )
for(i in 1:II){
for(j in 1:JJ){
for(k in 1:KK){
esp[i,j,k] <- sum( obs[i,,k] )*sum( obs[,j,k] )/sum( obs[,,k] ) }}}
G2 <- 2*sum(obs*log(obs/esp)) # 187.7543

X2 <- sum( ((obs-esp)^2)/esp ) # 177.6149
pG2 <- 1-pchisq(G2,2)
pX2 <- 1-pchisq(X2,2)
# Alternativamente, usando library(MASS)

library(MASS)
dat <- data.frame(expand.grid(
marihuana = factor( c("Si","No"),levels=c("No","Si") ),
tabaco = factor( c("Si","No"),levels=c("No","Si") ),
alcohol = factor( c("Si","No"),levels=c("No","Si") )),
frec = c(911,538,44,456,3,43,2,279))
outXZ.YZ <- loglm(frec ~

alcohol + tabaco + marihuana + alcohol*marihuana + tabaco*marihuana,
data=dat,param=T,fit=T)
outXZ.YZ; fitted(outXZ.YZ)
model.matrix(outXZ.YZ,data=dat)

326
## ajustando todos los modelos de tabla I x J x K

ff <- c("alcohol + tabaco + marihuana")
gg <- c("alcohol*tabaco","alcohol*marihuana","tabaco*marihuana",
"alcohol*tabaco + alcohol*marihuana",
"alcohol*tabaco + tabaco*marihuana",
"alcohol*marihuana + tabaco*marihuana",
"alcohol*tabaco + alcohol*marihuana + tabaco*marihuana",
"alcohol*tabaco+alcohol*marihuana+tabaco*marihuana+alcohol*tabaco*marihuana")
tt <- matrix(0,9,4)
colnames(tt) <- c("G2","X2","gl","pvalor")
out <- loglm(frec ~ alcohol + tabaco + marihuana, data=dat,param=T,fit=T)
tt[1,] <- c(out$lrt,out$pearson,out$df,1-pchisq(out$lrt,out$df))
for(j in 1:8){
fmla <- as.formula(paste("frec ~",ff,"+",gg[j]))
out <- loglm(fmla,data=dat,param=T,fit=T)
tt[j+1,] <- c(out$lrt,out$pearson,out$df,1-pchisq(out$lrt,out$df)) }
modelo <- c("X Y Z", "XY", "XZ", "YZ", "XY XZ", "XY YZ", "XZ YZ",
"XY XZ YZ", "XY XZ YZ XYZ")
tt <- data.frame(modelo,round(tt,2))
327
Análisis en hojas 260-265
# Datos de Aptitud, Educacion y Empleo

m1 <- matrix( c(42, 55, 22, 3, 72, 82, 60, 12, 90, 106, 85, 25,
27, 48, 47, 8, 8, 18, 19, 5), ncol=4, byrow=T)
m2 <- matrix( c( 1, 2, 8, 19, 1, 2, 15, 33, 2, 5, 25, 83,
2, 2, 10, 45, 0, 0, 12, 19), ncol=4, byrow=T)
m3 <- matrix( c( 0, 0, 1, 19, 0, 3, 3, 60, 1, 4, 5, 86, 0, 0, 2, 36,
0, 0, 1, 14), ncol=4, byrow=T)
m4 <- matrix( c(172, 151, 107, 42, 208, 198, 206, 92, 279, 271, 331, 191,
99, 126, 179, 97, 36, 35, 99, 79), ncol=4, byrow=T)
II <- 5; JJ <- 4; KK <- 4
obs <- array(dim=c(II,JJ,KK))
obs[,,1] <- m1; obs[,,2] <- m2; obs[,,3] <- m3; obs[,,4] <- m4
aptitud = factor( paste("A",1:5, sep="") ),
educacion = factor( paste("E",1:4, sep="") ),
ocupacion = factor( paste("O",1:4, sep="") )),
frec = as.vector(obs) )
## ajustando todos los modelos de tabla I x J x K

ff <- c("aptitud + educacion + ocupacion")
gg <- c("aptitud*educacion","aptitud*ocupacion","educacion*ocupacion",
"aptitud*educacion + aptitud*ocupacion",
"aptitud*educacion + educacion*ocupacion",
"aptitud*ocupacion + educacion*ocupacion",
"aptitud*educacion + aptitud*ocupacion + educacion*ocupacion")
328
tt <- matrix(0,8,4)
colnames(tt) <- c("G2","X2","gl","pvalor")
out <- loglm(frec ~ aptitud + educacion + ocupacion, data=dat,param=T,fit=T)
tt[1,] <- c(out$lrt,out$pearson,out$df,1-pchisq(out$lrt,out$df))
for(j in 1:7){
fmla <- as.formula(paste("frec ~",ff,"+",gg[j]))
out <- loglm(fmla,data=dat,param=T,fit=T)
tt[j+1,] <- c(out$lrt,out$pearson,out$df,1-pchisq(out$lrt,out$df)) }
modelo <- c("X Y Z", "XY", "XZ", "YZ", "XY XZ", "XY YZ", "XZ YZ",
"XY XZ YZ")
tt <- data.frame(modelo,round(tt,2))
# modelo de independencia condicional (dado educacion,

# aptitud y ocupcion son independientes)
out <- loglm(frec ~ aptitud + educacion + ocupacion +
aptitud*educacion + educacion*ocupacion, data=dat,param=T,fit=T)
fitted(out)
aa <- model.matrix(out,data=dat)
# Parametros estimados
out$param
round(out$param$aptitud.educacion,3)
round(out$param$educacion.ocupacion,3)
329
# tabla colapsada
aptocup <- obs[,1,]+obs[,2,]+obs[,3,]+obs[,4,]
dd <- dim(aptocup)
n <- sum(aptocup)
esp <- outer(rowSums(aptocup),colSums(aptocup))/n
ji <- sum( ((aptocup-esp)^2)/esp )
1 - pchisq(ji,(dd[1]-1)*(dd[2]-1))
# se rechaza indep. i.e. aptitud esta relacionada con ocupacion
# pero esto no es completamente cierto: aptitud es independiente
# de ocupacion (dado educacion)
# tablas parciales aptitud vs ocupacion (por nivel de educacion)

bb <- obs[,1,]
dd <- dim(bb)
n <- sum(bb)
esp <- outer(rowSums(bb),colSums(bb))/n
ji <- sum( ((bb-esp)^2)/esp )
1 - pchisq(ji,(dd[1]-1)*(dd[2]-1))
Termina análisis en hojas 260-265
330
# Maxima Verosimilitud en los datos de aptitud, educacion, ocupacion

m1 <- matrix( c(42, 55, 22, 3, 72, 82, 60, 12, 90, 106, 85, 25,
27, 48, 47, 8, 8, 18, 19, 5), ncol=4, byrow=T)
m2 <- matrix( c( 1, 2, 8, 19, 1, 2, 15, 33, 2, 5, 25, 83,
2, 2, 10, 45, 0, 0, 12, 19), ncol=4, byrow=T)
m3 <- matrix( c( 0, 0, 1, 19, 0, 3, 3, 60, 1, 4, 5, 86, 0, 0, 2, 36,
0, 0, 1, 14), ncol=4, byrow=T)
m4 <- matrix( c(172, 151, 107, 42, 208, 198, 206, 92, 279, 271, 331, 191,
99, 126, 179, 97, 36, 35, 99, 79), ncol=4, byrow=T)
II <- 5; JJ <- 4; KK <- 4
obs <- esp <- array(dim=c(II,JJ,KK))
obs[,,1] <- m1
obs[,,2] <- m2
obs[,,3] <- m3
obs[,,4] <- m4
for(i in 1:II){
for(j in 1:JJ){
for(k in 1:KK){
esp[i,j,k] <- sum( obs[i,j,] )*sum( obs[,j,k] )/sum( obs[,j,] )}}}
G2 <- 2*sum(obs*log((ifelse(obs==0,.5,obs))/esp))
X2 <- sum( ((obs-esp)^2)/esp )
pG2 <- 1-pchisq(G2,80-32)
pX2 <- 1-pchisq(X2,80-32)
n <- II*JJ*KK
331
aptitud = 1:5,
educacion = 1:4,
ocupacion = 1:4),
X <- matrix(0,n,32)
X[,1] <- rep(1,n)
for(i in 1:4){ X[,1+i] <- ifelse(dat[,1]==i,1,0) }
for(j in 1:3){ X[,5+j] <- ifelse(dat[,2]==j,1,0) }
for(k in 1:3){ X[,8+k] <- ifelse(dat[,3]==k,1,0) }
cc <- 0
for(i in 1:4){
for(j in 1:3){
cc <- cc+1
X[,(11+cc)] <- X[,1+i]*X[,5+j]}}
cc <- 0
for(j in 1:3){
for(k in 1:3){
cc <- cc+1
X[,(23+cc)] <- X[,5+j]*X[,8+k]}}
nn <- as.vector(obs)
lvn <- function(pp){ sum(exp(X%*%pp)) - sum(nn*(X%*%pp)) }
p0 <- rep(1,32)
mm <- nlminb(p0,lvn)
332
tet <- mm$par
mug <- exp(X%*%tet)
aux <- as.vector(esp)
cbind(aux,mug)
lam <- tet[1]
lamx <- c(tet[2:5],0)
lamy <- c(tet[6:8],0)
lamz <- c(tet[9:11],0)
lamxy <- cbind( matrix(tet[12:23],ncol=3,byrow=T), c(0,0,0,0) )
lamxy <- rbind( lamxy, c(0,0,0,0) )
lamyz <- cbind( matrix(tet[24:32],ncol=3,byrow=T), c(0,0,0) )
lamyz <- rbind( lamyz, c(0,0,0,0) )
333
# Modelos logineales con variables ordinales

# p. 262 agresti
obs <- matrix( c(
20 , 24 , 80 ,82 , 22 , 38 , 104 , 125,
13 , 28 , 81 , 113 , 7 , 18 , 54 , 92), ncol=4, byrow=T)
n <- sum(obs)
II <- dim(obs)[1]
JJ <- dim(obs)[2]
esp <- outer(rowSums(obs),colSums(obs))/n
G2 <- 2*sum(obs*log(obs/esp)) # 12.03

X2 <- sum( ((obs-esp)^2)/esp ) # 11.99
pG2 <- 1-pchisq(G2,(II-1)*(JJ-1)) # .21
pX2 <- 1-pchisq(X2,(II-1)*(JJ-1))
# independencia no se rechaza, aunque puede haber

# algo de asociaci\’on
# Residuales estandarizados (p.81 agresti)

pip <- rowSums(obs)/n
ppj <- colSums(obs)/n
aux <- outer(1-pip,1-ppj)
res <- (obs-esp)/(sqrt(esp*aux))
ren = 1:4,
col = 1:4),
334
n <- 16
X <- matrix(0,n,8)
X[,1] <- rep(1,n)
for(i in 1:3){ X[,1+i] <- ifelse(dat[,1]==i,1,0) }
for(j in 1:3){ X[,4+j] <- ifelse(dat[,2]==j,1,0) }
ui <- (1:4 - (4+1)/2)
vj <- (1:4 - (4+1)/2)
X[,8] <- as.vector( outer(ui,vj) )
nn <- as.vector(obs)
lvn <- function(pp){ sum(exp(X%*%pp)) - sum(nn*(X%*%pp)) }
p0 <- rep(1,8)
mm <- nlminb(p0,lvn)
tet <- mm$par
mug <- exp(X%*%tet)
335
# Datos: Eleccion de Alimento
obs <- c(7,1,0,0,5,4,0,0,1,2,16,3,2,2,3,3,0,1,2,3,2,2,0,0,1,13,7,6,0,
0,3,9,1,0,2,0,1,0,1,0,3,7,1,0,1,8,6,6,3,5,2,4,1,1,4,0,1,0,0,
0,13,10,0,2,2,9,0,0,1,2,3,9,1,0,1,8,1,0,0,1)
eleccion = factor(c("peces","inverteb","reptiles","aves","otros"),
levels=c("peces","inverteb","reptiles","aves","otros")),
tamanio = factor(c("<2.3",">2.3"),levels=c("<2.3",">2.3")),
sexo = factor(c("m","f"),levels=c("m","f")),
lago = factor(c("hancock","oklawaha","trafford","george"),
levels=c("hancock","oklawaha","trafford","george"))),
frec = obs )
# (ver p.269 del agresti)
out <- loglm(frec ~
lago + sexo + tamanio + eleccion + lago*sexo*tamanio, data=dat,param=T,fit=T)
# colapsando por sexo
dat2 <- tapply(dat[,5],INDEX=dat[,c(1,2,4)],FUN=sum)
# Modelo de trabajo
out <- loglm(frec ~
lago + tamanio + eleccion + tamanio*eleccion + lago*eleccion + lago*tamanio, data=dat2,param=T,fit=T)
ff <- fitted(out)
pp <- out$par
pp$eleccion[2:5] - pp$eleccion[1]
aux <- t(pp$eleccion.lago)
round( t(aux[,-1]-as.vector(aux[,1])), 2 )
aux <- t(pp$eleccion.tamanio)
round( t(aux[,-1]-as.vector(aux[,1])), 2 )
336
# variables dummy (usados en agresti p. 270)
pp$eleccion[2:5] - pp$eleccion[1] + aux[,4] + aux2[,2]

-1.547696 -3.314116 -2.093287 -1.904025
aux[,1:3]-aux[,4]
lago
eleccion hancock oklawaha trafford
inverteb -1.6581477 0.936203874 1.121225
reptiles 1.2428591 2.458779926 2.935180
aves 0.6949637 -0.652871471 1.088049
otros 0.8262778 0.005402507 1.516169
aux2[,1]-aux2[,2]
1.4566892 -0.3521685 -0.6301975 0.3311839
337

Mod Est 4 G2

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Mod Est 4 G2

Cargado por

Copyright:

Formatos disponibles

Maestrı́a en Ciencias

Rogelio Ramos Quiroga

1. Análisis exploratorio de datos longitudinales

2. Modelos para datos longitudinales

4. Análisis de datos categóricos

• Diggle, P.J., Liang, K.Y. y Zeger, S.L. (1994), Analysis of longitu-

• Greene, W.H. (1997), Econometric analysis. Prentice Hall

• Skrondal, A. y Rabe-Hesketh, S. (2004), Generalized latent variable

• Haining, R. (1990), Spatial data analysis in the social and environ-

• Christensen, R. (2000), Linear models for multivariate, time series,

• Agresti,A. (1996), An introduction to categorical data analysis. Wiley

• Agresti,A. (1990), Categorical data analysis. Wiley

La caracterı́stica definidora de un estudio longitudinal es que los

• ¿Cuál es el patrón de desarrollo intraindividual?

• ¿Existen diferencias entre unidades?

• ¿Existen diferencias entre grupos de unidades?

• Salarios y niveles de productividad en el perı́odo 1978–1987 en

• Datos de crecimiento de abetos bajo diferentes regimenes de

• Distancias del centro de la pituitaria a la fisura maxilar en niñas

• Producción de leche en granjas españolas, 1993–1998.

1978 1980 1982 1984 1986

Salarios 1978−1987, Otros Países

1978 1980 1982 1984 1986

1978 1980 1982 1984 1986

Productividad 1978−1987, Otros Países

1978 1980 1982 1984 1986

0 200 400 600 800

0 200 400 600 800

Mano de Obra Alimento

Una forma de conceptualizar los datos longitudinales es suponer

Los siguientes datos son parte de un estudio con pacientes diabéticos

También, si queremos comparar dos poblaciones multivariadas, en

T 2 = (1/n1 + 1/n2)−1(ȳ1 − ȳ2)T Sp−1(ȳ1 − ȳ2)

ȳ1 = (6.8, 6.8, 6.4) y ȳ2 = (6.7, 7.0, 8.4)

Consideremos los datos mostra- Niñas

dos en la hoja 12. En este

niños (11 niñas y 16 niños) (am- Niños

bos puntos fácilmente identifica-

• Tendencia creciente de los perfiles individuales.

• Diferentes ordenadas al origen por individuo.

• Posiblemente (?) las pendientes son diferentes para cada indi-

• Aparentemente (?) los perfiles de los niños tienden a estar a un

Intereses del estudio:

• Caracterizar el crecimiento de la distancia pituitaria-fisura.

• Efectuar la caracterización por grupos (niñas, niños) si es que

Suponemos modelos lineales de crecimiento para la distancia pituitaria-

Modelo para niñas:

yij = β0m + β1mtj + eij , para i = 1, · · · , 11, j = 1, · · · , 4

yi = Xβh + ei, para i = 12, · · · , 27

Ası́, podemos escribir

y, (no es fácil, pero se puede ver que), los estimadores de máxima

Iniciamos las iteraciones con una ponderación de las matrices de

Una forma para contrastar hipótesis de la forma H0 : K T β = m,

En particular, si queremos comparar los dos perfiles medios, pode-

H0 : β0m = β0h y β1m = β1h

# Prueba de igualdad de modelos de regresion

El p-valor observado es pequeño, ası́ que se tiene evidencia es-

Las gráficas de los datos de distancias maxilares sugieren un mo-

La estructura de covarianza dentro de cada individuo es entonces

Ası́, si yi = (y1, · · · , y4)T , entonces

Si escribimos β0i = β0 + δi, con δi ∼ N (0, σ02), entonces

Tenemos nuevamente (ver hoja 27)

de aquı́ que la logverosimilitud perfil es