Está en la página 1de 337

Maestrı́a en Ciencias

en Estadı́stica Oficial

Modelos Estadı́sticos IV

Rogelio Ramos Quiroga

INEGI–CIMAT, 2008

1
Modelos Estadı́sticos IV

Este curso cubre tres temas, correspondientes a los análisis de tres tipos de
datos: Longitudinales, espaciales y categóricos. Se presentan modelos para
datos dependientes con estructura longitudinal; se da una introducción a
la técnica de predicción kriging para datos geográficos y se desarrollan los
temas de tablas de contingencia generales, regresión logı́stica y modelos
log-lineales para datos categóricos (nominales, ordinales). El objetivo del
curso es el de lograr un manejo metodológico fundamentado para analizar
datos con estructuras longitudinales, espaciales y en escalas categóricas.

Temario

1. Análisis exploratorio de datos longitudinales


a) Presentación gráfica de datos longitudinales
b) Exploración de estructuras de correlación

2. Modelos para datos longitudinales


a) El modelo de correlación uniforme
b) El modelo exponencial de correlación
c) Estimación bajo el modelo gaussiano
2
3. Estadı́stica espacial
a) Modelos para poblaciones espaciales
b) Variación espacial
c) Estimación vı́a máxima verosimilitud
d) Predicción vı́a kriging

4. Análisis de datos categóricos


a) Asociación parcial en tablas de contingencia
b) Métodos de Cochran–Mantel–Haenszel
c) Regresión logı́stica

5. Modelos log–lineales
a) Modelos log–lineales para tablas de contingencia
b) Inferencia
c) Modelos gráficos y colapsabilidad
d) Asociación de variables con datos ordinales

3
6. Modelos logit para datos multinomiales
a) Modelos logit con respuestas nominales
b) Modelos para respuestas ordinales

Referencias

• Diggle, P.J., Liang, K.Y. y Zeger, S.L. (1994), Analysis of longitu-


dinal data. Oxford

• Greene, W.H. (1997), Econometric analysis. Prentice Hall

• Skrondal, A. y Rabe-Hesketh, S. (2004), Generalized latent variable


modelling: Multilevel, longitudinal and structural equations models.
Chapman & Hall

• Haining, R. (1990), Spatial data analysis in the social and environ-


mental sciences. Cambridge.

• Christensen, R. (2000), Linear models for multivariate, time series,


and spatial data. Springer-Verlag

• Agresti,A. (1996), An introduction to categorical data analysis. Wiley


4

• Agresti,A. (1990), Categorical data analysis. Wiley


Evaluación del Curso

Tareas 30%
Examen Parcial 30%
Examen Final 40%

5
Datos Longitudinales

6
Introducción

La caracterı́stica definidora de un estudio longitudinal es que los


individuos (o unidades de observación) son medidos o evaluados a
través del tiempo con el fin de monitorear su patrón de desarrollo.
Los análisis para este tipo de observaciones deben responder a
preguntas tales como:

• ¿Cuál es el patrón de desarrollo intraindividual?

• ¿Existen diferencias entre unidades?

• ¿Existen diferencias entre grupos de unidades?

7
Ejemplos

• Salarios y niveles de productividad en el perı́odo 1978–1987 en


diferentes paı́ses.

• Datos de crecimiento de abetos bajo diferentes regimenes de


contaminación.

• Distancias del centro de la pituitaria a la fisura maxilar en niñas


y niños de edades 8,10,12 y 14.

• Producción de leche en granjas españolas, 1993–1998.

8
Salarios 1978−1987, Europa

Bélgica

15
Francia
Alemania

Salario USD/hora
5 10

Holanda
Italia
Reino Unido
0

1978 1980 1982 1984 1986

Salarios 1978−1987, Otros Países

Canadá
15

Japón
Corea
Salario USD/hora

USA
5 010

1978 1980 1982 1984 1986


9
Productividad 1978−1987, Europa

20 15
Productividad
5 10
Bélgica Holanda
Francia Italia
Alemania Reino Unido
0

1978 1980 1982 1984 1986

Productividad 1978−1987, Otros Países


20 15
Productividad
10

Canadá
Japón
Corea
USA
5 0

1978 1980 1982 1984 1986


10
Grupo Tratado con Ozono

8
2 x Log(Altura x Diametro)
0 2 4 6

0 200 400 600 800


Días

Grupo Control
8
2 x Log(Altura x Diametro)
0 2 4 6

0 200 400 600 800


Días 11
Niñas

30
Distancia
20 25

8 10 12 14
Edad

Niños
30
Distancia
20 25

8 10 12 14
Edad 12
Producción de Leche Vacas por Granja (log)

14

80
13

60
12

40
11

20
10
9

93 94 95 96 97 98 93 94 95 96 97 98

Mano de Obra Alimento

4e+05
4.0

3e+05
3.5
3.0

2e+05
2.5
2.0

1e+05
1.5

0e+00
1.0

93 94 95 96 97 98 93 94 95 96 97 98
13
Modelos Básicos

14
Estructura Multivariada

Una forma de conceptualizar los datos longitudinales es suponer


que los perfiles observados de cada unidad son una realización de
una variable aleatoria multivariada
   
y11 yn1
 y12   yn2 

y1 =  ..  , · · · , yn = 

 ...


.
y1m ynm
con  
σ11 σ12 · · · σ1m
 σ21 σ22 · · · σ2m 
Var(y) = 
 ... ... ... ... 

σm1 σm2 · · · σmm
y, posiblemente, con covariables
   
xT11 xTn1
 xT12   xTn2 
X1 = 
 ... ,
 · · · , Xn = 
 ... 

xT1m xTnm

15
Ejemplo: Estructura Multivariada

Los siguientes datos son parte de un estudio con pacientes diabéticos


con diferentes tipos de complicaciones. A cada uno de los 14 indi-
viduos participantes en la prueba se les pidió una pequeña prueba
de esfuerzo fı́sico al tiempo 0, y se registró una cierta respuesta
a los minutos 1, 5 y 10. Queremos simplemente comparar ambos
grupos en cuanto a sus respuestas medias.
Grupo Control
1 5 10 Diabéticos
7.6 8.7 7.0 1 5 10
10.1 8.9 8.6 8.5 5.6 8.4
11.2 9.5 9.4 7.5 5.0 9.5
10.8 11.5 11.4 12.9 13.6 15.3
3.9 4.1 3.7 8.8 7.9 7.3
6.7 7.3 6.6 5.5 6.4 6.4
2.2 2.5 2.4 3.2 3.4 3.2
2.1 2.0 2.0

16
Efecto del esfuerzo Efecto del esfuerzo
0 5 10 15 0 5 10 15

0
0

2
2

4
4

6
6

Diabéticos
Grupo Control

8
8

10
10

17
T 2 de Hotelling

Recuerde que si y1, · · · , yn son i.i.d. Np(µ, Σ), entonces, para con-
trastar la hipótesis H0 : µ = µ0 podemos usar:
T 2 = n(ȳ − µ0)T S −1(ȳ − µ0)
donde
n n
1 X 1 X
ȳ = yi, y S = (Sij ), con Sij = (yki − ȳi)(ykj − ȳj )
n i=1 n − 1 k=1
En general, la definición de la T 2 de Hotelling es T 2 = νz T A−1z,
donde z y A están independientemente distribuı́das Np(0, Γ) y
Wp(ν, Γ), respectivamente. En nuestro caso, puede verse que

nz = ȳ − µ0 ∼ Np(0, Σ), (n − 1)S ∼ Wp(ν = n − 1, Σ) (indep.)
y ası́, efectivamente, T 2 tiene la forma de una T 2 de Hotelling con
ν = n − 1. Una propiedad útil de esta variable es que
ν−p+1 2 p
T ∼ Fν−p+1
νp
18
T 2 de Hotelling (dos muestras)

También, si queremos comparar dos poblaciones multivariadas, en


términos de sus medias, H0 : µ1 = µ2, usamos

T 2 = (1/n1 + 1/n2)−1(ȳ1 − ȳ2)T Sp−1(ȳ1 − ȳ2)


donde
(n1 − 1)S1 + (n2 − 1)S2
Sp =
n1 + n2 − 2
y, nuevamente, bajo H0,
ν−p+1 2 p
T ∼ Fν−p+1
νp
con ν = n1 + n2 − 2.

19
Ejemplo: Control vs Diabéticos

En este caso, n1 = 8, n2 = 6 y
    
1  14.1 12.7 12.5 10.8 10.4 12.5 
Sp = (8 − 1)  12.7 12.4 11.9  + (6 − 1)  10.4 12.7 12.5 
8+6−2 12.5 11.9 11.7 12.5 12.5 16.2 
 
12.7 11.8 12.5
=  11.8 12.5 12.1 
12.5 12.1 13.6
además

ȳ1 = (6.8, 6.8, 6.4) y ȳ2 = (6.7, 7.0, 8.4)


y la T 2 de Hotelling es T 2 = 6.35. El p-valor asociado es 0.217,
de aquı́ que la evidencia no es lo suficientemente fuerte como para
declarar diferencias significativas entre el grupo control y el grupo
de diabéticos.

20
Comparación Control vs Diabéticos

control
diabéticos

15
Efecto del esfuerzo
5
0 10

0 2 4 6 8 10

21
Modelos de Regresión

22
Modelos de Regresión

Consideremos los datos mostra- Niñas

dos en la hoja 12. En este

30
estudio, llevado a cabo por

Distancia
25
ortodoncistas, se midió la dis-

20
tancia entre la glándula pitui-
taria y la fisura maxilar de 27 8 10 12 14

niños (11 niñas y 16 niños) (am- Niños

bos puntos fácilmente identifica-

30
bles en placas de rayos-X). Es-

Distancia
tas mediciones fueron efectuadas

25
cada dos años, iniciando el es-
20
tudio cuando los niños tenı́an 8
años y terminando a los 14. 8 10 12 14

23
Modelos de Regresión

De la gráfica observamos:

• Tendencia creciente de los perfiles individuales.

• Diferentes ordenadas al origen por individuo.

• Posiblemente (?) las pendientes son diferentes para cada indi-


viduo.

• Aparentemente (?) los perfiles de los niños tienden a estar a un


mayor nivel que los de las niñas.

Intereses del estudio:

• Caracterizar el crecimiento de la distancia pituitaria-fisura.

• Efectuar la caracterización por grupos (niñas, niños) si es que


es necesario.
24
Un modelo preliminar para los datos

Suponemos modelos lineales de crecimiento para la distancia pituitaria-


fisura, consideraremos modelos separados para niñas y niños.

Modelo para niñas:

yij = β0m + β1mtj + eij , para i = 1, · · · , 11, j = 1, · · · , 4


o, equivalentemente
 
1 t1 " #
 1 t2  β0m
 
yi =   + ei ≡ Xβm + ei, donde ei ∼ Np(0, Σ)
 1 t3  β1m
1 t4
en forma semejante, para los niños tenemos

yi = Xβh + ei, para i = 12, · · · , 27

25
Un modelo preliminar para los datos

Ası́, podemos escribir


     
y1 X1 e1
 ...   ... · ...
    ¸ 



 y11   X11  βm  e11 
 y12
= X12
 β +
e12
, donde ei ∼ i.i.d. Np (0, Σ)
    h  
 ...   ...   ... 
y27 X27 e27
y
(
[X, 0] si i = 1, · · · , 11
Xi =
[0, X ] si i = 12, · · · , 27
Resumiendo, tenemos
y1 ∼ N (X1 β, Σ)
... (independientes)
y27 ∼ N (X27 β, Σ)

26
Estimación del Modelo

En general, si tenemos
y1 ∼ N (X1 β, Σ)
... (independientes)
yn ∼ N (Xn β, Σ)
la verosimilitud es
n
Y 1 © T −1
ª
L(β, Σ) = p/2 Σ1/2
exp (y i − X i β) Σ (y i − X i β)
i=1
(2π)

y, (no es fácil, pero se puede ver que), los estimadores de máxima


verosimilitud son
à n !−1 à n
!
X X
βb = b −1Xi
XiT Σ b −1yi
XiT Σ
i=1 i=1
X n
b = 1
Σ b i − Xiβ)
(yi − Xi β)(y b T
n i=1
Note que estas expresiones tienen que iterarse necesariamente.
Una posibilidad es iniciar con la matriz de varianzas y covarianzas
muestral de y1, · · · , yn.
27
Estimación del Modelo

Iniciamos las iteraciones con una ponderación de las matrices de


varianzas y covarianzas de los dos grupos
    
 4.51 3.35 4.33 4.36 6.02 2.29 3.63 1.61 
 
 3.35 3.62 4.03 4.08   2.29 4.56 2.19 2.81 
S0 = 10   + 15  /25

 4.33 4.03 5.59 5.47 3.63 2.19 7.03 3.24 

4.36 4.08 5.47 5.94 1.61 2.81 3.24 4.35
 
5.42 2.71 3.91 2.71
 2.71 4.18 2.93 3.32 
= 
3.91 2.93 6.45 4.13 
2.71 3.32 4.13 4.99
al cabo de 4 iteraciones obtenemos las estimaciones finales
βb = (17.425, 0.476, 15.842, 0.827)
 
5.12 2.44 3.61 2.52
b = 
Σ
2.44 3.93 2.72 3.06 
 3.61 2.72 5.98 3.82 
2.52 3.06 3.82 4.62
La siguiente gráfica muestra los perfiles medios estimados.

28
Distancia Distancia
20 25 30 20 25 30

8
8

10
10
Niñas

Niños

12
12

14
14

29
Prueba de Hipótesis

Una forma para contrastar hipótesis de la forma H0 : K T β = m,


consiste en usar el estadı́stico de Wald
W = (K T βb − m)T Vbβb(K T βb − m)
b
donde Vbβb es un estimador de la varianza de β:
 −1
n
X
Vbβb =  XiT ΣX
c 
i
i=1
Si H0 es cierta, entonces esperamos que W se comporte como una
realización de una variable χ2
r , donde r es el número de renglones
de K T .

En particular, si queremos comparar los dos perfiles medios, pode-


mos usar
" #
1 0 −1 0
KT =
0 1 0 −1
30
Prueba de Hipótesis

La hipótesis considerada es

H0 : β0m = β0h y β1m = β1h


# Aproximacion de la varianza del est. de coef. de reg.
Vbe <- solve( n1*t(X1)%*%solve(S0,X1) + n2*t(X2)%*%solve(S0,X2) )

# Prueba de igualdad de modelos de regresion


Kt <- matrix( c(1,0,-1,0,0,1,0,-1), ncol=4, byrow=T )
W <- t(bet) %*% t(Kt) %*% solve( Kt%*%Vbe%*%t(Kt), Kt%*%bet ) # 16.3
1-pchisq(W,2) # 0.0002844763

El p-valor observado es pequeño, ası́ que se tiene evidencia es-


tadı́stica de que el crecimiento de la distancia pituitaria–fisura en
el maxilar de los niños es diferente al de las niñas.

31
Modelos con Efectos Aleatorios

32
Modelos con Efectos Aleatorios

Las gráficas de los datos de distancias maxilares sugieren un mo-


delo de interceptos aleatorios
(
β0i + β1mtj + eij para i = 1, · · · , 11
yij =
β0i + β1htj + eij para i = 12, · · · , 27
aquı́ suponemos que los interceptos, β0i’s, son aleatorios e inde-
pendientes con distribución N (β0, σ02); también asumimos que son
independientes de las desviaciones eij ’s las cuales son i.i.d N (0, σ 2).
En otras palabras, condicionado a la realización de una ordenada
al origen, el perfil de crecimiento de un individuo consiste de una
tendencia lineal creciente afectada por ruido aleatorio.

La estructura de covarianza dentro de cada individuo es entonces


(
σ02 + σ 2 si j = k
Cov(yij , yik ) =
σ02 si j 6= k

33
Modelos con Efectos Aleatorios

Ası́, si yi = (y1, · · · , y4)T , entonces


 
σ02 + σ 2 σ02 σ02 σ02
 2 

 σ0 σ02 + σ 2 σ02 σ02 

Var(yi) =  
 σ02 σ02 σ02 + σ 2 σ02 
σ02 σ02 σ02 σ02 + σ 2
 
1 ρ ρ ρ
 ρ 1 ρ ρ 
2  
= τ   ≡ τ 2V0, donde τ 2 = σ02 + σ 2
 ρ ρ 1 ρ 
ρ ρ ρ 1
y ρ = σ02/(σ02 + σ 2), (a la estructura de la matriz V0 se le denomina
matriz de correlación uniforme).

Si escribimos β0i = β0 + δi, con δi ∼ N (0, σ02), entonces


(
1 si i = 1, · · · , 11
yij = β0+β1mxitj +β1h(1−xi)tj +δi+eij , con xi =
0 si i = 12, · · · , 27
34
Modelos con Efectos Aleatorios

Tenemos nuevamente (ver hoja 27)



y1 ∼ N (X1β, 2
τ V0) 

... independientes

yn ∼ N (Xnβ, τ 2V0) 
donde β = (β0, β1m, β1h)T , y
  

 1 t1 0

  .. .. .. 

  . . .  si i = 1, · · · , 11



 1 t4 0

Xi =  



 1 0 t1

  .. .. .. 

  . . .  si i = 12, · · · , 27



1 0 t4

35
Ajuste del Modelo

La logverosimilitud es
n
1 X T V −1 (y −X β)− mn log(τ 2)− n log|V |
l(β, τ 2, V 0 ) = C− (yi −X i β) 0 i i 0
2τ 2 i=1 2 2
si fijamos V0, esto es “perfilamos”, los estimadores de máxima
verosimilitud son:
à n !−1 à n
!
X X
b 0) =
β(V XiT V0−1Xi XiT V0−1 yi
i=1 i=1
n
X
1 1 b T V −1(yi − Xiβ)
b
τb2 (V0 ) = SCE(V0 ) = (yi − Xi β) 0
mn nm i=1

de aquı́ que la logverosimilitud perfil es


mn n
l(V0 ) = C − log[SCE(V0 )] − log|V0 |
2 2
Note que aquı́ V0 corresponde a una matriz de correlación uni-
forme, sin embargo, podemos usar otras estructuras de correlación
que consideremos convenientes.
36
logverosimilitud perfil
−280 −260 −240 −220 −200

0.0
0.2
0.4
ρ
0.6
Estimación de ρ

0.8
1.0

37
Ajuste del Modelo

En la hoja anterior mostramos la logverosimilitud perfil para V0, la


cual, en este caso, depende de un sólo parámetro, ρ, esto es V0 =
V0(ρ). Una estimación puntual para esta correlación la tenemos
de la gráfica:
ρb = 0.6177
b
con este valor y las expresiones para β(V 2
0 ) y τb (V0 ) obtenemos

βb = (16.761, 0.522, 0.755) y τb2 = 4.926


y de las expresiones τ 2 = σ02 + σ 2 y ρ = σ02/(σ02 + σ 2), obtenemos:

σ02 = 3.043 y σ 2 = 1.883


El perfil medio esperado es

ybij = 16.761 + 0.522xitj + 0.755(1 − xi)tj

38
Errores Estándar

Para el cálculo de errores estándar, se puede ver que βb tiene la


estructura del estimador de mı́nimos cuadrados generalizados (es-
timados)
³ ´−1 ³ ´
βb = T −1
X Vb X T −1
X Vb y
y podrı́amos usar
³ ´−1
b =
Var(β) T −1
X Vb X
sin embargo, esta expresión, en general, subestima las varianzas
reales de los estimadores de mı́nimos cuadrados generalizados,
además de que es sensible a malas especificaciones de la estruc-
tura de covarianza. Comentaremos más adelante sobre una forma
más robusta de estimar errores estándar.

39
Modelo con Efectos Fijos

40
Modelo con Efectos Fijos

En el modelo con interceptos aleatorios se supone que cada unidad


tiene un intercepto especı́fico el cual ocurre de acuerdo con cierta
distribución de probabilidad. Una alternativa a este enfoque es
el de suponer que los interceptos especı́ficos son parámetros de-
sconocidos (efectos fijos) que hay que estimar.

Los datos siguientes (ver Greene, pág. 614) provienen de un es-


tudio sobre el costo de producción de energı́a eléctrica para un
número grande de compañı́as (aquı́ sólo tenemos 6), cada una ob-
servada por un cierto número de años. Los objetivos primarios de
ese estudio eran la estimación de las tasas de cambio tecnológico
y la evaluación de indicadores de economı́as de escala.

En la hoja 43 presentamos gráficamente los datos de las 6 compañı́as,


en azul tenemos energı́a eléctrica generada (log millones de KWh)
y, en rojo, los costos totales de generación (log millones de USD).
41
Datos Costo-Output en la Industria Eléctrica

Tiempo
t=1 t=2 t=3 t=4
Co. 1955 1960 1965 1970
i=1 costo 3.154 4.271 4.584 5.849
output 214 419 588 1,025
i=2 costo 3.859 5.535 8.127 10.966
output 696 811 1,640 2,506
i=3 costo 19.035 26.041 32.444 41.180
output 3,202 4,802 5,821 9,275
i=4 costo 35.229 51.111 61.045 77.885
output 5,668 7,612 10,206 13,702
i=5 costo 33.154 40.044 43.125 57.727
output 6,000 8,222 8,484 10,004
i=6 costo 73.050 98.846 138.880 191.560
output 11,796 15,551 27,218 30,958

42
Compañía 1 Compañía 2

10

10
8

8
6

6
4

4
2

2
0

0
1 2 3 4 1 2 3 4

Compañía 3 Compañía 4
10

10
8

8
6

6
4

4
2

2
0

0
1 2 3 4 1 2 3 4

Compañía 5 Compañía 6
10

10
8

8
6

6
4

log output
2

log costo

43
0

1 2 3 4 1 2 3 4
Costo-Output en la Industria Eléctrica

Las gráficas en las dos siguientes láminas dan formas alternativas


(y complementarias) de visualizar los datos anteriores.

• Primero tenemos el despligue de los datos en forma de datos


transversales (cross-sectional). Cada gráfica presenta la situación
en un punto dado del tiempo. Para cada año, la relación log-
costo vs logoutput es lineal y creciente; también se observa
una tendencia creciente en las pendientes.

• Luego tenemos la relación logcosto vs logoutput tanto en


una forma global como en una estructura longitudinal; ésta
última gráfica parece indicar que las economı́as de escala no
entran en acción en esta industria.

44
Año 1955 Año 1960

6
5

5
4

4
Log(Costo)

Log(Costo)
3

3
2

2
1

1
5 6 7 8 9 10 11 5 6 7 8 9 10 11
Log(Output) Log(Output)

Año 1965 Año 1970


6

6
5

5
4

4
Log(Costo)

Log(Costo)
3

3
2

2
1

5 6 7 8 9 10 11 5 6 7 8 9 10 11
45
Log(Output) Log(Output)
Relación Costo−Output

6
5
Log(Costo)
2 3 1 4

5 6 7 8 9 10 11
Log(Output)

Relación Costo−Output
6
5
Log(Costo)
2 3 1 4

5 6 7 8 9 10 11
Log(Output) 46
Modelo con Efectos Fijos

Consideremos un modelo similar al de interceptos aleatorios (ver


hoja 33),

yit = αi + xT
it β + eit , i = 1, · · · , n t = 1, · · · , m
pero ahora, las αi’s son simples parámetros desconocidos (efectos
individuales), esto es, tenemos tantos interceptos como unidades
(o individuos). Ahora, poniendo juntos los m datos de la i-ésima
unidad:
yi = 1αi + Xiβ + ei
donde
     
1 x T β1
 ..i1 
=  ... 
   .. 
1 , Xi =  .  y β= . 
1 m×1 xT
im m×k βp k×1
aquı́ estamos suponiendo que tenemos k covariables.
47
Modelo con Efectos Fijos

Los n modelos de la hoja anterior los ponemos en una sola ecuación:


        
y1 1 0 ··· 0 α1 X1 e1
 y2   0 1 ··· 0  α2   X2   e2 
        
 ... = ... ... ... ...  ... + ... β +  ... 
        
yn 0 0 ··· 1 αn Xn en
las dimensiones de las matrices/vectores que aparecen en esta
ecuación son, respectivamente: nm × 1 , nm × n , n × 1 , nm × k ,
k × 1 y nm × 1.

Usando una notación más compacta, podemos escribir:


y = Dα + Xβ + e
o, equivalentemente
" #
α
y = [D X] + e ≡ Wγ + e
β

48
Estimación del Modelo

Para estimar γ, en el modelo y = W γ + e, usamos las ecuaciones


normales W T W γ = W T y, y recordando cosas que vimos en Mo-
delos II (ver hoja 31 de ese curso)
· ¸ · ¸
DT D DT X DT y DT D DT X DT y

XT D XT X XT y X T X − X T D(DT D)−1DT X
O X T y − X T D(DT D)−1 DT y
· T ¸
D D DT X DT y

O XT M X XT M y

donde M = I − D(DT D)−1DT . De aquı́ es fácil ver que

βb = (X T M X)−1X T M y
b = (D T D)−1D T (y − X β)
α b

La matriz M es nm × nm, ası́ que en aplicaciones con un gran


número de unidades esto puede ser computacionalmente prohibitivo.
Sin embargo, M tiene una estructura simple que puede aprovecharse.

49
Aspectos Computacionales en el Ajuste del Modelo

Recuerde que D es mn × n, de forma:


 
1m 0 ··· 0
 0 1m ··· 0 
 
D= ... ... . . . ... 
 
0 0 · · · 1m
entonces DT D = mIn y, por lo tanto M = I − D(DT D)−1DT =
I−m 1 DD T . Ası́ que

 
M0 O · · · O
 O M0 · · · O  1
 
M = ... ... . . . ... , donde M0 = Im − Jm
  m
O O · · · M0
y Jm es una matriz m×m de puros 1’s. Además M es idempotente,
entonces (siguiente hoja · · · )

50
Aspectos Computacionales en el Ajuste del Modelo

βb = (X T M X)−1 X T M y = [(M X)T (M X)]−1 (M X)T M y


   
M0 X1 M0 y1
T T 
= ([(M0 X1 ) · · · (M0 Xn ) ] .
.. ) ([(M0X1) · · · (M0Xn) ] 
−1 T T ... )
M0 Xn M 0 yn
à n !−1 à n !
X X
= XiT M0 Xi XiT M0yi y
i=1 i=1
α T b
b = (D D)−1DT (y − X β)
 
1T 0T · · · 0T  
y − X b
β
1 
 0T 1T · · · 0T 

1
...
1

= . ... . . . ...
m  .. 
0T 0T · · · 1T yn − Xn βb

de aquı́ que α b i = 1 1T (yi − Xiβ),


b i = 1, · · · , n. Estas expresiones
m
para βb y las α
b i’s son más “fáciles” que las dadas en la hoja 49 (ver
páginas 616 y 617 del Greene).

51
Estimación del Modelo Costo-Output

Consideraremos un modelo con efectos individuales en los inter-


ceptos de la forma

logCit = αi + logYitβ + eit, i = 1, · · · , 6, t = 1, · · · , 4


En este caso, la implementación del procedimiento de estimación
anterior, nos lleva a

βb = 0.674
α
b 1 = −2.69, α
b 2 = −2.91
α
b 3 = −2.44, α
b 4 = −2.13
α
b 5 = −2.31, α
b 6 = −1.90

La siguiente lámina presenta los modelos ajustados en forma gráfica.

52
Relación Costo−Output

6
5
4
Log(Costo)
3 2
1

5 6 7 8 9 10 11
Log(Output)

53
Tarea 1
1. (Ver Greene pág. 642). Considere los siguientes datos de inversión (y) y
utilidad (x) de n = 3 compañı́as sobre m = 10 perı́odos:
i=1 i=2 i=3
t y x y x y x
1 13.32 12.85 20.30 22.93 8.85 8.65
2 26.30 25.69 17.47 17.96 19.60 16.55
3 2.62 5.48 9.31 9.16 3.87 1.47
4 14.94 13.79 18.01 18.73 24.19 24.91
5 15.80 15.41 7.63 11.31 3.99 5.01
6 12.20 12.59 19.84 21.15 5.73 8.34
7 14.93 16.64 13.76 16.13 26.68 22.70
8 29.82 26.45 10.00 11.61 11.49 8.36
9 20.32 19.64 19.51 19.55 18.49 15.44
10 4.77 5.43 18.32 17.06 20.84 17.87

• Combine los datos y encuentre los estimadores de mı́nimos cuadrados del


modelo
yit = α + βxit + eit
• Estime el modelo de efectos fijos
yit = αi + βxit + eit
y pruebe la hipótesis de que el término constante es el mismo para las tres
compañı́as.
• Estime el modelo anterior pero suponiendo que las αi ’s son i.i.d. N (α, σa2 ).

54
Tarea 1 (cont.)
2. Visite los siguientes sitios y haga un reporte sobre la estructura de algunas
bases de datos longitudinales disponibles en esos lugares
• www.isr.umich.edu/src/psid/index.html (Panel Study Income Dynamics)
• www.bls.gov/nls/ (National Longitudinal Survey)

3. Se efectuó un estudio para comparar el efecto de dos medicamentos (A y


B). El estudio fué efectuado primero en una prueba piloto con 5 voluntarios;
en la primera fase de esta prueba piloto se les administró el medicamento
A y se registraron los niveles de cierto antı́geno en la sangre al cabo de
1, 2, 3 y 6 horas. Después de un perı́odo de espera para eliminaciones
de efectos residuales del medicamento A, a los mismos 5 individuos se les
administró B y nuevamente se midieron los niveles de antı́genos a las 1, 2,
3, y 6 horas. Compare los dos medicamentos.
Medicamento A Medicamento B
i Tiempo (hrs) Tiempo (hrs)
1 2 3 6 1 2 3 6
1 1.08 1.99 1.46 1.21 1.48 2.50 2.62 1.95
2 1.19 2.10 1.21 0.96 0.62 0.88 0.68 0.48
3 1.22 1.91 1.36 0.90 0.65 1.52 1.32 0.95
4 0.60 1.10 1.03 0.61 0.32 2.12 1.48 1.09
5 0.55 1.00 0.82 0.52 1.48 0.90 0.75 0.44

Entregar: Lunes 28 de enero.


55
Apéndice: Inversa de una Matriz Particionada

Para futura referencia, obtenemos la inversa de la matriz W T W de la hoja 49.


· T T
¸ · T T
¸
D D D X I O D D D X I O
T T ∼ T T T −1 ∼
X D X X O I O X M X −X D(D D) I
donde M = I − D(D T D)−1 DT . Definamos H = X T M X,
· T T −1 T T −1 T −1
¸
D D O I + D XH X D(D D) −D XH
∼ T T −1
O H −X D(D D) I
de aquı́ obtenemos la inversa
· T −1 T −1 T −1 T T −1 T −1 T −1
¸
(D D) + (D D) D XH X D(D D) −(D D) D XH
(W T W )−1 = −1 T T −1
−H X D(D D) H −1
· ¸
(DT D)−1 DT (I + X(X T M X)−1X T )D(DT D)−1 −(DT D)−1DT X(X T M X)−1
=
−(X T M X)−1 X T D(DT D)−1 (X T M X)−1

56
Estimación de Errores Estándar

Recuerde el modelo de efectos fijos de la hoja 48:

y = Dα + Xβ + e, con e ∼ Nnm(0, σ 2I)


donde n es el número de individuos o unidades y m es el número
de observaciones por unidad. Suponemos (como en hoja 33) que
las desviaciones del modelo, eij ’s, son i.i.d. N (0, σ 2); esto es,
Var(y) = σ 2Inm.

En la hoja 49 tenemos los estimadores de mı́nimos cuadrados:

βb = (X T M X)−1X T M y
b = (D T D)−1D T (y − X β)
α b

primero necesitamos expresiones para las varianzas de los


b y Var(α).
estimadores Var(β) b

57
Cálculo de Varianzas de los Estimadores
en el Modelo de Efectos Fijos

b = Var(X T M X)−1X T M y)
Var(β)
= (X T M X)−1X T M Var(y)M T X(X T M X)−1
= σ 2(X T M X)−1X T M M T X(X T M X)−1 = σ 2(X T M X)−1
Por otro lado
b = Var((D T D)−1D T (y − X β))
Var(α) b

= (DT D)−1DT Var(y − X β)D(D


b T D)−1

donde
b = Var(y) + XVar(β)X
Var(y − X β) b T − 2Cov(y, X β)
b

y esta covarianza es
b = Cov(y, X(X T M X)−1X T M y) = σ 2M X(X T M X)−1X T
Cov(y, X β)
58
Cálculo de Varianzas de los Estimadores
en el Modelo de Efectos Fijos

entonces
b = Var(y) + XVar(β)X
Var(y − X β) b T − 2Cov(y, X β)
b

= σ 2I + σ 2X(X T M X)−1X T − 2σ 2M X(X T M X)−1X T


= σ 2I + σ 2[I − 2M ]X(X T M X)−1X T
de aquı́ que

b = (D T D)−1D T (σ 2I + σ 2[I − 2M ]X(X T M X)−1X T )D(D T D)−1


Var(α)
σ2 σ2 T
= I + 2 D [I − 2M ]X(X T M X)−1X T D
m m
σ2 σ2 T
= I + 2 D X(X T M X)−1X T D pues DT M = O
m m
σ2
= I + (DT X/m)Var(β)(D
b T X/m)T
m
59
Estimación de Errores Estándar

En la hoja anterior tenemos la expresión DT X/m, veamos su es-


tructura:
      
1T 0T ··· 0T X T
1 X x̄T
 T  1   T 1   1 
1 T 1
 0 1T · · · 0T   X2 

1
 1 X2 
  x̄T 
 2 
D X= . ... . . . ...   ...  = ... =  ... 
m m
 ..   m


  
0T 0T · · · 1T Xn 1T Xn x̄T
n
esto es, DT X/m es una matriz n × k, donde, por ejemplo, el primer
renglón x̄T
1 es un vector con las medias de cada una de las k
covariables asociadas al individuo 1, y ası́ sucesivamente.

Entonces, la varianza de los interceptos es


 
x̄T
 1 
σ2  x̄T 
b
h i
Var(α)
b = I + 2 
 ...  Var(β) x̄1 x̄2 · · · x̄n
m  
x̄T
n

60
Estimación de Errores Estándar

Finalmente, para la estimación de errores estándar necesitamos


estimar la varianza, σ 2, para ello usamos el Cuadrado Medio del
Error del modelo
n X
X m
2 1 T b 2 SCE
CME = σ
b = (yit − α
b − xit β) ≡
nm − n − k i=1 t=1 nm − n − k
Resumiendo, los errores estándar para el modelo de efectos fijos
se obtienen de las siguientes varianzas:
 −1
n
X
b = σ 2(X T M X)−1 = σ 2 
Var(β) XiT M0Xi
i=1
σ2
Var(αb i) = + x̄T b
i Var(β)x̄i , i = 1, · · · , n
m
donde M0 = Im − Jm/m, (ver pág. 617 del Greene).

61
Ejemplo

En la hoja 52 reportamos estimaciones de los parámetros de un


modelo para relacionar Costo con niveles de Producción de 6
compañı́as eléctricas:

βb = 0.674
α
b 1 = −2.69, α
b 2 = −2.91, α
b 3 = −2.44,
α
b 4 = −2.13, α
b 5 = −2.31, α
b 6 = −1.90

Con las expresiones desarrolladas en las hojas anteriores tenemos



b
ErrEst(β) = 0.0611, σ b = CME = 0.1246
ErrEst(α
b 1) = 0.3828, ErrEst(α
b 2) = 0.4396, ErrEst(α
b 3) = 0.5287,
ErrEst(α
b 4) = 0.5588, ErrEst(α
b 5) = 0.5533, ErrEst(α
b 6) = 0.6081

(ver pág. 618 del Greene)

62
Pruebas de Hipótesis en el Modelo con Efectos Fijos

63
Pruebas de Hipótesis en el Modelo con Efectos Fijos

En realidad el modelo de efectos fijos (bajo los supuestos que


hemos usado) es un modelo lineal usual como los tratados en el
curso de Modelos Estadı́sticos II; ası́, por ejemplo, si deseamos
una prueba para detectar diferencias entre individuos, de la forma

H0 : α1 = α2 = · · · = αn
entonces podemos usar el estadı́stico F (ver hoja 76 de notas de
Mod. Est. II)
(K T γb − m)T [K T (W T W )−1K]−1(K T γb − m)/q
F =
SCE/(nm − n − k)
En base a este estadı́stico, rechazamos la hipótesis H0 si
q
F > Fnm−n−k

64
Pruebas de Hipótesis en el Modelo con Efectos Fijos

Recuerde el modelo con efectos fijos:


y = Dα + Xβ + e, con e ∼ Nnm(0, σ 2I)
" #
α
= [D X] + e = Wγ + e
β
entonces H0 : α1 = · · · = αn, puede expresarse como H0 : K T γ = 0,
donde K T tiene q = n − 1 renglones
 
1 0 · · · 0 −1 0
 0 1 · · · 0 −1 0 
 
KT =  ... ... . . . ... ... ...  ≡ [LT 0]
 
0 0 · · · 1 −1 0
Note que, en el cálculo de F , la expresión K T (W T W )−1K, es
" #
L
[LT 0](W T W )−1 = LT RL
0T
donde R es el bloque (1,1) de (W T W )−1, (ver hoja 56).
65
Pruebas de Hipótesis en el Modelo con Efectos Fijos

Entonces, el estadı́stico F para la prueba de efectos individuales


es
b T L(LT RL)−1LT α
α b
F =
(n − 1)CME
de la hoja 56 tenemos

R = (DT D)−1DT [I + X(X T M X)−1X T ]D(DT D)−1


1 T X(X T M X)−1 X T D]
= [mIn + D
m2
1
= In + (DT X/m)(X T M X)−1(DT X/m)T
m  
x̄T
1  ..1 
= In +  .  (X T M X)−1[x̄1, · · · , x̄n]
m
x̄T
n

66
Pruebas de Hipótesis en el Modelo con Efectos Fijos

Para los datos de Costo y Producción, consideremos la hipótesis

H0 : α1 = · · · = α6
El estadı́stico de prueba es
b T L(LT RL)−1LT α/(n
α b − 1) 0.1502
F = = = 9.6715
CME 0.0155
5 > 9.6715) = 0.00016 y, por lo tanto,
y el p-valor asociado es P (F17
las compañı́as tienen interceptos estadı́sticamente diferentes.

67
Nuevamente: Conceptos Básicos en Regresión

68
Variables Regresoras Estocásticas

Consideremos el siguiente problema: En base a valores observados


de una variable x = (x1, · · · , xk )T , queremos predecir el valor de
una variable aleatoria y. Supongamos que
 
y " # Ã" # " #!
 x1  y µy σy2 T
σxy
 
 ... ≡ ∼ N1+k ,
  x µx σxy Σx
xk
El predictor que andamos buscando es una función de x1, · · · , xk ,
esto es,
m = m(x) = m(x1, · · · , xk )
y queremos que sea “bueno”. Una forma de medir esto es me-
diante el Error Cuadrático Medio: ECM = E(y − m)2.

69
Predictor Óptimo

El predictor buscado, m(x), deseamos que minimice el ECM:

ECM(m) = E(y − m)2 = Ex[ E[ (y − m)2 | x ] ],


aquı́ se está usando una propiedad del valor esperado (ver pág. 82
del Greene):

E(y) = Ex[ E(y | x) ], o, también E[h(y, x)] = Ex[ E(h(y, x) | x) ]


Ahora, el problema de encontar m que minimice ECM(m) es, en
principio, un problema difı́cil (de cálculo variacional), sin embargo,
en este caso se puede encontrar la solución fácilmente, mini-
mizando la expresión E[ (y − m)2 | x ], para cada x. Se puede
ver que esta expresión, para x dada, se minimiza si m = E[ y | x ].
Entonces, (ver Greene, pág. 90) el predictor óptimo es:
T Σ−1(x − µ )
yb = m(x) = µy + σxy x x

70
Datos y Regresión

Supongamos ahora que tenemos datos sobre (y, x1, · · · , xk ):


 
y1 x11 · · · x1k
 y2 x21 · · · x2k 
 
 ... ... ... ...  = [y X]
 
yn xn1 · · · xnk
ahora, si quiero predecir y, en base a x = (x1, · · · , xk )T , entonces,
una técnica que podemos usar es regresión:
b + xT βb
yb = α
Queremos ver que relación hay entre esta expresión y la obtenida
en la hoja anterior:
yb = T Σ−1 (x − µ )
µy + σxy x x
= T Σ−1 µ + σ T Σ−1x
µy − σxy x x xy x
= µy − µT −1 T −1
x Σx σxy + x Σx σxy
= ( µy − µT −1 T −1
x Σx σxy ) + x ( Σx σxy )

71
Ajuste de un Modelo de Regresión

Ajustemos el modelo
" #
α
y = 1α + Xβ + e = [1 X] +e
β
note que es como el modelo de la hoja 48, sólo que con 1 en vez
de D, entonces los estimadores son (ver hoja 49):

βb = (X T M X)−1X T M y
b = (1T 1)−11T (y − X β)
α b

donde M = I − 1(1T 1)−11T = I − 11T /n = I − J/n. Entonces


· ¸−1 · ¸
1 1
βb = (M X)T (M X) (M X)T (M y)
n n
1 T b
α = (1 1) 1 (y − X β) = ȳ − 1 X β = ȳ − x̄T βb
b T −1 T b
n
Note que M X es la matriz X pero con sus columnas centradas.
72
Ajuste de un Modelo de Regresión

1 (M X)T (M X) no es otra cosa que la matriz de


Ası́, la expresión n
varianzas y covarianzas estimadas de las x’s, Σ c (ver hoja 18).
x
Similarmente, n 1 (M X)T (M y) es la covarianza estimada de x con y,

σ
b xy . Esto es, los estimadores de regresión, pueden escribirse como
· −1 1 ¸ · ¸
1 T
b
β= (M X) (M X) (M X)T (M y) = Σ
c−1σ
x b xy
n n
b = ȳ − x̄T βb = µ
α bT
by − µ c−1 b
x Σx σ xy
Entonces, el predictor basado en regresión es:
³ ´
yb = b + xT βb
α = µ bT
by − µ c−1σ
Σ
x x b xy
c−1σ
+ xT Σx b xy
y el predictor óptimo (al final de hoja 71) es:
³ ´
yb = E[ y | x ] = µy − µT −1
x Σx σxy + xT ( Σ−1
x σxy )
de aquı́ vemos porqué a E[ y | x ] se le llama la regresión de y
sobre x (ver Greene, pág. 80).
73
Variables Regresoras Estocásticas

Lo que acabamos de ver en las hojas anteriores es que mı́nimos


cuadrados es razonable, aún con regresoras estocásticas. Sin em-
bargo, las propiedades estadı́sticas que vimos en Modelos II fueron
obtenidas bajo el supuesto de X fija. La siguiente lámina reproduce
la hoja 15 de Modelos II. Si eliminamos el supuesto 6, entonces
3, 4 y 5 cobran sentido. El supuesto 3 tiene que ver con insesga-
bilidad y el supuesto 4 permite que el Teorema de Gauss -Markov
siga siendo válido en el caso estocástico.

Por ejemplo, si el modelo es y = Xβ + e y βb = (X T X)−1X T y,


entonces βb es insesgado pues:
b = E E[(X T X)−1X T y | X] = E E[β + (X T X)−1X T e | X]
E(β) X X
= EX [β + 0 | X] = β

74
Supuestos Básicos

Una forma más técnica para nuestra lista de supuestos es

1. y = Xβ + e

2. X es una matriz n × p de rango p

3. E(e | X) = 0

4. Var(e | X) = σ 2I

5. e | X ∼ Nn(0, σ 2I)

6. X es una matriz no estocástica de constantes

75
Regresoras Estocásticas

En general, las propiedades estadı́sticas del estimador de mı́nimos


cuadrados son robustas a violaciones de las propiedades 5 y 6; sin
embargo, ¿Qué pasa si, por ejemplo, E(e | X) 6= 0?, una conse-
cuencia inmediata es que βb es sesgado. Una situación en la que
esto puede pasar es cuando las predictoras están correlacionadas
con el término de error, por ejemplo (ver Greene, pág 288), el
Ingreso a nivel paı́s puede expresarse como:
Ingreso = Consumo + Inversión + Gasto Público + Exportaciones
entonces, si queremos ajustar el modelo
Consumo = α + β Ingreso + e
el término de error, que captura el efecto de todas las variables
que no están presentes en el modelo, deberá estar correlacionado
con el Ingreso y ası́, el estimador de mı́nimos cuadrados tendrá
problemas. (claro que esto no nos impidió en Modelos II ajustar este modelo,
ver hoja 9 de Mod. II).
76
Variables Instrumentales

77
Variables Instrumentales

Consideremos el modelo y = Xβ + e, donde las variables {xT i , ei }


son i.i.d., pero no necesariamente xi es independiente de ei. Note
que
µ ¶
1 T 1 T 1
X y= X X β + XT e
n n n
con
 
e1 n
1 T 1  ..  1 X
X e = [x1, · · · , xn]  .  = xiei
n n en n i=1

entonces, por el teorema de los grandes números, un promedio de


variables i.i.d. va a converger a su media, esto es, a E(xiei), pero

E(xiei) = Exi E(xiei | xi) = Exi [xiE(ei | xi)] = 0


si el supuesto 3 es cierto y, entonces, esto justificarı́a la consis-
b ¿Qué hacer cuando este supuesto no es cierto?
tencia de β.
78
Variables Instrumentales

Supongamos que, en vez de X, podemos encontrar una matriz Z,


(las variables instrumentales), las cuales si cumplen
1 T
Z e→0
n
entonces, el estimador de β en variables instrumentales

βbV I = (Z T X)−1Z T y
si resulta consistente. Es importante señalar que la regresión de y
sobre Z no presentarı́a problemas de inconsistencia, sin embargo,
la que es de interés es la de y sobre X y precisamente ésta es la
que nos dá el estimador βbV I .

79
Variables Instrumentales

La siguiente tabla (tomada de Greene pág. 293), contiene datos


de 36 años de la economı́a americana sobre Ingreso y Consumo.
Un modelo para la función de consumo es

Consumot = α + β Ingresot + et

Año y = Ingreso c = Consumo


1950 791.8 733.2
1951 819.0 748.7
... ... ...
1984 2468.4 2239.9
1985 2509.0 2312.6

Las discrepancias, et’s, están correlacionadas con Ingresos contem-


poráneos, pero en menor grado con Ingresos pasados, o Consumos
pasados. Entonces las variables ct−1 y yt−1 pueden ser usadas
como variables instrumentales.
80
Variables Instrumentales

Si X es n × p y si en Z tenemos más variables instrumentales que


el número de columnas de X, entonces Z T X no es invertible y no
podemos usar la expresión para βbV I . Una modificación es usar

X̃ = Z(Z T Z)−1Z T X
como matriz de variables instrumentales (X̃ es la proyección de
X sobre el espacio de columnas de Z, esto es, las columnas de
X̃ son combinaciones lineales (finitas) de los instrumentos y, por
lo tanto, son ellas mismas variables instrumentales). Entonces el
estimador instrumental de β es

βbV I = (X̃ T X)−1X̃ T y


Para el ejemplo de la función de consumo, podemos usar

Z = [1, yt−1, ct−1]

81
Variables Instrumentales

El ajuste del modelo usando variables instrumentales arroja:


Coeficiente Error Est.
Intercepto 8.92135 9.8498
Ingreso 0.89969 0.00592

y ajuste correspondiente usando mı́nimos cuadrados ordinarios nos


dá:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 9.732430 10.129957 0.961 0.344
ingreso 0.899179 0.006086 147.748 <2e-16 ***

En este caso, la diferencia es mı́nima, sin embargo, no siempre


será ası́. En este ejemplo, seguramente esta diferencia negligible
es probablemente por la muy fuerte asociación que presentan los
datos de consumo e ingreso, como se muestra en la siguiente
lámina.
82
2000
Consumo
1500
1000

1000 1500 2000 2500


Ingreso

83
Errores Estándar

Los errores estándar para los estimadores instrumentales, reporta-


dos en la hoja 82, se obtienen de la expresión:

Var(βbV I ) = σ 2(Z T X)−1(Z T Z)(X T Z)−1


esta expresión es para cualquier Z instrumental, i.e. que sus colum-
nas no estén correlacionadas con el término de error. En el ejem-
plo, usamos esta expresión con X̃ en vez de Z.

La varianza se estima en la forma (casi) usual


n
1 X
σ
b = (yi − xT b )2
β
i VI
n i=1
la razón del n en el denominador (en vez de n − p), es que en
realidad las propiedades de este tipo de estimadores son solamente
válidas asintóticamente y el dividir entre n − p no harı́a insesgado
al estimador.
84
Tarea 2

1. Considere el modelo de regresión lineal simple


yi = α + βxi + ei
donde la variable regresora, xi , es estocástica. Comentamos en clase sobre
la importancia de que se cumpla que E(ei | xi ) = 0. Demuestre que si
Cov(xi , ei ) 6= 0, entonces E(ei | xi ) 6= 0.
(Recordatorio de lógica: (p ⇒ q) ⇐⇒ (∼ q ⇒ ∼ p); esto es, si se quiere
probar p ⇒ q, a veces es más fácil probar su equivalente ∼ q ⇒ ∼ p).

2. Considere el modelo de efectos fijos de la hoja 47, pero ahora con un


término constante común a todos los individuos
yit = α0 + αi + xTit β + eit , i = 1, · · · , n − 1, t = 1, · · · , m
ynt = α0 + xTnt β + ent , t = 1, · · · , m
no incluı́mos el término αn pues de otro modo no serı́a estimable el modelo.
¿Quienes son los estimadores de los parámetros de este modelo? (este es
el problema 2, pág. 642 del Greene).

3. En la tarea 1 trabajamos los incisos (a) y (b) del problema 1 de la página


642 del Greene. Ahora resuelva los incisos (c) y (d).

85
Tarea 2 (cont...)

4. En el curso de Modelos Estadı́sticos II analizamos los datos de Grunfeld


sobre inversión (ver pág 179 de las notas de ese curso). Resuelva el pro-
blema 3 del libro de Greene de la pág. 643. Aquı́ se ajustarán modelos de
efectos fijos y aleatorios a ese conjunto de datos y se tiene que decidir cuál
modelo es el más adecuado.

Fecha de Entrega: Martes 12 de febrero

86
Efectos Fijos: Estimadores “Dentro” y “Entre”

87
Efectos Fijos: Estimadores “Dentro” y “Entre”

En esta sección retomamos el modelo de efectos fijos presentado


en la hoja 48. El resultado principal que veremos es que podemos
escribir al estimador de mı́nimos cuadrados como la suma de dos
estimadores los cuales están basados en modelos que reflejan dos
formas diferentes de variabilidad.

En la hoja 47 tenemos el modelo de efectos fijos

yit = αi + xT
it β + eit , i = 1, · · · , n t = 1, · · · , m
donde n es el número de grupos o individuos. Si promediamos
sobre todos los tiempos, tenemos

ȳi = αi + x̄T
i β + ēi , i = 1, · · · , n
ası́, tomando la diferencia, desaparecemos los interceptos

yit − ȳi = (xit − x̄i)T β + eit − ēi


88
Efectos Fijos: Estimadores “Dentro” y “Entre”

En general, los parámetros importantes son los coeficientes de


regresión en β, ası́ que podemos obtener tres estimadores de los
tres modelos de la hoja anterior. Para ello, definamos las siguientes
sumas de cuadrados y sumas de productos cruzados:

Totales
n X
X m
t =
Sxx ¯)T
¯)(xit − x̄
(xit − x̄
i=1 t=1
n X
X m
t =
Sxy ¯)(yit − ȳ¯)
(xit − x̄
i=1 t=1

89
Efectos Fijos: Estimadores “Dentro” y “Entre”

Dentro de Grupos
n X
X m
w
Sxx = (xit − x̄i)(xit − x̄i)T
i=1 t=1
n X
X m
w =
Sxy (xit − x̄i)(yit − ȳi)
i=1 t=1

Entre Grupos
n
X
b
Sxx = m(x̄i − x̄ ¯)T
¯)(x̄i − x̄
i=1
n
X
b =
Sxy ¯)(ȳi − ȳ¯)
m(x̄i − x̄
i=1

90
Efectos Fijos: Estimadores “Dentro” y “Entre”

Puede verse que


t = SS w + SS b
Sxx y t = SS w + SS b
Sxy
xx xx xy xy
Por ejemplo,
n X
X m
t =
Sxx ¯)T
¯)(xit − x̄
(xit − x̄
i=1 t=1
n X
X m
= (xit − x̄i + x̄i − x̄ ¯)T
¯)(xit − x̄i + x̄i − x̄
i=1 t=1
n X
X m n
= (xit − x̄i)(xit − x̄i)T + (x̄i − x̄ ¯)T +
¯)(x̄i − x̄
i=1 t=1 o
(xit − x̄i)(x̄i ¯)T
− x̄ ¯)(xit − x̄i
+ (x̄i − x̄ )T
w + SS b
= SSxx xx
pues los productos cruzados se cancelan. En forma similar se ve
la otra igualdad.
91
Efectos Fijos: Estimadores “Dentro” y “Entre”

Para el modelo
yit = αi + xT
it β + eit
puede verse que el estimador de mı́nimos cuadrados es
βbt = [Sxx
t ]−1S t
xy
Para el modelo
yit − ȳi = (xit − x̄i)T β + eit − ēi
el estimador dentro de grupos (corresponde al de pág 51) es
βbw = [Sxx
w ]−1S w
xy
y, para el modelo
ȳi = αi + x̄T
i β + ēi
el estimador entre grupos es
βbb = [Sxx
b ]−1 S b
xy

92
Log(Costo) Desv. Log(Costo) Log(Costo)
1.5 2.0 2.5 3.0 3.5 4.0 4.5 −0.4 −0.2 0.0 0.2 0.4 1 2 3 4 5
6

−0.5

7
7

8
0.0
8

Entre ( 0.911 )
Todos ( 0.888 )

Dentro ( 0.674 )
9

9
0.5
10

10
93
Efectos Fijos: Estimadores “Dentro” y “Entre”

Para los datos de compañı́as generadoras de energı́a eléctrica te-


nemos

βbt = 0.88799
βbw = 0.67428
βbb = 0.91107
La mayor parte de la variación en los datos se debe a diferen-
cias entre grupos (lo cual no es de extrañar pues Greene dice
explı́citamente en su libro que ese subconjunto de datos fué tomado
precisamente para que reflejara un rango amplio de compañı́as).

Como se explica en la siguiente hoja, el estimador de mı́nimos


cuadrados es un promedio ponderado de los otros dos, donde la
ponderación refleja la importancia relativa de las dos fuentes de
variación.
94
Peso de los Estimadores “Dentro” y “Entre”

Usando las igualdades de la hoja 91, tenemos que

βbt = [Sxx
t ]−1 S t
xy
w + Sxxb ]−1 [S w + S b ]
= [Sxx xy xy
w + Sxxb ]−1 [S w β
= [Sxx bw + S b βbb]
xx xx
w + Sxxb ]−1 S w β
= [Sxx bw + [S w + Sxxb]−1S b βbb = F w βbw + F bβbb
xx xx xx
w + Sxxb ]−1 S w = I − F b .
donde F w = [Sxx xx

En el ejemplo tenemos

βbt = 0.10βbw + 0.90βbb


Esto es, el estimador entre grupos lleva un 90% del peso para
determinar el estimador de mı́nimos cuadrados.

95
Modelos de Efectos Aleatorios: Uso de lmer()

96
Modelos de Efectos Aleatorios: Uso de lmer()

Consideremos el modelo de efectos aleatorios

yit = α + xT
it β + δi + eit , i = 1, · · · , n, t = 1, · · · , m
donde las δi’s son i.i.d. N (0, σ02) e independientemente distribuı́das
de los eij ’s, los cuales son i.i.d. N (0, σ 2).

Para los datos del ejemplo de compañı́as eléctricas, tenemos que


los estimadores máximo verosı́miles para los parámetros del modelo
están dados por las expresiones de la hoja 36 y (ver el programa
en el apéndice) las estimaciones son:

α
b = −3.26, βb = 0.78, σ
b02 = 0.047 y b 2 = 0.017
σ

97
Modelos de Efectos Aleatorios: Uso de lmer()

El sistema R cuenta con la librerı́a nlme (nonlinear mixed effects),


esta cuenta con la función lme para el ajuste de modelos de efectos
aleatorios. A su vez, la librerı́a arm, disponible en CRAN, cuenta
con una versión revisada de lme: lmer. Usaremos esta función.

La siguiente lámina muestra el código y salida en R. La matriz


datos fué definida antes (ver apéndice, análisis corresondiente a
hoja 97). Nuestras estimaciones de la hoja anterior concuerdan
razonablemente con las reportadas por lmer. Por supuesto, esta
función nos ofrece una posibilidad de análisis mucho más poderoso.

98
Modelos de Efectos Aleatorios: Uso de lmer()
lcost <- log(datos[,3])
loutp <- log(datos[,4])
compa <- as.factor(datos[,1])
ti <- datos[,2]
dat <- data.frame(compa,ti,lcost,loutp)
out <- lmer( lcost ~ loutp + (1|compa), data=dat, method="ML" )
summary(out)

Linear mixed-effects model fit by maximum likelihood


Formula: lcost ~ loutp + (1 | compa)
Data: dat
AIC BIC logLik MLdeviance REMLdeviance
-8.62 -5.08 7.31 -14.6 -7.5
Random effects:
Groups Name Variance Std.Dev.
compa (Intercept) 0.0450 0.212
Residual 0.0173 0.132
number of obs: 24, groups: compa, 6

Fixed effects:
Estimate Std. Error t value
(Intercept) -3.282 0.409 -8.03
loutp 0.780 0.048 16.27

Correlation of Fixed Effects:


(Intr)
loutp -0.975

99
Prueba para Efectos Aleatorios

La función lmer aparentemente no nos ofrece una prueba para la


hipótesis H0 : σ02 = 0; esta hipótesis es una prueba de homogenei-
dad y puede ser de interés reportarla en un estudio especı́fico. Para
ello adoptamos la prueba de Breush-Pagan que, para este caso, el
estadı́stico de prueba toma la forma (ver Greene, pág 629):
" #2
nm eT DDT e
BP = −1
2(m − 1) eT e
donde e es el vector de residuales del ajuste usando mı́nimos
cuadrados, D es la matriz de variables dummy definida en la hoja
50. Si la hipótesis de homogeneidad es cierta, entonces BP tiene
una distribución ji-cuadrada con 1 grado de libertad. Para nue-
stro ejemplo, tenemos BP = 5.9 y tiene asociado un p-valor de
0.015, lo cual apoya la existencia de variación en los niveles de las
compañı́as.
100
Prueba de Hausman

La prueba de Hausman trata de ayudar a responder a la pregunta:


¿Qué usamos?, ¿un modelo de efectos fijos o un modelo con
efectos aleatorios?.

Por un lado, el modelo con efectos fijos es costoso en términos de


grados de libertad usados para la estimación de efectos individuales
y, para estudios longitudinales con un gran número de unidades,
el modelo de efectos aleatorios es más intuitivo.

Por otro lado, si las variables regresoras están correlacionadas con


el error, entonces podemos tenes inconsistencia de los estimdores
y esta no-correlación es un supuesto implı́cito en el modelo de
efectos aleatorios, lo cual pudiera no ser razonable (esto es, que
las δi’s no estén correlacionadas con las xit’s).
101
Prueba de Hausman

La idea básica del estadı́stico de Hausman radica en comparar los


estimadores de los coeficientes de regresión bajo ambos modelos.

βbF − βbA
donde βbF se obtiene como en la hoja 51 y βbA como en la hoja
36. Ahora, si consideramos que la hipótesis H0 : no correlación
es cierta, entonces ambos estimadores son consistentes, pero si
no es cierta entonces βbA es inconsistente y βbF si es consistente.
Por lo tanto, bajo H0 esperarı́amos que la diferencia no sea muy
grande.

Ahora, necesitamos la varianza del estadı́stico propuesto:

Var(βbF − βbA) = Var(βbF ) + Var(βbA) − Cov(βbF , βbA) − Cov(βbF , βbA)T

102
Prueba de Hausman

Ahora, si H0 es cierta, entonces βbA es el más eficiente (i.e. menor


varianza) y Hausman mostró que, en este caso, “la covarianza
es cero cuando la calculamos para un estimador eficiente y su
diferencia con uno que no lo es”; esto es,

0 = Cov(βbF − βbA, βbA) = Cov(βbF , βbA) − Var(βbA)


Sustituyendo esto en la hoja anterior obtenemos

Var(βbF − βbA) = Var(βbF ) − Var(βbA) ≡ Σ


Finalmente, el estadı́stico de prueba es tomado usando el criterio
de Wald
W = (βbF − βbA)T Σ(
c βb − βb )
F A

y, bajo H0, tenemos que W ∼ χ2


k , donde k es el número de variables
regresoras.
103
Prueba de Hausman

d βb )
Para terminar de implementar el cálculo de W , usaremos Var( A
d βb ), la expresión en hoja 61.
como en hoja 39 y, para Var( F

Entonces, para el caso de compañı́as generadoras, tenemos que


(0.674279 − 0.78)2
W = 2 2
= 7.6
.0611 − 0.048
con un p-valor asociado de 0.0058. Por lo tanto, rechazamos la
no correlación y recomendarı́amos no usar el modelo de efectos
aleatorios para los datos de compañı́as generadoras.

104
Estimación de Trayectorias Individuales

105
Estimación de Trayectorias Individuales

Consideremos nuevamente el conjunto de mediciones de distancias


maxilares. Por simplicidad, no haremos distinción entre niños y
niñas.

Niñas y Niños

3025
Distancia
20

8 10 12 14

106
Estimación de Trayectorias Individuales

Para estos datos seleccionamos un modelo de efectos aleatorios


(interceptos aleatorios) semejante al considerado en la hoja 35
yij = αi + β1tj + eij , i = 1, · · · , n j = 1, · · · , m
donde las eij ’s son i.i.d. N (0, σ 2) e independientes de las αi’s, las
cuales se suponen i.i.d. N (α, σ02). Escribiendo αi = α+δi, tenemos
yij = α + β1tj + δi + eij
o, en forma matricial
yi = Xiβ + δi1 + ei, i = 1, · · · , n
En esta sección deseamos estimar la trayectoria particular
del individuo i. Para ello usaremos Xiβb + δbi1. Para el modelo de
efectos fijos esto no representa ningún problema pues los efectos
fijos (α’s y β) todos ellos son estimados explı́citamente en el mo-
delo, lo cual no hacemos en el modelo de efectos aleatorios en el
cual las α’s son aleatorias.
107
Estimación de Trayectorias Individuales

La estimación de los parámetros α, β1, σ 2 y σ02, se hace en forma


completamente análoga a como se hizo en la hoja 36:
 −1  
n
X n
X
b
β(V0) =
 XiT V0−1Xi  XiT V0−1yi
i=1 i=1
n
X
1 1 b T V −1(y − X β)
τb2(V0) = SCE(V0) = (yi − Xiβ) 0 i i
b
mn nm i=1
y, para el término ρ de V0 usamos la logverosimilitud perfil:
mn n
l(V0) = C − log[SCE(V0)] − log|V0|
2 2

108
Estimación de Trayectorias Individuales

Efectuamos el ajuste del modelo y obtuvimos α b = 16.76, βb1 =


0.66, σ b02 = 4.3, b 2 = 2.0. El perfil medio estimado se muestra
σ
en la gráfica:

Niñas y Niños

3025
Distancia
20

8 10 12 14

109
Estimación de Trayectorias Individuales

El perfil medio de crecimiento mostrado en la hoja anterior es de


la forma α b + βb1tj . Ahora nuestro interés es no sólo en el perfil
medio, sino en la estimación del comportamiento de un individuo
particular. Para ello usaremos αb + βb1tj + δbi.

Estamos suponiendo que las δi’s son aleatorias, ası́ que para obtener
su “estimación” usamos el predictor óptimo visto en la hoja 70:
δbi = E(δi | yi).

En general, tenemos el modelo de la hoja 89:

yi = Xiβ + δi1 + ei, i = 1, · · · , n


donde δi ∼ N1(0, σ02), ei ∼ Nm(0, σ 2I) y yi | δi ∼ Nm(β 1 + δi1, σ 2I)

110
Predictor Óptimo

Puede verse, que la distribución conjunta de yi y δi es normal


multivariada
" # Ã" # " #!
δi 0 σ02 σ021T
∼ N1+m ,
yi Xiβ σ021 σ02J + σ 2I
en la notación de la hoja 34 tendrı́amos σ02J + σ 2I ≡ τ 2V0.

Ahora, usaremos las siguientes propiedades de la normal multiva-


riada (pág. 90 del Greene):
· ¸ µ· ¸ · ¸¶
x1 µ1 Σ11 Σ12
Si ∼ Nn1+n2 , entonces
x2 µ2 Σ21 Σ22

E(x1 | x2 ) = µ1 + Σ12 Σ−1


22 (x2 − µ2 )
Var(x1 | x2 ) = Σ11 − Σ12Σ−1
22 Σ21

111
Predictor Óptimo

Entonces, los predictores para los efectos individuales, ası́ como


sus varianzas, están dados por

E(δi | yi) = 0 + σ021T (τ 2V0)−1(yi − Xiβ)


Var(δi | yi) = σ02 − σ021T (τ 2V0)−11σ02
Ası́, por ejemplo, la trayectoria estimada para el niño 21 (que es
el que aparece con el perfil más alto), se muestra en la siguiente
lámina. Ese perfil estimado se calcula como

b + βb1tj + E(δ
ybit = α b
i | yi )

112
Niñas y Niños

3025
Distancia
20

8 10 12 14

113
Ejercicio

114
Ejercicio

Los datos mostrados en la gráfica de la siguiente hoja provienen


de un estudio sobre resistencia de rieles de ferrocarril. Se seleccio-
naron 6 rieles al azar y cada uno fue probado 3 veces midiendo el
tiempo que tardaba cierta onda de ultrasonido en propagarse por
toda la longitud del riel.

Para los ingenieros, las cantidades de interés eran:

• El tiempo promedio de recorrido de una onda para un riel “tı́pico”.

• La variabilidad entre rieles de los tiempo promedios.

• La variabilidad de los tiempos observados para un mismo riel.

115
6
5
4
Riel
3
2
1

40 60 80 100
Tiempo

116
Ejercicio
Mediciones
Riel 1 2 3 4 5 6
55 26 78 92 49 80
53 37 91 100 51 85
54 32 85 96 50 83

De la gráfica observamos que hay una gran variabilidad entre


rieles. Una forma de modelar estos datos es mediante el modelo
simple
yij = βi + eij , i = 1, · · · , 6, j = 1, 2, 3
los rieles fueron escogidos al azar y, en realidad, no es de interés
primordial estimar los tiempos promedios para esos rieles particu-
lares que aleatoriamente cayeron en la muestra, de aquı́ que es
natural pensar en un modelo de efectos aleatorios:
βi ∼ N (β, σ02), eij ∼ N (0, σ 2)

Estime los parámetros β, σ 2 y σ02.


117
Ejercicio

Efectúe el ejercicio de predicción para los efectos aleatorios βi’s.

Va a encontrar que
Ã !−1 
1 σ 2 ³ ´−1
βbi = ³  ȳi + 2
σ0 ȳ¯
´ ³ ´−1
σ 2 −1 + σ02 m
m
Esta expresión muestra un balance entre dos modelos de efectos
fijos extremos:
yij = βi + eij y yij = β + eij
por un lado, si suponemos un intercepto fijo pero diferente para
cada riel, la estimación de esos efectos serı́a βbi = ȳi y, por otro lado,
si suponemos homogeneidad para los rieles, la estimación serı́a
βb = ȳ¯. La predicción, bajo el modelo de efectos aleatorios es un
balance (“shrinkage”) entre estas dos estimaciones, donde el peso
para cada una es inversamente proporcional a las incertidumbres
en los dos tipos de variabilidad (“dentro” y “entre”).
118
Modelos Jerárquicos

119
Modelos Jerárquicos

Los modelos de efectos aleatorios son una subclase de la familia


de modelos jerárquicos. En este tipo de modelos, la estructura
básica es la de grupo, en donde no necesariamente, como es el
caso con los datos longitudinales, las observaciones dentro de un
mismo grupo son tomadas secuencialmente en el tiempo. Los
modelos jerárquicos (o multinivel, o de efectos mixtos) incluyen
los modelos usuales de interceptos y/o pendientes aleatorios.

Por ejemplo, para estudiar el impacto de un programa guberna-


mental de capacitación para el empleo, podrı́amos relacionar el
número de horas trabajadas en un determinado perı́odo de tiempo,
con el número de horas tomadas en el programa en un perı́odo pre-
vio
yij = αi + βixij + eij , i = 1, · · · , n, j = 1, · · · , ni

120
Modelos Jerárquicos

Los interceptos y pendientes del modelo anterior pueden variar de


ciudad en ciudad (subı́ndice i)

αi = a0 + uT
i b0 + ηi1
βi = a1 + uT
i b1 + ηi2
Las variables xij y ui son predictoras a nivel individuo y a nivel
ciudad respectivamente.

Para ejemplificar algunas ideas de modelación jerárquica, consi-


deraremos un conjunto de datos sobre niveles de Radón en casas
particulares en Estados Unidos. (Datos tomados del libro “Data
analysis using regression and multilevel/hierarchical models” de
Gelman y Hill).

121
Niveles de Radón

El radón es un gas radioactivo que ocurre en forma natural y,


cuando decae, sus productos derivados tambien son radioactivos.
El radón, en altas concentraciones, es un causante de cáncer de
pulmón y se estima que su efecto provoca varios miles de muertes
al año en Estados Unidos. Con el fin de identificar zonas de alta
exposición, la Agencia de Protección del Medio Ambiente (EPA)
de ese paı́s, coordinó mediciones de radón en una muestra de 80
mil casas en todo el paı́s.

Además de niveles de radón, se cuenta con varios predictores,


en particular, se registró en piso donde se hizo la medición (0 si
es sótano, 1 si es primer piso) (el radón brota del subsuelo y es
más factible de penetrar en una casa si esta tiene sótano); se
cuenta además con lecturas de niveles de uranio (pero solo a nivel
municipal).
122
Niveles de Radón

Consideremos el objetivo de estimar los niveles de radón en Min-


nesota. Para este estado se tiene información de 85 condados y
sobre un total de 919 casas. La media de log(radón) para todo el
estado es de 1.2, pero deseamos tener estimaciones a nivel con-
dado.

Las estimaciones a nivel condado las mostramos en la primera


gráfica de la hoja 125, junto con ± un error estándar.

La segunda gráfica corresponde a un modelo de interceptos aleato-


rios
yij = αi + eij

123
Niveles de Radón

En este caso desbalanceado, se puede ver que los predictores para


los interceptos están dados por
ni 1 ȳ
¯
σ2
ȳi +
σ02
α
bi = ni 1
σ2
+
σ02
esto es, se tiene un efecto de contraimiento de los estimadores
individuales.

La observación inmediata es que si no combinamos la información


sobre todos los condados tendremos una sobreestimación de la
variabilidad, causada en gran medida por las diferencias en tamaños
de muestra dentro de cada condado. En otras palabras, las esti-
maciones basadas en la información separada por condado tiende
a hacer parecer a los condados más diferentes de lo que realmente
son.
124
Sin Combinar

logradon promedio por condado


0.0 1.0 2.0 3.0

1 2 5 10 20 50 100
num obs por condado

Modelo Multinivel
logradon promedio por condado
0.0 1.0 2.0 3.0

1 2 5 10 20 50 100
num obs por condado 125
Niveles de Radón

Ahora incorporamos variables al modelo. La variable Piso es binaria


(0,1) e indica el punto donde se hizo la medición. Si consideramos
el modelo
yij = α + β xij + δi + eij
tenemos el ajuste usando lmer:
Random effects:
Groups Name Variance Std.Dev.
county (Intercept) 0.105 0.324
Residual 0.570 0.755
number of obs: 919, groups: county, 85

Fixed effects:
Estimate Std. Error t value
(Intercept) 1.4612 0.0512 28.52
x -0.6926 0.0704 -9.84

Los modelos ajustados para algunos condados seleccionados los


mostramos en la siguiente gráfica. El condado La Qui Parle es el
más extremo en el estado de Minnesota, se observa también un
efecto de contraimiento.
126
Nivel de log(radon) Nivel de log(radon)
−1 1 3 −1 1 3

0
0

CLAY

Piso
Piso
LAC QUI PARLE

1
1

Nivel de log(radon) Nivel de log(radon)


−1 1 3 −1 1 3

0
0
AITKIN

STEARNS

Piso
Piso

1
1

Nivel de log(radon) Nivel de log(radon)


−1 1 3 −1 1 3

0
0

RAMSEY

Piso
Piso
KOOCHICHING

1
1

Nivel de log(radon) Nivel de log(radon)


−1 1 3 −1 1 3
0
0

ST LOUIS
DOUGLAS

Piso
Piso

1
1

127
Modelos Jerárquicos

El modelo que hemos considerado es de la forma

yij ∼ N (αi + βxij , σ 2)


αi ∼ N (α, σ02)
Para los datos de niveles de Radón se cuenta con lecturas de niveles
de Uranio pero sólo a nivel condado y no a nivel individual (casa).
Una forma de incorporar esta variable es mediante el modelo

yij ∼ N (αi + βxij , σ 2)


αi ∼ N (α + γui, σ02)
esto es, queremos tratar de explicar la heterogeneidad de los in-
terceptos de los niveles de radón en base a otra variable auxiliar
(Uranio).

128
Modelos Jerárquicos

Reescribimos los modelos anteriores como

yij = αi + βxij + eij , con eij i.i.d. N (0, σ 2)


y
αi = α + γui + δi, con δi i.i.d. N (0, σ02)
O, equivalentemente,

yij = α + γui + δi + βxij + eij


donde γ es el coeficiente del nivel de uranio en el condado y β
el coeficiente asociado con el piso donde se hizo la medición del
radón. Las estimaciones de los parámetros del modelo usando
lmer se muestran en la siguiente hoja.

129
Salida de lmer
Linear mixed-effects model fit by REML
Formula: y ~ x + uexp + (1 | county)
AIC BIC logLik MLdeviance REMLdeviance
2142 2161 -1067 2123 2134
Random effects:
Groups Name Variance Std.Dev.
county (Intercept) 0.0245 0.156
Residual 0.5752 0.758
number of obs: 919, groups: county, 85

Fixed effects:
Estimate Std. Error t value
(Intercept) 1.4658 0.0379 38.6
x -0.6683 0.0688 -9.7
uexp 0.7203 0.0918 7.8

Correlation of Fixed Effects:


(Intr) x
x -0.357
uexp 0.145 -0.009

130
Modelo Ajustado

En la hoja anterior tenemos el ajuste del modelo


yij = α + γui + δi + βxij + eij
con parámetros estimados
αb = 1.466, βb = −0.668, γb = 0.720,
b 2 = 0.575,
σ σ
b02 = 0.025

En la hoja 126 obtuvimos σ b 2 = 0.570 y σ


b02 = 0.105 en un modelo
que no incorpora información sobre niveles de uranio. Esto es,
el tomar en cuenta los niveles de Uranio disminuye en 5 veces la
variabilidad no explicada entre condados (σ02). La estimación de
la variabilidad dentro de condados casi no cambia (lo cual es de
esperarse pues la información de uranio es sólo a nivel condado).

Las siguientes láminas muestran las relaciones estimadas para el


modelo presente.
131
LAC QUI PARLE AITKIN KOOCHICHING DOUGLAS

3
log(radon)

log(radon)

log(radon)

log(radon)
1

1
−1

−1

−1

−1
0 1 0 1 0 1 0 1
Piso Piso Piso Piso

CLAY STEARNS RAMSEY ST LOUIS


3

3
log(radon)

log(radon)

log(radon)

log(radon)
1

1
−1

−1

−1

−1
0 1 0 1 0 1 0 1
Piso Piso Piso Piso 132
LAC QUI PARLE AITKIN KOOCHICHING DOUGLAS

3
1

1
−1

−1

−1

−1
0 1 0 1 0 1 0 1
CLAY STEARNS RAMSEY ST LOUIS

3
1

1
−1

−1

−1

−1
0 1 0 1 0 1 0 1
WILKIN STEVENS WABASHA YELLOW MEDICINE
3

3
1

1
−1

−1

−1

−1
0 1 0 1 0 1 0 1
STEELE SCOTT PIPESTONE CARVER
3

3
1

1
−1

−1

−1

−1
0 1 0 1 0 1 0 1
ANOKA RENVILLE LE SUEUR LAKE OF THE WOODS
3

3
1

1
−1

−1

−1

−1
0 1 0 1 0 1 0 1
MURRAY PINE ROCK CLEARWATER
3

3
1

1
−1

−1

−1

−1 133
0 1 0 1 0 1 0 1
Variabilidad Explicada por los Niveles de Uranio

De la hoja 129 tenemos el modelo

αi = α + γui + δi, con δi i.i.d. N (0, σ02)


En la siguiente lámina mostramos la relación

α
bi vs ui
donde αbi = αb+γ b ui + δbi. La lı́nea sólida representa la predicción
de log(radón) (para casas con sótano, i.e. xij = 0) como función
de log(uranio) en el condado.

134
Variabilidad debida al Uranio

2.0
Interceptos Estimados
1.0 1.5

−1.0 −0.5 0.0 0.5


Uranio

135
Modelo con Interceptos y Pendientes Aleatorios

Consideraremos ahora una generalización al primer modelo mostrado


en la hoja 128; esto es, supongamos que tenemos interceptos y
pendientes (ambos) aleatorios (primero vemos el caso sin la pre-
dictora a nivel de condado, uranio)
yij ∼ N (αi + βixij , σ 2)
" # Ã" # " #!
αi α σ02 ρσ0σ1
∼ N ,
βi β ρσ0σ1 σ12
donde ρ es la correlación entre αi y βi.

En general, los modelos con interceptos aleatorios son muy usados


en situaciones con un gran número de individuos (unidades, casas)
para estimar tendencias y relaciones globales entre las diferentes
variables. Ahora, cuando consideramos pendientes aleatorias, es-
tamos requiriendo un mayor detalle en la estimación de relaciones
que nos permitan, tal vez, detectar diferencias de comportamiento
entre unidades.
136
Modelo con Interceptos y Pendientes Aleatorios

La estimación de este tipo de modelos es similarmente llevada a


cabo usando la función lmer (ver siguiente hoja). Los parámetros
estimados del modelo son:

α
b = 1.463, βb = −0.681, b 2 = 0.557,
σ
σ
b02 = 0.122, σ
b12 = 0.118, ρb = −0.337
El modelo puede reescribirse como

yij = α + βxij + δi + γixij + eij


donde Var(eij ) = σ 2, Var(δi) = σ02, Var(γi) = σ12 y Corr(δi, γi) = ρ.
De aquı́ que un modelo con interceptos y pendientes aleatorios es
simplemente un modelo de regresión usual pero con una estructura
más complicada en los errores

yij = α + βxij + νij

137
Modelo con Interceptos y Pendientes Aleatorios

El ajuste en R del modelo involucra la parte clave (1 + x | county),


la cual indica que pedimos interceptos y coeficientes de la variable
piso diferentes por condado.
Linear mixed-effects model fit by REML
Formula: y ~ x + (1 + x | county)
AIC BIC logLik MLdeviance REMLdeviance
2178 2202 -1084 2161 2168
Random effects:
Groups Name Variance Std.Dev. Corr
county (Intercept) 0.122 0.349
x 0.118 0.344 -0.337
Residual 0.557 0.746
number of obs: 919, groups: county, 85

Fixed effects:
Estimate Std. Error t value
(Intercept) 1.4628 0.0539 27.15
x -0.6811 0.0876 -7.78

Correlation of Fixed Effects:


(Intr)
x -0.381

138
LAC QUI PARLE AITKIN KOOCHICHING DOUGLAS

3
log(radon)

log(radon)

log(radon)

log(radon)
1

1
−1

−1

−1

−1
0 1 0 1 0 1 0 1
Piso Piso Piso Piso

CLAY STEARNS RAMSEY ST LOUIS


3

3
log(radon)

log(radon)

log(radon)

log(radon)
1

1
−1

−1

−1

−1
0 1 0 1 0 1 0 1
Piso Piso Piso Piso 139
Modelo con Interceptos y Pendientes Aleatorios

Podemos extender ahora el modelo de forma tal que la variabilidad


en interceptos y pendientes sea explicada por predictoras a nivel
condado.
yij ∼ N (αi + βixij , σ 2)
" # Ã" # " #!
αi α + γ0 ui σ02 ρσ0σ1
∼ N ,
βi β + γ1 ui ρσ0σ1 σ12
esto es,
yij = α + βxij + γ0 ui + γ1 ui xij + δi + ηixij + eij
La expresión en R para ajustar este modelo es (casi) una traducción
literal:
lmer( y ~ x + uexp + x * uexp + (1 + x | county) )

En la hoja 142 mostramos los comportamientos de los interceptos y pendientes


en función de los niveles de uranio: A mayor nivel de uranio, mayor el intercepto
y más inclinada (negativamente) es la relación de radón versus la variable piso.
140
Modelo con Interceptos y Pendientes Aleatorios
Linear mixed-effects model fit by REML
Formula: y ~ x + uexp + x * uexp + (1 + x | county)
AIC BIC logLik MLdeviance REMLdeviance
2141 2174 -1063 2114 2127
Random effects:
Groups Name Variance Std.Dev. Corr
county (Intercept) 0.0155 0.124
x 0.0930 0.305 0.434
Residual 0.5617 0.749
number of obs: 919, groups: county, 85

Fixed effects:
Estimate Std. Error t value
(Intercept) 1.4687 0.0352 41.7
x -0.6712 0.0842 -8.0
uexp 0.8081 0.0905 8.9
x:uexp -0.4207 0.2267 -1.9

Correlation of Fixed Effects:


(Intr) x uexp
x -0.236
uexp 0.209 -0.093
x:uexp -0.094 0.175 -0.227

141
1.8
Interceptos
1.0 1.4
0.6

−0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4


Uranio
0.0
−0.5
Pendientes
−1.0 −1.5

−0.8 −0.6 −0.4 −0.2 0.0 0.2 0.4


Uranio 142
Modelo Mixtos Generales

Consideremos nuevamente el modelo de la hoja 137

yij = α + βxij + δi + γixij + eij


y fijémonos en las observaciones correspondientes a un mismo
condado
       
yi1 1 xi1 " # 1 xi1 " # ei1
α δi
yi =  ...  =  ... ...  +  ... ...  +  ... 
     
 
β γi
yini 1 xini 1 xini eini
en general, tendremos lo que se llama un modelo mixto, en donde,
para el (individuo, unidad, condado) i-ésimo

yi = Xib + Zibi + ei
con bi ∼ N (0, Σ) y ei ∼ Nni (0, σ 2I) para i = 1, · · · , n.

143
Modelo Mixtos Generales

Finalmente, los modelos mixtos pueden ampliarse de forma que


incorporen correlación seriada en los términos de error:

yi = Xib + Zibi + νi + ei, i = 1, · · · , n


con bi ∼ N (0, Σ), νi ∼ Nni (0, τ 2H) y ei ∼ Nni (0, σ 2I), donde H
puede ser, por ejemplo, una matriz correspondiente a un proceso
autoregresivo de primer orden, (como la matriz V0 de la hoja 34)
o una matriz con correlaciones dadas por un modelo exponencial:
hkl = exp(−θ|tk − tl |).

144
Resumen

En esta primera parte del curso hemos visto:

• Métodos clásicos (T 2 de Hotelling) de análisis multivariado


para tratar con dependencias que incluyen estructuras longitu-
dinales (hoja 18).

• Estimación del modelo Gaussiano para datos con estructura


de dependencia general (hoja 27).

• Prueba de hipótesis (hoja 30).

• Modelos con efectos aleatorios y su estimación (hojas 35 y


36).

145
Resumen

• Modelos con efectos fijos (hoja 47) y su estimación (hoja 49).

• Prueba F para hipótesis sobre efectos fijos (hoja 64).

• Modelos de regresión con predictoras estocásticas y predictores


óptimos (hoja 70).

• Uso de variables instrumentales (hoja 78).

• Los estimadores “dentro” y “entre” en modelos de efectos


fijos (hoja 88).

146
Resumen

• Prueba Breush-Pagan para efectos aleatorios (hoja 100).

• Prueba de Hausman para contrastar modelos de efectos fijos


y aleatorios (hoja 101).

• Estimación de trayectorias individuales (hoja 108).

• Modelos jerárquicos (hoja 120).

• Estimación de modelos de efectos aleatorios usando lmer (hoja


131).

• Comentarios acerca de modelos mixtos generales (hoja 144).

147
Discusión

Discusión sobre el artı́culo: Small area estimation of average


household income based on unit level models for panel data,
de Fabrizi et al (2007) Survey Methodology, Vol.33, No.2, 187-
198.

148
Maestrı́a en Estadı́stica Oficial
Primer Examen Parcial de Modelos Estadı́sticos IV
Nota: El examen es por equipos de dos personas (pudiendo variar este número por
causas especiales y bajo previa autorización de mi parte). Mandar un archivo pdf con su
solución a más tardar el miércoles 2 de abril a la medianoche. (Para mayor legibilidad,
el código R que se entregue, que esté en formato courier).

1. Considere el modelo de efectos aleatorios (ver hoja 117)


yij = βi + eij , i = 1, · · · , n, j = 1, · · · , m
donde βi ∼ i.i.d. N (β, σ0 ) y eij ∼ i.i.d. N (0, σ 2 ) y son independientes de las βi ’s. Suponga
2

que σ 2 y σ02 con cantidades conocidas. Para las m observaciones de la i-ésima unidad
podemos escribir el modelo como
yi = β 1m + δi 1m + ei , i = 1, · · · , n
o, equivalentemente, como yi = β 1m + νi , i = 1, · · · , n, donde νi ∼ i.i.d. Nm (0, σ02 Jm + σ 2 I).
Puede verse que el estimador de máxima verosimilitud para β (o, lo que es lo mismo en
este caso, el estimador de mı́nimos cuadrados generalizados para β) está dado por β b = ȳ¯,
PP
donde ȳ¯ = yij /nm (no hay que demostrar esta expresión para β b, simplemente la
usaremos). Encuentre los predictores óptimos para los efectos aleatorios:
β b (δi | yi) = βb + σ021Tm(σ02Jm + σ2I)−1(yi − βb1m),
bi = βb + E (ver hoja 112)
bi dada en la hoja 118.
en otras palabras, a donde tiene que llegar es a la expresión para β
Puede usar la fórmula
1 b
(aI + bJm )−1 = cI + dJm , donde c = , d = −
a a(a + mb)

149
2. Considere el modelo de efectos aleatorios
yij = αi + βxij + eij , i = 1, · · · , n, j = 1, · · · , m
donde αi ∼ i.i.d. N (α, σ02 ) y eij ∼ i.i.d. N (0, σ 2 ) y son independientes de las αi ’s; n denota
al número de individuos y m es el número de observaciones por individuo.
(a) Suponga que tenemos una sola observación por individuo (m = 1) (datos de sección
transversal). Una consecuencia de esto es que no todos los parámetros pueden ser
estimados, ¿cuáles?, ¿porqué?.
(b) Consideremos ahora el caso en el que tenemos dos observaciones por individuo (m =
2). Podemos tomar ventaja de esta estructura longitudinal tomando primeras diferen-
cias (dentro de cada individuo) para eliminar las αi ’s. Use esta idea para encontrar un
estimador para β, indique también cómo estimarı́a el error estándar de este estimador.

3. ¿Es similar Pennsylvania a Minnesota en cuanto a sus observaciones de Radón?. En clase


analizamos los datos de radón en 919 unidades habitacionales del estado de Minnesota,
aquı́ queremos ver si Pennsylvania muestra comportamientos similares en cuanto a niveles
y relaciones entre lecturas de radón y el nivel (0, 1) donde fue tomada la lectura, ası́
como el efecto de niveles de uranio en los condados respectivos. Una forma de atacar
este problema consiste en replicar los análisis vistos pero para las (aprox.) 2370 casas en
la muestra tomada de Pennsylvania, sin embargo, esperamos un poco más de creatividad
para hacer la comparación (resumenes gráficos comparativos, modelos que combinen todas
las observaciones de ambos estados, etc.)

150
4. Considere el artı́culo:
• Steele, F. (2008) Multilevel models for longitudinal data. JRSS-A, 171, 5–19.
Haga un resumen/discusión acerca de la sección 2.1 de este artı́culo, donde se presenta un
modelo para curvas de crecimiento (discuta también el ejemplo presentado en la sección
2.1.1). Aunque la autora comenta acerca de la relación de modelos multinivel con los
modelos de ecuaciones estructurales (SEM’s), para nuestros fines no tenemos que discutir
este tipo de modelos.

151
Análisis de Datos Categóricos

152
Datos Categóricos

Una variable categórica (o nominal) es una variable cuyos posibles


valores consisten de un conjunto de categorı́as.

• Estatus de empleo: empleado, desempleado.

• Preferencia de un producto: A, B o C.

• Calidad de vida: buena, regular, mala.

En términos generales, el análisis de datos categóricos consiste


en evaluar asociaciones entre variables y/o evaluar el impacto de
covariables sobre los niveles de una variable categórica.
153
Modelo Multinomial

La distribución multinomial es la base de muchos procedimientos


para el análisis de datos categóricos. Daremos ahora un resumen
de sus propiedades.

Consideremos un experimento en el que puede ocurrir alguna de c


posibles categorı́as con probabilidades π1, π2, · · · , πc. Supongamos
que efectuamos un total de n repeticiones independientes del ex-
perimento, si denotamos por yi el total de ocurrencias de la i-ésima
categorı́a, entonces
n! n n
P (y1 = n1, y2 = n2, · · · , yc = nc) = π1 1 π2 2 · · · πcnc
n1!n2! · · · nc!
donde n1 + n2 + · · · + nc = n y π1 + π2 + · · · + πc = 1 . El
vector aleatorio y = (y1, y2, · · · , yc)T es una variable aleatoria
multinomial.
154
Modelo Multinomial

En forma similar al caso de la Binomial, una variable Multinomial


se puede escribir como la suma de n variables “Bernoulli” inde-
pendientes
y = w1 + w2 + · · · + wn
donde wi = (yi1, yi2, · · · , yic)T , con yij = 1 si en el experimento i
ocurrió la categorı́a j y yij = 0 si fue de otra forma (ver pág. 6
del Agresti). Note que

E(wi) = (π1, π2, · · · , πc)T ≡ π


además
(
πj (1 − πj ) si j = k
Cov(yij , yik ) = E(yij yik ) − πj πk =
−πj πk si j 6= k

155
Modelo Multinomial

De la expresión anterior tenemos


 
π1(1 − π1) −π1π2 ··· −π1πc
 −π2π1 π2(1 − π2) ··· −π2πc 
 
Var(wi) =  ... ... ... ... ≡Σ
 
−πcπ1 −πcπ2 · · · πc(1 − πc)

Con estos resultados tenemos que la media y varianza de una


variable multinomial están dadas por

E(y) = nπ y Var(y) = nΣ
(ver A. pág. 579)

156
Estimación en el Modelo Multinomial

Si los datos de un experimento multinomial son

(n1, n2, · · · , nc)T


entonces, para estimar los parámetros, πi’s, del modelo multino-
mial, maximizamos la logverosimilitud, la cual es de la forma (ver
A. pág. 21)

L(π) = n1log(π1) + n2log(π2) + · · · + nclog(πc)


o, equivalentemente
 
c−1
X
L(π) = n1log(π1) + · · · + nc−1log(πc−1) + nclog 1 − πi
i=1
Derivando e igualando a 0, obtenemos
∂L n nc n
= k− =0 ⇒ πk = πc k , k = 1, · · · , c − 1
∂πk πk πc nc
157
Estimación en el Modelo Multinomial

Sumando las expresiones obtenidas en la hoja anterior:


c−1
X 1 c−1
X n − nc
πk = πc nk ⇒ 1 − πc = πc
k=1
nc k=1 nc
y de aquı́ obtenemos que π b c = nc/n y, de la hoja anterior, también
tenemos: π b k = nk /n. Esto es, los estimadores de máxima verosimi-
litud para las probabilidades de ocurrencia, πi, de las cateogorı́as,
son las proporciones observadas ni/n, lo cual era lo lógico de es-
perar.

Para obtener errores estándar, podemos usar las propiedades asintóticas


del estimador de máxima verosimilitud (ver A. pág 10) que nos di-
cen que la varianza es el inverso de la Matriz de Información:
" Ã !#−1
∂ 2L(π)
Var(π
b ) = −E
∂π∂π T
158
Errores Estándar

En realidad, la matriz de información, tal como esta escrita en la


hoja anterior, es no invertible pues considera todas las entradas
del vector πb , el cual tiene entradas redundantes (suman 1). Sin
embargo, si tomamos sólo la submatriz principal (c − 1) × (c − 1),
puede verse que la varianza estimada del estimador de máxima
verosimiltud es:
1
Var(πb) = Σ
n
(alternativamente, [y más fácil], πb = y/n y de aquı́ se sigue el
resultado anterior).

159
Prueba Ji-Cuadrada

La prueba ji-cuadrada (introducida por K. Pearson en 1900) es uno


de los procedimientos inferenciales más antiguos y, sin embargo,
sigue siendo ampliamente usada. Consideremos la hipótesis

H0 : π1 = π10, · · · , πc = πc0
esto es, deseamos ver si las probabilidades multinomiales son con-
sistentes con ciertos determinados valores. El estadı́stico ji-cuadrada
de Pearson se define como
c (n − µ )2
X j j
χ2 =
j=1 µj

donde µj es el valor esperado de la clase j (bajo H0) y es igual a


nπj0. Si H0 es cierta entonces (para muestras grandes) χ2 ∼ χ2 c−1
y, por lo tanto, podemos decidir que H0 es falsa si χ2 > χ2
c−1,α .

160
Prueba de Cociente de Verosimilitudes

La prueba de cociente de verosimilitudes es una prueba de uso ge-


neral (probablemente es la prueba estándar en Estadı́stica). Con-
sideremos las hipótesis

H 0 : θ ∈ Θ0 vs Ha : θ ∈ Θ − Θ0
donde Θ es el espacio parametral y Θ0 es un espacio parame-
tral “reducido” (ver A. pág 11). El estadı́stico cociente de
verosimilitudes es
l
Λ= 0
l1
donde l0 es la verosimilitud maximizada sobre Θ0 y l1 la verosimi-
tud pero maximizada sobre todo Θ. Note que siempre tendremos
0 < Λ ≤ 1 y, mientras más cercano se encuentre Λ de 1 más creı́ble
es H0.
161
Prueba de Cociente de Verosimilitudes

Una propiedad asintótica de Λ es que, si H0 es cierta, entonces


G2 = −2logΛ tiende a una ji-cuadrada con grados de libertad
iguales a dim(Θ) − dim(Θ0), donde dim(Θ) es igual al número de
parámetros libres en Θ.

Consideremos nuevamente la hipótesis de la hoja 160:


H0 : π1 = π10, · · · , πc = πc0
P
la verosimilitud maximizada sobre Θ = {(π1, · · · , πc)| πi = 1} es
n! n
l= π b cnc
b11 · · · π
n1! · · · nc!
donde πi = ni/n. En este caso, bajo H0 no hay parámetros libres
sobre los cuales maximizar, entonces
n! n nc
l0 = π101 · · · πc0
n1! · · · nc!
162
Prueba de Cociente de Verosimilitudes

El estadı́stico cociente de verosimilitudes es


n nc
l0 π101 · · · πc0
Λ= = n1
l1 π
b1 · · · π b cnc

entonces (ver A. pág. 24)


X πbi X n
G2 = −2logΛ = 2 nilog = 2 nilog i
πi0 nπi0
Aquı́ tenemos dim(Θ) = c − 1 pues hay sólo c − 1 parámetros libres
y dim(Θ0) = 0 pues bajo H0 los parámetros están completamente
especificados. Entonces, rechazamos H0 si G2 > χ2 c−1,α .

Hay una relación estrecha entre el estadı́stico G2 y la χ2 de Pearson


de la hoja 160, como vemos en la siguiente hoja.

163
Relación de G2 con χ2 de Pearson

Consideremos la serie de Taylor de la función g(x) = xlog xx alrede-


0
dor de x0:
x0 x0 11
g(x) = x0log + (1 + log )(x − x0) + (x − x0)2 + · · ·
x0 x0 2 x0
11
g(x) ≈ (x − x0) + (x − x0)2
2 x0
Entonces
X ni X X (ni − nπi0)2
G2 = 2 nilog ≈ 2 (ni − nπi0) +
nπi0 nπi0
P
el término 2 (ni − nπi0) desaparece pues las πi0’s suman 1. En-
tonces los estadı́sticos G2 y χ2 de Pearson son equivalentes.

164
Ejemplo: Distribución Multinomial Parametrizada

En genética, la Ley de Hardy-Weinberg dice que si las frecuencias


de ciertos genes están en equilibrio entoncs los genotipos AA,
Aa y aa deben ocurrir en la población con frecuencias (1 − θ)2,
2θ(1 − θ) y θ2. En una muestra de 1029 individuos se observaron
las siguientes frecuencias de tipos de sangre, donde A y B son
eritrocitos antı́genos
Tipo de Sangre
A AB B Total
Frecuencia 342 500 187 1029

Queremos ilustrar dos problemas: ¿Cómo estimar θ? y ¿Son con-


gruentes los datos con la Ley de Hardy-Weinberg?

165
Distribución Multinomial Parametrizada

El modelo probabilı́stico para los datos corresponde a una multi-


nomial
n! y y y
P (y1, y2, y3) = π11 π22 π33
n1!n2!n3!
donde, de acuerdo con la Ley H-W, π1 = (1 − θ)2, π2 = 2θ(1 − θ)
y π3 = θ2 y 0 < θ < 1. De aquı́, la logverosimilitud es

L(θ) = y1log(1 − θ)2 + y2log[2θ(1 − θ)] + y3logθ2


Derivando e igualando a 0, puede obtenerse la forma explı́cita del
estimador de máxima verosimilitud para θ:

b 2y3 + y2 2 × 187 + 500


θ= = = 0.4247
2n 2 × 1029
con lo cual tenemos resuelto el primer problema.

166
Paréntesis: Bootstrap

En la hoja anterior obtuvimos θb = 0.4247. Ahora, ¿cómo calcular


su error estándar?. Una opción es usar la expresión para la varianza
b Otra opción
asintótica (Σ) y de ahı́ deducir la correspondiente a θ.
es usar Bootstrap.

Bootstrap es un procedimiento basado en simulación para el cálculo


de errores estándar e intervalos de confianza. Esta basado en la
idea de que si conocieramos θ, podrı́amos simular muestras de
tamaño n = 1029, luego, para cada una de ellas calcuları́amos
b con estos valores tendrı́amos una buena idea de la distribución
θ,
muestral de θb y, consecuentemente, de su error estándar.

Usando este procedimiento, obtenemos que una estimación del


error estándar asociado a θb = 0.4247 es de 0.011. En la siguiente
hoja mostramos el código en R para hacer este cálculo y, en la
siguiente, mostramos la distribución muestral de θb
167
Paréntesis: Bootstrap
# Errores estandar via bootstarp
n1 <- 342
n2 <- 500
n3 <- 187
N <- n1+n2+n3
te <- (2*n3+n2)/(2*N) # 0.4246842
p1 <- (1-te)^2 # 0.3309883
p2 <- 2*te*(1-te) # 0.488655
p3 <- te^2 # 0.1803566
B <- 1000
tb <- rep(0,B)
for(i in 1:B){
mu <- sample( 1:3, size=N, replace=T, prob=c(p1,p2,p3) )
ns <- table(mu)
tb[i] <- (2*ns[3]+ns[2])/(2*N) }
sdb <- sd(tb) # 0.01089234
hist(tb,main="Distribucion Bootstrap (p.262)", xlab="Teta", ylab="",
col="cyan", cex.main=.8, cex.axis=.7,cex.lab=.7, mgp=c(1.5,.5,0))

168
Distribución Bootstrap (p.262)

150
100
50
0

0.40 0.42 0.44 0.46


Teta

169
Continuación del Ejemplo

Volvemos al segundo problema planteado en la hoja 165, ¿Son


congruentes los datos
Tipo de Sangre
A AB B Total
Frecuencia 342 500 187 1029

con la Ley de Hardy-Weinberg?

Usando la ji-cuadrada de Pearson


3 (n − µ )2
X 3 (n − µ
X b j )2
j j j
χ2 = 7→ χ2
= = 0.0319
j=1 µj j=1 µ
bj

donde µ b j0. Con este valor de χ2 no rechazamos la hipótesis


b j = nπ
nula de que H-W es válida para esta población. Nota: La dis-
tribución nula de χ2, cuando estimamos parámetros, no es χ2 c−1,
sino χ2c−1−r , donde r es el número de parámetros que fueron es-
timados; en el ejemplo tenemos c − 1 − r = 3 − 1 − 1 = 1 (ver A.
pág. 25).
170
Tablas de Contingencia

171
Tablas de Contingencia

Sean X y Y dos variables categóricas, con I y J niveles, respecti-


vamente. Tenemos interés en estudiar la distribución conjunta de
X y Y . Si observamos una muestra aleatoria de n individuos en
una población, entonces a la tabla de frecuencias observadas nij
se le llama tabla de contingencia.
Y
1 2 ··· J
1 n11 n12 ··· n1J
2 n21 n22 ··· n2J
X ... ... ... ... ...
I nI1 nI2 ··· nIJ
n

donde nij es el número de veces que se presenta la combinación


(Xi, Yj ) en la muestra de n individuos. Las nij ’s tienen una dis-
tribución multinomial.
172
Prueba de Independencia

Denotemos por πij a la probabilidad de ocurrencia de la combi-


nación (Xi, Yj ) o, por simplicidad, (i, j), (recuerde que 1, 2, · · · , I
son sólo etiquetas de los diferentes niveles de la variable categórica
X, lo mismo que para Y ). Sean
J
X I
X
πi. = πij y π.j = πij
j=1 i=1
las probabilidades marginales de que una observación caiga en el
renglón i y en la columna j, respectivamente. La hipótesis de
independencia entre renglones y columnas se puede plantear como

H0 : πij = πi.π.j i = 1, · · · , I, j = 1, · · · , J
Para esta hipótesis, (ver A. pág. 78) podemos usar cualquiera de
los dos métodos: Ji-cuadrada de Pearson o G2.
173
Prueba de Independencia

¿Cómo estimar πij bajo H0?. La logverosimiltud para la tabla es


X X X X X
L= nij logπij = nij logπi.+ nij logπ.j = ni.logπi.+ n.j logπ.j
ij ij ij i j

I−1
X J−1
X
L= ni.logπi. + nI.logπI. + n.j logπ.j + n.J logπ.J
i=1 j=1
y, procediendo como en la hoja 157, es fácil ver que (lo lógico):
n n.j
b i. = i.
π y πb .j =
n n
b ij = (ni./n)(n.j /n). El estadı́stico χ2 es
de aquı́ que π
I X
X J (n − µ b ij )2 I X
X J (n − n n /n)2
ij ij i. .j
χ2 = =
i=1 j=1 µ
b ij
i=1 j=1 ni.n.j /n

174
Prueba de Independencia

En la hoja 170 comentamos que los grados de libertad de la χ2


son “c − 1 − r”; en el caso de una tabla I × J tenemos c = IJ
celdas multinomiales y hemos estimado I − 1 marginales πi. y J − 1
marginales π.j , ası́ que los grados de libertad del estadı́stico χ2
para probar la hipótesis de independencia son

gl = IJ − 1 − (I − 1) − (J − 1) = IJ − I − J + 1 = (I − 1)(J − 1)

Veamos un ejemplo de la prueba de independencia en una tabla 2×


2. En 1979, la Oficina de Veteranos del Ejército de E. U. condujo
una encuesta bastante extensa sobre salud en 11,230 veteranos;
los datos de la siguiente tabla son una pequeña parte del estudio,
se refieren a 1,783 veteranos que se enlistaron en el ejército entre
1965 y 1975.
175
Prueba de Independencia
Activo en Vietnam
Problemas de sueño Si No Total
Si 173 160 333
No 599 851 1,450
Total 772 1,011 1,783

Deseamos ver si estos datos indican (estadı́sticamente) si existe


una asociación o no entre haber estado activo en Vietnam y tener
problemas de sueño. Bajo la hipótesis de no asociación tenemos
que los niveles esperados de la tabla serı́an
Activo en Vietnam
Problemas de sueño Si No Total
Si 144.2 188.8 333
No 627.8 822.2 1,450
Total 772 1,011 1,783

Estos valores fueron calculados usando


ni.n.j
µij =
b
n
176
Prueba de Independencia

De las tablas anteriores obtenemos que χ2 = 12.49 con un p-valor


muy pequeño basado en la distribución χ2 1 y, por lo tanto podemos
decir que, efectivamente, el haber estado activo en Vietnam afecta
el nivel de sueño de los veteranos del ejército.

Note que estamos dando una dirección a la conclusión, lo cual


no se deduce del rechazo de la hipótesis de independencia. En
realidad, debemos complementar con, por ejemplo, el cálculo del
riesgo relativo:
P (P S|AV ) 173/772 .224
RR = = = = 1.42
P (P S|N AV ) 160/1011 .158
de aquı́ que P (P S|AV ) > P (P S|N AV ) (más adelante comentare-
mos sobre el cálculo de intervalos de confianza para estas canti-
dades).
177
Prueba de Independencia: G2

Es fácil ver que


Q ³ ni. n.j ´nij à !n
Y ni.n.j ij
ij n n
Λ = Q ³ nij ´nij =
ij n ij nnij

de aquı́ que
à ! à !
XX nij XX nij
G2 = 2 nij log =2 nij log
i j nπ
b ij
i j µ
b ij

y, en forma similar que en la hoja 175, los grados de libertad son


(I − 1)(J − 1), (ver A. pág 79).

Con los datos del ejemplo, tenemos G2 = 12.39 el cual también


es altamente significativo.

178
Prueba de Homogeneidad

Con frecuencia los renglones de una tabla son observaciones multi-


nomiales y el interés es el de comparar estas diferentes poblaciones
multinomiales.
Y
1 2 ··· J Totales
1 n11 n12 ··· n1J n1.
2 n21 n22 ··· n2J n2.
Población
... ... ... ... ...
I nI1 nI2 ··· nIJ nI.

Supongamos que tenemos observaciones independientes sobre I


distribuciones multinomiales, cada una con J categorı́as y de-
seamos probar si los I vectores de probabilidades multinomiales
son iguales entre si (prueba de homogeneidad):

H0 : π1j = π2j = · · · = πIj j = 1, 2, · · · , J

179
Prueba de Homogeneidad

Utilizaremos ahora la prueba de cocientes de verosimilitudes para


este caso. Bajo H0, la verosimilitud es el producto de I multino-
miales:
" # " #
n1.! n n nI.! n n
l= π1 11 · · · πJ 1J · · · π1 I1 · · · πJ IJ
n11! · · · n1J ! nI1! · · · nIJ !
 
I
Y ni.!  π n.1 · · · π n.J
l= 1 J
i=1 ni1 ! · · · niJ !
y, en forma completamente análoga a la maximización que vimos
en la hoja 157, tenemos que π
b j = n.j /n. Entonces
 
I
Y µ ¶n µ ¶n

n i. ! 
n .1 .1 n.J .J
l0 = ···
i=1 ni1 ! · · · niJ ! n n
Ahora vemos el denominador, l1, de Λ; aquı́ vamos a tener el
producto de I multinomiales diferentes.
180
Prueba de Homogeneidad

" # " #
n1.! n n nI.! n n
l= π1111 · · · π1J1J · · · πI1I1 · · · πIJIJ
n11! · · · n1J ! nI1! · · · nIJ !
 
I
Y h i h i
n i. ! n n n n
l=  π
11
11 1J I1 IJ
· · · π1J · · · πI1 · · · πIJ
i=1 ni1! · · · niJ !
aquı́ también es fácil ver que los máximos se obtienen con π
b ij =
nij /ni.; entonces
  "à !n à !n # "à !n à !n #
I
Y 11 1J I1 IJ
ni.! n11 n1J nI1 nIJ
l1 =   ··· ··· ···
i=1 ni1 ! · · · niJ ! n1. n1. nI. nI.
los coeficientes multinomiales son los mismos para l1 y l0, ası́ que
se van a cancelar al formar el cociente.
³´ ³ ´
n.1 n.1 n.J n.J
l0 n ··· n
Λ= = h³ ´
n11 n11
³ ´
n1J n1J
i h³ ´
nI1 nI1
³ ´
nIJ nIJ
i
l1 ··· n ··· n ··· n
n1. 1. I. I.
181
Prueba de Homogeneidad

Después de un poco de álgebra tenemos


n1. nI. n.1 n.J Q Q ³ ´n
ij à !n
n1. · · · nI. n.1 · · · n.J i j n n
i. .j Y Y ni.n.j ij
Λ= Q Q nij = Q Q nij =
n n n nnij
i j nij n i j nij i j
Q Q
pues nn = i j nnij . Ası́ que el estadı́stico G2 para probar homo-
geneidad de poblaciones multinomiales está dado por
à !
XX nij
G2 = −2logΛ = 2 nij log
i j µ
b ij

donde µb ij = ni.n.j /n; los grados de libertad son dim(Θ) − dim(Θ0)


que resulta en I(J − 1) − (J − 1) = (I − 1)(J − 1).

En la hoja 178 (y en el Agresti, pág. 79), encontramos esta misma


expresión pero para la hipótesis de independencia; esto es, se usa
exactamente el mismo estadı́stico para probar homogeneidad que
para probar independencia.
182
Ejemplo: Prueba de Homogeneidad

La siguiente tabla muestra la afiliación polı́tica de 310 estudiantes


(de E. U.), ası́ como la carrera que estan estudiando:
Afiliación
Rep. Dem. Indep. Total
Letras 34 61 16 111
Ingenierı́a 31 19 17 67
Agronomı́a 19 23 16 58
Educación 23 39 12 74
Totales 107 142 61 310

¿Hay homogeneidad en las facultades en relación a las preferencias


partidarias de los estudiantes?. Haciendo los cálculos tenemos
que G2 = 16.39 con un p-valor correspondiente de 0.0118, de
modo que si hay diferencias en las preferencias electorales de los
estudiantes de diferentes carreras.

183
Afiliación Política

60
Let
Ing
50 Agr
Edu
40
porcentaje
30 20
10

Rep. Dem. Indep.

184
Prueba de Homogeneidad

De la gráfica es claro que los estudiantes de Ingenierı́a muestran


un comportamiento muy diferente en términos de su afiliación
polı́tica. Si de la tabla de contingencia eliminamos el renglón de
Ingenierı́a, nos quedamos con una tabla 3 × 3 y el correspondiente
valor de G2 es 5.54 con un p-valor asociado de 0.237 (usando
una ji-cuadrada con (3 − 1)(3 − 1) = 4 grados de libertad), de
modo que no rechazarı́amos la hipótesis de homogeneidad en las
preferencias electorales entre los estudiantes de Letras, Agronomı́a
y Educación.

185
Medidas de Asociación

186
Tasa de Momios

Los datos de la siguiente tabla provienen de uno de los primeros


estudios sobre la asociación entre cáncer de pulmón y fumar.
Cáncer Controles
Fuma 688 650
No Fuma 21 59
709 709

El estudio fue efectuado en 20 hospitales en Inglaterra; los con-


troles fueron pacientes (sin cáncer) seleccionados del mismo sexo,
mismos hospitales y aproximadamente de la misma edad que los
pacientes con cáncer. La cantidad que es de interés es el Riesgo
Relativo
P (Can | F um)
RR =
P (Can | N oF um)
sin embargo, para este estudio, estas cantidades no son estimables
¿por qué?.
187
Tasa de Momios

Los momios de la ocurrencia de un evento A se definen como


P (A)
ω=
1 − P (A)
Ası́, si A ≡ Can | F um, los momios de cáncer dado que la persona
fuma, se definen como
P (Can | F um) P (C | F )
ω1 = ≡
1 − P (Can | F um) 1 − P (C | F )
y queremos comparar estos momios contra los momios de cáncer
dado que la persona no fuma
P (Can | N oF um) P (C | N F )
ω2 = ≡
1 − P (Can | N oF um) 1 − P (C | N F )
para ello usamos la tasa de momios
ω1 P (C | F )[1 − P (C | N F )]
θ= =
ω2 P (C | N F )[1 − P (C | F )]
188
Tasa de Momios

La expresión para la tasa de momios de la hoja anterior aparente-


mente tiene el mismo problema de no estimabilidad de las prob-
abilidades que la conforman; sin embargo, tenemos la siguiente
relación:
ω1 P (C | F )[1 − P (C | N F )] P (F | C)[1 − P (F | N C)]
θ= = =
ω2 P (C | N F )[1 − P (C | F )] P (F | N C)[1 − P (F | C)]
las cuales si pueden ser estimadas del estudio retrospectivo.
[688/709] [59/709] 688 × 59
θb = = = 2.97
[650/709] [21/709] 650 × 21
De aquı́ que los momios de cáncer en fumadores son 3 veces
más altos que los momios de cáncer en no fumadores.

En general, en una tabla 2 × 2, los momios se calculan como:


b n11 n22
θ=
n12 n21
189
Tasa de Momios (Nota Técnica)

P (C,F ) P (N F )−P (C,N F )


P (C | F )[1 − P (C | N F )] P (F )
× P (N F )
θ= =
P (C | N F )[1 − P (C | F )] P (C,N F ) P (F )−P (C,F )
P (N F )
× P (F )
P (F,C) P (N F,N C)
P (F, C)P (N F, N C) P (C)
× P (N C)
= =
P (N F, C)P (F, N C) P (N F,C) P (F,N C)
P (C)
× P (N C)
P (F | C) P (N F | N C) P (F | C)[1 − P (F | N C)]
= × =
P (N F | C) P (F | N C) P (F | N C)[1 − P (F | C)]
la cual es la relación que querı́amos demostrar.

Para obtener la expresión de la segunda lı́nea, se usó la relación:

P (A) = P (A, B) + P (A, N B)

190
Tasa de Momios (Errores Estándar)

Vimos que si y = (n11, n12, n21, n22)T es un vector aleatorio multi-


nomial, entonces E(y) = nπ, donde π = (π11, π12, π21, π22)T y
además Var(y) = nΣ, donde Σ se define en forma similar a la
matriz dada en la hoja 156.

En general, si quiero encontrar Var[g(y)], entonces podemos usar


el “método delta” que consiste en usar una aproximación de primer
orden para g:
g(y) ≈ g(µ) + g 0(µ)T (y − µ)
entonces Var[g(y)] ≈ ng 0(µ)T Σg 0(µ).

Consideremos el log de la tasa de momios


b = logn
g(y) = log(θ) 11 − logn12 − logn21 + logn22

191
Tasa de Momios (Errores Estándar)

g 0(y) = (1/n11, −1/n12, −1/n21, 1/n22)T


evaluando en µ = nπ = (nπ11, nπ12, nπ21, nπ22)T :
g 0(µ) = (1/π11, −1/π12, −1/π21, 1/π22)T /n
b es aproximadamente
de aquı́ que Var(logθ)  
π11 (1 − π11 ) −π11 π12 −π11 π21 −π11 π22 1/π11
1 −π12 π11 π12 (1 − π12 ) −π12 π21 −π12 π22 −1/π12
(1/π11 , −1/π12 , −1/π21 , 1/π22 )  
−1/π21

n −π21 π11 −π21 π12 π21 (1 − π21 ) −π21 π22
−π22 π11 −π22 π12 −π22 π21 π22 (1 − π22 ) 1/π22
 
1/π11 µ ¶
1
b ≈ (1, −1, −1, 1)  −1/π12  1 1 1 1 1
Var(logθ)  −1/π  = + + +
n 21 n π11 π12 π21 π22
1/π22
Entonces estimamos la varianza del log(tasa de momios) mediante
b = 1 1 1 1
Var(logθ) + + +
n11 n12 n21 n22
192
Tasa de Momios (Intervalo de Confianza)

Asintóticamente, la distribución de logθb es normal (ver A. pág.


71), entonces un intervalo de confianza se obtiene mediante
s
1 1 1 1
logθb ± zα/2 + + +
n11 n12 n21 n22
Tomando exponencial a los extremos de este intervalo obtenemos
un correspondiente intervalo para θ. Ası́, por ejemplo, para los
datos de cáncer, obtenemos intervalos de confianza del 95%:

0.58 < logθ < 1.56


y para la tasa de momios

1.79 < θ < 4.95


ası́, podemos asegurar (con un 95% de confianza) que los momios
de contraer cáncer entre fumadores son, al menos, 1.8 veces más
grandes que los momios de cáncer entre no fumadores.
193
Riesgo Relativo

El riesgo relativo tı́picamente se refiere a la comparación de las


probabilidades de ocurrencia de un evento bajo condiciones dife-
rentes, ası́, si B es un factor de riesgo que puede o no puede estar
presente, entonces el riesgo relativo de A se define como
P (A | B)
RR =
P (A | N B)
En una tabla 2 × 2, (donde, por ejemplo, A = 1 indica que A
ocurre)
A
B 1 2
1 n11 n12 n1.
2 n21 n22 n2.

el riesgo relativo serı́a estimado por


n11/n1.
RR =
n21/n2.
194
Riesgo Relativo: Errores Estándar

Suponiendo muestreo multinomial por renglones (i.e. binomial en


este caso), los totales de renglón serı́an fijos por diseño y el cálculo
para la varianza de log(RR) es como sigue:

log(RR) = log(n11) − log(n1.) − log(n21) − log(n2.)

Var(log(RR)) = Var(log(n11)) + Var(log(n21))


ahora, en general, si Y es una variable aleatoria con media µ y
varianza σ 2, entonces
1 σ2
Var(log(Y )) ≈ Var( log(µ) + (Y − µ) ) =
µ µ2
ası́ que
n1.π11(1 − π11) 1 − π11
Var(log(n11)) ≈ =
n2 π 2
1. 11 n1.π11

195
Riesgo Relativo: Errores Estándar

Entonces, aproximadamente
1 − π11 1 − π21
Var(log(RR)) = +
n1.π11 n2.π21
y estimarı́amos esta varianza (usando π
b i1 = ni1/ni.) como:

d 1 1 1 1
Var(log(RR)) = − + −
n11 n1. n21 n2.
Un intervalo de confianza (basado en la normalidad asintótica del
log riesgo relativo) es
s
1 1 1 1
log(RR) ± zα/2 − + −
n11 n1. n21 n2.

Igual que para la tasa de momios, un intervalo de confianza para


el riesgo relativo se obtiene sacando exponencial a los extremos
de este intervalo.
196
Nota: Normalidad Asintótica

Lo siguiente es una sobresimplificación pero ni modo:

Si θb es el estimador de máxima verosimilitud de θ entonces θb


es asintóticamente normal y asintóticamente insesgado; más
b es también asintóticamente normal.
aún, g(θ)

Esta última afirmación se justifica vı́a aproximaciones de primer


orden
b ≈ g(θ) + g 0(θ)(θb − θ)
g(θ)
de aquı́ que la normalidad de θb induce la normalidad de g(θ).
b Estos
comentarios son para hacer plausibles los usos de normalidad en
los intervalos de confianza para las tasas de momios y los riesgos
relativos, ya que ellos son funciones de los estimadores de máxima
verosimilitud.
197
Ejemplo: Intervalo de Confianza para el RR

Los datos de la siguiente tabla provienen de un estudio “ciego”


sobre la relación (aparentemente benéfica) del uso de aspirina
y prevalencia de ataques al corazón. Aproximadamente 22,000
médicos participaron en ese estudio (prospectivo). Cada tercer
dı́a los participantes tomaban una tableta, aproximadamente la
mitad de ellos recibı́an aspirina y la otra mitad un placebo.
Infarto Resultado
Severo Leve No Infarto Infarto No Infarto
7→
Placebo 18 171 10,845 Placebo 189 10,845
Aspirina 5 99 10,933 Aspirina 104 10,933

El riesgo relativo de infarto del grupo placebo contra el grupo


aspirina es estimado como
189/(189 + 10, 845) 0.0171
RR = = = 1.82
104/(104 + 10, 933) 0.0094
esto es, la probabilidad de infarto del grupo placebo es 1.8 veces la
probabilidad de infarto en el grupo que usó aspirina, lo cual indica
que hay un efecto positivo...
198
Ejemplo: Intervalo de Confianza para el RR

La afirmación al final de la hoja anterior debe uno soportarla vı́a,


por ejemplo, un intervalo de confianza. Un intervalo del 95% de
confianza para el riesgo relativo está dado por
( s )
1 1 1 1
exp log(RR) ± z.025 − + −
n11 n1. n21 n2.
Esto es,
π11
1.433 < < 2.306
π21
Note que la diferencia π b 11 − π
b 21 = 0.0171 − 0.0094 = 0.0077
aparentemente no es importante; esto nos lleva a que, para com-
parar probabilidades pequeñas es más recomendable usar el co-
ciente que la diferencia.

199
Tasas de Momios en Tablas I × J

La expresión
P (X = a | Y = c)
P (X = b | Y = c)
compara la ocurrencia de X = a contra la de X = b cuando Y está
fija en c, similarmente, podemos construı́r
P (X = a | Y = d)
P (X = b | Y = d)
si estas cantidades son iguales eso indicarı́a que el cambio de X de
a a b no se vé afectado por que Y se encuentre en c o d, esto lo
podemos interpretar como que la ocurrencia de X en sus niveles a
y b son independientes de la ocurrencia de Y en c o d. Al cociente
ası́ formado se le llama tasa de momios ab, cd
P (X=a | Y =c)
P (X=b | Y =c) P (X = a | Y = c)P (X = b | Y = d) π π
ω= = = ab bd
P (X=a | Y =d) P (X = b | Y = c)P (X = a | Y = d) πbcπad
P (X=b | Y =d)
200
Tasas de Momios en Tablas I × J

Los momios estimados para los renglones a y b y las columnas c y


d son
n n
b = ab bd
ω
nbcnad
En una tabla I × J, se pueden construı́r
à !à !
I J
2 2
posibles tasas de momios de la forma anterior, sin embargo muchas
de elloas son redundantes. Puede verse que se puede construı́r un
conjunto mı́nimo de (I − 1)(J − 1) de tasas de momios, de los
cuales se pueden obtener todos los demás (ver A. pág. 55). En
particular, un conjunto de momios “base” esta dado por
πij πi+1,j+1
θij = , i = 1, · · · , I − 1, j = 1, · · · , J − 1
πi,j+1πi+1,j

201
Indicadores de Asociación

A veces es difı́cil dar una interpretación de asociación global en


base a las (I − 1)(J − 1) tasas de momios base, nos gustarı́a tener
un sólo número que representara esta asociación, por ejemplo,
podrı́amos usar el promedio de todos las tasas de momios.

El estadı́stico χ2 nos dá un medida global de asociación, pero debe


ser normalizado; puede verse que el máximo valor de
I X
X J (n − n n /n)2
ij i. .j
χ2 =
i=1 j=1 ni.n.j /n
es n(q − 1), donde q = min(I, J), ası́, una medida de asociación
puede definirse como
χ2
V2 =
n(q − 1)
con 0 ≤ V 2 ≤ 1, con 0 indicando independencia y 1 dependencia.
202
Indicadores de Asociación

Para tablas 2 × 2 a V 2 = χ2/n se le denota por φ2. Otra medida


de asociación es el coeficiente de contingencia de Pearson:
v
u
u χ2
p=t
n + χ2

Una clase de medidas de asociación están basadas en cuantifica-


ciones de la reducción en variabilidad:
Var(Y ) − E(Var(Y | X))
Var(Y )
Goodman y Kruskal propusieron el llamado coeficiente de con-
centración, τ , usando esta expresión, con
X XX
V (Y ) = π.j (1 − π.j) y E(V(Y | X)) = 1 − 2 /π
πij i.
j i j

203
Nota: Máximo Valor de χ2

I X
X J (n − n n /n)2 X X (npij − npi.p.j )2
ij i. .j
χ2 = =
i=1 j=1 ni.n.j /n i j npi.p.j
 
X X p2 2 2
ij − 2pij pi. p.j + pi. p.j X X pij 2
=n =n  − 2 + 1
i j pi.p.j i j pi. p.j
donde p2ij ≤ pi. p.j . Ahora, la máxima dependencia ocurre cuando
las probabilidades en cada renglón (o columna) están concentradas
en una sola casilla, por ejemplo:
x
x
x
x o
x
x

de aquı́ que χ2 ≤ n [ min(I, J) − 1 ].


204
Coeficiente de Concentración τ

En la hoja 203 tenemos la expresión


X X
V (Y ) = π.j (1 − π.j) = 1 − 2
π.j
j j
a esta cantidad se le llama medida de concentración de Gini
y se interpreta como una medida de variabilidad pues su mı́nimo
valor es cero cuando toda la marginal de Y está concentrada en
una sola categorı́a (0 concentración) y su máximo ocurre cuando
la distribución es uniforme π.j = 1/J para todo j.

La cuantificación de la reducción en variabilidad consiste en com-


parar esta medida V (Y ) contra la variabilidad esperada por renglón
X πij µ πij

V (Y | X = i) = 1−
j
πi. πi.
 
X X πij µ πij
¶ X X πij
2
E( V (Y | X) ) = 1− πi. = 1 −
 πi. πi.  πi.
i j i j

205
Coeficiente de Concentración τ

Entonces la reducción relativa en variabilidad es


à !
³ P 2 ´ P P 2
πij
1 − j π.j − 1 − i j πi.
V(Y ) − E(V(Y | X))
= P 2
V(Y ) 1 − j π.j
2
P P πij P 2
i j πi. − j π.j
= P 2
1 − j π.j
El estimador máximo verosı́mil de esta cantidad es el Coeficiente
de Concentración, τ , de Goodman y Kendall:
P P n2ij P
n i j n − j n2.j
i.
τ = P
n2 − j n2
.j

206
Coeficiente de Concentración τ

La siguiente tabla muestra preferencias polı́ticas de 500 individuos


de Gran Bretaña, en 1970:
Preferencia Preferencia de Partido
de Aliado Izq. Centro Der. Totales
E.U.A. 206 53 225 484
U.R.S.S. 12 1 3 16
Totales 218 54 228 500
(datos tomados de Bishop et al (1975) Discrete Multivariate Analysis).

Para esta tabla tenemos que χ2 = 6.67 con un p-valor de 0.036,


con lo cual se detectarı́a una dependencia entre preferencias. El
coeficiente de concentración, en este caso, es τ = 0.0133; esto es,
sólo el 1.3% de la variación en preferencia de aliado es explicado
por el conocimiento de la afiliación polı́tica de un individuo. Este
ejemplo muestra que puede haber una asociación significativa en
una tabla y, sin embargo, puede haber poca variación explicada.
207
Error Estándar de τ

Bajo muestreo multinomial, τ es una función nolineal de los esti-


madores de máxima verosimilitud y, para muestras grandes, tiene
un comportamiento normal con media el τ poblacional y varianza
asintótica
  2
1 X X X πik X πkl
σ 2(τ )
= 4
πij 2ν π.k − δ 2 − 
nδ ij k6=j
π
k6=j i.
π
k,l:l6=j k.
X (πij − πi.π.j )2
con ν =
ij πi.
X
y δ =1− 2
π.j
j
el error estándar de τ se obtiene sustituyendo los estimadores
usuales en estas expresiones. En nuestro ejemplo tenemos σ b 2(τ ) =
0.137 y un intervalo de confianza para el τ parametral contendrı́a
el cero y concluirı́amos que no hay una reducción significativa en
variabilidad (i.e. no siempre concuerdan todas nuestras pruebas).
208
Coeficiente de Concentración τ

Consideremos otra forma de ver a este coeficiente.

Supongamos que tenemos la tabla (dist. conjunta de X y Y ):


Y
1 2 ··· J
1 π11 π12 ··· π1J π1.
2 π21 π22 ··· π2J π2.
X ... ... ... ... ... ...
I πI1 πI2 ··· πIJ πI.
π.1 π.2 ··· π.J 1

y queremos clasificar a un individuo en su categorı́a Y . Una forma


de hacerlo es:

clasificarlo en la clase j con probabilidad π.j

209
τ y Clasificación

La probabilidad de tomar una buena decisión es:


J
X
P(bien clasif.) = P(bien clasif. | Y = j)P(Y = j)
j=1
X X
= π.j π.j = 2
π.j
j j
P 2 . Ahora, supongamos que ya sabemos
ası́ que P(error) = 1 − j π.j
que el individuo tiene X = i. Con esta información podemos ahora:
πij
clasificarlo en la clase j con probabilidad
πi.

entonces, condicionado a que X = i, la probabilidad de una buena


decisión es:
J
X
P(bien clasif. | X = i) = P(bien clasif. | Y = j, X = i)P(Y = j | X = i)
j=1
210
τ y Clasificación

entonces
2
X πij
X πij πij
P(bien clasif. | X = i) = = 2
j π i. πi. j π i.
X πij 2
y P(error | X = i) = 1 − 2
j π i.
ası́, la probabilidad de error (no condicional) cuando hacemos uso
del conocimiento de X, es
   
I
X 2
X πij I
X 2
X πij 2
X X πij
P(error) = 1 −  πi. = πi. −  =1−
2
i=1 j πi. i=1 j πi. i j πi.
La probabilidad de error disminuye cuando usamos más infor-
mación pero, ¿cuánto disminuye?.

211
τ y Clasificación

La reducción en la probabilidad de mala clasificación es


à !
³ P ´ P P 2
πij
2 2
1− j π.j − 1− i j P P πij P 2
πi. i j πi. − j π.j
P 2 = P 2
1 − j π.j 1 − j π.j
lo cual es precisamente el Coeficiente de Concentración Pobla-
cional de Goodman y Kendall (ver hoja 206). En otras palabras,
τ cuantifica la reducción en error de predicción cuando usamos la
información de la categorı́a X para predecir la categorı́a Y .

Es natural preguntarse que pasa si usamos otro criterio de clasifi-


cación. Por ejemplo, el clasificador de Bayes escogerı́a la clase de
Y que tuviera la más alta probabilidad. Esto nos lleva a la medida
de asociación, λ, también de Goodman y Kendall.
212
λ de Goodman y Kendall

Sea m la clase más probable de Y . Si clasificamos a un individuo


en esta clase, entonces
P(error) = 1 − π.m
Ahora, consideremos este mismo ejercicio de clasificación pero
ahora suponiendo que y sabemos que X = i, entonces diremos que
Y = mi donde mi = argmaxk {πik /πi.}. En este caso, P(error | X =
i) = 1 − πimi /πi. y, entonces
" #
X X πimi
P(error) = P(error | X = i)P(X = i) = 1− πi.
i i πi.
X
=1− πimi
i
Entonces, la reducción relativa de la probabilidad del error de
predicción es
³ P ´
P
(1 − π.m) − 1 − i πimi i πimi− π.m
=
1 − π.m 1 − π.m
213
λ de Goodman y Kendall

Usando los estimadores usuales en la expresión anterior tenemos


la medidad de asociación λ de Goodman y Kendall:
P
i nimi − n.m
λ=
n − n.m
Esta medidad está entre 0 y 1, vale 0 cuando todos los máximos
(en cada renglón) caen en la columna m, i.e. el saber X no ayuda
a predecir Y ; λ toma el valor 1 cuando en cada renglón hay una
P
sola casilla no nula; en este caso i πimi = 1 y entonces λ = 1.

Para los datos de preferencias polı́ticas y afinidad con superpoten-


cias notamos que λ = 0, de aquı́ que debemos usar esta medida
con precaución (ver Agresti, pág. 69, problema 2.39, en particular
la frase “independencia implica λ = 0 pero el converso no es cierto
en general”).
214
λ de Goodman y Kendall

Una caracterı́stica interesante de las medidas τ y λ es que son


asimétricas (a diferencia de la χ2 que es simétrica) y, por lo tanto,
son útiles cuando hay una relación de causalidad natural que de-
seamos establecer (esto es, cuando X es tratada como variable
predictora).

Podemos obtener otras medidas, por ejemplo, si definimos


P
i πimi − π.m
λY |X =
1 − π.m
de forma similar tenemos
P
j πmj j − πm.
λX|Y =
1 − πm.
y una combinación de ellas
P P
(1 − πm.)λX|Y + (1 − π.m)λY |X i πimi + j πmj j − πm. − π.m
λs = =
(1 − πm.) − (1 − πm.) 2 − πm. − π.m
215
λ de Goodman y Kendall

Note que λ puede definirse de la forma general de la hoja 206,


[V (Y ) − E(V (Y |X))]/V (Y ), tomado
n o
V (Y ) = 1 − max π.j = 1 − π.m
pues con V definido ası́,
n o
V (Y |X = i) = 1 − max πij /πi. = 1 − πimi /πi.
tenemos
X³ ´ X
E(V (Y |X)) = 1 − πimi /πi. πi. = 1 − πimi
i i
de aquı́ que
P
V (Y ) − E(V (Y |X)) i πimi− π.m
λ= =
V (Y ) 1 − π.m

216
Medidas de Asociación Ordinal

Cuando las variables que definen una tabla de contingencia son


ordinales, podemos, potencialmente, detectar y cuantificar rela-
ciones de tendencia, por ejemplo, si cuando X crece, hay o no
hay una tendencia de crecimiento en Y . En una escala ordinal
podemos decidir cual de dos sujetos tiene, por ejemplo, una clasi-
ficación más alta (aunque no necesariamente decidir el cuánto
más alta).

Cuando clasificamos a dos sujetos con respecto a dos atributos


ordinales X y Y podemos decir si la pareja de sujetos es concor-
dante o discordante con respecto a X y Y . Diremos que son
concordantes si el sujeto que tiene la más alta clasificación en X
también tiene la más alta clasificación en Y . La pareja será dis-
cordante si el que tiene la más alta en X resulta que tiene la más
baja en Y . Consideraremos medidas de asociación basadas en el
número de parejas concordantes y discordantes.
217
Medidas de Asociación Ordinal

Consideremos los siguientes datos tomados de una encuesta de


1984 en Estados Unidos.
Satisfación con su Empleo
Muy Algo Moderadamente Muy
Ingreso Inconforme Inconforme Satisfecho Satisfecho
< 6, 000 20 24 80 82
6, 000 − 15, 000 22 38 104 125
15, 000 − 25, 000 13 28 81 113
> 25, 000 7 18 54 92

El número de parejas concordantes es

C =20(38 + 104 + · · · + 92) + 24(104 + 125 + · · · + 92)


+ 80(125 + 113 + 92) + 22(28 + 81 + · · · + 92)
+ 38(81 + 113 + 54 + 92) + 104(113 + 92)
+ 13(18 + 54 + 92) + 28(54 + 92) + 81(92) = 109, 520

218
Medidas de Asociación Ordinal

El número de parejas discordantes es

D = 24(22 + 13 + 7) + 80(22 + 38 + 13 + 28 + 7 + 18)


+ 82(22 + 38 + · · · + 54) + 38(13 + 7) + 104(13 + · · · + 18)
+ 125(13 + · · · + 54) + 28(7) + 81(7 + 18) + 113(7 + · · · + 54)
= 84, 915
Para este conjunto de datos, C > D sugiere que individuos con
ingreso bajo tienden a mostrar poca satisfacción con su empleo e
individuos con ingreso alto a mostrar una alta satisfacción con el
mismo.

En general, consideremos dos observaciones


n o independientes prove-
nientes de la distribución conjunta πij de dos variables ordinales,
¿cuáles son las probabilidades de concordancia y discordancia?
219
Parejas Concordantes / Discordantes

Las probabilidades de concordancia y discordancia son:


   
XX X X XX X X
Πc = 2 πij  πhk  y Πd = 2 πij  πhk 
i j h>i k>j i j h>i k<j
Diremos que hay una asociación positiva si Πc − Πd > 0 y negativa
si Πc − Πd < 0.

En la literatura existen varias medidas de asociación ordinal basadas


en la diferencia de estas probabilidades de concordancia y discor-
dancia: La γ de Goodman y Kendall, la τb de Kendall y la d de
Somers, entre otras (ver Liebetrau, A.M. (1983) Measures of
Association. Sage).

220
γ de Goodman y Kendall

Si un par de observaciones no tiene empates, entonces o son con-


cordantes o son discordantes y, por lo tanto, su probabilidad de
concordancia es Πc/(Πc + Πd) y su probabilidad de discordancia
es Πd/(Πc + Πd). La diferencia entre estas dos probabilidades es
denominada γ :
Πc − Πd
γ=
Πc + Πd
La versión muestral de γ es γb :
C−D
γb =
C+D
El coeficiente γ satisface:

• −1 ≤ γ ≤ 1.

• γ = 1 si Πd = 0 y γ = −1 si Πc = 0.
221
γ de Goodman y Kendall

La siguiente tabla muestra tablas con varios valores de γ. Note que


γ = 0 no implica independencia, como puede verse en la tercera
tabla.
Valores de γ Valores de γ
(Ejemplos) (Ejemplos)
γ=1 1/3 0 0 γ=0 .2 0 .2
0 1/3 0 .2 0 .2
0 0 1/3 0 .2 0
γ=1 .2 0 0 γ = −1 0 .30
.2 0 0 .30 .67
0 .2 .2

Para los datos de satisfacción con su trabajo, tenemos que


109, 520 − 84, 915
γb = = 0.127
109, 520 + 84, 915
ası́ que hay una tendencia (débil) en términos de ingreso y satis-
facción.
222
Q de Yule

Para el caso particular de tablas 2 × 2 el coeficiente γ se reduce a:


Πc − Πd π11π22 − π12π21
γ= = ≡Q
Πc + Πd π11π22 + π12π21
a esta medida se le llama la Q de Yule. Se relaciona con la tasa
de momios θ = (π11π22)/(π12π21) mediante
θ−1
Q=
θ+1
b el cual es asintóticamente
Usando los estimadores usuales, tenemos Q
normal con varianza
à !
b = (1 − Q2)2 1 1 1 1
Var(Q) + + +
4n π11 π12 π21 π22
El coeficiente γ de Goodman y Kendall también puede verse como
una reducción en variabilidad (ver Rousson, V. (2007) The gamma
coefficient revisited. Statistics & Probability Letters, 77, 1696-
1704).
223
Tablas I × J × K

224
Tablas I × J × K

Hemos considerado distribuciones conjuntas de variables discre-


tas bivariadas (X, Y ), el siguiente paso natural es examinar el caso
trivariado (X, Y, Z). La siguiente tabla muestra datos de 674 casos
criminales obtenidos en un estudio en Estados Unidos para deter-
minar si la raza de un reo determinaba en algun grado el hecho de
recibir una sentencia de muerte.
Raza de Raza del Pena de Muerte Porcentaje de
Vı́ctima Acusado Si No Sentencias de M.
Blanca Blanca 53 414 11.3
Negra 11 37 22.9
Negra Blanca 0 16 0.0
Negra 4 139 2.8

Total Blanca 53 430 11.0


Negra 15 176 7.9

Esta es una tabla de contingencia 2 × 2 × 2.


225
Ejemplo: Pena de Muerte

A cada caso (de los 674) lo podemos conceptualizar como la rea-


lización de la variable aleatoria (X, Y, Z), donde
X = raza de acusado, Y = veredicto: pena de muerte, Z = raza de vı́ctima
note que hemos asignado roles a las variables: X es la variable
predictora, Y es la variable de interés y Z es una variable de “con-
trol”; esto es, una variable que puede afectar a la relación X ↔ Y ,
el cual es el caso aquı́ pues si ignoramos la raza de la vı́ctima, la
relación observada entre X y Y esta dada por la tabla
Y
X Si No
Blanca 53 430
Negra 15 176

lo cual implicarı́a que los momios de recibir sentencia de muerte


para un blanco son 45% más altos que los momios de que un negro
reciba la sentencia de muerte. Sin embargo, cuando tomamos en
consideración a la variable Z, las relaciones se invierten.
226
Paradoja de Simpson

En el ejemplo anterior tenemos que la naturaleza de la asociación


marginal tiene una dirección diferente a la de las asociaciones
condicionales. A esta situación se le llama Paradoja de Simpson
y puede ocurrir debido a los diferentes pesos de las subpoblaciones.

Un segundo ejemplo sobre este fenómeno es el siguiente


Paciente
Hombre Mujer
Tratamiento éxito fracaso éxito fracaso
1 60 20 40 80
2 100 50 10 30

Aquı́, el tratamiento 1 es mejor para los hombres (la probabilidad


de éxito es mayor para el tratamiento 1 que para el 2), lo mismo
se puede ver para las mujeres; sin embargo, al colapsar la tabla
observaremos que 2 es mejor que 1. La moraleja de esto es que no
debemos confiar ciegamente en conclusiones obtenidas de tablas
marginales (a menos de que ocurran ciertas condiciones).
227
Tasas de Momios Condicionales y Marginales

Consideremos tablas 2 × 2 × K, donde K es el número de niveles


de la variable de control Z. Sean {nijk } las frecuencias observadas
y {µijk } las frecuencias esperadas. Si fijamos el nivel de Z en k,
entonces
µ11k µ22k
θXY (k) =
µ12k µ21k
describe la asociación condicional XY y se calcula a partir de la
k-ésima tabla parcial. De modo que tendremos K tasas de momios
condicionales. Podemos formar también la tasa de momios marginal,
colapsando las k tablas:
µ11.µ22.
θXY =
µ12.µ21.
Ası́, para los datos de pena de muerte, podemos calcular:
53 × 37 0 × 139
θXY (1) = = 0.43, y θXY (2) = =0
414 × 11 16 × 4
Mientras que
53 × 176
θXY = = 1.45
430 × 15

228
Prueba de Cochran–Mantel–Haenszel

En el caso anterior de tablas 2 × 2 × K con frecuencia es de interés


examinar la relación entre X y Y para cada nivel de la variable
de control Z. La siguiente tabla presenta datos de un estudio en
China sobre cáncer de pulmón.
Cáncer
Ciudad Fuma Si No Momios µ11k Var(n11k )
Beijing Si 126 100 2.20 113.0 16.9
No 35 61
Shanghai Si 908 688 2.14 773.2 179.3
No 497 807
Shenyang Si 913 747 2.18 799.3 149.3
No 336 598
Nanjing Si 235 172 2.85 203.5 31.1
No 58 121
Harbin Si 402 308 2.32 355.0 57.1
No 121 215
Zhengzhou Si 182 156 1.59 169.0 28.3
No 72 98
Taiyuan Si 60 99 2.37 53.0 9.0
No 11 43
Nanchang Si 104 89 2.14 773.2 179.3
No 21 36

229
Prueba de Cochran–Mantel–Haenszel

La notación para la k-ésima tabla es


n11k n12k n1.k
n21k n22k n2.k
n.1k n.2k n..k

Puede verse que, para varios tipos de muestreo (p.ej. multino-


mial, binomial por renglón), condicional a marginales fijas, la dis-
tribución de n11k es hipergeométrica. Bajo la hipótesis nula de
independencia entre X y Y la media y varianza de n11k son
n n
µ11k = E(n11k ) = 1.k .1k
n..k
n n n n
Var(n11k ) = 1.k2 2.k .1k .2k
n..k (n..k − 1)

230
Prueba de Cochran–Mantel–Haenszel

El estadı́stico de Cochran–Mantel–Haenszel cuantifica las discre-


pancias entre las frecuencias observadas y las esperadas:
P
[ k (n11k − µ11k )]2
CHM = P
k Var(n11k )
tiene, asintóticamente, una distribución χ2 con 1 grado de libertad.
La hipótesis nula es la de independencia condicional entre X y Y
(condicional a Z). La prueba no es apropiada en el caso en el
que la asociación cambia demasiado de tabla a tabla. Cuando la
relación verdadera es similar en cada tabla, esta prueba es más
poderosa que el hacer pruebas individuales en cada tabla.

Con los datos del estudio en China, obtenemos CM H = 280.1


el cual es altamente significativo, indicando una fuerte asociación
condicional entre fumar y cáncer.
231
Combinación de Tasas de Momios

Cuando las asociaciones en las tablas parciales son razonablemente


estables, es útil reportar un único valor de la tasa de momios. Ası́,
bajo el supuesto θXY (1) = · · · = θXY (K), un estimador del valor
común es el estimador de Mantel-Haenszel
P
b k n11k n22k /n..k
θM H = P = 2.17
k n12k n21k /n..k
Si los momios verdaderos no son idénticos (pero no son radical-
mente diferentes), θbM H de todos modos es un valor que sumariza
en forma útil las K asociaciones parciales.

232
Modelos Loglineales

233
Modelos Loglineales para Tablas I × J

Los modelos loglineales van a ser muy útiles en tablas con 3 o más
factores; sin embargo, aprovecharemos el caso I × J para intro-
ducir notación. En este caso, si las variables son independientes,
tenemos
πij = πi.π.j
entonces

µij = nπij = nπi.π.j


log(µij ) = log(n) + log(πi.) + log(π.j )
y
log(µij ) = λ + λxi + λj
Esto es, el log de la frecuencia esperada (bajo independencia)
lo podemos expresar como una función aditiva de los efectos de
renglón y efectos de columna.
234
Modelos Loglineales para Tablas I × J

Los parámetros de un modelo loglineal no son todos identificables,


por ejemplo, en una tabla 3 × 3, tenemos
     
log(µ11 ) λ+ λx1 + λy1 1 1 0 0 1 0 0  
 log(µ12 )   λ+ λx1 + λy2   1 1 0 0 0 1 0  λ
     
 log(µ13 )   λ+ λx1 + λy3   1 1 0 0 0 0 1  λx1 
      
 log(µ21 )   λ+ λx2 + λy1   1 0 1 0 1 0 0  λx2 
      
log(µ) =  log(µ22 ) = λ+ λx2 + λy2 = 1 0 1 0 0 1 0  λx3  = Xθ
 log(µ23 )   λ+ λx2 + λy3   1 0 1 0 0 0 1  λy1 
      
 log(µ31 )   λ+ λx3 + λy1   1 0 0 1 1 0 0  λy2 
     
 log(µ32 )   λ+ λx3 + λy2   1 0 0 1 0 1 0  λy3
log(µ33 ) λ+ λx3 + λy3 1 0 0 1 0 0 1

es claro que la matriz X no tiene columnas independientes y, en-


tonces, log(µ) no se puede representar en forma única como Xθ.
Una forma de mitigar esta indeterminación es eliminando (haciendo
y
cero) dos parámetros. Una acción común es hacer λxI = λJ = 0.

235
Modelos Loglineales para Tablas I × J

En la hoja 198 tenemos una tabla 2×2 de un estudio sobre aspirina;


aquı́ reproducimos la tabla y anexamos estimaciones de los valores
esperados en cada celda, bajo el supuesto de independencia:
Esperados
Infarto No Infarto Infarto No Infarto
Placebo 189 10,845 146.4801 10887.52
Aspirina 104 10,933 146.5199 10890.48

Los valores estimados satisfacen el modelo de independencia, ası́,


en este caso, un posible conjunto de valores para los parámetros
del modelo loglineal es:
λ = 9.2956, λx1 = −0.0003, λx2 = 0, λy1 = −4.3085, λx1 = 0
· ¸ · ¸
b11) log(µ
log(µ b12) 4.9869 9.2954
log(µb) = =
b21) log(µ
log(µ b22) 4.9872 9.2956
· x y x y
¸ · ¸
λ + λ1 + λ1 λ + λ1 + λ2 9.2956 − 0.0003 − 4.3085 9.2956 − 0.0003
= x y x y =
λ + λ2 + λ1 λ + λ2 + λ2 9.2956 − 4.3085 9.2956

236
Modelos Loglineales para Tablas I × J

En general, puede verse que para cualquier tabla I × J, podemos


escribir
y xy
log(µij ) = λ + λxi + λj + λij
xy
donde el término λij refleja desviaciones de independencia (a estos
términos se les llama “interacciones”). Las restricciones usuales
para identificabilidad son
y xy xy
λxI = λJ = λiJ = λIj = 0

La idea básica para el análisis de tablas de contingencia generales


es la de comparación de modelos. Ası́ que estaremos usando,
en particular, el estadı́stico G2 de cociente de verosimilitudes.

237
Interpretación de Parámetros

y
En el modelo bajo independencia log(µij ) = λ + λxi + λj tenemos,
por ejemplo, en una tabla I × 2:
P(Y = 1 | X = i)
logit [P(Y = 1 | X = i)] = log
P(Y = 2 | X = i)
πi1 µi1
= log = log = log(µi1) − log(µi2)
πi2 µi2
y y
= (λ + λxi + λ1) − (λ + λxi + λ2)
y y
= λ1 − λ2
Un par de observaciones: Primero, la comparación entre P(Y = 1)
y P(Y = 2) no depende del renglón i (lo cual es obvio si conside-
ramos que estamos en un modelo bajo independencia); segundo,
no importa cual haya sido el conjunto de restriciones para identi-
y y
ficabilidad, la diferencia λ1 − λ2 no se altera.

238
Interpretación de Parámetros

En tablas I × J tenemos algo semejante:


P(Y = j | X = i) y y
log = λj − λk
P(Y = k | X = i)
esto es, la diferencia entre dos parámetros de una variable dada, se
interpreta como el logmomio de que ocurra un nivel de la variable
relativo a la ocurrencia de otro nivel de esa variable. En el modelo
general,
y xy
log(µij ) = λ + λxi + λj + λij
las anteriores interpretaciones dejan de ser adecuadas; sin em-
xy
bargo, podemos interpretar los términos λij por su rol en medidas
de asociación, por ejemplo, los logmomios en una tabla 2 × 2 son:
µ µ y xy y xy
log 11 22 = λ + λx1 + λ1 + λ11 + λ + λx2 + λ2 + λ22
µ12µ21
y xy y xy xy xy xy xy
− λ − λx1 − λ2 − λ12 − λ − λx2 − λ1 − λ21 = λ11 + λ22 − λ12 − λ21

239
Tablas I × J × K

• Modelo para Independencia. Supongamos que tres variables,


X, Y y Z son independientes, esto implica que
πijk = πi.. π.j. π..k
nπijk = nπi.. π.j. π..k
y
log(µijk ) = λ + λxi + λj + λzk (∗)
y viceversa, puede verse que un modelo loglineal de la forma (∗)
implica independencia de las variables X, Y y Z.

• Z independiente de X y Y . En este caso se tiene


πijk = πij. π..k
nπijk = nπij. π..k
log(µijk ) = λ + log(µij.) + λzk
como no suponemos nada acerca de X y Y entonces para la parte
de log(µij.) podemos usar un modelo loglineal general para X y Y .
240
Tablas I × J × K

• (Cont...) Z independiente de X y Y .
y xy
log(µijk ) = λ + λxi + λj + λzk + λij
De forma similar se pueden escribir modelos loglineales para X
independiente de Y y Z y Y independiente de X y Z. (Y vi-
ceversa, también se puede ver que si tenemos un modelo de la
forma log(µijk ) = λ + g(x, y) + λzk , tendremos precisamente el caso
Z independiente de X y Y ).

• X y Y condicionalmente independientes, dado Z. Esta es


una forma más débil de independencia e implica que
πij|k = πi.|k π.j|k
πijk = πi.k π.jk /π..k
nπijk = nπi.k nπ.jk /(nπ..k )
µijk = µi.k µ.jk /µ..k
y yz
log(µijk ) = λ + λxi + λj + λzk + λxz
ik + λjk

241
Resumen: Tipos de Asociación
Asociación Modelo Forma de πijk
No asociación: log(µijk ) =
Variables mutuamente λ + λxi + λyj + λzk πijk = πi.. π.j.π..k
independientes
X independiente log(µijk ) = πijk = πi.. π.jk
de (Y, Z) λ + λxi + λyj + λzk + λyz
jk
X y Y condicionalmente log(µijk ) =
independientes λ + λxi + λyj + λzk πijk = πi.k π.jk /π..k
yz
dado Z +λxzik + λjk
(veremos) log(µijk ) =
Asociación homogénea λ + λxi + λyj + λzk no hay
+λxy xz yz
ij + λik + λjk
General log(µijk ) =
(modelo saturado) λ + λxi + λyj + λzk πijk
+λxy xz yz xyz
ij + λik + λjk + λijk

242
Nota: Muestreo Poisson y la Distribución Multinomial

Hemos considerado tablas de contingencia en las cuales las obser-


vaciones se obtienen suponiendo un muestreo multinomial, también
hemos considerado el caso de varias multinomiales independientes.
Ahora, veremos que la distribución multinomial también se aplica,
aún en el caso de observaciones Poisson independientes (condicio-
nando al tamaño de muestra).

Supongamos una tabla I × J con conteos Poisson independientes

Cij ∼ P(µij )
la distribución conjunta de todas las variables aleatorias (conteos
en cada celda) es
n
e−µij µijij
P(C11 = n11, · · · , CIJ = nIJ ) = Πij
nij !

243
Nota: Muestreo Poisson y la Distribución Multinomial

Recuerde que la suma de Poissons independientes es Poisson.


  n
1 X   X
P (N = n) = exp − µij  µij 
n!  
ij ij
Entonces
P(Cij = nij )
P(C11 =n11, · · · , CIJ = nIJ | N = n) =
P(N = n)
−µij nij
e µ n
Πij n ! ij n! Πij µijij
ij
= n o ³P ´n = ³P ´n
1 exp − P µ Πij nij !
n! ij ij ij µij ij µij
n11 nIJ Ã !n
µ · · · µ µ ij
n! 11 IJ n! ij
= ³P ´n
11
³P ´n =
IJ
Πij P
Πij nij ! ij µij ··· ij µij
Πij nij ! ij µij
P
la cual es una multinomial con parámetros n y πij = µij / ij µij .
Esto es, la distribución de una tabla de observaciones Poisson inde-
pendientes es multinomial (condicionada al tamaño de muestra).
244
Ajuste de Modelos

245
Ajuste de Modelos

Consideremos una tabla I × J × K, con modelo general


y xy yz xyz
log(µijk ) = λ + λxi + λj + λzk + λij + λxz
ik + λjk + λijk
Queremos ejemplificar el proceso de estimación para el caso parti-
cular del modelo que supone independencia de X y Y , condicionada
a Z; esto es
y yz
log(µijk ) = λ + λxi + λj + λzk + λxz ik + λjk
La bondad del ajuste la cuantificamos mediante los estadı́sticos
usuales:
à !
2
X nijk
G = nijk log
ijk
µ
b ijk

b ijk )2
X (nijk − µ
χ2 =
ijk
µ
b ijk

ası́ que necesitamos µ


b ijk (los valores esperados bajo el modelo de
independencia condicional).
246
Ajuste del Modelo de Independencia Condicional

Independencia condicional quiere decir que

P(X = i, Y = j|Z = k) = P(X = i|Z = k)P(Y = j|Z = k)


i.e. πij|k = πi.|k π.j|k
de aquı́ que
πijk πi.k π.jk
=
π..k π..k π..k
y, por lo tanto
µi.k µ.jk
µijk =
µ..k
usaremos esta expresión para calcular los estimados de los valores
esperados:
µ
b i.k µ b .jk
µ
b ijk =
µ
b ..k

247
Ajuste del Modelo de Independencia Condicional

Las estimaciones estarán basadas en el método de máxima vero-


similitud. Suponiendo muestreo Poisson, tenemos
nijk
exp{−µijk } µijk
l(θ) = Πijk
nijk !
ası́, la logverosimilitud es
X X
L = log l(θ) = − µijk + nijk log(µijk ) + C
ijk ijk
donde µijk es una función de todos los parámetros en θ. Para
ilustrar, supongamos I = J = K = 2; en este caso los parámetros
son
y y yz yz yz yz
λ, λx1, λx2, λ1, λ2, λz1, λz2, λxz xz xz xz
11 , λ12 , λ21 , λ22 , λ11 , λ12 , λ21 , λ22
pero, usando las restricciones de identificabilidad, tenemos solo:
y yz
λ, λx1, λ1, λz1, λxz
11 , λ11 , notación : θ = (λ, λx, λy , λz , λxz , λyz )T
248
Ajuste del Modelo de Independencia Condicional

La logverosimilitud puede escribirse como


L(θ) = −1T µ + dT log(µ) + C
donde log(µ) es el vector (µ111, µ112, · · · , µ222)T y d es el vector
de observaciones (n111, n112, · · · , n222)T . Note que log(µ) puede
escribirse en forma matricial como Xθ:
     
log µ111 λ + λx + λy + λz + λxz + λyz 1 1 1 1 1 1
 log µ112   λ + λx + λy   1 1 1 0 0 0 
 log µ121   λ + λx + + λz + λxz   1 1 0 1 1 0 

log(µ) = 
log µ122 = λ + λx = 1 1 0 0 0 0 θ
log µ211   λ + λy + λz + λyz   1 0 1 1 0 1 
   λy
  
 log µ212   λ +   1 0 1 0 0 0 
log µ221 λ + λz 1 0 0 1 0 0
log µ222 λ 1 0 0 0 0 0
Entonces
L(θ) = −1T exp(Xθ) + dT Xθ + C
al derivar e igualar a cero obtenemos: X T µ
b = X T d (ver Agresti,
pág. 335).
249
Ajuste del Modelo de Independencia Condicional

A partir de X T µ
b = X T d, obtenemos 6 relaciones

µb ... = n, µ
b 1.. = n1.., µ
b .1. = n.1., µ
b ..1 = n..1, µ
b 1.1 = n1.1, µ
b .11 = n.11
Usando estas relaciones obtenemos
b111
µ b1.1
=µ b.11/µ
µ b..1 = n1.1 n.11 /n..1
b112
µ b1.2
=µ b.12/µ
µ b..2 b1.. − µ
= (µ b1.1)(µb.1. − µ
b.11)/(µ
b... − µ
b..1) = n1.2 n.12/n..2
b121
µ b1.1
=µ b.21/µ
µ b..1 = n1.1 (n..1 − n.11 )/n..1 = n1.1 n.21 /n..1 , etc.
b122
µ b1.2
=µ b.22/µ
µ b..2 = n1.2 n.22 /n..2
b211
µ b2.1
=µ b.11/µ
µ b..1 = n2.1 n.11 /n..1
b212
µ b2.2
=µ b.12/µ
µ b..2 = n2.2 n.12 /n..2
b221
µ b2.1
=µ b.21/µ
µ b..1 = n2.1 n.21 /n..1
b222
µ b2.2
=µ b.22/µ
µ b..2 = n2.2 n.22 /n..2
Hay que notar que las ecuaciones para los máximos verosı́miles,
XT µ
b = X T d, son generales para cualquier modelo loglineal, sin
embargo, por otro lado, son ecuaciones nolineales en θ y no ne-
cesariamente se pueden obtener soluciones analı́ticas como en el
presente ejemplo (en ese caso, hay que usar métodos iterativos).
250
Ejemplo de Ajuste de un Modelo

Consideremos los resultados de un estudio de 1992 sobre adic-


ciones en 2,276 estudiantes de preparatoria de Dayton, Ohio (ver
Agresti, pág.322).

Marihuana
Alcohol Tabaco Sı́ No
Sı́ Sı́ 911 538
No 44 456
No Sı́ 3 43
No 2 279

Sea X, Y y Z las variables de uso de Alcohol, Tabaco y Marihuana,


respectivamente. Supongamos que deseamos ver si el uso del
Alcohol y Tabaco son independientes (condicional a uso, o no
uso, de Marihuana), (probablemente no sea la cuestión de más
interés, pero es sólo como ilustración del método de estimación).
251
Ejemplo de Ajuste de un Modelo

Aquı́ anexamos los valores esperados en cada celda de la tabla (ver


los cálculos en el apéndice).

Marihuana Frecuencias
Alcohol Tabaco Sı́ No Esperadas
Sı́ Sı́ 911 538 909.24 438.84
No 44 456 45.76 555.16
No Sı́ 3 43 4.76 142.16
No 2 279 0.24 179.84

Los estadı́sticos de Pearson y de Cociente de Verosimilitudes son

χ2 = 177.6, G2 = 187.8
ambos con 2 grados de libertad (2 = 8 − 6, número de celdas
Poisson menos número de parámetros en el modelo); el modelo es
fuertemente rechazado.
252
Ajuste de Modelos con R

Los modelos loglineales pueden ser ajustados en R usando la li-


brerı́a MASS. La siguiente tabla muestra los ajustes de los 9 mo-
delos posibles para los datos de adicciones (ver el código R en el
apéndice) (esta tabla es la tabla 8.6 del Agresti, pág.324).
modelo G2 X2 gl pvalor
X Y Z 1286.02 1411.39 4 0.00
XY 843.83 704.91 3 0.00
XZ 939.56 824.16 3 0.00
YZ 534.21 505.60 3 0.00
XY XZ 497.37 443.76 2 0.00
XY YZ 92.02 80.81 2 0.00
XZ YZ 187.75 177.61 2 0.00
XY XZ YZ 0.37 0.40 1 0.54
XY XZ YZ XYZ 0.00 0.00 0 NaN

Todos los modelos se rechazan, excepto el de asociación ho-


mogénea (p-valor = 0.54).

253
Asociación Homogénea

Consideremos una tabla I × J × K.


Z=1 ··· Z=K
Y Y
1 2 ··· J ··· 1 2 ··· J
1 π111 π121 · · · π1J1 ··· π11K π12K ··· π1JK
2 π211 π221 · · · π2J1 ··· π21K π22K ··· π2JK
.. .. .. ... .. .. .. ... ..
X . . . . ··· . . .
I πI11 πI21 ··· πIJ1 ··· πI1K πI2K ··· πIJK
π..1 π..K

En la hoja 228 definimos, para tablas 2 × 2 × K, los momios condi-


cionales de X y Y dado Z. Similarmente, definimos los momios
condicionales
πijk πi+1,j+1,k
θij(k) =
πi,j+1,k πi+1,jk

254
Asociación Homogénea

Note que
P(Y =j | X=i,Z=k)
πijk πi+1,j+1,k P(Y =j+1 | X=i,Z=k)
θij(k) = =
πi,j+1,k πi+1,jk P(Y =j | X=i+1,Z=k)
P(Y =j+1 | X=i+1,Z=k)
ası́, θij(k), compara dos cosas: El numerador, que es el “brinco”
de Y = j a Y = j + 1 (cuando fijamos X = i y Z = k), contra
el denominador, que es el mismo “brinco” de Y = j a Y = j + 1
pero ahora fijando X = i + 1 y Z = k. Entonces, si llegaramos
a tener, por ejemplo, que θij(k) = 1, entonces dirı́amos que los
niveles X = i y X = i + 1 no afectan el cambio de Y = j a
Y = j + 1.

Ahora, ¿Qué relación hay entre estos momios y los parámetros de


un modelo loglineal?, en particular con
y xy yz
log(µijk ) = λ + λxi + λj + λzk + λij + λxz
ik + λjk ?

255
Asociación Homogénea

log(θij(k)) = log µijk + log µi+1,j+1,k − log µi,j+1,k + log µi+1,j+1,k


= λ + λxi + λyj + λzk + λxy xz yz
ij + λik + λjk
+ λ + λxi+1 + λyj+1 + λzk + λxy xz yz
i+1,j+1 + λi+1,k + λj+1,k
− λ − λxi − λyj+1 − λzk − λxy xz yz
i,j+1 − λik − λj+1,k
− λ − λxi+1 − λyj − λzk − λxy
i+1,j − λ xz
i+1,k − λ yz
jk
= λxy xy xy xy
ij + λi+1,j+1 − λi,j+1 − λi+1,j

Estos logmomios no dependen del nivel particular de Z, ası́ que


el modelo implica homogeneidad (con respecto a Z) de asociación
entre X y Y (claro, esta asociación entre X y Y depende del
renglón especı́fico i y de la columna particular j, pero no de Z = k).
En forma completamente análoga, podemos ver que este modelo
también implica homogeneidad (con respecto a X) de asociación
entre Y y Z y y homogeneidad de asociación entre X y Z con
respecto a Y :
θij(1) = · · · = θij(K), θi(1)k = · · · = θi(J)k , θ(1)jk = · · · = θ(I)jk

256
Asociación Homogénea

Para los datos del estudio sobre cáncer en China (hoja 229) el mo-
delo que mejor ajusta a los datos es precisamente el de asociación
homogénea:
loglm(formula = frec ~ fuma + cancer + ciudad + fuma*cancer +
fuma*ciudad + cancer*ciudad, data = dat, param = T, fit = T)

Statistics:
X^2 df P(> X^2)
Likelihood Ratio 5.195802 7 0.6360822
Pearson 5.199854 7 0.6355886

lo cual implica que es aceptable que los momios de cáncer sean


homogéneos en las diferentes ciudades y, por ello, es razonable
combinar los momios como se hizo en la hoja 232 con el estimador
de Mantel-Haenszel.

257
Ejemplo: Tabla 5 × 4 × 4
O1 = Comerciante O2 = Profesionista
E1 E2 E3 E4 Total E1 E2 E3 E4 Total
A1 42 55 22 3 122 A1 1 2 8 18 30
A2 72 82 60 12 226 A2 1 2 15 33 51
A3 90 106 85 25 306 A3 2 5 25 83 115
A4 27 48 47 8 130 A4 2 2 10 45 59
A5 8 18 19 5 50 A5 0 0 12 19 31
Total 239 309 233 53 834 Total 6 11 70 199 286
O3 = Maestro O4 = Empleado
E1 E2 E3 E4 Total E1 E2 E3 E4 Total
A1 0 0 1 19 20 A1 172 151 107 42 472
A2 0 3 3 60 66 A2 208 198 206 92 704
A3 1 4 5 86 96 A3 279 271 331 191 1,072
A4 0 0 2 36 38 A4 99 126 179 97 501
A5 0 0 1 14 15 A5 36 35 99 79 249
Total 1 7 12 215 235 Total 794 781 922 501 2,998

258
Antecedentes

De 500,000 candidatos a ingresar a programas de entrenamiento


de la Fuerza Aérea de E.U. (durante la segunda guerra mundial),
aproximadamente 75,000 aprobaron un examen de admisión, pos-
teriormente, durante el perı́odo de entrenamiento (julio-diciembre
1943), se sometieron a diversas pruebas de aptitud. En los 50’s,
se tomo una muestra aleatoria de 17,000 (del grupo de 75,000)
con el objetivo de explorar la capacidad predictiva de las pruebas
de aptitud en relación con el éxito profesional de los participantes.
De los 17,000, 2,000 todavı́a estaban activos en las fuerzas ar-
madas y 1,500 habı́an fallecido. De los 13,500 restantes, 9,700
respondieron a una encuesta por parte del estudio. En 1969, se
hizo un estudio de seguimiento sobre 7,500 de los 9,700 (7,500
eran aquellos sobre los que se tenı́an direcciones actulizadas), fi-
nalmente, de los 7,500 respondieron 4,353.
259
Tabla 5 × 4 × 4

La tabla de datos presenta la clasificación cruzada de los 4,353


individuos en el estudio, de acuerdo a su ocupación actual (Z)
(en 1969), niveles de aptitud (de acuerdo a las pruebas de 1943)
y nivel de escolaridad alcanzado (Y ) (debido a requerimientos de
entrada a la Fuerza Aérea, casi todos tenı́an, mı́nimo, preparatoria
completa). La siguiente tabla muestra los ajustes de los 8 modelos
posibles para estos datos.

Modelo G2 χ2 gl p-valor
X Y Z 1356.97 1519.80 69 0.00
XY 1179.64 1336.77 57 0.00
XZ 1319.56 1424.15 57 0.00
YZ 228.22 226.66 60 0.00
XY XZ 1142.23 1301.13 45 0.00
XY YZ 50.89 48.01 48 0.36
XZ YZ 190.81 184.64 48 0.00
XY XZ YZ 25.10 23.65 36 0.91

Los grados de libertad se calculan como: Número de celdas -


número de parámetros no redundantes.
260
Modelos

Los modelos que ajustan bien son:

• X y Z condicionalmente independientes dado Y .


y xy yz
log(µijk ) = λ + λxi + λj + λzk + λij + λjk
• Asociación homogénea.
y xy yz
log(µijk ) = λ + λxi + λj + λzk + λij + λxz
ik + λjk
El primer modelo (que es más sencillo) implica que, dado el nivel de
educación, los scores en las pruebas de aptitud son independientes
de los niveles actuales de ocupación. Para ver más de cerca esta
conclusión, en la siguiente lámina se muestran las tablas Aptitud
vs Ocupación, I ×K, para cada nivel de Educación (1, · · · , J). En 3
de los 4 niveles de Educación no se rechaza independencia (sin em-
bargo, la tabla colapsada por Educación rechazarı́a independencia
y esta serı́a una conclusión limitada).
261
Aptitud vs Ocupación
E1 E2
O1 O2 O3 O4 O1 O2 O3 O4
A1 42 1 0 172 A1 55 2 0 151
A2 72 1 0 208 A2 82 2 3 198
A3 90 2 1 279 A3 106 5 4 271
A4 27 2 0 99 A4 48 2 0 126
A5 8 0 0 36 A5 18 0 0 35
χ2 = 8.19, p = 0.77 1,040 χ2 = 7.07, p = 0.85 1,108
E3 E4
O1 O2 O3 O4 O1 O2 O3 O4
A1 22 8 1 107 A1 3 19 19 42
A2 60 15 3 206 A2 12 33 60 92
A3 85 25 5 331 A3 25 83 86 191
A4 47 10 2 179 A4 8 45 36 97
A5 19 12 1 99 A5 5 19 14 79
χ2 = 7.31, p = 0.84 1,237 χ2 = 25.44, p = 0.01 968

262
Aptitud vs Ocupación

La tabla colapsada por Educación rechazarı́a fuertemente la inde-


pendencia entre los scores en las pruebas de Aptitud y Ocupación,
pero en este caso, el colapsamiento no está justificado, de hecho,
al hacerlo estamos ocultando independencias condicionales.
O1 O2 O3 O4
A1 122 30 20 472
A2 226 51 66 704
A3 306 115 96 1,072
A4 130 59 38 501
A5 50 31 15 249
χ2 = 35.8, p = 0.00035 4,353

Es interesante ver las estimaciones de los parámetros del mo-


delo, en particular, los parámetros de interacciones (ver tablas de
yz
parámetros estimados adelante). Parámetros λjk : Los niveles de
Ocupación 1 y 4 (Comerciantes y Empleados) están positivamente
relacionados con el primer nivel de educación y negativamente rela-
cionados con los niveles altos de educación.
263
Interpretación de Parámetros

En cambio, sucede lo opuesto para las ocupaciones de maestros


y profesionistas (note que los valores de los parámetros van cam-
biando en forma más o menos suave desde un extremo al otro en
la escala (ordinal) de Educación).

xy
Parámetros λij : Note que los niveles primeros de educación
están positivamente relacionados con los niveles bajos de Aptitud
y, también, los niveles altos estaán positivamente relacionados’.
Observamos además una relación inversa entre los niveles bajos
de Educación con nivel alto de Aptitud, etc.

En resumen, Educación está correlacionada con Aptitud en la


forma como uno esperarı́a y, controlando (fijando) el nivel de Ed-
ucación, en general, tenemos que los resultados de los exámenes
de Aptitud no están relacionados con el tipo de Ocupación.
264
Parámetros Estimados
$‘(Intercept)‘ : 2.636711

$aptitud: A1 A2 A3 A4 A5
-0.20233091 0.33985695 0.76617487 -0.03576561 -0.86793531

$educacion: E1 E2 E3 E4
-0.9845389 -0.2452641 0.4003941 0.8294089

$ocupacion: O1 O2 O3 O4
0.7487304 -0.9761897 -1.9586897 2.1861491

$aptitud.educacion
educacion
aptitud E1 E2 E3 E4
A1 0.46014764 0.32254088 -0.27521838 -0.50747014
A2 0.18567643 0.09530413 -0.09568568 -0.18529487
A3 0.03989769 -0.02766561 -0.07065889 0.05842681
A4 -0.22502542 -0.01107851 0.10323330 0.13287062
A5 -0.46069635 -0.37910089 0.33832965 0.50146758

$educacion.ocupacion
ocupacion
educacion O1 O2 O3 O4
E1 1.24140656 -0.7183774 -1.5276369 1.0046078
E2 0.80018044 -0.8103455 -0.2798306 0.2899956
E3 -0.05043831 0.4719386 -0.3091500 -0.1123502
E4 -1.99114868 1.0567843 2.1166175 -1.1822532
265
Colapsabilidad de Tablas

Consideremos tres variables X, Y y Z y su correspondiente tabla


I × J × K. Se puede ver (en Agresti, pág. 405, ejercicio 9.26) que:

Podemos colapsar sobre la variable Z si Z es condicional-


mente independiente de X dado Y (o si Z es condicional-
mente independiente de Y dado X).

En otras palabras, podemos estudiar la naturaleza de la asociación


entre X y Y , colapsando sobre la tercera variable Z, si se cumple
alguna de las dos condiciones mencionadas. Esto es, si alguno de
los siguientes dos modelos es válido:

(XY, XZ) o (XY, Y Z)

266
Colapsabilidad de Tablas

En el ejemplo de Aptitud, Educación y Ocupación, vimos que


el modelo “X y Z condicionalmente independientes dado Y ” era
adecuado; esto es, Aptitud y Ocupación son independientes con-
trolando por Educación. Entonces podemos estudiar las asocia-
ciones Aptitud × Educación y Educación × Ocupación fijandonos
en las correspondientes tablas marginales (i.e. tablas colapsadas):

E1 E2 E3 E4
O1 O2 O3 O4
A1 215 208 138 83
E1 239 6 1 794
A2 281 285 284 197
E2 309 11 7 781
A3 372 386 446 385
E3 233 70 12 922
A4 128 176 238 186
E4 53 199 215 501
A5 44 53 131 117
χ2 = 1254.1, p = 0 4,353
χ2 = 172.5, p = 0 4,353

En el ejemplo de adicciones (modelo (XY, XZ, Y Z)), no debemos


colapsar sobre ninguna pareja marginal.
267
Revisitando Máxima Verosimilitud

Para hacer estimación de parámetros, R resuelve el problema de


redundancia de parámetros forzando que sumen cero los efectos
principales para cada variable y, para las interacciones, hace cero
la suma de cada renglón y columna (ver hoja 265). En este curso
hemos usado el hacer cero el parámetro correspondiente al último
nivel de cada variable y ceros los últimos renglones y columnas de
cada interacción. Para ilustrar la técnica de máxima verosimilitud
directa, mostramos enseguida los parámetros estimados usando
esta última parametrización (ver código R en el ápendice). Si
comparamos los valores ajustados, µ b ijk , con ambas parametriza-
ciones, veremos que son iguales. Las estimaciones mostradas en
la siguiente hoja fueron obtenidas maximizando directamente (ver
hoja 249) la logverosimilitud:

L(θ) = −1T µ + dT log(µ) + C


268
Revisitando Máxima Verosimilitud
Intercepto : 4.10356

Aptitud : -0.3433406 0.5210276 1.1910657 0.4635684 0.0000000

Educacion : -0.5892641 -0.4830193 0.4777324 0.0000000

Ocupacion : -2.2463282 -0.9233105 -0.8459732 0.0000000

Aptitud x Educacion :
[,1] [,2] [,3] [,4]
[1,] 1.9297842 1.7105987 0.39540573 0
[2,] 1.3331412 1.1611898 0.25275184 0
[3,] 0.9436452 0.7945019 0.03406725 0
[4,] 0.6042796 0.7366378 0.13351444 0
[5,] 0.0000000 0.0000000 0.00000000 0

Educacion x Ocupacion :
[,1] [,2] [,3] [,4]
[1,] 1.0457163 -3.961994 -5.831195 0
[2,] 1.3190957 -3.339285 -3.868675 0
[3,] 0.8708282 -1.654731 -3.495709 0
[4,] 0.0000000 0.000000 0.000000 0
269
Comparación de Modelos

En la hoja 260 tenemos los modelos en competencia para las va-


riables X, Y y Z. Optamos por el modelo XY Y Z en base a
un criterio de parsimonia, lo cual es sensato, pero comentamos
ahora un criterio analı́tico para tomar una decisión (en el caso de
modelos anidados).

Consideremos el caso de decidir entre los modelos M1 y M0, donde


M0 es un submodelo de M1. La hipótesis de base es [ H0 : M0 es
adecuado ]; para ello usamos la prueba de cociente de verosimili-
tudes, que toma la forma:
Rech. H0 si G2 2 2
0 − G1 > χα,gl0 −gl1
En nuestro ejemplo, tenemos G2 2
0 −G1 = 50.89−25.10 = 25.79, con
gl = gl0 − gl1 = 48 − 36 = 12. El p-valor asociado es p = 0.0115,
lo cual indicarı́a que deberı́amos quedarnos con el modelo más
complejo XY XZ Y Z (pero siendo subjetivistas como somos, nos
quedamos con el modelo más simple).
270
Modelos con Variables Ordinales

271
Modelos con Variables Ordinales

En la hoja 218 presentamos una tabla con los resultados de una


encuesta sobre satisfacción con el empleo
Satisfación con su Empleo
Muy Algo Moderadamente Muy
Ingreso Inconforme Inconforme Satisfecho Satisfecho
< 6, 000 20 24 80 82
(14.2) (24.7) (72.9) (94.2)
1.83 -0.17 1.17 -1.94
6, 000 − 15, 000 22 38 104 125
(19.9) (34.6) (102.3) (132.2)
0.60 0.74 0.25 -1.02
15, 000 − 25, 000 13 28 81 113
(16.2) (28.2) (83.2) (107.5)
-0.95 -0.04 -0.35 0.84
> 25, 000 7 18 54 92
(11.8) (20.5) (60.5) (78.2)
-1.60 -0.65 -1.16 2.35

El p-valor para la hipótesis de independencia es de 0.21, de modo


que, si acaso, la evidencia de asociación serı́a muy débil. La tabla
agrega los valores predichos (entre paréntesis), ası́ como los resi-
duales estandarizados.
272
Modelos con Variables Ordinales

Podemos observar en la tabla un patrón interesante en los re-


siduales: Hay residuales grandes positivos en las esquinas de la
tabla donde ambas variables están a sus niveles bajos y donde am-
bas variables están a sus niveles altos. También se observa que
hay residuales grandes, pero negativos, cuando una variable está
en niveles bajos y la otra en niveles altos. Este comportamiento
indica una falta de ajuste que no capta una tendencia positiva.

Los modelos loglineales están diseñados para lidiar con variables


nominales; ası́ que es necesario adaptar estos modelos para que
describan relaciones tales como tendencias. Supongamos que se
pueden asignar scores {ui} y {vi} a los renglones y columnas que
reflejen un ordenamiento en las categorı́as.

u1 ≤ u2 ≤ · · · ≤ uI , y v1 ≤ v2 ≤ · · · ≤ vJ
273
Modelos con Variables Ordinales

El modelo es
y
log(µijk ) = λ + λxi + λj + βuivj
el cual puede ser estimado mediante máxima verosimilitud. Bajo
muestreo Poisson, la logverosimilitud es
XX XX
L(θ) = nij log(µij ) − µij
i j i j
Los valores predichos, despues de hacer el ajuste, se muestran en
la siguiente hoja. Este modelo predice mejor las esquinas de la
tabla que el de independencia.
Nota 1: Usamos las codificaciones para renglones y columnas:
ui = i − (I + 1)/2, y vi = j − (J + 1)/2
Nota 2: Los residuales estandarizados son (ver pág. 81 del Agresti)
bij
nij − µ
p
bij (1 − µ
µ bi.)(1 − µ
bij )

274
Modelos con Variables Ordinales
Satisfación con su Empleo
Muy Algo Moderadamente Muy
Ingreso Inconforme Inconforme Satisfecho Satisfecho
< 6, 000 20 24 80 82
(14.2) (24.7) (72.9) (94.2)
(19.3) (29.4) (74.9) (82.3)
6, 000 − 15, 000 22 38 104 125
(19.9) (34.6) (102.3) (132.2)
(21.4) (36.4) (103.7) (127.4)
15, 000 − 25, 000 13 28 81 113
(16.2) (28.2) (83.2) (107.5)
(13.6) (25.9) (82.4) (113.2)
> 25, 000 7 18 54 92
(11.8) (20.5) (60.5) (78.2)
(7.6) (16.3) (58.0) (89.1)

275
Modelos Para Respuestas Multinomiales

276
Modelos Para Respuestas Multinomiales

Los modelos loglineales tratan a todas las variables en forma


simétrica. En ocasiones es natural que una variable, Y , juegue
el rol de variable de respuesta y el interés radica en cuantificar el
efecto de covariables (digamos X y Z) sobre esta respuesta.

Una forma natural de representar a una variable categórica, Y , es


mediante logits:
P(Y = j)
log
P(Y = J)
y una forma de incorporar el impacto de las covariables X y Z es
mediante
P(Y = j | X = i, Z = k) πj|ik µijk
log = log = log
P(Y = J | X = i, Z = k) πJ|ik µiJk

277
Modelos Para Respuestas Multinomiales

Consideremos un modelo loglineal para X, Y y Z de la forma


y xy yz
logµijk = λ + λxi + λj + λzk + λij + λxz
ik + λjk
Entonces, el logit queda como
πj|ik y xy yz
log = λ + λxi + λj + λzk + λij + λxz
ik + λjk
πJ|ik
y xy yz
− λ − λxi − λJ − λzk − λiJ − λxz
ik − λJk
y y xy xy yz yz
= (λj − λJ ) + (λij − λiJ ) + (λjk − λJk )
y xy yz
= αj + βij + βjk
ası́, para una j dada, la comparación de πj|ik contra πJ|ik es de la
forma “y = f (x, z)”:
πj|ik
log = α + βix + βkz
πJ|ik

278
Ejemplo: Modelo Logit

Consideremos los datos de un estudio sobre los factores que in-


fluyen en la elección primaria de alimento de cocodrilos en el estado
de Florida.
Elección de Alimento
Lago Sexo Tamaño Pez Invertebrados Reptiles Aves Otros
Hancock macho ≤ 2.3 7 1 0 0 5
> 2.3 4 0 0 1 2
hembra ≤ 2.3 16 3 2 2 3
> 2.3 3 0 1 2 3
Oklawaha macho ≤ 2.3 2 2 0 0 1
> 2.3 13 7 6 0 0
hembra ≤ 2.3 3 9 1 0 2
> 2.3 0 1 0 1 0
Trafford macho ≤ 2.3 3 7 1 0 1
> 2.3 8 6 6 3 5
hembra ≤ 2.3 2 4 1 1 4
> 2.3 0 1 0 0 0
George macho ≤ 2.3 13 10 0 2 2
> 2.3 9 0 0 1 2
hembra ≤ 2.3 3 9 1 0 1
> 2.3 8 1 0 0 1

Deseamos investigar la relevancia de las “predictoras” Lago (L),


Sexo (S) y Tamaño (T), sobre la “respuesta”, Elección Primaria
de Alimento (A).
279
Ejemplo: Modelo Logit

Después de un proceso de selección del modelo logineal básico


para las variables, nos quedamos con (ver Agresti, pág. 269)

logµijk = λ + λli + λtj + λak + λlt la ta


ij + λik + λjk
loglm(formula = frec ~ lago + tamanio + eleccion + tamanio *
eleccion + lago * eleccion + lago * tamanio, data = dat2,
param = T, fit = T)

Statistics:
X^2 df P(> X^2)
Likelihood Ratio 17.07985 12 0.1466182
Pearson 15.03981 12 0.2392666

De aquı́, tenemos el modelo logit


µijk
log = (λak − λa1) + (λla
ik − λla ) + (λta − λta )
i1 jk j1
µij1
(tomando como base el primer nivel de alimento (peces)).
280
Ejemplo: Modelo Logit

Los parámetros estimados del Modelo Logit son


inverteb reptiles aves otros
-0.7195306 -1.8309953 -2.1258500 -1.1514713

lago
eleccion hancock oklawaha trafford george
inverteb -1.76 0.84 1.02 -0.10
reptiles -0.42 0.80 1.28 -1.66
aves 0.41 -0.94 0.81 -0.28
otros 0.24 -0.58 0.93 -0.59

tamanio
eleccion <2.3 >2.3
inverteb 0.73 -0.73
reptiles -0.18 0.18
aves -0.32 0.32
otros 0.17 -0.17

281
FIN DEL CURSO

282
Apéndice

Aquı́ presentamos la mayorı́a de los programas en R usados


para producir los análisis y gráficas del presente curso.

283
Gráficas en hojas 9 y 10
# Salarios (USD/hr) 1978-1987
datos <- matrix( c(
1014, 1184, 1315, 1131, 949, 907, 862, 995, 1235, 1508,
725, 769, 847, 932, 1020, 1097, 1107, 1088, 1104, 1198,
643, 769, 894, 802, 785, 774, 729, 752, 1027, 1236,
965, 1129, 1233, 1053, 1028, 1023, 943, 956, 1335, 1683,
998, 1141, 1206, 991, 978, 949, 870, 870, 1224, 1511,
609, 712, 800, 739, 730, 761, 721, 740, 1001, 1233,
554, 549, 561, 618, 570, 613, 634, 647, 947, 1134,
80, 106, 101, 106, 113, 120, 128, 131, 139, 169,
434, 561, 743, 720, 682, 639, 595, 619, 750, 907,
827, 902, 984, 1084, 1164, 1210, 1251, 1296, 1321, 1346),
ncol=10, byrow=T )/100
ti <- 1978:1987
paises <- c("Belgica","Canada","Francia","Alemania","Holanda","Italia",
"Japon","Corea","Reino Unido","USA")

# Grafica de los datos de sueldos


par(mfrow=c(2,1),mar=c(2, 3, 2, 2))
plot( ti, datos[1,], ylim=c(0,17), xaxt="n", col=gray(.8),
xlab="", ylab="Salario USD/hora", mgp=c(1.5,.5,0),
cex=.7, cex.lab=.8, cex.axis=.8, type="l",
main="Salarios 1978-1987, Europa", cex.main=.7, xlim=c(1977.5,1987.5))
axis(1,at=c(1978,1980,1982,1984,1986), mgp=c(1.5,.5,0), cex.axis=.7)
for( i in c(3:6,9) ){lines( ti, datos[i,], col=gray(.8) )}
for( i in c(1,3:6,9) ){points( ti, datos[i,], pch=i, cex=.7 )}
legend( 1983.5,17, bty="n", legend=paises[c(1,3,4)], pch=c(1,3,4), cex=.7 )

284
legend( 1986,4, bty="n", legend=paises[c(5,6,9)], pch=c(5,6,9), cex=.7 )

plot( ti, datos[2,], ylim=c(0,17), xaxt="n", col=gray(.8),


xlab="", ylab="Salario USD/hora", mgp=c(1.5,.5,0),
cex=.7, cex.lab=.8, cex.axis=.8, type="l",
main="Salarios 1978-1987, Otros Paises",
cex.main=.7, xlim=c(1977.5,1987.5))
axis(1,at=c(1978,1980,1982,1984,1986), mgp=c(1.5,.5,0), cex.axis=.7)
for( i in c(7,8,10) ){lines( ti, datos[i,], col=gray(.8) )}
for( i in c(2,7,8,10) ){points( ti, datos[i,], pch=i, cex=.7 )}
legend( 1978,17, bty="n", legend=paises[c(2,7,8,10)], pch=c(2,7,8,10),cex=.7)

#######
# Datos de Productividad

produ <- matrix( c(


121, 127, 136, 145, 154, 168, 176, 181, 188, 194,
139, 141, 135, 142, 135, 145, 157, 162, 162, 166,
111, 116, 117, 121, 129, 132, 135, 138, 143, 147,
116, 121, 122, 125, 126, 134, 139, 144, 144, 146,
130, 137, 139, 142, 145, 155, 171, 177, 176, 177,
119, 128, 135, 145, 150, 161, 171, 176, 177, 183,
88, 93, 100, 103, 110, 116, 124, 131, 133, 139,
20, 23, 24, 29, 28, 29, 36, 42, 46, 53,
69, 70, 69, 73, 77, 84, 88, 91, 94, 100,
150, 150, 150, 153, 156, 165, 174, 182, 189, 195)/10,
ncol=10, byrow=T )

285
# Grafica de los datos de productividad
par(mfrow=c(2,1),mar=c(2, 3, 2, 2))
plot( ti, produ[1,], ylim=c(0,20), xaxt="n", col=gray(.8),
xlab="", ylab="Productividad", mgp=c(1.5,.5,0),
cex=.7, cex.lab=.8, cex.axis=.8, type="l",
main="Productividad 1978-1987, Europa", cex.main=.7, xlim=c(1977.5,1987.5))
axis(1,at=c(1978,1980,1982,1984,1986), mgp=c(1.5,.5,0), cex.axis=.7)
for( i in c(3:6,9) ){lines( ti, produ[i,], col=gray(.8) )}
for( i in c(1,3:6,9) ){points( ti, produ[i,], pch=i, cex=.7 )}
legend( 1983.5,6, bty="n", legend=paises[c(1,3,4)], pch=c(1,3,4), cex=.7 )
legend( 1986,6, bty="n", legend=paises[c(5,6,9)], pch=c(5,6,9), cex=.7 )

plot( ti, produ[2,], ylim=c(0,20), xaxt="n", col=gray(.8),


xlab="", ylab="Productividad", mgp=c(1.5,.5,0),
cex=.7, cex.lab=.8, cex.axis=.8, type="l",
main="Productividad 1978-1987, Otros Paises",
cex.main=.7, xlim=c(1977.5,1987.5))
axis(1,at=c(1978,1980,1982,1984,1986), mgp=c(1.5,.5,0), cex.axis=.7)
for( i in c(7,8,10) ){lines( ti, produ[i,], col=gray(.8) )}
for( i in c(2,7,8,10) ){points( ti, produ[i,], pch=i, cex=.7 )}
legend( 1983,11, bty="n",legend=paises[c(2,7,8,10)],pch=c(2,7,8,10),cex=.7)

Termina gráficas en hojas 9 y 10

286
Gráfica en hoja 11
# Ejemplo 4.1 del Diggle, Liang & Zeger (p.72)
# Analisis de datos de crecimiento de arboles "spruce".

tiempo <- c(152,174,201,227,258,469,496,528,556,579,613,639,674)


b1 <- matrix( c(
451, 424, 398, 436, 434, 459, 441, 424, 482, 384, 407, 428, 447, 446,
460, 373, 467, 296, 324, 436, 404, 353, 422, 279, 330, 334, 376,
498, 420, 436, 477, 495, 508, 456, 464, 517, 417, 431, 480, 489, 484,
408, 415, 488, 347, 393, 477, 464, 425, 469, 310, 390, 381, 436,
541, 468, 479, 510, 542, 536, 495, 495, 576, 467, 490, 527, 523, 511,
417, 461, 518, 376, 476, 502, 486, 468, 507, 330, 434, 421, 470,
590, 492, 499, 530, 597, 576, 523, 538, 612, 467, 510, 555, 555, 534,
435, 487, 534, 389, 462, 526, 509, 497, 537, 338, 496, 454, 544,
615, 496, 503, 536, 628, 600, 533, 548, 624, 480, 510, 565, 574, 546,
459, 493, 549, 430, 464, 545, 525, 518, 558, 355, 540, 486, 532,
616, 520, 587, 553, 650, 633, 613, 561, 648, 494, 526, 576, 599, 547,
465, 524, 644, 415, 463, 544, 525, 564, 576, 361, 546, 493, 565,
618, 522, 588, 556, 650, 634, 614, 563, 650, 494, 526, 577, 601, 549,
469, 525, 644, 415, 464, 544, 527, 564, 580, 365, 549, 496, 567,
648, 539, 604, 568, 679, 639, 636, 582, 677, 505, 538, 598, 608, 570,
501, 525, 661, 441, 477, 549, 550, 553, 611, 393, 577, 515, 563,
665, 565, 634, 593, 683, 678, 657, 618, 714, 533, 566, 618, 639, 593,
521, 545, 674, 472, 508, 573, 565, 574, 637, 418, 603, 548, 604,
687, 571, 649, 621, 710, 691, 678, 642, 726, 553, 581, 639, 645, 606,
538, 565, 706, 476, 527, 577, 569, 578, 635, 413, 607, 549, 602,
695, 578, 658, 626, 717, 699, 682, 648, 730, 556, 584, 643, 657, 615,
558, 565, 711, 493, 530, 601, 597, 594, 658, 436, 620, 570, 605,
287
699, 582, 665, 620, 721, 701, 681, 647, 691, 557, 593, 644, 657, 612,
546, 576, 704, 498, 543, 596, 597, 618, 655, 443, 626, 574, 603,
704, 585, 661, 619, 716, 705, 686, 646, 728, 560, 589, 641, 658, 612,
550, 583, 711, 507, 520, 596, 589, 599, 655, 439, 628, 574, 591)/100,
ncol=13, byrow=F)
b2 <- matrix( c(
449, 488, 488, 380, 446, 429, 406, 516, 381, 509, 413, 485, 411, 495,
436, 405, 376, 284, 433, 399, 350, 331, 303, 327, 356, 339, 372,
476, 514, 532, 416, 462, 482, 458, 543, 412, 562, 471, 536, 462, 539,
465, 465, 427, 325, 480, 455, 375, 345, 355, 383, 418, 373, 416,
515, 552, 563, 445, 500, 532, 481, 571, 442, 590, 527, 552, 495, 582,
504, 509, 459, 369, 509, 491, 397, 416, 397, 444, 470, 392, 455,
537, 608, 575, 489, 540, 546, 512, 608, 462, 636, 556, 596, 528, 642,
538, 544, 510, 416, 542, 526, 471, 448, 440, 480, 527, 411, 503,
556, 617, 594, 505, 549, 550, 527, 621, 460, 649, 572, 613, 543, 648,
547, 560, 525, 421, 561, 530, 485, 454, 458, 489, 528, 415, 502,
573, 632, 609, 506, 568, 554, 548, 637, 474, 672, 606, 622, 580, 661,
548, 579, 541, 430, 585, 569, 501, 472, 447, 508, 550, 449, 516,
573, 633, 609, 506, 572, 554, 551, 638, 476, 672, 606, 624, 580, 661,
548, 580, 544, 430, 588, 569, 502, 474, 447, 509, 550, 452, 516,
580, 637, 614, 513, 595, 554, 558, 641, 494, 674, 621, 641, 587, 666,
547, 607, 548, 445, 601, 590, 527, 493, 466, 534, 577, 482, 528,
597, 668, 651, 532, 613, 560, 593, 664, 510, 687, 644, 658, 620, 673,
584, 614, 593, 459, 622, 589, 545, 507, 480, 563, 598, 518, 552,
610, 683, 661, 546, 632, 557, 636, 682, 521, 687, 666, 678, 644, 683,
597, 630, 597, 474, 645, 598, 559, 526, 510, 581, 605, 526, 570,
616, 694, 668, 546, 633, 555, 617, 689, 523, 687, 671, 683, 644, 690,
593, 632, 608, 484, 655, 605, 567, 526, 508, 593, 619, 532, 570,

288
622, 693, 664, 542, 633, 555, 607, 711, 522, 683, 665, 682, 640, 683,
595, 634, 629, 464, 655, 625, 583, 535, 512, 594, 614, 528, 567,
613, 695, 674, 549, 630, 555, 613, 714, 523, 697, 664, 680, 644, 663,
601, 642, 624, 464, 655, 625, 586, 535, 512, 594, 614, 528, 567)/100,
ncol=13, byrow=F)
b3 <- matrix( c(
453, 497, 437, 458, 400, 473, 515, 410, 322, 223, 365, 340,
505, 532, 481, 499, 450, 505, 563, 446, 385, 289, 436, 392,
518, 583, 503, 537, 492, 533, 611, 484, 447, 316, 476, 450,
541, 629, 519, 568, 544, 592, 639, 529, 485, 340, 518, 497,
542, 645, 540, 593, 587, 601, 661, 548, 511, 352, 544, 514,
571, 661, 557, 614, 602, 626, 682, 568, 528, 389, 570, 534,
571, 661, 559, 617, 604, 626, 682, 568, 528, 393, 570, 535,
596, 679, 582, 643, 611, 636, 695, 585, 545, 422, 589, 561,
617, 713, 603, 656, 647, 649, 711, 599, 574, 451, 609, 583,
634, 724, 617, 669, 661, 663, 744, 608, 595, 465, 639, 603,
644, 732, 632, 681, 666, 692, 753, 625, 605, 470, 657, 609,
646, 729, 625, 682, 670, 692, 746, 615, 607, 473, 636, 598,
643, 735, 629, 676, 665, 692, 756, 618, 602, 468, 644, 595)/100,
ncol=13, byrow=F)
b4 <- matrix( c(
516, 404, 452, 456, 490, 483, 546, 417, 335, 333, 341, 450, 299,
549, 452, 491, 512, 535, 510, 579, 467, 405, 382, 368, 480, 361,
574, 515, 504, 540, 571, 543, 612, 516, 451, 438, 403, 528, 448,
605, 559, 571, 569, 612, 559, 641, 556, 522, 499, 428, 583, 491,
621, 587, 597, 589, 625, 604, 663, 575, 544, 517, 454, 616, 506,
637, 596, 611, 616, 639, 621, 673, 600, 579, 540, 452, 633, 523,
637, 596, 612, 617, 639, 621, 673, 602, 582, 540, 457, 634, 525,

289
652, 617, 624, 613, 652, 646, 677, 614, 605, 573, 501, 656, 556,
665, 637, 644, 644, 686, 645, 668, 628, 629, 585, 513, 663, 595,
686, 653, 654, 672, 705, 659, 675, 655, 622, 575, 511, 675, 598,
687, 660, 665, 681, 709, 670, 675, 666, 639, 599, 530, 689, 621,
688, 652, 663, 687, 690, 663, 662, 663, 647, 610, 546, 696, 628,
684, 659, 664, 680, 688, 666, 660, 663, 642, 615, 535, 694, 634)/100,
ncol=13, byrow=F)

par(mfrow=c(2,1),mar=c(3, 3, 2, 2))
plot(tiempo[1:5],b1[1,1:5], type="n", xlab="Dias", mgp=c(1.5,.5,0),
ylab="2 x Log(Altura x Diametro)", xlim=c(0,800), ylim=c(0,8),
cex=.7, cex.lab=.8, cex.axis=.8)
abline( h=c(2,4,6), col=5 )
for(i in 1:27){lines(tiempo[1:5],b1[i,1:5])}
for(i in 1:27){lines(tiempo[6:13],b1[i,6:13])}
for(i in 1:27){lines(tiempo[1:5],b2[i,1:5])}
for(i in 1:27){lines(tiempo[6:13],b2[i,6:13])}
title(main="Grupo Tratado con Ozono", cex.main=.8)

plot(tiempo[1:5],b3[1,1:5], type="n", xlab="Dias", mgp=c(1.5,.5,0),


ylab="2 x Log(Altura x Diametro)", xlim=c(0,800), ylim=c(0,8),
cex=.7, cex.lab=.8, cex.axis=.8)
abline( h=c(2,4,6), col=5 )
for(i in 1:12){lines(tiempo[1:5],b3[i,1:5])}
for(i in 1:12){lines(tiempo[6:13],b3[i,6:13])}
for(i in 1:13){lines(tiempo[1:5],b4[i,1:5])}
for(i in 1:13){lines(tiempo[6:13],b4[i,6:13])}
title(main="Grupo Control", cex.main=.8)

Termina gráfica en hoja 11


290
Gráfica en hoja 12
# Distancias (mm) del centro de la pituitaria a la fisura maxilar en
# ninhas y ninhos de edades 8,10,12 y 14 (Pothoff and Roy 1964)

datos <- matrix( c(


21.0, 20.0, 21.5, 23.0,
21.0, 21.5, 24.0, 25.5,
20.5, 24.0, 24.5, 26.0,
23.5, 24.5, 25.0, 26.5,
21.5, 23.0, 22.5, 23.5,
20.0, 21.0, 21.0, 22.5,
21.5, 22.5, 23.0, 25.0,
23.0, 23.0, 23.5, 24.0,
20.0, 21.0, 22.0, 21.5,
16.5, 19.0, 19.0, 19.5,
24.5, 25.0, 28.0, 28.0,
26.0, 25.0, 29.0, 31.0,
21.5, 22.5, 23.0, 26.5,
23.0, 22.5, 24.0, 27.5,
25.5, 27.5, 26.5, 27.0,
20.0, 23.5, 22.5, 26.0,
24.5, 25.5, 27.0, 28.5,
22.0, 22.0, 24.5, 26.5,
24.0, 21.5, 24.5, 25.5,
23.0, 20.5, 31.0, 26.0,
27.5, 28.0, 31.0, 31.5,
23.0, 23.0, 23.5, 25.0,
21.5, 23.5, 24.0, 28.0,
291
17.0, 24.5, 26.0, 29.5,
22.5, 25.5, 25.5, 26.0,
23.0, 24.5, 26.0, 30.0,
22.0, 21.5, 23.5, 25.0), ncol=4, byrow=T )

ti <- c(8,10,12,14)
n1 <- 11
n2 <- 16

# Grafica de los datos


par(mfrow=c(2,1),mar=c(3, 3, 2, 2))
plot( ti, datos[1,], ylim=c(16,32), xaxt="n", col=gray(.8),
xlab="Edad", ylab="Distancia", mgp=c(1.5,.5,0),
cex=.7, cex.lab=.8, cex.axis=.8, type="l",
main="Ninhas", cex.main=.7, xlim=c(7.8,14.2))
axis(1,at=ti, mgp=c(1.5,.5,0), cex.axis=.8)
for( i in 2:n1 ){lines( ti, datos[i,], col=gray(.8) )}
abline( a=be[1], b=be[2], lwd=2, col="blue")

plot( ti, datos[(n1+1),], ylim=c(16,32), xaxt="n",


xlab="Edad", ylab="Distancia", mgp=c(1.5,.5,0),
cex=.7, cex.lab=.8, cex.axis=.8, type="l", col=gray(.8),
main="Ninhos", cex.main=.7, xlim=c(7.8,14.2))
axis(1,at=ti, mgp=c(1.5,.5,0), cex.axis=.8)
for( i in (n1+2):(n1+n2) ){lines( ti, datos[i,], col=gray(.8) )}
abline( a=be[3], b=be[4], lwd=2, col="blue")

Termina gráfica en hoja 12


292
Gráfica en hoja 13
# Datos tomados de: http://pages.stern.nyu.edu/~wgreene/Econometrics/PanelDataSets.htm
# Produccion lechera en granjas espanholas 1993-1998
datos <- read.csv(
"c:\\Documents and Settings\\Rogelio Ramos\\My Documents\\INEGI\\M4G2\\dairy.csv",
header=TRUE) # datos: 1482 x 28
# FARM YEAR COWS LAND MILK LABOR FEED YIT X1 X2
# X3 X4 X11 X22 X33 X44 X12 X13 X14 X23
# X24 X34 YEAR93 YEAR94 YEAR95 YEAR96 YEAR97 YEAR98
par(mfrow=c(2,2),mar=c(3, 3, 2, 2))
tit <- c("Produccion de Leche", "Vacas por Granja (log)", "Mano de Obra", "Alimento")
ccol <- c(8,3,6,7)
for(j in 1:4){
sel <- (datos[,1]==1)
or <- order(datos[sel,2])
yy <- range(datos[,ccol[j]])
yy <- c(.95*yy[1],1.05*yy[2])
dd <- datos[sel,ccol[j]][or]
if(j == 3){dd <- jitter(dd)}
plot(datos[sel,2][or], dd, xlab="", mgp=c(1.5,.5,0),
ylab="", xlim=c(92.5,98.5), ylim=yy, type="l",
main=tit[j], cex=.7, cex.lab=.8, cex.axis=.8, col=gray(.7))
for(i in 2:247){
sel <- (datos[,1]==i)
or <- order(datos[sel,2])
dd <- datos[sel,ccol[j]][or]
if(j == 3){dd <- jitter(dd)}
lines(datos[sel,2][or],dd, col=gray(.7))}}

Termina gráfica en hoja 13


293
Gráfica en hoja 17
# Diabetes (ver Crowder & Hand p.61)
datc <- matrix( c(
7.6, 8.7, 7.0, 10.1, 8.9, 8.6,
11.2, 9.5, 9.4, 10.8, 11.5, 11.4,
3.9, 4.1, 3.7, 6.7, 7.3, 6.6,
2.2, 2.5, 2.4, 2.1, 2.0, 2.0), ncol=3, byrow=T)
datd <- matrix( c(
8.5, 5.6, 8.4, 7.5, 5.0, 9.5,
12.9, 13.6, 15.3, 8.8, 7.9, 7.3,
5.5, 6.4, 6.4, 3.2, 3.4, 3.2), ncol=3, byrow=T)

par(mfrow=c(2,1),mar=c(2, 3, 2, 2))
plot( c(1,5,10), datc[1,], ylim=c(0,15), xaxt="n", col="red",
xlab="", ylab="Efecto del esfuerzo", mgp=c(1.5,.5,0),
cex=.7, cex.lab=.8, cex.axis=.8, type="l",lwd=1,
main="Grupo Control", cex.main=.7, xlim=c(0,11))
axis(1,at=c(0,2,4,6,8,10), mgp=c(1.5,.5,0), cex.axis=.7)
for( i in 2:8 ){lines( c(1,5,10), datc[i,], col="red",lwd=1 )}
lines(c(1,5,10),colMeans(datc),col="blue",lwd=2)

plot( c(1,5,10), datd[1,], ylim=c(0,15), xaxt="n", col="red",


xlab="", ylab="Efecto del esfuerzo", mgp=c(1.5,.5,0),
cex=.7, cex.lab=.8, cex.axis=.8, type="l",lwd=1,
main="Diabeticos", cex.main=.7, xlim=c(0,11))
axis(1,at=c(0,2,4,6,8,10), mgp=c(1.5,.5,0), cex.axis=.7)
for( i in 2:6 ){lines( c(1,5,10), datd[i,], col="red",lwd=1 )}
lines(c(1,5,10),colMeans(datd),col="blue",lwd=2)

Termina gráfica en hoja 17


294
Análisis en hoja 20
datc <- matrix( c(
7.6, 8.7, 7.0, 10.1, 8.9, 8.6,
11.2, 9.5, 9.4, 10.8, 11.5, 11.4,
3.9, 4.1, 3.7, 6.7, 7.3, 6.6,
2.2, 2.5, 2.4, 2.1, 2.0, 2.0), ncol=3, byrow=T)
datd <- matrix( c(
8.5, 5.6, 8.4, 7.5, 5.0, 9.5,
12.9, 13.6, 15.3, 8.8, 7.9, 7.3,
5.5, 6.4, 6.4, 3.2, 3.4, 3.2), ncol=3, byrow=T)

# Medias y Matrices de covarianza muestrales


n1 <- dim(datc)[1]
m1 <- colMeans(datc)
S1 <- cov(datc)
n2 <- dim(datd)[1]
m2 <- colMeans(datd)
S2 <- cov(datd)

# Estimacion de la varianza
Sp <- ((n1-1)*S1+(n2-1)*S2)/(n1+n2-2)
# T2 de Hotelling
T2 <- (sum((m1-m2)*solve(Sp,m1-m2)))/(1/n1 + 1/n2)
# p-valor
nu <- n1+n2-2
p <- 3
pv <- 1-pf( (nu-p+1)*T2/(nu*p), p, nu-p+1)

Termina análisis en hoja 20


295
Gráfica en hoja 21

plot( c(1,5,10), datc[1,], ylim=c(0,17), xaxt="n", col="red",


xlab="", ylab="Efecto del esfuerzo", mgp=c(1.5,.5,0),
cex=.7, cex.lab=.8, cex.axis=.8, type="p", pch=16,
main="Comparacion Control vs Diabeticos", cex.main=.7, xlim=c(0,11))
for( i in 2:8 ){points( c(1,5,10), datc[i,], col="red", pch=16 )}
lines(c(1,5,10),colMeans(datc),col="red",lwd=2)
axis(1,at=c(0,2,4,6,8,10), mgp=c(1.5,.5,0), cex.axis=.7)
for( i in 1:6 ){points( c(1,5,10), datd[i,], col="blue", pch=19 )}
lines(c(1,5,10),colMeans(datd),col="blue",lwd=2)
legend(0,17,legend=c("control","diabeticos"), lwd=2, col=c("red","blue"))

Termina gráfica en hoja 21

Análisis en hoja 28

# Distancias (mm) del centro de la pituitaria a la fisura maxilar en


# nias y nios de edades 8,10,12 y 14 (Pothoff and Roy 1964)
# (matriz de datos 27 x 4 definida para la grafica de hoja 12)
# Proceso iterativo de estimacion

ti <- c(8,10,12,14)
p <- 4
X <- cbind( rep(1,p), ti )
X1 <- cbind(X,matrix(0,p,2))
X2 <- cbind(matrix(0,p,2),X)
n1 <- 11
n2 <- 16
296
n <- n1+n2
S0 <- ((n1-1)*var(datos[1:n1,]) + (n2-1)*var(datos[(n1+1):27,]))/(n1+n2-2)

round(S0,2)
[,1] [,2] [,3] [,4]
[1,] 5.42 2.72 3.91 2.71
[2,] 2.72 4.18 2.93 3.32
[3,] 3.91 2.93 6.46 4.13
[4,] 2.71 3.32 4.13 4.99

test <- TRUE


k <- 0
itermax <- 100
tolera <- 1e-6
bet <- rep(0,p)

while( test ){
auo <- c(bet,as.vector(S0))
k <- k+1
li <- n1*t(X1)%*%solve(S0,X1) + n2*t(X2)%*%solve(S0,X2)
ld <- t(X1)%*%solve(S0,colSums(datos[1:n1,]))
ld <- ld + t(X2)%*%solve(S0,colSums(datos[(n1+1):(n2+n1),]))
bet <- solve(li,ld)
vv <- matrix(0,p,p)

297
for(i in 1:n1){
aa <- as.vector(datos[i,] - X1%*%bet)
vv <- vv + outer(aa,aa)}
for(i in (n1+1):n){
aa <- as.vector(datos[i,] - X2%*%bet)
vv <- vv + outer(aa,aa)}
S0 <- vv/n
aux <- c(bet,as.vector(S0)) - auo
tol <- max( sqrt( aux*aux ) )
if( k > itermax ){
cat("Numero de iteraciones excede al maximo","\n")
test <- FALSE }
if( tol<tolera ){
cat("Convergencia","\n")
test <- FALSE } }

# bet: 17.4253685 0.4763647 15.8422893 0.8268033

# round(S0,2)
[,1] [,2] [,3] [,4]
[1,] 5.12 2.44 3.61 2.52
[2,] 2.44 3.93 2.72 3.06
[3,] 3.61 2.72 5.98 3.82
[4,] 2.52 3.06 3.82 4.62

Termina análisis en hoja 28

298
Gráfica y análisis en hojas 37 y 38
# Ajuste de un modelo con interceptos aleatorios.
# (matriz de datos 27 x 4 definida para la grafica de hoja 12)

ti <- c(8,10,12,14)
p <- 4
n1 <- 11; n2 <- 16; n <- n1+n2
Xm <- cbind(rep(1,4),ti,rep(0,4))
Xh <- cbind(rep(1,4),rep(0,4),ti)

logvn <- function(r){


N <- p*n
cte <- N/2 + (N/2)*log(2*pi) - (N/2)*log(N)
V0 <- (1-r)*diag(p) + r*matrix(1,p,p)
ym <- colSums( datos[1:n1,] )
yh <- colSums( datos[(n1+1):(n1+n2),] )
li <- n1*t(Xm)%*%solve(V0,Xm) + n2*t(Xh)%*%solve(V0,Xh)
ld <- t(Xm)%*%solve(V0,ym) + t(Xh)%*%solve(V0,yh)
bet <<- solve(li,ld)
sce <- 0
for( i in 1:n1 ){
y <- datos[i,]
sce <- sce + t(y-Xm%*%bet) %*% solve(V0,y-Xm%*%bet) }
for( i in (n1+1):(n1+n2) ){
y <- datos[i,]
sce <- sce + t(y-Xh%*%bet) %*% solve(V0,y-Xh%*%bet) }
sce <<- sce
return( cte + (N/2)*log(sce) + (n/2)*log(det(V0)) ) }

299
out <- nlminb(start=.5, objective=logvn, lower = 0.0001, upper = .9999)
ro <- out$par # 0.6177417
mm <- logvn(ro)
bet # 16.7611111 0.5220401 0.7551599
sce # 531.9709
tao2 <- sce/(p*n) # 4.925657
s20 <- ro*tao2 # 3.042783
s2 <- tao2 - s20 # 1.882873

rs <- seq(.001,.999,length=200)
ys <- rep(0,200)
for( i in 1:200 ){ys[i] <- -logvn(rs[i])}
plot(rs,ys,type="l",xlab=expression(rho),
main=expression(paste("Estimacin de ",rho)),
ylab="logverosimilitud perfil",ylim=c(-285,-200), lwd=2,
col="red", mgp=c(1.5,.5,0),cex=.8, cex.lab=.9, cex.axis=.8)
segments(ro,-285,ro,-mm,col=gray(.7))

Termina gráfica y análisis en hojas 37 y 38

300
Gráfica en hoja 43

# Datos tomados de Greene, p.614


datos <- matrix(c(
rep(1:6,rep(4,6)), rep(1:4,6),
3.154, 4.271, 4.584, 5.849, 3.859, 5.535, 8.127, 10.966,
19.035, 26.041, 32.444, 41.180, 35.229, 51.111, 61.045, 77.885,
33.154, 40.044, 43.125, 57.727, 73.050, 98.846, 138.88, 191.56,
214, 419, 588, 1025, 696, 811, 1640, 2506,
3202, 4802, 5821, 9275, 5668, 7612, 10206, 13702,
6000, 8222, 8484, 10004, 11796, 15551, 27218, 30958),
ncol=4, byrow=F)

lcost <- log(datos[,3])


loutp <- log(datos[,4])

par(mfrow=c(3,2),mar=c(2, 2, 2, 1))
for(i in 1:6){
sel <- (datos[,1]==i)
plot(datos[sel,2], lcost[sel], ylim=c(0,11), col="red",
xlab="", ylab="", mgp=c(1.5,.5,0),lwd=2,
cex=.7, cex.lab=.8, cex.axis=.8, type="l",
main=paste("Compania ",i), cex.main=.8, xlim=c(.5,4.5))
lines(datos[sel,2],loutp[sel],col="blue",lwd=2)}
legend(3,3.5,legend=c("log output","log costo"),col=c("blue","red"),lwd=2)

Termina gráfica en hoja 43

301
Gráficas en hojas 45 y 46
# Matriz datos 24 x 4 definida para grafica de hoja 43
tt <- c(1955,1960,1965,1970)
par(mfrow=c(2,2),mar=c(3, 3, 2, 1))
for(i in 1:4){
sel <- (datos[,2]==i)
plot(loutp[sel], lcost[sel], ylim=c(.5,6), col="blue",
mgp=c(1.5,.5,0),xlab="Log(Output)", pch=16,
cex=.7, cex.lab=.8, cex.axis=.8, ylab="Log(Costo)",
main=paste("Anio ",tt[i]), cex.main=.8, xlim=c(5,11))
oux <- lm(lcost~loutp, subset=sel)
abline(oux,lwd=2,col="red")}
par(mfrow=c(2,1),mar=c(3, 3, 2, 1))
plot(loutp, lcost, ylim=c(.5,6), col="blue", pch=16,
mgp=c(1.5,.5,0),xlab="Log(Output)",ylab="Log(Costo)",
cex=.7, cex.lab=.8, cex.axis=.8, type="p",
main="Relacion Costo-Output", cex.main=.8, xlim=c(5,11))
out <- lm(lcost ~loutp); abline(out,col="red",lwd=2)
plot(loutp, lcost, ylim=c(.5,6), col="blue", pch=16,
mgp=c(1.5,.5,0),xlab="Log(Output)",ylab="Log(Costo)",
cex=.7, cex.lab=.8, cex.axis=.8, type="p",
main="Relacion Costo-Output", cex.main=.8, xlim=c(5,11))
for(i in 1:6){
sel <- (datos[,1]==i)
ran <- range(loutp[sel])
oux <- lm(lcost~loutp, subset=sel)
pre <- predict(oux,data.frame(loutp=ran))
segments(ran[1],pre[1],ran[2],pre[2],col="red",lwd=2)}

Termina gráficas en hojas 45 y 46


302
Análisis y gráfica en hojas 52 y 53
# Modelo con Efectos Fijos
# Matriz datos y vectores lcost y loutp definidos para grafica de hoja 43
m <- 4; n <- 6
M0 <- diag(m)-matrix(1,m,m)/m
li <- 0; ld <- 0
for(i in 1:n){
sel <- (datos[,1]==i)
Xi <- loutp[sel]
yi <- lcost[sel]
li <- li + sum(Xi*(M0%*%Xi))
ld <- ld + sum(Xi*(M0%*%yi))}
bet <- ld/li # 0.674279
alf <- rep(0,n)
for(i in 1:n){
sel <- (datos[,1]==i)
Xi <- loutp[sel]
yi <- lcost[sel]
alf[i] <- mean(yi-Xi*bet)} # -2.69 -2.91 -2.44 -2.13 -2.31 -1.90
plot(loutp, lcost, ylim=c(.5,6), col="blue", pch=16,
mgp=c(1.5,.5,0),xlab="Log(Output)",ylab="Log(Costo)",
cex=.7, cex.lab=.8, cex.axis=.8, type="p",
main="Relacion Costo-Output", cex.main=.8, xlim=c(5,11))
for(i in 1:6){
sel <- (datos[,1]==i)
ran <- range(loutp[sel])
pre <- alf[i] + bet*ran
segments(ran[1],pre[1],ran[2],pre[2],col="red",lwd=2)}

Termina análisis y gráfica en hojas 52 y 53


303
Análisis en hoja 62

# Errores Estandar, Modelo con Efectos Fijos


# Matriz datos y vectores lcost y loutp definidos para grafica de hoja 43
# Estimaciones alf y bet definidos en la hoja anterior en este apendice.
# El termino li tambien esta definido en la hoja anterior.
k <- 1
sce <- 0

for(i in 1:n){
sel <- (datos[,1]==i)
Xi <- loutp[sel]
yi <- lcost[sel]
sce <- sce + sum((yi-alf[i]-Xi*bet)^2)}

cme <- sce/(n*m-n-k) # cuadrado medio del error


vbe <- cme/li # estimacion de varianza de beta
vae <- rep(0,n)

for(i in 1:n){
sel <- (datos[,1]==i)
Xi <- loutp[sel]
vae[i] <- cme/m + vbe*(mean(Xi))^2} # estimacion de varianza de alfas
sqrt(cme) # 0.1246
sqrt(vbe) # 0.0611
sqrt(vae) # 0.3828 0.4396 0.5287 0.5588 0.5533 0.6081

Termina análisis en hoja 62


304
Análisis en hoja 67

# Errores Estandar, Modelo con Efectos Fijos


# Matriz datos y vectores lcost y loutp definidos para grafica de hoja 43
# Estimaciones alf y bet definidos en hojas anteriores, tambien li y cme
# fueron definidos antes

# Prueba de igualdad de interceptos


Lt <- cbind( diag(n-1), rep(-1,n-1) )
R <- matrix(0,n,n)
for( i in 1:n ){
sel <- (datos[,1]==i)
Xbi <- mean(loutp[sel])
for( j in 1:n ){
sel <- (datos[,1]==j)
Xbj <- mean(loutp[sel])
if( j == i ){ R[i,i] <- 1/m + Xbi*Xbj/li
}else{ R[i,j] <- Xbi*Xbj/li } } }
num <- t(Lt%*%alf) %*% solve( Lt%*%R%*%t(Lt), Lt%*%alf )/(n-1)
FF <- num/cme # 9.671526
pval <- 1-pf(FF,n-1,n*m-n-k) # 0.0001644001

Termina análisis en hoja 67

305
Análisis y gráfica en hojas 82 y 83
datos <- matrix( c(
7918, 8190, 8443, 8800, 8940, 9445, 9894, 10121, 10288, 10672,
10911, 11232, 11702, 12073, 12910, 13657, 14313, 14932, 15513, 15998,
16881, 17284, 17974, 19163, 18966, 19317, 20010, 20666, 21674, 22162,
22143, 22486, 22615, 23346, 24684, 25090,
7332, 7487, 7714, 8025, 8227, 8738, 8998, 9197, 9329, 9794,
10051, 10252, 10690, 11084, 11706, 12364, 12989, 13377, 14059, 14567,
14920, 15388, 16219, 16896, 16740, 17119, 18039, 18838, 19610, 20044,
20004, 20242, 20507, 21459, 22399, 23126),ncol=2,byrow=F)/10
n <- dim(datos)[1]
datos <- datos[n:1,]
ingreso <- datos[,1]
consumo <- datos[,2]
xr <- range(ingreso); d <- xr[2]-xr[1]; xr <- xr+.05*d*c(-1,1)
yr <- range(consumo); d <- yr[2]-yr[1]; yr <- yr+.05*d*c(-1,1)
plot(ingreso, consumo, mgp=c(1.5,.5,0), col="black", cex.axis=.7,
cex.lab=.7, main="", cex.main=.7, type="p", xlim=xr, ylim=yr,
xlab="Ingreso", ylab="Consumo", pch=19 )
ingl <- ingreso[-n]; conl <- consumo[-n]
out <- lm(conl ~ ingl); summary(out)
Z <- cbind(rep(1,n-1),datos[-1,])
X <- cbind(rep(1,n-1),ingreso[-n])
Xg <- Z%*%solve(t(Z)%*%Z,t(Z)%*%X)
bvi <- solve(t(Xg)%*%X,t(Xg)%*%consumo[-n])
s2 <- sum((consumo[-n] - as.vector(X%*%bvi))^2)/(n-1)
vv <- s2*solve(t(Xg)%*%X,t(Xg)%*%Xg)%*%solve(t(X)%*%Xg)
sqrt(diag(vv))

Termina análisis y gráfica en hojas 82 y 83


306
Gráfica y análisis en hojas 93 y 94
# Estimadores "between"y "within" pag 618 Greene

datos <- matrix(c(


rep(1:6,rep(4,6)), rep(1:4,6),
3.154, 4.271, 4.584, 5.849, 3.859, 5.535, 8.127, 10.966,
19.035, 26.041, 32.444, 41.180, 35.229, 51.111, 61.045, 77.885,
33.154, 40.044, 43.125, 57.727, 73.050, 98.846, 138.88, 191.56,
214, 419, 588, 1025, 696, 811, 1640, 2506,
3202, 4802, 5821, 9275, 5668, 7612, 10206, 13702,
6000, 8222, 8484, 10004, 11796, 15551, 27218, 30958),
ncol=4, byrow=F)

n <- 6
m <- 4
lcost <- log(datos[,3]) # y
loutp <- log(datos[,4]) # x
Sxxt <- (n*m-1)*var(loutp)
Sxyt <- (n*m-1)*cov(loutp,lcost)
bmc <- Sxyt/Sxxt # minimos cuadrados

Sxxw <- 0
Sxyw <- 0
for(i in 1:n){
sel <- (datos[,1]==i)
Sxxw <- Sxxw + (m-1)*var(loutp[sel])
Sxyw <- Sxyw + (m-1)*cov(loutp[sel],lcost[sel])}
bw <- Sxyw/Sxxw # dentro de grupos

307
xbb <- mean(loutp)
ybb <- mean(lcost)
Sxxb <- 0
Sxyb <- 0
for(i in 1:n){
sel <- (datos[,1]==i)
Sxxb <- Sxxb + m*(mean(loutp[sel])-xbb)^2
Sxyb <- Sxyb + m*(mean(loutp[sel])-xbb)*(mean(lcost[sel])-ybb)}
bb <- Sxyb/Sxxb # entre grupos
pesow <- Sxxw/(Sxxw+Sxxb) # 0.097496

# Grafica
desvy <- rep(0,n*m)
desvx <- rep(0,n*m)
my <- rep(0,n)
mx <- rep(0,n)
for(i in 1:n){
sel <- (datos[,1]==i)
my[i] <- mean(lcost[sel])
mx[i] <- mean(loutp[sel])
desvy[sel] <- lcost[sel]-mean(lcost[sel])
desvx[sel] <- loutp[sel]-mean(loutp[sel]) }

par(mfrow=c(3,1),mar=c(3, 3, 2, 1))
plot(loutp, lcost, col="blue", pch=16,
mgp=c(1.5,.5,0),xlab="",ylab="Log(Costo)",
cex=.7, cex.lab=.8, cex.axis=.8, type="n",
main=paste("Todos ","(",round(bmc,3),")"), cex.main=.9)

308
for(i in 1:6){
sel <- (datos[,1]==i)
points(loutp[sel],lcost[sel],col=i,pch=i)}
plot(desvx, desvy, col="blue", pch=16,
mgp=c(1.5,.5,0),xlab="",ylab="Desv. Log(Costo)",
cex=.7, cex.lab=.8, cex.axis=.8, type="p",
main=paste("Dentro ","(",round(bw,3),")"), cex.main=.9)
plot(mx, my, col="blue", pch=16,
mgp=c(1.5,.5,0),xlab="",ylab="Log(Costo)",
cex=.7, cex.lab=.8, cex.axis=.8, type="p",
main=paste("Entre ","(",round(bb,3),")"), cex.main=.9)
Termina gráfica y análisis en hojas 93 y 94
Análisis en hoja 97
# Estimacion de un modelo de interceptos aleatorios
datos <- matrix(c(
rep(1:6,rep(4,6)), rep(1:4,6),
3.154, 4.271, 4.584, 5.849, 3.859, 5.535, 8.127, 10.966,
19.035, 26.041, 32.444, 41.180, 35.229, 51.111, 61.045, 77.885,
33.154, 40.044, 43.125, 57.727, 73.050, 98.846, 138.88, 191.56,
214, 419, 588, 1025, 696, 811, 1640, 2506,
3202, 4802, 5821, 9275, 5668, 7612, 10206, 13702,
6000, 8222, 8484, 10004, 11796, 15551, 27218, 30958),
ncol=4, byrow=F)

lcost <- log(datos[,3])


loutp <- log(datos[,4])
n <- 6
m <- 4
N <- n*m
309
logvn <- function(r){
V0 <- (1-r)*diag(m) + r*matrix(1,m,m)
li <- matrix(0,2,2)
ld <- rep(0,2)
for(i in 1:n){
sel <- (datos[,1]==i)
y <- lcost[sel]
X <- cbind(rep(1,m),loutp[sel])
li <- li + t(X)%*%solve(V0,X)
ld <- ld + t(X)%*%solve(V0,y) }
bet <<- solve(li,ld)
aa <- 0
for(i in 1:n){
sel <- (datos[,1]==i)
y <- lcost[sel]
X <- cbind(rep(1,m),loutp[sel])
aa <- aa + t(y-X%*%bet)%*%solve(V0,y-X%*%bet) }
sce <<- aa
cte <- N/2 + (N/2)*log(2*pi) - (N/2)*log(N)
return( cte + (N/2)*log(aa) + (n/2)*log(det(V0)) ) }

rs <- seq(.01,.90,length=200)
ys <- rep(0,200)
for( i in 1:200 ){ys[i] <- -logvn(rs[i])}
plot(rs,ys,type="l",xlab="ro",ylab="logverosimilitud")

310
out <- nlminb(start=.5, objective=logvn, lower = 0.01, upper = .99)
ro <- out$par # 0.73
mm <- logvn(ro)
beta <- bet # -3.26 0.78
tao2 <- sce/N # 0.064
sce # 1.5
s20 <- ro*tao2 # 0.047
s2 <- tao2 - s20 # 0.017
sqrt(s20) # 0.22
sqrt(s2) # 0.13

Termina análisis en hoja 97

Análisis en hoja 100

# Prueba sobre efectos aleatorios


# pag 628, Greene

out <- lm(lcost ~ loutp)


ei <- out$residuals
sume <- rep(0,n)
for(i in 1:n){
sel <- (datos[,1]==i)
sume[i] <- sum(ei[sel]) }
LM <- n*m*((sum(sume^2)/sum(ei^2) -1)^2)/(2*(m-1)) # 5.9
pval <- 1-pchisq(LM,1) # 0.015

Termina análisis en hoja 100

311
Análisis en hoja 104

####### Este anlisis es continuacion del correspondiente a hoja 97.


####### Varianza de los coeficientes de regresion
# (usados para prueba de Hausman)

V0 <- (1-ro)*diag(m) + ro*matrix(1,m,m)


li <- matrix(0,2,2)
for(i in 1:n){
sel <- (datos[,1]==i)
y <- lcost[sel]
X <- cbind(rep(1,m),loutp[sel])
li <- li + t(X)%*%solve(V0,X) }
vv <- diag( as.vector(tao2)*solve(li) )
dvv <- sqrt(vv) # 0.411 0.048

# Prueba de Hausman
W <- ((0.674279 - beta[2])^2)/(.0611^2 - vv[2]) # 7.6
pval <- 1-pchisq(W,1) # 0.0058

Termina análisis en hoja 104

312
Análisis y gráfica en hojas 109 y 113
# Distancias (mm) del centro de la pituitaria a la fisura maxilar.
# Estimacion de Trayectorias Individuales
datos <- matrix( c(
21.0, 20.0, 21.5, 23.0, 21.0, 21.5, 24.0, 25.5,
20.5, 24.0, 24.5, 26.0, 23.5, 24.5, 25.0, 26.5,
21.5, 23.0, 22.5, 23.5, 20.0, 21.0, 21.0, 22.5,
21.5, 22.5, 23.0, 25.0, 23.0, 23.0, 23.5, 24.0,
20.0, 21.0, 22.0, 21.5, 16.5, 19.0, 19.0, 19.5,
24.5, 25.0, 28.0, 28.0, 26.0, 25.0, 29.0, 31.0,
21.5, 22.5, 23.0, 26.5, 23.0, 22.5, 24.0, 27.5,
25.5, 27.5, 26.5, 27.0, 20.0, 23.5, 22.5, 26.0,
24.5, 25.5, 27.0, 28.5, 22.0, 22.0, 24.5, 26.5,
24.0, 21.5, 24.5, 25.5, 23.0, 20.5, 31.0, 26.0,
27.5, 28.0, 31.0, 31.5, 23.0, 23.0, 23.5, 25.0,
21.5, 23.5, 24.0, 28.0, 17.0, 24.5, 26.0, 29.5,
22.5, 25.5, 25.5, 26.0, 23.0, 24.5, 26.0, 30.0,
22.0, 21.5, 23.5, 25.0), ncol=4, byrow=T )
ti <- c(8,10,12,14); n <- dim(datos)[1]; m <- 4
plot( ti, datos[1,], ylim=c(16,32), xaxt="n", col="blue",
xlab="", ylab="Distancia", mgp=c(1.5,.5,0),
cex=.7, cex.lab=.8, cex.axis=.8, type="l",
main="Ninas y Ninos", cex.main=.8, xlim=c(7.8,14.2))
axis(1,at=ti, mgp=c(1.5,.5,0), cex.axis=.8)
for( i in 1:n ){lines( ti, datos[i,], col="blue" )}
segments(8,16.76+0.66*8,14,16.76+0.66*14,col="red",lwd=2)
# Suponiendo un modelo de interceptos aleatorios
X <- cbind(rep(1,4),ti)

313
logvn <- function(r){
N <- m*n
cte <- N/2 + (N/2)*log(2*pi) - (N/2)*log(N)
V0 <- (1-r)*diag(m) + r*matrix(1,m,m)
y <- colSums( datos )
li <- n*t(X)%*%solve(V0,X)
ld <- t(X)%*%solve(V0,y)
bet <<- solve(li,ld)
aa <- 0
for( i in 1:n ){
y <- datos[i,]
aa <- aa + t(y-X%*%bet) %*% solve(V0,y-X%*%bet) }
sce <<- aa
return( cte + (N/2)*log(sce) + (n/2)*log(det(V0)) ) }
out <- nlminb(start=.5, objective=logvn, lower = 0.0001, upper = .9999)
ro <- out$par # 0.68
mm <- logvn(ro)
bet # 16.76 0.66
sce # 682
tao2 <- sce/(m*n) # 6.3
s20 <- ro*tao2 # 4.3
s2 <- tao2 - s20 # 2.0
y <- datos[21,]
xb <- bet[1]+ti*bet[2]
V0 <- (1-ro)*diag(m) + ro*matrix(1,m,m)
di <- ro*sum(solve(V0,y-xb))
tr <- xb+di
lines(ti,tr,lwd=2,col="red")

Termina análisis y gráfica en hojas 109 y 113


314
Gráfica en hoja 116
libray(nlme)
plot( Rail$travel[Rail$Rail==1], rep(1,3), xlim=range(Rail$travel),
ylim=c(.5,6.5), xlab="Tiempo", ylab="Riel", mgp=c(1.5,.5,0),
cex=.7, cex.lab=.8, cex.axis=.8, type="n", pch=19)
abline(h=1:6,col=gray(.7))
for(i in 1:6){points(Rail$travel[Rail$Rail==i], rep(i,3),pch=19)}
Termina gráfica en hoja 116
Gráfica en hoja 125
# Lectura datos de radon 12777 x 25
dir <- "C:\\Documents and Settings\\Rogelio Ramos\\My Documents\\INEGI\\M4G2\\srrs2.dat"
datos <- read.table(dir, header=T, sep=",")

# Nos quedamos con Minnesota


mn <- (datos$state=="MN")

# logDatos de actividad
radon <- (datos$activity[mn])
lradon <- log( ifelse(radon==0, .1, radon) )

# Toma de datos: sotano o primer piso


piso <- datos$floor[mn] # 0 si sotano, 1 si primer piso

n <- length(radon) # 919 registros


y <- lradon
x <- piso

315
# Variable indicadora de condado
countynom <- as.vector(datos$county[mn])
uniq <- unique(countynom)
J <- length(uniq) $ 85 condados en MN
county <- rep(0,J)
for(i in 1:J){ county[countynom==uniq[i]] <- i }

# Tamanhos de muestras
nobs <- as.vector( table(county) )
nobsj <- nobs*exp(runif(J, -.1, .1))

# Media global
lrmed <- mean(y) # 1.2

# media por condado


condmed <- tapply(y,county,mean)

# varianzas por condado


condvar <- tapply(y,county,var)

# estimador de varianza
varest <- sum((nobs[!is.na(condvar)]-1)*(condvar[!is.na(condvar)]))/(n-J+1)
desv <- sqrt(varest)

# errores estandar de las medias por condado


errstd <- desv/sqrt(nobs)

316
par(mfrow=c(2,1),mar=c(3, 3, 2, 1))
# Grafica de medias por condado
plot( nobsj, condmed, xlab="num obs por condado",log="x",mgp=c(1.5,.5,0),
ylab="logradon promedio por condado",pch=20, ylim=c(0,3.2),cex.axis=.8,
main="Sin Combinar", cex.main=.9)
abline(h=lrmed)
for( i in 1:J){
lines( rep(nobsj[i],2), condmed[i]+c(-1,1)*errstd[i] )}

# Usando modelo de efectos aleatorios


out <- lmer( y ~ 1 + (1|county), method="ML")
medea <- coef(out)
medea <- (medea$county)$"(Intercept)"
errea <- se.ranef(out)
errea <- as.vector((errea$county))

plot( nobsj, medea, xlab="num obs por condado",log="x",mgp=c(1.5,.5,0),


ylab="logradon promedio por condado",pch=20, ylim=c(0,3.2),cex.axis=.8,
main="Modelo Multinivel", cex.main=.9)
abline(h=lrmed)
for( i in 1:J){ lines( rep(nobsj[i],2), medea[i]+c(-1,1)*errea[i] )}

Termina gráfica en hoja 125

317
Gráfica en hoja 127

# Incorporacion de covariables: Piso donde se hicieron las mediciones


out <- lmer( y ~ x + (1|county), method="ML")
summary(out) # Analisis hoja 126
sel <- c(36,1,35,21,14,71,61,70)
aest <- fixef(out)[1] + ranef(out)$county
best <- fixef(out)[2]
xj <- x + runif(n,-.05,.05)
yr <- range(y[!is.na(match(county,sel))])
par (mfrow=c(2,4), mar=c(3,3,3,1))
for (j in sel){
plot(xj[county==j], y[county==j], xlim=c(-.1,1.1), ylim=yr,mgp=c(1.5,.5,0),
xlab="Piso", ylab="Nivel de log(radon)", cex.lab=.8, cex.axis=.8,
pch=20, xaxt="n", yaxt="n", cex.main=1, col.main="blue", main=uniq[j])
axis(1, c(0,1), mgp=c(1.5,.5,0), cex.axis=.8)
axis(2, seq(-1,3,2), mgp=c(1.5,.5,0), cex.axis=.8)
curve(aest[j,] + best*x, col="red", lwd=2, add=TRUE) }

Termina gráfica en hoja 127

Análisis y gráficas en hojas 130-133

# Incorporacion de los niveles de Uranio


datfips <- 1000*datos$stfips + datos$cntyfips
dir <- c("C:\\Documents and Settings\\Rogelio Ramos\\My Documents\\INEGI\\M4G2\\cty.dat")
uracon <- read.table(dir, header=T, sep=",")
usafips <- 1000*uracon$stfips + uracon$ctfips
usarows <- match(unique(datfips[mn]), usafips)

318
uranio <- uracon[usarows,"Uppm"]
u <- log(uranio)
uexp <- u[county]
out2 <- lmer(y ~ x + uexp + (1|county))
summary(out2)
aest2 <- fixef(out2)[1] + fixef(out2)[3]*u + as.vector(ranef(out2)$county)
best2 <- fixef(out2)[2]
sel <- c(36,1,35,21,14,71,61,70)
par(mfrow=c(2,4), mar=c(3,3,3,1), oma=c(1,1,2,1))
for(j in sel){
plot (xj[county==j], y[county==j], xlim=c(-.1,1.1), ylim=yr,
xlab="Piso", ylab="log(radon)", cex.lab=.8, cex.axis=.8,col.main="blue",
pch=20, mgp=c(1.5,.5,0), xaxt="n", yaxt="n", cex.main=1, main=uniq[j])
axis(1, c(0,1), mgp=c(1.5,.5,0), cex.axis=.8)
axis(2, seq(-1,3,2), mgp=c(1.5,.5,0), cex.axis=.8)
curve(aest[j,] + best*x, lwd=1, col="red", add=TRUE)
curve(aest2[j,] + best2*x, col="blue", lwd=2, add=TRUE) }

aa <- sample((1:85)[-sel],size=16)
sel <- c(sel,aa)
par(mfrow=c(6,4), mar=c(1,1,1,1))
for(j in sel){
plot (xj[county==j], y[county==j], xlim=c(-.1,1.1), ylim=yr,
xlab="", ylab="", cex.lab=.8, cex.axis=.8,col.main="blue",
pch=20, mgp=c(1.5,.5,0), xaxt="n", yaxt="n", cex.main=.8, main=uniq[j])
axis(1, c(0,1), mgp=c(1.5,.5,0), cex.axis=.8)
axis(2, seq(-1,3,2), mgp=c(1.5,.5,0), cex.axis=.8)
curve(aest2[j,] + best2*x, col="red", lwd=1, add=TRUE) }

Termina análisis y gráficas en hojas 130-133


319
Gráfica en hoja 135
# Interceptos vs Uranio
errsta <- as.vector(se.coef(out2)$county)
plot(u, t(aest2), cex.lab=.8, cex.axis=.8, xlim=c(-1,.75),
xlab="Uranio", ylab="Interceptos Estimados", pch=20, ylim=c(0.6,2.1),
main="Variabilidad debida al Uranio", yaxt="n", xaxt="n", mgp=c(1.5,.5,0))
axis(1, seq(-1,.75,.5), cex.axis=.8, mgp=c(1.5,.5,0))
axis(2, seq(.5,2,.5), cex.axis=.8, mgp=c(1.5,.5,0))
curve(fixef(out2)["(Intercept)"]+fixef(out2)["uexp"]*x,col="blue", add=TRUE)
for(j in 1:J){
lines(rep(u[j],2), aest2[j,] + c(-1,1)*errsta[j], lwd=.5, col="red")}
Termina gráfica en hoja 135
Gráfica en hoja 139
# Modelo con interceptos y pendientes aleatorias (sin predictora a nivel condado)
out3 <- lmer(y ~ x + (1 + x | county))
summary(out3)
aest3 <- coef(out3)$county[,1]
best3 <- coef(out3)$county[,2]
par(mfrow=c(2,4), mar=c(3,3,3,1), oma=c(1,1,2,1))
for(j in sel){
plot (xj[county==j], y[county==j], xlim=c(-.1,1.1), ylim=yr,
xlab="Piso", ylab="log(radon)", cex.lab=.8, cex.axis=.8,col.main="blue",
pch=20, mgp=c(1.5,.5,0), xaxt="n", yaxt="n", cex.main=1, main=uniq[j])
axis(1, c(0,1), mgp=c(1.5,.5,0), cex.axis=.8)
axis(2, seq(-1,3,2), mgp=c(1.5,.5,0), cex.axis=.8)
curve(aest3[j] + best3[j]*x, lwd=2, col="blue", add=TRUE) }

Termina gráfica en hoja 139


320
Gráfica en hoja 142
# incorporacion de la variable uranio

out4 <- lmer (y ~ x + uexp + x*uexp + (1 + x | county))


summary(out4)

aest4 <- coef(out4)$county[,1] + coef(out4)$county[,3]*u


best4 <- coef(out4)$county[,2] + coef(out4)$county[,4]*u
errsta <- se.coef(out4)$county[,1]
errstb <- se.coef(out4)$county[,2]

par(mfrow=c(2,1),mar=c(3,3,2,1))
# intercepto vs uranio
linf <- aest4 - errsta
lsup <- aest4 + errsta
plot(u, aest4, cex.lab=.8, cex.axis=.8, ylim=range(linf,lsup),
xlab="Uranio", ylab="Interceptos", pch=20, mgp=c(1.5,.5,0))
curve(fixef(out4)[1] + fixef(out4)[3]*x, col="blue", add=TRUE)
segments(u, linf, u, lsup, lwd=.5, col="red")

# pendiente vs uranio
linf <- best4 - errstb
lsup <- best4 + errstb
plot(u, best4, cex.lab=.8, cex.axis=.8, ylim=range(linf,lsup),
xlab="Uranio", ylab="Pendientes", pch=20, mgp=c(1.5,.5,0))
curve(fixef(out4)[2] + fixef(out4)[4]*x, col="blue", add=TRUE)
segments(u, linf, u, lsup, lwd=.5, col="red")

Termina gráfica en hoja 142


321
Análisis en hoja 176
obs <- matrix( c(173, 160, 599, 851),ncol=2,byrow=T )
esp <- outer( rowSums(obs), colSums(obs) )/sum(obs)
ji2 <- sum( (obs-esp)^2/esp ) # 12.49
pv <- 1-pchisq(ji2,1) # 0.000409
Termina análisis en hoja 176
Análisis y gráfica en hojas 183-184
pref <- matrix( c( 34 , 61 , 16, 31 , 19 , 17,
19 , 23 , 16, 23 , 39 , 12),ncol=3,byrow=T)
esp <- outer( rowSums(pref), colSums(pref) )/sum(pref)
G2 <- 2*sum(pref*log(pref/esp)) # 16.39
gl <- (dim(pref)[1]-1)*(dim(pref)[2]-1)
pv <- 1-pchisq(G2,gl) # 0.0118
x <- 1:3; y <- log(pref)
co <- c("red","blue","orange","green")
x <- 1:3; y <- 100*pref/rowSums(pref)
co <- c("red","blue","yellow","green")
plot( 1:3, y[1,], ylim=c(10,60), xaxt="n", col=co[1],
xlab="", ylab="porcentaje", mgp=c(1.5,.5,0), lwd=2,
cex=.7, cex.lab=.8, cex.axis=.8, type="l",
main="Afiliacion Politica", cex.main=.8, xlim=c(.5,3.5))
axis(1,at=x, labels=c("Rep.","Dem.","Indep."), mgp=c(1.5,.5,0), cex.axis=.7)
for( i in 2:4 ){lines( x, y[i,], col=co[i], lwd=2 )}
for( i in 1:4 ){points( x, y[i,], col=co[i] )}
legend(2.6,55, bty="n",legend=c("Let","Ing","Agr","Edu"),lty=1,lwd=2,col=co )

Termina análisis y gráfica en hojas 183-184


322
Análisis en hoja 193

# cancer
n11 <- 688; n12 <- 650; n21 <- 21; n22 <- 59
tet <- n11*n22/(n12*n21)
alf <- .05
za <- qnorm(1-alf/2)
icl <- log(tet) + za*sqrt(1/n11+1/n12+1/n21+1/n22)*c(-1,1)
ict <- exp(icl)

Termina análisis en hoja 193

Análisis en hoja 199

# intervalo para el riesgo relativo


n11 <- 189; n12 <- 10845; n21 <- 104; n22 <- 10933
rr <- (n11/(n11+n12))/(n21/(n21+n22))
alf <- .05
za <- qnorm(1-alf/2)
irr <- exp(log(rr)+za*sqrt(1/n11-1/(n11+n12)+1/n21-1/(n21+n22))*c(-1,1))
# 1.433031 2.305884

Termina análisis en hoja 199

323
Análisis en hojas 207 y 208
# Coeficiente de Concentracion de Goodman & Kendall

nij <- matrix( c(206 , 53 , 225 , 12 , 1 , 3), ncol=2)


II <- dim(nij)[1]
JJ <- dim(nij)[2]
obs <- nij
esp <- outer( rowSums(obs), colSums(obs) )/sum(obs)
ji2 <- sum( (obs-esp)^2/esp ) # 6.67
pv <- 1-pchisq(ji2,(II-1)*(JJ-1)) # 0.036

n <- sum(nij)
nip <- rowSums(nij)
npj <- colSums(nij)
tao <- ( n*sum((nij^2)/nip) - sum(npj^2) ) / ( n^2 - sum(npj^2) ) # 0.0133
pij <- obs/n
pip <- nip/n
ppj <- npj/n
del <- 1 - sum(ppj^2)
nu <- sum( (pij - outer( pip, ppj ))^2 / pip )
aa <- pij
for(i in 1:II){
for(j in 1:JJ){
bb <- 2*nu*sum(ppj[-j])
aa[i,j] <- (bb - del*(2*sum(pij[i,-j])/pip[i] - sum((pij/pip)[,-j])))^2 } }
s2t <- (sum(pij*aa))/(n*del^4)
est <- sqrt(s2t) # 0.137

Termina análisis en hojas 207 y 208


324
Análisis en hoja 218

# Concordantes
dat <- matrix( c(
20 , 24 , 80 ,82 , 22 , 38 , 104 , 125,
13 , 28 , 81 , 113 , 7 , 18 , 54 , 92), ncol=4, byrow=T)
II <- dim(dat)[1]
JJ <- dim(dat)[2]
cc <- 0
for(i in 1:(II-1)){
for(j in 1:(JJ-1)){
cc <- cc + dat[i,j]*sum(dat[-(1:i),-(1:j)]) }} # 109520

# Discordantes
dd <- 0
for(i in 1:(II-1)){
for(j in 2:JJ){
dd <- dd + dat[i,j]*sum(dat[-(1:i),-(j:JJ)]) }} # 84915

# ji-cuadrada datos de satisfaccion con empleo


esp <- outer( rowSums(dat), colSums(dat) )/sum(dat)
ji2 <- sum( (dat-esp)^2/esp ) # 11.98857
pv <- 1-pchisq(ji2,(II-1)*(JJ-1)) # 0.2139542

Termina análisis en hoja 218

325
Análisis en hoja 252
II <- JJ <- KK <- 2
obs <- esp <- array(dim=c(II,JJ,KK))
obs[,,1] <- matrix( c(911,3,44,2), ncol=2 )
obs[,,2] <- matrix( c(538,43,456,279), ncol=2 )
for(i in 1:II){
for(j in 1:JJ){
for(k in 1:KK){
esp[i,j,k] <- sum( obs[i,,k] )*sum( obs[,j,k] )/sum( obs[,,k] ) }}}

G2 <- 2*sum(obs*log(obs/esp)) # 187.7543


X2 <- sum( ((obs-esp)^2)/esp ) # 177.6149
pG2 <- 1-pchisq(G2,2)
pX2 <- 1-pchisq(X2,2)

# Alternativamente, usando library(MASS)


library(MASS)
dat <- data.frame(expand.grid(
marihuana = factor( c("Si","No"),levels=c("No","Si") ),
tabaco = factor( c("Si","No"),levels=c("No","Si") ),
alcohol = factor( c("Si","No"),levels=c("No","Si") )),
frec = c(911,538,44,456,3,43,2,279))

outXZ.YZ <- loglm(frec ~


alcohol + tabaco + marihuana + alcohol*marihuana + tabaco*marihuana,
data=dat,param=T,fit=T)
outXZ.YZ; fitted(outXZ.YZ)
model.matrix(outXZ.YZ,data=dat)

Termina análisis en hoja 252


326
Análisis en hoja 253

## ajustando todos los modelos de tabla I x J x K


ff <- c("alcohol + tabaco + marihuana")
gg <- c("alcohol*tabaco","alcohol*marihuana","tabaco*marihuana",
"alcohol*tabaco + alcohol*marihuana",
"alcohol*tabaco + tabaco*marihuana",
"alcohol*marihuana + tabaco*marihuana",
"alcohol*tabaco + alcohol*marihuana + tabaco*marihuana",
"alcohol*tabaco+alcohol*marihuana+tabaco*marihuana+alcohol*tabaco*marihuana")
tt <- matrix(0,9,4)
colnames(tt) <- c("G2","X2","gl","pvalor")
out <- loglm(frec ~ alcohol + tabaco + marihuana, data=dat,param=T,fit=T)
tt[1,] <- c(out$lrt,out$pearson,out$df,1-pchisq(out$lrt,out$df))
for(j in 1:8){
fmla <- as.formula(paste("frec ~",ff,"+",gg[j]))
out <- loglm(fmla,data=dat,param=T,fit=T)
tt[j+1,] <- c(out$lrt,out$pearson,out$df,1-pchisq(out$lrt,out$df)) }
modelo <- c("X Y Z", "XY", "XZ", "YZ", "XY XZ", "XY YZ", "XZ YZ",
"XY XZ YZ", "XY XZ YZ XYZ")
tt <- data.frame(modelo,round(tt,2))

Termina análisis en hoja 253

327
Análisis en hojas 260-265

# Datos de Aptitud, Educacion y Empleo


m1 <- matrix( c(42, 55, 22, 3, 72, 82, 60, 12, 90, 106, 85, 25,
27, 48, 47, 8, 8, 18, 19, 5), ncol=4, byrow=T)
m2 <- matrix( c( 1, 2, 8, 19, 1, 2, 15, 33, 2, 5, 25, 83,
2, 2, 10, 45, 0, 0, 12, 19), ncol=4, byrow=T)
m3 <- matrix( c( 0, 0, 1, 19, 0, 3, 3, 60, 1, 4, 5, 86, 0, 0, 2, 36,
0, 0, 1, 14), ncol=4, byrow=T)
m4 <- matrix( c(172, 151, 107, 42, 208, 198, 206, 92, 279, 271, 331, 191,
99, 126, 179, 97, 36, 35, 99, 79), ncol=4, byrow=T)
II <- 5; JJ <- 4; KK <- 4
obs <- array(dim=c(II,JJ,KK))
obs[,,1] <- m1; obs[,,2] <- m2; obs[,,3] <- m3; obs[,,4] <- m4
dat <- data.frame(expand.grid(
aptitud = factor( paste("A",1:5, sep="") ),
educacion = factor( paste("E",1:4, sep="") ),
ocupacion = factor( paste("O",1:4, sep="") )),
frec = as.vector(obs) )

## ajustando todos los modelos de tabla I x J x K


ff <- c("aptitud + educacion + ocupacion")
gg <- c("aptitud*educacion","aptitud*ocupacion","educacion*ocupacion",
"aptitud*educacion + aptitud*ocupacion",
"aptitud*educacion + educacion*ocupacion",
"aptitud*ocupacion + educacion*ocupacion",
"aptitud*educacion + aptitud*ocupacion + educacion*ocupacion")

328
tt <- matrix(0,8,4)
colnames(tt) <- c("G2","X2","gl","pvalor")
out <- loglm(frec ~ aptitud + educacion + ocupacion, data=dat,param=T,fit=T)
tt[1,] <- c(out$lrt,out$pearson,out$df,1-pchisq(out$lrt,out$df))
for(j in 1:7){
fmla <- as.formula(paste("frec ~",ff,"+",gg[j]))
out <- loglm(fmla,data=dat,param=T,fit=T)
tt[j+1,] <- c(out$lrt,out$pearson,out$df,1-pchisq(out$lrt,out$df)) }
modelo <- c("X Y Z", "XY", "XZ", "YZ", "XY XZ", "XY YZ", "XZ YZ",
"XY XZ YZ")
tt <- data.frame(modelo,round(tt,2))

# modelo de independencia condicional (dado educacion,


# aptitud y ocupcion son independientes)
out <- loglm(frec ~ aptitud + educacion + ocupacion +
aptitud*educacion + educacion*ocupacion, data=dat,param=T,fit=T)

fitted(out)
aa <- model.matrix(out,data=dat)
# Parametros estimados
out$param
round(out$param$aptitud.educacion,3)
round(out$param$educacion.ocupacion,3)

329
# tabla colapsada
aptocup <- obs[,1,]+obs[,2,]+obs[,3,]+obs[,4,]
dd <- dim(aptocup)
n <- sum(aptocup)
esp <- outer(rowSums(aptocup),colSums(aptocup))/n
ji <- sum( ((aptocup-esp)^2)/esp )
1 - pchisq(ji,(dd[1]-1)*(dd[2]-1))
# se rechaza indep. i.e. aptitud esta relacionada con ocupacion
# pero esto no es completamente cierto: aptitud es independiente
# de ocupacion (dado educacion)

# tablas parciales aptitud vs ocupacion (por nivel de educacion)


bb <- obs[,1,]
dd <- dim(bb)
n <- sum(bb)
esp <- outer(rowSums(bb),colSums(bb))/n
ji <- sum( ((bb-esp)^2)/esp )
1 - pchisq(ji,(dd[1]-1)*(dd[2]-1))

Termina análisis en hojas 260-265

330
Análisis en hoja 269

# Maxima Verosimilitud en los datos de aptitud, educacion, ocupacion


m1 <- matrix( c(42, 55, 22, 3, 72, 82, 60, 12, 90, 106, 85, 25,
27, 48, 47, 8, 8, 18, 19, 5), ncol=4, byrow=T)
m2 <- matrix( c( 1, 2, 8, 19, 1, 2, 15, 33, 2, 5, 25, 83,
2, 2, 10, 45, 0, 0, 12, 19), ncol=4, byrow=T)
m3 <- matrix( c( 0, 0, 1, 19, 0, 3, 3, 60, 1, 4, 5, 86, 0, 0, 2, 36,
0, 0, 1, 14), ncol=4, byrow=T)
m4 <- matrix( c(172, 151, 107, 42, 208, 198, 206, 92, 279, 271, 331, 191,
99, 126, 179, 97, 36, 35, 99, 79), ncol=4, byrow=T)
II <- 5; JJ <- 4; KK <- 4
obs <- esp <- array(dim=c(II,JJ,KK))
obs[,,1] <- m1
obs[,,2] <- m2
obs[,,3] <- m3
obs[,,4] <- m4
for(i in 1:II){
for(j in 1:JJ){
for(k in 1:KK){
esp[i,j,k] <- sum( obs[i,j,] )*sum( obs[,j,k] )/sum( obs[,j,] )}}}
G2 <- 2*sum(obs*log((ifelse(obs==0,.5,obs))/esp))
X2 <- sum( ((obs-esp)^2)/esp )
pG2 <- 1-pchisq(G2,80-32)
pX2 <- 1-pchisq(X2,80-32)
n <- II*JJ*KK

331
dat <- data.frame(expand.grid(
aptitud = 1:5,
educacion = 1:4,
ocupacion = 1:4),
frec = as.vector(obs) )
X <- matrix(0,n,32)
X[,1] <- rep(1,n)
for(i in 1:4){ X[,1+i] <- ifelse(dat[,1]==i,1,0) }
for(j in 1:3){ X[,5+j] <- ifelse(dat[,2]==j,1,0) }
for(k in 1:3){ X[,8+k] <- ifelse(dat[,3]==k,1,0) }
cc <- 0
for(i in 1:4){
for(j in 1:3){
cc <- cc+1
X[,(11+cc)] <- X[,1+i]*X[,5+j]}}
cc <- 0
for(j in 1:3){
for(k in 1:3){
cc <- cc+1
X[,(23+cc)] <- X[,5+j]*X[,8+k]}}

nn <- as.vector(obs)
lvn <- function(pp){ sum(exp(X%*%pp)) - sum(nn*(X%*%pp)) }
p0 <- rep(1,32)
mm <- nlminb(p0,lvn)

332
tet <- mm$par
mug <- exp(X%*%tet)
aux <- as.vector(esp)
cbind(aux,mug)
lam <- tet[1]
lamx <- c(tet[2:5],0)
lamy <- c(tet[6:8],0)
lamz <- c(tet[9:11],0)
lamxy <- cbind( matrix(tet[12:23],ncol=3,byrow=T), c(0,0,0,0) )
lamxy <- rbind( lamxy, c(0,0,0,0) )
lamyz <- cbind( matrix(tet[24:32],ncol=3,byrow=T), c(0,0,0) )
lamyz <- rbind( lamyz, c(0,0,0,0) )

Termina análisis en hoja 269

333
Análisis en hoja 275

# Modelos logineales con variables ordinales


# p. 262 agresti
obs <- matrix( c(
20 , 24 , 80 ,82 , 22 , 38 , 104 , 125,
13 , 28 , 81 , 113 , 7 , 18 , 54 , 92), ncol=4, byrow=T)
n <- sum(obs)
II <- dim(obs)[1]
JJ <- dim(obs)[2]
esp <- outer(rowSums(obs),colSums(obs))/n

G2 <- 2*sum(obs*log(obs/esp)) # 12.03


X2 <- sum( ((obs-esp)^2)/esp ) # 11.99
pG2 <- 1-pchisq(G2,(II-1)*(JJ-1)) # .21
pX2 <- 1-pchisq(X2,(II-1)*(JJ-1))

# independencia no se rechaza, aunque puede haber


# algo de asociaci\’on

# Residuales estandarizados (p.81 agresti)


pip <- rowSums(obs)/n
ppj <- colSums(obs)/n
aux <- outer(1-pip,1-ppj)
res <- (obs-esp)/(sqrt(esp*aux))
dat <- data.frame(expand.grid(
ren = 1:4,
col = 1:4),
frec = as.vector(obs) )
334
n <- 16
X <- matrix(0,n,8)
X[,1] <- rep(1,n)
for(i in 1:3){ X[,1+i] <- ifelse(dat[,1]==i,1,0) }
for(j in 1:3){ X[,4+j] <- ifelse(dat[,2]==j,1,0) }
ui <- (1:4 - (4+1)/2)
vj <- (1:4 - (4+1)/2)
X[,8] <- as.vector( outer(ui,vj) )

nn <- as.vector(obs)
lvn <- function(pp){ sum(exp(X%*%pp)) - sum(nn*(X%*%pp)) }
p0 <- rep(1,8)
mm <- nlminb(p0,lvn)
tet <- mm$par
mug <- exp(X%*%tet)

Termina análisis en hoja 275

335
Análisis en hoja 281
# Datos: Eleccion de Alimento
obs <- c(7,1,0,0,5,4,0,0,1,2,16,3,2,2,3,3,0,1,2,3,2,2,0,0,1,13,7,6,0,
0,3,9,1,0,2,0,1,0,1,0,3,7,1,0,1,8,6,6,3,5,2,4,1,1,4,0,1,0,0,
0,13,10,0,2,2,9,0,0,1,2,3,9,1,0,1,8,1,0,0,1)
dat <- data.frame(expand.grid(
eleccion = factor(c("peces","inverteb","reptiles","aves","otros"),
levels=c("peces","inverteb","reptiles","aves","otros")),
tamanio = factor(c("<2.3",">2.3"),levels=c("<2.3",">2.3")),
sexo = factor(c("m","f"),levels=c("m","f")),
lago = factor(c("hancock","oklawaha","trafford","george"),
levels=c("hancock","oklawaha","trafford","george"))),
frec = obs )
# (ver p.269 del agresti)
out <- loglm(frec ~
lago + sexo + tamanio + eleccion + lago*sexo*tamanio, data=dat,param=T,fit=T)
# colapsando por sexo
dat2 <- tapply(dat[,5],INDEX=dat[,c(1,2,4)],FUN=sum)
# Modelo de trabajo
out <- loglm(frec ~
lago + tamanio + eleccion + tamanio*eleccion + lago*eleccion + lago*tamanio, data=dat2,param=T,fit=T)
ff <- fitted(out)
pp <- out$par
pp$eleccion[2:5] - pp$eleccion[1]
aux <- t(pp$eleccion.lago)
round( t(aux[,-1]-as.vector(aux[,1])), 2 )
aux <- t(pp$eleccion.tamanio)
round( t(aux[,-1]-as.vector(aux[,1])), 2 )
336
# variables dummy (usados en agresti p. 270)
pp$eleccion[2:5] - pp$eleccion[1] + aux[,4] + aux2[,2]

inverteb reptiles aves otros


-1.547696 -3.314116 -2.093287 -1.904025

aux[,1:3]-aux[,4]

lago
eleccion hancock oklawaha trafford
inverteb -1.6581477 0.936203874 1.121225
reptiles 1.2428591 2.458779926 2.935180
aves 0.6949637 -0.652871471 1.088049
otros 0.8262778 0.005402507 1.516169

aux2[,1]-aux2[,2]
inverteb reptiles aves otros
1.4566892 -0.3521685 -0.6301975 0.3311839

Termina análisis en hoja 281

337

También podría gustarte