Libro Categoricos

Notas de Clase:
Análisis de Datos Categóricos
Juan Carlos Correa Morales

Escuela de Estadı́stica
Universidad Nacional de Colombia-Sede Medellı́n
2005
ii
Prefacio
El análisis de tablas de conteos (contingencia) es una de las labores que los

analistas de datos enfrentan en su quehacer diario. Es importante por lo tan-
to contar con diversas técnicas que le permitan entender el fenómeno que da
origen a estas tablas. Presentamos en estas notas dos formas básicas y corrien-
tes de analizar tablas de conteos: mediante modelos loglineales y mediante la
metodologı́a GSK. Otra forma que ha tomado fuerza durante los últimos años
es mediante el uso de modelos de regresión, en especial el modelo logı́stico. El
análisis de correspondencias múltiples, técnica desarrollada por la escuela fran-
cesa, sigue siendo una herramienta exploratoria que, a pesar de su popularidad,
a nivel estadı́stico adolece de los problemas del análisis de factores en el análisis
multivariable.
El análisis de tablas de conteo usualmente se realiza acompañado de un
programa estadı́stico adecuado. Es recomendable un programa estadı́stico de
buena calidad, que permita definir fácilmente macros o funciones de tal forma
que pueda utilizarse a su vez como lenguaje de programación. Programas tales
como R y M acAnova permiten hacer esto con relativa facilidad y que no cuestan
dinero al usuario ya que trabajan bajo licencia GNU. El SAS es un programa de
muy alto nivel y lleno de procedimientos que permiten realizar los más variados
análisis, pero que es muy costoso. En la actualidad han aparecido muy buenos
programas especializados en datos categóricos realizando estadı́stica exacta, tal
como LogExact de Cytel. El manejo de modelos para datos categóricos en SPSS
no es recomendable debido a las limitaciones del programa.
iii
iv
Índice general
I Elementos Básicos XI
1. Introducción 1
1.1. Categorización de variables continuas . . . . . . . . . . . . . . . . 3
1.2. Tipos de Estudios . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1. Retrospectivo o Caso-Control . . . . . . . . . . . . . . . . 3
1.2.2. Prospectivo . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.3. Transversales . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.4. Programas de Computador para Datos Cualitativos . . . 4
1.3. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.1. Lanzamiento de un par de dados . . . . . . . . . . . . . . 4
1.3.2. Ejemplo de niños zurdos . . . . . . . . . . . . . . . . . . . 5
1.3.3. Homicidios de niños en Medellı́n . . . . . . . . . . . . . . 5
1.3.4. Ejemplo sobre Tipo de Sangre . . . . . . . . . . . . . . . 5
1.3.5. Datos sobre accidentalidad vial . . . . . . . . . . . . . . . 8
1.3.6. Ejemplo sobre Accidentalidad Laboral . . . . . . . . . . . 9
1.3.7. Ejemplo sobre rendimiento académico . . . . . . . . . . . 9
1.3.8. Ejemplo sobre salubridad . . . . . . . . . . . . . . . . . . 10
1.3.9. Otro ejemplo de salubridad . . . . . . . . . . . . . . . . . 11
1.3.10. Ejemplo sobre colegios en Antioquia . . . . . . . . . . . . 11
1.4. Razones y proporciones . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.1. Razón . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.2. Proporción . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5. Funciones en R para Datos Cualitativos . . . . . . . . . . . . . . 13
1.5.1. Funciones para manipular tablas . . . . . . . . . . . . . . 13
1.5.2. Funciones para Probar Bondad de Ajuste . . . . . . . . . 19
1.6. Análisis Exploratorio de una Tabla . . . . . . . . . . . . . . . . . 21
2. Herramientas Asintóticas 25
2.1. El T.C.L. y la Distribución Multinomial . . . . . . . . . . . . . . 27
2.2. Distribución Asintótica de la Producto Multinomial . . . . . . . 27
v
vi ÍNDICE GENERAL
3. Tablas Unidimensionales 29
3.1. Modelo Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.1.1. Pruebas de hipótesis con respecto a π . . . . . . . . . . . 30
3.1.2. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . 30
3.2. Modelo Multinomial . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.1. Estimación . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2.2. Intervalos de Confianza . . . . . . . . . . . . . . . . . . . 35
3.2.3. Qué hacer cuando hay celdas con cero observaciones? . . 37
3.2.4. Entropı́a como mediada de polarización en la multinomial 38
3.2.5. Tamaño muestral . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.6. Pruebas de hipótesis . . . . . . . . . . . . . . . . . . . . . 38
3.3. Ajustes a la prueba G2 . . . . . . . . . . . . . . . . . . . . . . . . 40
4. Tablas Bidimensionales 43
4.1. Esquemas de Muestreo . . . . . . . . . . . . . . . . . . . . . . . . 43
4.1.1. Esquemas de Muestreo para Tablas 2 × 2 . . . . . . . . . 44
4.2. La Prueba χ2 de Pearson . . . . . . . . . . . . . . . . . . . . . . 48
4.2.1. la Prueba Chi-cuadrado para Bondad de Ajuste . . . . . . 50
4.2.2. Limitaciones de la Prueba Chi-cuadrado . . . . . . . . . . 50
4.2.3. La Corrección por Continuidad de Yates . . . . . . . . . . 51
4.2.4. Esquemas de Muestreo para Tablas I × J . . . . . . . . . 51
4.3. Tamaños Muestrales . . . . . . . . . . . . . . . . . . . . . . . . . 51
5. Medidas de Asociación 53
5.1. Medidas de Asociación en Tablas 2 × 2 . . . . . . . . . . . . . . . 53
5.1.1. Medidas basadas en la χ2 de Pearson . . . . . . . . . . . 53
5.1.2. El Estadı́stico G2 . . . . . . . . . . . . . . . . . . . . . . . 54
5.1.3. El Q de Yule . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.1.4. Prueba de Simetrı́a de McNemar . . . . . . . . . . . . . . 56
5.2. La Razón de Odds . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.2.1. Problema con celdas con ceros . . . . . . . . . . . . . . . 58
5.2.2. Propiedades de la razón de odds . . . . . . . . . . . . . . 59
5.2.3. Distribución asintótica de la Razón de Odds:
Esquema de muestreo multinomial . . . . . . . . . . . . . 59
5.2.4. Intervalo de confianza aproximado para ψ:
Esquema de muestreo Producto Binomial . . . . . . . . . 61
5.2.5. Programa en R para calcular la razón de odds . . . . . . 63
5.3. Riesgo Relativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.3.1. Riesgo Atribuı́ble . . . . . . . . . . . . . . . . . . . . . . . 69
5.3.2. Método Delta Aplicado al Logit Muestral . . . . . . . . . 71
5.4. Ejemplo usando el PROC FREQ del SAS . . . . . . . . . . . . . 72
5.4.1. Medidas de Concordancia . . . . . . . . . . . . . . . . . . 75
5.4.2. Sensibilidad, Especificidad y Valor Predictivo . . . . . . . 78
5.5. Medidas de Asociación en Tablas Bidimensionales I × J . . . . . 81
5.5.1. Pruebas de Asociación . . . . . . . . . . . . . . . . . . . . 81
5.5.2. Prueba de Simetrı́a de McNemar . . . . . . . . . . . . . . 89
ÍNDICE GENERAL vii
5.6. Medidas de Asociacion Ordinales . . . . . . . . . . . . . . . . . . 90

5.6.1. γ de Goodman y Kruskal . . . . . . . . . . . . . . . . . . 90
5.6.2. τ de Kendall . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.6.3. d de Somer . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.7. Eliminando categorı́as en una variable . . . . . . . . . . . . . . . 93
6. Estimación del Tamaño Poblacional N 95
7. Tablas Multidimensionales 97
7.1. La Paradoja de Simpson . . . . . . . . . . . . . . . . . . . . . . . 97
7.1.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
7.2. Prueba de Homogenidad de Simon o de Woolf . . . . . . . . . . . 98
7.3. Estimador y Prueba de Mantel-Haenzel . . . . . . . . . . . . . . 99
II Modelos Loglineales 103
8. Modelos Loglineales 105

8.1. Modelos Loglineales para tablas 2 × 2 . . . . . . . . . . . . . . . 105
8.2. Ajustando Modelos Loglineales . . . . . . . . . . . . . . . . . . . 107
8.2.1. Notación para Modelos Loglineales . . . . . . . . . . . . . 108
8.2.2. Ecuaciones de Verosimilitud para Modelos Loglineales . . 108
8.2.3. Estimando las Frecuencias Esperadas . . . . . . . . . . . . 109
8.2.4. Ejemplo: Frecuencias esperadas bajo la hipótesis de inde-
pendencia en R . . . . . . . . . . . . . . . . . . . . . . . . 110
8.2.5. Otros modelos para tablas 2 × 2 . . . . . . . . . . . . . . 112
8.2.6. Ejemplo: Niños Zurdos . . . . . . . . . . . . . . . . . . . . 112
8.3. Modelo Loglineal con Tres Factores . . . . . . . . . . . . . . . . . 113
8.3.1. Tablas Tridimensionales . . . . . . . . . . . . . . . . . . . 113
8.4. Ajuste Proporcional Iterativo: IPF . . . . . . . . . . . . . . . . . 115
8.4.1. Modelo [AB] [C] . . . . . . . . . . . . . . . . . . . . . . . 116
8.5. Algunos Modelos Loglineales y sus Interpretaciones . . . . . . . . 119
8.6. Usando el SAS para modelos loglineales . . . . . . . . . . . . . . 119
9. Seleccionando un Modelo 123

9.1. Criterios Para la selección de un Modelo . . . . . . . . . . . . . . 123
9.2. Analizando los Parámetros Individualmente . . . . . . . . . . . . 126
9.3. Eliminado clases de una variable . . . . . . . . . . . . . . . . . . 133
9.4. Un Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
10.Modelos Especiales 149

10.1. Modelo de Bradley-Terry . . . . . . . . . . . . . . . . . . . . . . 149
viii ÍNDICE GENERAL
III Aproximación GSK 151
11.La Aproximación GSK 153

11.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
11.2. La Aproximación GSK . . . . . . . . . . . . . . . . . . . . . . . . 154
11.3. Arreglo de los datos en la aproximación GSK . . . . . . . . . . . 154
11.3.1. Definición de la variable respuesta . . . . . . . . . . . . . 157
11.3.2. Ejemplo sobre Accidentalidad Laboral . . . . . . . . . . . 162
11.3.3. Ejemplo sobre Hemorroides . . . . . . . . . . . . . . . . . 164
11.4. Aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
11.4.1. Modelo de Dos Clasificaciones . . . . . . . . . . . . . . . . 171
11.4.2. Prueba para Homogenidad de las Distribuciones Marginales175
11.4.3. Modelos Loglineales y Logit . . . . . . . . . . . . . . . . . 179
11.4.4. Respuesta a Tres Drogas . . . . . . . . . . . . . . . . . . . 179
11.5. Modelos Loglineales vs. Modelos por GSK . . . . . . . . . . . . . 182
IV Datos Ordinales 187
12.Modelos para datos Ordinales 189

12.1. Funciones Logit Unidimensionales . . . . . . . . . . . . . . . . . . 190
12.2. Modelos Ordinales Unidimensionales . . . . . . . . . . . . . . . . 191
12.2.1. Modelo Equiprobable . . . . . . . . . . . . . . . . . . . . 191
12.2.2. Modelo Loglineal para Tendencia de la Probabilidad . . . 192
12.3. Modelos Ordinales Bidimensionales . . . . . . . . . . . . . . . . . 197
12.3.1. Modelo de Asociación Uniforme . . . . . . . . . . . . . . . 197
12.3.2. Programa para Ajustar asociación Uniforme . . . . . . . . 198
12.3.3. Modelo de Efecto de Fila para Tablas Ordinal-Nominal . 199
V Regresión Logı́stica para Tablas 211
13.Regresión Logı́stica y Modelo Logit 213

13.1. Estimación del Modelo Logı́stico por Máxima Verosimilitud . . . 215
13.1.1. Regresión logı́stica y tablas . . . . . . . . . . . . . . . . . 216
13.1.2. Estimación del Modelo Logı́stico en R y SAS . . . . . . . 217
13.2. Construyendo un Modelo Logı́stico . . . . . . . . . . . . . . . . . 227
13.3. Diagnósticos para Regresión Logı́stica . . . . . . . . . . . . . . . 238
14.Regresión Logı́stica Multinomial 253

14.1. Extensión del Modelo Lineal Logit a datos Policótomos . . . . . 253
14.2. Modelo de Odds Proporcionales . . . . . . . . . . . . . . . . . . . 255
ÍNDICE GENERAL ix
VI Anexos 259
15.Resultados Asintóticos 261
15.1. Distribuciones Muestrales de los MLE . . . . . . . . . . . . . . . 261
15.2. Modelos Loglineales . . . . . . . . . . . . . . . . . . . . . . . . . 262
15.3. Modelos de Independencia para tablas Bidimensionales . . . . . . 264
15.4. Tablas de Contingencia y Modelos Loglineales . . . . . . . . . . . 265
15.4.1. Estadı́stico de la razón de verosimilitud (Deviance) . . . . 269
15.4.2. El método de Newton-Raphson . . . . . . . . . . . . . . . 269
15.5. Elementos Básicos de Inferencia . . . . . . . . . . . . . . . . . . . 270
15.5.1. Teorema de Rao-Blackwell . . . . . . . . . . . . . . . . . . 270
15.5.2. Teorema de Lehmann-Scheffé . . . . . . . . . . . . . . . . 271
15.5.3. Pruebas de Hipótesis . . . . . . . . . . . . . . . . . . . . . 273
15.5.4. Lema de Neyman-Pearson . . . . . . . . . . . . . . . . . . 274
15.5.5. Pruebas Condicionales . . . . . . . . . . . . . . . . . . . . 275
15.6. Estimación por el Método de Máxima Verosimilitud . . . . . . . 276
15.6.1. Distribución Multinomial MN(N, π) . . . . . . . . . . . . 278
15.6.2. Distribución Producto Multinomial P M (n+ , π) . . . . . . 281
15.6.3. Distribución Producto Poisson P P (µ) . . . . . . . . . . . 282
15.7. Apéndice A: Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . 283
15.8. Apéndice B: Datos . . . . . . . . . . . . . . . . . . . . . . . . . . 284
15.8.1. Datos sobre rendimiento académico . . . . . . . . . . . . . 284
15.8.2. Datos sobre mortalidad en Antioquia . . . . . . . . . . . . 286
15.8.3. Datos sobre las Elecciones de 1994 . . . . . . . . . . . . . 291
15.8.4. REGRESION POISSON . . . . . . . . . . . . . . . . . . . 292
15.9. Apéndice C: Estimación por Máxima Verosimilitud . . . . . . . . 293
15.10.Métodos de Estimación . . . . . . . . . . . . . . . . . . . . . . . 297
15.11.Estimación por Mı́nimos Cuadrados ponderados (WLSE) . . . . 297
15.12.Estimación Mı́nimo χ2 (MCE) . . . . . . . . . . . . . . . . . . . 298
15.13.Estimación Mı́nimo χ2 Modificada DE θ DADO Z (MMCE) . . 298
15.13.1.Distribución Multinomial M N (N, π) . . . . . . . . . . . . 299
15.13.2.Distribución Producto Multinomial . . . . . . . . . . . . . 299
15.13.3.Distribución Poisson P P (µ) . . . . . . . . . . . . . . . . . 299
15.14.Pruebas Asintóticas de Bondad de Ajuste . . . . . . . . . . . . . 300
15.14.1.Prueba χ2 de la razón de verosimilitud . . . . . . . . . . . 300
16.Referencias 303
x ÍNDICE GENERAL
Parte I
Elementos Básicos
xi
Capı́tulo 1
Introducción
En su quehacer diario el analista de datos enfrenta bases de datos gene-

ralmente compuestas por variables de varios tipos. Dependiendo del tipo de
variables y de su relación se pueden realizar diversos análisis estadı́sticos. No
podemos en este momento dejar de establecer dos principios fundamentales del
análisis de datos (Wickens, 1989):
Un análisis estadı́stico con sentido no puede realizarse sin información no

estadı́stica.
Entre más información estadı́stica se posea, mejores serán las conclusiones

que se puedan obtener.
Exiten varias formas de clasificar variables para el trabajo estadı́stico. A

continuación presentamos una forma corriente de clasificarlas:
Variable continua Una variable decimos que es continua si puede tomar cual-
quier valor en un intervalo de la recta real. Ejemplos de estas variables
son la estatura de una persona, el peso de un objeto, la edad exacta de
alguien, etc. En teorı́a las probabilidades para estas variables se calculan
para intervalos y la probabilidad de un valor particular es cero.
Variable discreta Una variable es discreta si solo puede tomar valores en un

conjunto contable de puntos de la recta real. Muchas de estas variables
hacen referencia a conteos o a la aparición de fenómenos, por ejemplo, el
número de muertes violentas en la ciudad en un dı́a cualquiera, el número
de bebés que nacen en un parto, los votos a favor de cierto candidato, etc.
Variable mixta Estas variables hacen referencia a situaciones donde se tienen

variables que toman valores en intervalos, pero algunos puntos de estos
intervalos tienen puntos con probabilidades positivas. Un ejemplo de esta
situación es cuando se estudia el tiempo de inactividad de una máquina
durante el dı́a normal de operación, si la máquina ha estado funcionando
bien el tiempo de inactividad es cero.
1
2 CAPÍTULO 1. INTRODUCCIÓN
Variable categórica nominal Una variable categórica es la que nos lleva a

poner al elemento poblacional en una celda con una marquilla especı́fica,
por ejemplo el sexo, pero la nominalidad significa que el orden en que
pongamos las marquillas es irrelevante.
Variable categórica ordinal Para estas variables el orden de la marquilla es
relevante, por ejemplo, en una caso de degustación de un producto se
puede pedir a un sujeto que lo clasifique en una de las categorı́as:
No me gusta
Me es indiferente
Me gusta
lo cual permite una ordenación.
En forma esquemática


 Continua
Discreta

Variable
Nominal
 Categórica


Ordinal
Las relaciones entre varias variables categóricas se estudian mediante el análi-
sis de tablas de frecuencia o conteos. Algunos de los objetivos de los análisis son:
1. Asociaciones entre variables: Cuáles variables están asociadas o rela-

cionadas entre sı́ y cuál es el tipo de asociación que se da?
2. Efecto sobre una variable dependiente: Cuando en una tabla tene-
mos una variable que es dependiente estamos interesados en determinar la
influencia que sobre ella tienen el conjunto de covariables que conforman
la tabla.
3. Estimación de parámetros: Cuál es el número esperado de observacio-
nes para una combinación particular de variables?
4. Importancia de los efectos:
5. Comparaciones especı́ficas y análisis de tendencias:
Definición 1.1 (Tabla de Contingencia ) Una tabla de contingencia es una

tabla de clasificación cruzada de conteos.
Las unidades muestreadas de una población son clasificadas en la tabla de

acuerdo a cada una de las variables categóricas o conjuntos de categorı́as tales
como sexo (masculino, femenino), edad (joven, adulto, anciano). Cuando va-
rias variables categóricas son consideradas a la vez ellas forman una tabla de
contingencia multidimensional donde cada variable corresponde a una dimen-
sión de la tabla. Tales tablas presentan problemas especiales para el análisis e
interpretación.
1.1. CATEGORIZACIÓN DE VARIABLES CONTINUAS 3
Definición 1.2 (Tabla Completa) Decimos que una tabla de contingencia es

una tabla completa si cada celda tiene probabilidad de ocurrencia diferente de
cero, o sea que es posible, al menos en teorı́a, observar elementos en cada celda.
Si lo anterior no es posible, entonces hablamos de tablas con ceros estructurales.
Un ejemplo de la anterior situación puede ocurrir cuando cruzamos la edad

categorizada de una mujer contra el número de hijos nacidos. Si tenemos mujeres
menores de cinco años, es imposible que haya alguna con hijos a esta edad. Por
lo tanto la celda que cruza estas dos situaciones tendrá obligatoriamente un cero
estructural.
1.1. Categorización de variables continuas

La categorización de variables continuas o discretas es algo que se hace de
forma permanente en la presentación de reportes, ya que para el lector pue-
de ser más fácil la visualización de los resultados de esta forma. Categorizar
variables continuas puede ser peligroso cuando se trata de realizar análisis de
tipo estadı́stico y aún conducir a conclusiones erróneas, sin importar la técnica
usada. Como una regla general, el investigador no debe discretizar ni combinar
categorı́as y debe luchar por conservar tanta precisión como sea posible.
1.2. Tipos de Estudios

Podemos dividir en tres grandes clases los estudios realizados:
1.2.1. Retrospectivo o Caso-Control

En este tipo de trabajo se mira al pasado. Serı́a tratar de responder a la
pregunta: Qué pasó ?
1.2.2. Prospectivo
En este tipo de estudios podemos considerar los Ensayos Clı́nicos, donde
los objetos se asignan aleatoriamente a los experimentos y los de cohorte, donde
se hace un seguimiento a través del tiempo a un grupe interés. La pregunta a
responderserı́a : Quépasará?
1.2.3. Transversales
La pregunta serı́a: Qué está pasando? Los estudios de caso-control y los
de cohorte son llamados observacionales. Los ensayos clı́nicos son experimenta-
les. Tablas tı́picas con datos transversales son las presentadas en los anuarios
estadı́sticos.
1.2.4. Programas de Computador para Datos Cualitativos

Prácticamente todo programa estadı́stico contiene alguna función o módulo
que permite trabajar con datos categóricos. El SAS1 trae varios procedimientos:
el FREQ, el CATMOD y el LOGISTIC. El CATMOD es un procedimiento
bastante técnico y se recomienda practicarlo mucho antes de realizar un trabajo
en serio. Está basado en la metodologı́a GSK, para lo cual la lectura del artı́culo
de Grizzle, Starmer y Koch (1968) es casi indispensable, en especial si se piensa
usar repetidamente.
El lenguaje estadı́stico R es muy poderoso para realizar los análisis de tablas
de contingencia, ya que posee una amplia variadad de funciones tanto para la
manipulación de datos como para el modelamiento de los mismos. Otra ventaja
es que es un programa de distribución gratuita y de código abierto, lo cual lo
hace ideal para el desarrollo de nuevas metodologı́as.
1.3. Ejemplos
Es muy fácil encontrar ejemplos reales de tablas de contigencia ya que apa-
recen con frecuencia tanto en revistas como en periódicos. A continuación pre-
sentamos ejemplos de tablas de contingencia.
1.3.1. Lanzamiento de un par de dados

En un juego de parqués se registraron los resultados del lanzamiento de un
par de dados 130 veces. A partir de estos resultados quiere uno ver si los dados
son conjuntamente buenos.
Resultado 2 3 4 5 6 7 8 9 10 11 12
Frecuencia 4 8 10 11 22 14 22 18 10 5 6
Nos podemos preguntar si con los datos anteriores podrı́amos jugar tranquila-
mente este juego de parqués, o sea si los dados son buenos o están cargados.
Si el par de dados fueran perfectos, entonces el modelo teórico serı́a el que
aparece en la siguiente tabla:
Resultado 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
Probabilidad 36 36 36 36 36 36 36 36 36 36 36
En los 130 lanzamientos de los dados esperarı́amos hallar
Resultado 2 3 4 5 6 7 8 9 10 11 12
Esperada 3.61 7.22 10.83 14.44 18.06 21.67 18.06 14.44 10.83 7.22 3.61
1 El Apéndice A presenta una extensa introducción al sistema SAS, que recomendamos sea
estudiada antes de utilizar el programa si no se ha utilizado antes.

1.3. EJEMPLOS 5
1.3.2. Ejemplo de niños zurdos

La siguiente tabla presenta información sobre niños zurdos y el sexo:
Zurdo Diestro
Niño 79 202
Niña 57 138
La pregunta que nos surge es: Hay más niños zurdos que niñas?
Padre Madre Edad Zurdo Diestro
Diestro Diestra 0-10 15 4
10-20 136 12
20 ó más 133 6
Diestro Zurda 0-10 0 0
10-20 14 3
20 ó más 6 3
Zurdo Diestra 0-10 2 0
10-20 6 7
20 ó más 5 3
Zurdo Zurdo 0-10 0 0
10-20 1 0
20 ó más 0 0
1.3.3. Homicidios de niños en Medellı́n
Grupo Edad Sexo 1990 1991 1992 1993 1994 1995 1996 1997
0 M 2 2 2 5 2 0 7 6
F 1 2 0 3 1 2 2 4
1-4 M 1 5 7 6 2 2 3 1
F 0 1 1 3 2 0 1 2
5-14 M 62 107 107 83 75 52 74 56
F 9 24 19 25 12 13 12 17
15-17 M 911 1129 538 577 525 521 411 352
F 42 73 38 41 41 29 36 26
Fuente: El Colombiano, Junio 7 de 1998.
La tabla anterior produce una profunda tristeza.
1.3.4. Ejemplo sobre Tipo de Sangre

La siguiente tabla presenta la distribución aceptada como poblacional
Grupo Tipo de Sangre
O A AB B
Rh positivos 56.2 % 26.5 8.4 1.8
Rh negativos 5.1 % 2.7 0.7 0.3
El Tiempo, Abril 2 del 2000, pp. 2C
Los siguientes datos fueron tomados de la página WEB de la Cruz Roja

norteamericana:
De 100 personas, alrededor de:
38 serán O positivo
7 serán O negativo
34 serán A positivo
6 serán A negativo
8 serán B positivo
2 serán B negativo
4 serán AB positivo
1 será AB negativo
Los grupos sanguı́neos (A, B, AB y O) son hereditarios. La presencia o

ausencia de un factor Rh en las células rojas de la sangre es lo que hace que
su tipo sea positivo o negativo. Los grupos sanguı́neos (A, B y O) y los tipos
Rh son descripciones de ciertos antı́genos que se encuentran en las células rojas.
Las personas con sangre del tipo A tienen antı́genos A en sus células rojas de la
sangre y carecen de los antı́genos B; las personas con sangre del tipo B tienen
antı́genos B y carecen de de los antı́genos A; las personas con sangre del tipo AB
tienen ambos antı́genos y las personas con sangre del tipo O carecen de ambos
antı́genos A y B.
Se observa que los datos presentados por la Cruz Roja difieren de los pre-
sentados en el periódico El Tiempo.
La siguiente tabla presenta información sobre el tipo de sangre, lugar de
residencia, sexo y edad de unas personas en el departamento de Antioquia (datos
proporcionados por Dra. Marı́a Isabel Gallego)
1.3. EJEMPLOS 7
Residencia Sexo Grupo Edad Tipo de Sangre

O A AB B
Medellı́n Hombre 20-29 años 50 24 1 7
30-39 36 17 0 3
40-49 18 14 2 1
50-59 7 3 0 3
Medellı́n Mujer 20-29 años 55 30 1 9
30-39 33 19 2 11
40-49 21 11 2 3
50-59 8 9 0 1
Oriente Hombre 20-29 años 62 23 1 3
Antioqueño 30-39 26 27 0 0
40-49 19 12 0 2
50-59 9 3 0 2
Oriente Mujer 20-29 años 65 28 1 8
Antioqueño 30-39 37 16 1 2
40-49 22 8 0 2
50-59 6 2 0 2
Esta tabla nos debe permitir cotejar las informaciones que poseemos.
1.3.5. Datos sobre accidentalidad vial

Accidentes por Hora: 1997
Hora Accidentes Accidentes
Solo Daños con Vı́ctimas
0 225 473
1 212 418
2 199 334
3 144 264
4 131 217
5 233 274
6 709 446
7 1559 634
8 1600 659
9 1401 686
10 1698 876
11 1884 1021
12 2036 1084
13 1854 1051
14 2163 1105
15 2236 1127
16 2111 1182
17 2046 1330
18 1869 1297
19 1315 1178
20 801 1080
21 707 947
22 504 693
23 316 494
Fuente Fuente: Revista Accidentalidad Vial 1997
Secretarı́a de Transportes
y Tránsito de Medellı́n
1.3. EJEMPLOS 9
1.3.6. Ejemplo sobre Accidentalidad Laboral

La siguiente tabla presenta información sobre accidentalidad laboral en An-
tioquia. Se presenta el sexo, edad, tiempo en el oficio y parte del cuerpo afectada
(datos proporcionados por Dra. Marı́a Isabel Gallego)
Parte Afectada
Edad Sexo Tiempo en el Oficio M. Inferior M. Superior Otra
Menor de Masculino Menos de un año 537 913 860
30 Años Uno a 4 años 186 449 338
Cinco o más años 34 69 65
Femenino Menos de un año 43 140 37
Uno a 4 año 22 109 41
30 a Masculino Menos de un año 352 567 544
39 años Uno a 4 años 162 375 278
Uno a 4 años 34 102 39
40 o Masculino Menos de un año 179 300 262
más años Uno a 4 años 76 181 157
Uno a 4 años 16 64 20
1.3.7. Ejemplo sobre rendimiento académico

Las siguientes tablas provienen del estudio de Cabarcas y Sierra (1996) sobre
factores que afectan el rendimiento académico a los estudiantes de la Universidad
Nacional-Sede Medellı́n. Una de las limitantes en muchos estudios es el tamaño
muestral. Usualmente es muy pequeño cuando se quieren cruzar a la vez muchas
variables de tipo categórico. Las variables son
1. Rendimiento: El rendimiento se mide como el porcentaje de materias

aprobadas con relación al número de materias registradas.
2. Sexo : H : Hombre y M : Mujer.
3. Edad : Hace al grupo de edad (de menor a mayor) de pertenencia del

individuo.
Edad x Sexo x Rendimiento

Edad
1 2 3 4
Sexo H M H M H M H M
Ren- Alto 14 8 26 14 9 2 2 1
dimien- Medio 9 5 32 29 19 15 11 2
to Bajo 3 1 8 8 13 5 7 3
En una tabla como la anterior surgen preguntas tales como:
Es el sexo independiente del rendimiento?

Si la respuesta es no, cuál es la distribución marginal para cada sexo?
El rendimiento y la edad serán independientes? Si no lo son, existe al-
guna estructura simple que nos explique esta asociación considerando
la estructura ordinal de la tabla?
1.3.8. Ejemplo sobre salubridad
La próxima tabla presenta la información sobre partos en el departamento

de Antioquia por regiones. Al ver una tabla de eśtas nos podemos pregun-
tar cosas como las siguientes:
Es diferente la posibilidad de nacer vivo entre las diferentes regiones

del departamento?
Qué pasa con lo anterior si condicionamos por peso?
Es la probabilidad de nacer con menos de 2500 gramos igual para
cada zona?
Nacimientos de más de 20 semanas, 1994

Menos de 2500 gms Más de 2500 gms
Zona Vivos Muertos Vivos Muertos
Valle de Aburrá 6388 555 55929 255
Bajo Cauca 417 100 3422 47
Magdalena Medio 83 11 1489 10
Nordeste 157 29 2462 22
Norte 246 31 2760 21
Occidente 143 16 2290 12
Oriente 781 98 8748 44
Suroeste 518 51 5660 31
Urabá 426 53 4169 58
Fuente: Anuario Estadı́stico de Antioquia, 1994.
1.3. EJEMPLOS 11
1.3.9. Otro ejemplo de salubridad
Consideremos la siguiente tabla donde se presenta información recogida

sobre el resultado de partos de bebés de menos de 2500 gramos en insti-
tuciones públicas y privadas en Medellı́n en 1990.
Institucion Resultado
Vivos Muertos
Oficial 4757 430
Privado 5148 464
Fuente: Revista de Planeación Metropolitana,
Medellı́n, Vol. 2, No. 5, pp212, 1992
1.3.10. Ejemplo sobre colegios en Antioquia
El ICFES clasifica los colegios de acuerdo al rendimiento obtenido en las

pruebas nacionales como Alto, Medio o Bajo. La siguiente tabla presenta
el resultado de la clasificación del ICFES por Región (Area metropolitana,
Otra),Jornada, Tipo de colegio (Femenino, Masculino o Mixto)
Area Metropolitana
Jornada Mañana Unificada
Tipo Alto Medio Bajo Alto Medio Bajo
Femenino 19 17 14 8 2 5
Masculino 5 4 6 5 3 0
Mixto 10 15 43 9 5 26
Jornada Tarde Noche
Femenino 1 4 9 0 0 0
Mixto 4 7 51 0 1 45
Otra Area Diferente de la Metropolitana
Jornada Mañana Unificada
Mixto 0 4 46 2 12 108
Jornada Tarde Noche
Mixto 1 1 23 0 1 34
Fuente: Antioquia 1995. Estudios Descriptivos
Doc. No. 5, S.N.P. 115, ICFES, 1996.
De una tabla de datos como la anterior se plantean varias preguntas im-

portantes tales como:
Hay independencia entre el tipo de colegio y los resultados en las

pruebas del ICFES?
Existe independencia entre la jornada y los resultados del ICFES?
1.4. Razones y proporciones

Existen una gran variedad de herramientas numéricas que nos permiten
entender mejor muchos datos. Para los categóricos tenemos las razones y
proporciones como medidas descriptivas básicas, que usualmente son de
fácil cálculo e interpretación.
1.4.1. Razón
Una razón es el resultado de dividir una cantidad por otra.
Razón
Una razón es utilizada para comparar las frecuencias de dos clases mu-
tuamente excluyentes. Un ejemplo es el ı́ndice de masculinidad en una
población o cohorte que se define como
Número de hombres
Número de mujeres
Un valor importante en el caso de tablas de contingencia es lo que se llama

el odds, que es sencillamente
P (A)
P (B)
donde A y B son subconjuntos del mismo espacio muestral, y además

P (B) 6= 0. Esta cantidad se puede interpretar como el número de apari-
ciones del evento A por cada aparición del evento B. En el ejemplo de los
dados tenemos que el odds del evento A = La suma sea 3 con relación al
evento A = La suma sea 2 es (2/36)/(1/36) = 2, por lo tanto el evento de
aparecer una suma de 3 en los dados es dos veces más frecuente que el de
aperecer una suma de 2.
1.5. FUNCIONES EN R PARA DATOS CUALITATIVOS 13
Indice
Un ı́ndice es una medida que intenta reflejar la relación entre variables.

Un ejemplo es el ı́ndice de masa corporal que se define como
Peso -masa- en kilogramos

IM C =
(Estatura en metros)2
1.4.2. Proporción
La proporción es una clase especial de razón en la cual el numerador es
el tamaño (en un sentido general) una parte del conjunto utilizado en el
denominador, o sea,
a
p=
a+b
donde a es el tamaño de un conjunto A y a + b es el tamaño del conjunto
AB.
1.5. Funciones en R para Datos Cualitativos

1.5.1. Funciones para manipular tablas
cut(): Nos permite categorizar una variable continua. Acepta tanto
un vector de puntos de corte que definen las categorı́as o un entero
que indica cuantas clases queremos y la función automáticamente
halla los puntos de corte equiespaciados. Esta función permite partir
un vector de datos en grupos con igual amplitud, por ejemplo,
>edad<-c(22,31,37,23,22,35,23,19,42,35,33,36,18)
>cut(edad,breaks=3)
[1] 1 2 3 1 1 3 1 1 3 3 2 3 1
attr(,"levels"):
[1] "17.76+ thru 25.92" "25.92+ thru 34.08" "34.08+ thru 42.24"
Si deseamos que los puntos de corte sean con un formato presentable,

podemos usar la función pretty()
>cut(edad,pretty(edad))
[1] "15+ thru 20" "20+ thru 25" "25+ thru 30" "30+ thru 35"
[5] "35+ thru 40" "40+ thru 45"
table(): Esta función permite crear una tabla de contingencia. Por

ejemplo,
>edad<-c(22,31,37,23,22,35,23,19,42,35,33,36,18)
> table(cut(edad,breaks=3))
(18,26] (26,34] (34,42]

6 2 5
Otro ejemplo un poco más elaborado es el siguiente, en el cual se

hace una tabla de doble entrada contando con el sexo:
> sexo<-factor(c(1,2,1,2,2,1,1,1,2,2,1,1,2),labels=c(’Mujer’,’Hombre’))
> table(cut(edad,breaks=3),sexo)
sexo
Mujer Hombre
(18,26] 3 3
(26,34] 1 1
(34,42] 3 2
>
rownames()
colnames()
> partos.dat<-array(c(4757,5148,430,464),c(2,2))
> partos.dat
[,1] [,2]
[1,] 4757 430
[2,] 5148 464
> rownames(partos.dat)<-c(’Oficial’,’Privado’)
> colnames(partos.dat)<-c(’Vivos’,’Muertos’)
> partos.dat
Vivos Muertos
Oficial 4757 430
Privado 5148 464
ftable() : Esta función permite construir tablas de clasificación cru-

zada a partir de diferentes objetos. Como esta función es importante
la vamos a ilustrar con el siguiente ejemplo: Tenemos una base de da-
tos creada a partir de una encuesta que se le realizó a parejas casadas
en Medellı́n sobre su conformidad en el matrimonio. El objetivo fun-
damental del ejercicio es la implemetación de técnicas para captura
de información que es muy delicada sin crear sesgos. La pregunta

fundamental era si tuviera la oportunidad de volver al pasado, se ca-
sarı́a con la misma persona que se encuentra casada o casado? Una
condición del estudio era que ambos cónyugues estuvieran presen-
tes durante la entrevista. Las preguntas demográficas eran abiertas
y no se consideraban delicadas, por ejemplo el tiempo de casados, el
número de hijos, escolaridad, etc. La pregunta clave del estudio se
pasaba simultáneamente por escrito en sobre sellado a cada persona
y la persona señalaba por escrito la respuesta (Sı́ o No mediante una
X) e inmediatamente procedı́a a depositarla en una alcancı́a sellada
que estaba a su lado. La hoja de respuestas estaba codificada y el
encuestador no conocı́a los códigos de los encuestados. las alcancı́as
contenı́an varias hojas de respuestas falsas colocadas de antemano
por los investigadores con el propósito de evitar que en alguna situa-
ción extrema uno de los cónyugues pudiera conocer la respuesta real
de su pareja. Las variables en la base son 12:
HOM 1 si es hombre, 0 si es mujer.
EDADH Edad del hombre al momento de la encuesta.
ESCOLH Escolaridad del hombre. 1 si hizo hasta primaria, 2 se-
cundaria y 3 estudios universitarios.
INGH 1 si el igreso de la familia principal es adquirido por el hom-
bre.
CASARH 1 si sı́ se volverı́a a casar y 0 si no.
MUJ 1 si es mujer, 0 si es hombre.
EDADM Edad de la mujer al momento de la encuesta.
ESCOLM Escolaridad de la mujer. 1 si hizo hasta primaria, 2 se-
cundaria y 3 estudios universitarios.
INGM 1 si el igreso de la familia principal es adquirido por la mujer.
CASARM 1 si sı́ se volverı́a a casar y 0 si no.
TPOCAS Tiempo de casados.
NHIJOS Número de hijos.
1 50 1 1 1 0 48 3 1 1 28 2
1 62 2 1 1 0 59 2 0 1 38 5
1 44 2 1 1 0 44 2 0 1 22 3
1 44 3 1 0 0 23 2 1 0 1 1
1 33 2 1 1 0 37 2 1 1 5 1
...
Asumiendo que la base anterior está grabada en un archivo de tex-

to, también llamado plano, lo podemos leer utilizando el siguiente
comando:
> parejas<-read.table(’c:/parejas.txt’,header=T)
Si queremos crear una tabla que cruce la escolaridad del hombre vs.
la escolaridad de la mujer entonces el comando será:
> ftable(parejas[,c(3,8)])
ESCOLM 1 2 3
ESCOLH
1 17 8 3
2 5 32 15
3 0 24 45
>
Una tabla más compleja surge cuando cruzamos las variables CA-
SARH, CASARM, ESCOLH, ESCOLM.
> ftable(parejas[,c(5,10,3,8)])
ESCOLM 1 2 3
CASARH CASARM ESCOLH
0 0 1 1 0 0
2 0 2 1
3 0 2 7
1 1 2 1 0
2 1 1 0
3 0 2 5
1 0 1 6 3 1
2 1 4 3
3 0 2 5
1 1 8 4 2
2 3 25 11
3 0 18 28
>
Si queremos cruzar el deseo de las personas de volverse a casar, hom-

bres y mujeres, considerando el tiempo de casados, dependiendo del
orden de entrada de los argumentos se obtienen distintas presenta-
ciones de la misma tabla:
> ftable(parejas[,5],parejas[,10],cut(parejas[,11],breaks=c(0,5,10,100)))
(0,5] (5,10] (10,100]
0 0 5 2 6
1 5 1 6
1 0 7 5 13
1 28 15 54
>
> ftable(cut(parejas[,11],breaks=c(0,5,10,100)),parejas[,5],parejas[,10])
0 1
(0,5] 0 5 5
1 7 28
(5,10] 0 2 1
1 5 15
(10,100] 0 6 6
1 13 54
>
tabulate : En un vector de enteros cuenta el número de veces que

ocurren cada uno de los enteros, considerando también los que no
ocurren.
> tabulate(c(2,3,5))
[1] 0 1 1 0 1
> tabulate(c(2,3,3,5), nb = 10)
[1] 0 1 2 0 1 0 0 0 0 0
>
levels() : Presenta los niveles de un factor.
> levels(as.factor(parejas[,5]))
[1] "0" "1"
>
binom.test(): Permite realizar pruebas de hipótesis acerca de la π

(probabilidad de éxito) en una población dicótoma. Por ejemplo, si
obtuvimos 42 éxitos en una muestra de 100 elementos y queremos
verificar Ho : π = 0,50 vs. HA : π 6= 0,50 el comando es
> binom.test(42,100,p=0.50)$p.value
[1] 0.1109183
Si la alternativa es HA : π < 0,50 el comando es
> binom.test(42,100,p=0.50,alt=’’l’’)$p.value
[1] 0.06660531
Si la alternativa es HA : π > 0,50 el comando es

> binom.test(42,100,p=0.50,alt=’’g’’)$p.value
[1] 0.955687
Si se quiere calcular un intervalo de confianza del 90 % para π el comando

es
> prop.test(45,100,conf.level=.9)$conf.int
[1] 0.3657761 0.5370170
attr(,"conf.level"):
[1] 0.9
4. chisq.test : Ejecuta la prueba Chi-cuadrado de Pearson en una tabla de

contingencia bidimensional.
> datos.dat <- matrix(c(21,25,114,20,18,57),ncol=3,byrow=T)

> dimnames(datos.dat) <- list(c("Hombres","Mujeres"),
+ c("Agronomia","Arquitectura","Minas")
Agronomia Arquitectura Minas

Hombres 21 25 114
Mujeres 20 18 57
>chisq.test(datos.dat)
Pearson’s chi-square test without Yates’ continuity correction
data: datos.dat
X-squared = 3.8451, df = 2, p-value = 0.1462
5. mcnemar.test() : En la librerı́a ctest. Esta función nos permite ejecutar

la prueba de simetria Chi-cuadrado de McNemar para tablas de contin-
gencia cuadradas.
mcnemar.test(x, y = NULL, correct = TRUE)
6. mantelhaen.test(): En la librerı́a ctest. Ejecuta la prueba chi-cuadrado

de Mantel-Haenzel para tablas de contingencia tridimensionales. Una apli-
cación corriente es para verificar la no interacción entre un par de variables
en cualquier nivel de otra variable.
mantelhaen.test(x, y = NULL, z = NULL,

alternative = c("two.sided", "less", "greater"),
correct = TRUE, exact = FALSE, conf.level = 0.95)
7. loglin(): esta función nos permite ajustar modelos log-lineales a tablas de

frecuencias.
loglin(table, margin, start = rep(1, length(table)), fit = FALSE,

eps = 0.1, iter = 20, param = FALSE, print = TRUE)
La opción fit=T nos presenta la tabla de valores esperados bajo el modelo

y param=T nos da los valores estimados del modelo que ajustamos.
loglm(): esta función se encuentra en la librerı́a MASS y nos permite ajustar

modelos log-lineales a tablas de frecuencias.
loglm(formula, data = parent.frame(), subset, na.action, ...)
polr() : Librerı́a MASS. Ajusta un modelo de regresión logı́stica proporcional

para un factor de respuesta ordenado.
polr(formula, data = NULL, weights, start, ..., subset,

na.action = na.fail, contrasts = NULL, Hess = FALSE)
1.5.2. Funciones para Probar Bondad de Ajuste

El R posee varias funciones para realizar pruebas de bondad de ajuste.
chisq.test() : (En la librerı́a ctest) Esta función permite realizar la ya

clásica prueba chi-cuadrado de bondad de ajuste de Pearson.
chisq.test(x, y = NULL, correct = TRUE,

p = rep(1/length(x), length(x)),
simulate.p.value = FALSE, B = 2000)
donde
x Un vector o una matriz

y Es un vector y si x es una matriz este argumento es ignorado.

correct Un valor lógico para determinar si se aplica corrección por con-
tinuidad.
p Un vector de probabilidades teóricas de igual longitud que x.
simulate.p.value Valor lógico para calcular el valor p vı́a simulación.
B Número de simulaciones.
ks.test() : (En la librerı́a ctest)Preba de bondad de ajuste utilizando
Kolmogorov-Smirnov. Esta prueba está basada en la distribución acumu-
lada.
ks.test(x, y, ..., alternative = c("two.sided", "less", "greater"),

exact = NULL)
x Un vector de valores.
y Puede ser un vector de valores o el nombre de una distribución.
alternative ”two.sided”(default), ”less”, o ”greater”.
exact Un valor lógico que indica si se debe calcular un valor p exacto.
Solo funciona en la prueba bilateral.
pairwise.prop.test() En la librerı́a ctest. Permite hacer comparaciones

múltiples entre proporciones.
pairwise.prop.test(x, n, p.adjust.method=p.adjust.methods, ...)
prop.test() En la librerı́a ctest. Permite verificar la igualdad de propor-

ciones.
prop.test(x, n, p = NULL,
alternative = c("two.sided", "less", "greater"),
conf.level = 0.95, correct = TRUE)
goodfit() En la librerı́a vcd. Permite realizar pruebas de bondad de ajuste

para distribuciones discretas.
goodfit(obj, type = c("poisson", "binomial", "nbinomial"), method = c("ML", "Mi
Kappa() La librerı́a vcd trae una función para estimar el κ de Cohen.
Kappa(x, weights = c("Equal-Spacing", "Fleiss-Cohen"), conf.level = 0.95)

1.6. ANÁLISIS EXPLORATORIO DE UNA TABLA 21
woolf.test() La librerı́a vcd trae la prueba de Woolf para verificar la

igualdad de la razón de odds a través de k estratos.
woolf.test(x)
donde x es un arreglo 2 × 2 × k.
Funciones en R para generar números aleatorios
• runif(): Grnerador de números aleatorios de la distribución unifor-

me.
• rbinom(): Generador de muestras de una binomial.
• rnbinom(): Generador de muestras de una binomial negativa.
• rgeom(): Generardor de muestras de una geométrica.
• rmultinom(): Permite generar muestras de una distribución multi-
nomial.
• rnegbin: En la librerı́a MASS. Permite generar muestras de una dis-
tribución binomial negativa.
> rmultinom(5,7,c(0.2,0.3,0.5))
[,1] [,2] [,3] [,4] [,5]
[1,] 1 1 2 0 2
[2,] 2 4 1 4 3
[3,] 4 2 4 3 2
> rmultinom(9,3,c(0.2,0.3,0.5))
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9]
[1,] 2 0 0 0 2 1 0 0 0
[2,] 0 2 1 2 0 2 2 3 1
[3,] 1 1 2 1 1 0 1 0 2
Esta función también puede reemplzarse con la función sample().

• rhyper()
rhyper(nn, m, n, k)
• rpois(): Generador de muestras de una distribución Poisson.
1.6. Análisis Exploratorio de una Tabla

Mucho del trabajo realizado con datos es de carácter exploratorio. En el
caso de variables continuas el trabajo exploratorio ha sido tecnificado mediante
los trabajos de Chatfield y de Tukey. Para las tablas de contingencia no es tan
obvio qué hacer, pero dependiendo de los datos y del conocimiento del problema
que originó los datos podemos utilizar funciones de los valores de la tabla que
nos den un mejor entendimiento del problema. Para ilustrar esto consideremos
la tabla que aparece a continuación y que hace referencia a los resultados de
un examen parcial de estadı́stica I. Este examen se realizó bajo la metodologı́a
de selección múltiple. Para controlar el fraude se tenı́an dos temas, los cuales
contenı́an las mismas preguntas pero en orden diferente. Además el examen se
le aplicó simultáneamente a tres grupos diferentes.
Resultado
Ganó Perdió
Grupo Tema A Tema B Tema A Tema B
1 20 15 8 7
2 15 17 5 4
3 16 16 3 4
El análisis de tablas de contingencia pequñas puede realizarse con una cal-

culadora. A continuación presentamos la utilización de R para esta tabla. La
primera parte consiste en la lectura de la tabla mediante la función array(), la
cual nos permite crear el arreglo tridimensional. Es importante tener cuidado
para ver cómo el programa está asignando las celdas del arreglo.
> resultados<-array(c(20,15,8,7,15,17,5,4,16,16,3,4),dim=c(2,2,3))
> resultados
, , 1
[,1] [,2]
[1,] 20 8
[2,] 15 7
, , 2
[,1] [,2]
[1,] 15 5
[2,] 17 4
, , 3
[,1] [,2]
[1,] 16 3
[2,] 16 4
> rownames(resultados)<-c(’Tema A’,’Tema B’)

> colnames(resultados)<-c(’Ganó’,’Perdió’)
> resultados
, , 1
1.6. ANÁLISIS EXPLORATORIO DE UNA TABLA 23
Ganó Perdió
Tema A 20 8
Tema B 15 7
, , 2
Ganó Perdió
Tema A 15 5
Tema B 17 4
, , 3
Ganó Perdió
Tema A 16 3
Tema B 16 4
>
> apply(resultados,3,sum)
[1] 50 41 39
> apply(resultados,c(1,2),sum)
Ganó Perdió
Tema A 51 16
Tema B 48 15
> apply(resultados,c(1),sum)
Tema A Tema B
67 63
> apply(resultados,c(2,3),sum)
[,1] [,2] [,3]
Ganó 35 32 32
Perdió 15 9 7
> apply(resultados,c(2,3),sum)/apply( apply(resultados,c(2,3),sum),2,sum)

[,1] [,2] [,3]
Ganó 0.7000000 0.8205128 0.7804878
Perdió 0.3658537 0.1800000 0.1794872
> t(apply(resultados,c(2,3),sum))/apply( apply(resultados,c(2,3),sum),2,sum)

Ganó Perdió
[1,] 0.7000000 0.3000000
[2,] 0.7804878 0.2195122

[3,] 0.8205128 0.1794872
>
> apply(resultados,c(1,2),sum)/apply(apply(resultados,c(1,2),sum),1,sum)
Ganó Perdió
Tema A 0.7611940 0.2388060
Tema B 0.7619048 0.2380952
A continuación presentamos una lista con los posibles pasos en un análisis

de un problema que involucre datos categóricos:
1. Entienda el problema:
a) Es la situación observacional?
b) Es experimental?
2. Realice un análisis preliminar de la o las tablas: calcule porcentajes, ra-
zones entre porcentajes, mire cuáles combinaciones de celdas tienen cero
observaciones, etc. Escriba un reporte inicial detallando los resultados de
esta parte y sus sospechas y hallazgos. No omita detalle.
3. Determine cuáles variables son respuesta y cuáles son los factores.
4. Seleccione un modelo preliminar.
5. Estime el modelo.
6. Refine el modelo.
7. Evalúe el modelo.
8. Escriba el reporte definitivo.
Capı́tulo 2
Herramientas Asintóticas
En este capı́tulo presentamos unos elementos muy básicos de asintótica que

permiten mostrar muchos de los resultados posteriores de una manera directa.
Definición 2.1 Convergencia en Distribución Unasucesión de variables
aleatorias {Xn } converge nen distribución
o a una N µ, σ 2 , con σ > 0, si equi-
Xn −µ
valentemente la sucesión σ converge a una N (0, 1).
Definición 2.2 Normalidad Asintótica Una sucesión de variables aleato-

rias {Xn } es asintóticamente normal con “media” µn y varianza σn2 si
σn > 0 para todo n suficientemente grande y
Xn − µn D
→ N (0, 1)
σn

{µn } y σn2 son sucesiones de constantes.
No es necesario que µn y σn2 sean la media y la varianza de Xn , ni aún que
Xn posea tales momentos.

Resultado 1 Si Xn es AN µn , σn2 , entonces también Xn es AN µ̃n , σ̃n2 , si
y sólo si
σ̃n2
→ 1y
σn2
µ̃n − µn
→ 0
σn

Resultado 2 Si Xn es AN µn , σn2 , entonces también an Xn +bn es AN µn , σn2 ,
si y sólo si
an → 1y
µn (an − 1) − bn
→ 0
σn
25
26 CAPÍTULO 2. HERRAMIENTAS ASINTÓTICAS
√
n−1 n−1
Ejemplo 2.1 Si Xn es AN (n, 2n) entonces n Xn es AN pero √
n
Xn no lo
es.

Teorema 2.1 Suponga que Xn es AN µ, σn2 con σn → 0. Sea g una fun-
ciónde valor ral diferenciable
en X = µ con g 0 (µ) =
6 0. Entonces g (Xn ) es
0 2 2
AN g(µ), [g (µ)] σn
0
Teorema 2.2 Suponga que X n = (Xn1 , Xn2 , · · · , Xnk ) es AN µ, b2n Σ con
0
Σ matriz de covarianzas y bn → 0. Sea g(x) = (g1 (x), g2 (x), · · · , gm (x), ) ,
0
donde x = (x1 , x2 , · · · , xk ) , una función con argumento un vector y donde cada
componente es una función de valor real y tiene un diferencial no cero gi (µ; t),
0
x = (t1 , t2 , · · · , tk ) , en x = µ. Haga

∂gi
D= |x=µ
∂xj m×k
Entonces g (X n ) ∼ AN g(µ), b2n DΣD 0

Teorema 2.3 Teorema Central del Lı́mite Multivariable
1. Sean {X i } vectores aleatorios i.i.d. con vector de medias µ y matriz de

covarianzas Σ. Entonces
√
n X̄ n − µ → N (0, Σ)
esto es
X̄ n ∼ AN (µ, Σ)
2. Sean {X i } vectores aleatorios independientes con medias {µi } y matrices

de covarianzas {Σi } y funciones de distribución {Fi }. Suponga que
Σ1 + · · · + Σn
→ Σ, n→∞
n
y que
n Z
1X 2
kx − µi k dFi (x) → 0, n → ∞, ∀ > 0
n i=1 kx−µi k>√n
Entonces
n n
!
1X 1X 1
X i ∼ AN µ, Σ
n i=1 n i=1 i n
2.1. EL T.C.L. Y LA DISTRIBUCIÓN MULTINOMIAL 27
2.1. El T.C.L. y la Distribución Multinomial

Sea X1 , X2 , · · · , Xn una muestra aleatoria de una distribución multinomial
con vector de probabilidades
 
π1
 π2 
 
 π3 
 
π=  . 

 . 
 
 . 
πR
Cada vector Xi puede está compuesto de ceros y un uno que nos indica a
cuál categorı́a pertence el iésimo elemento de la muestra. Su matriz de varianzas
y covarianzas es
 
π1 (1 − π1 ) −π1 π2 ··· −π1 πR
 −π1 π2 π2 (1 − π2 ) · · · −π2 πR 
ΣX = 
 
.. .. .. 
 . . . 
−π1 πR −π2 πR · · · πR (1 − πR )
El estimador de máxima verosimilitud en el caso multinomial de π es

 
π̂1
n
X  π̂2 
π̂ = Xi =  . 
 
i=1
 .. 
π̂R
Y la matriz de varianzas y covarianzas del estimador es

 
π1 (1 − π1 ) −π1 π2 ··· −π1 πR
1 −π 1 π 2 π 2 (1 − π 2 ) · · · −π 2 πR

Σπ̂ = 

.. .. ..
n

. . . 
−π1 πR −π2 πR · · · πR (1 − πR )
Este estimador es asintóticamente normal con vector de medias π y matriz

de varianzas y covarianzas Σπ̂ .
2.2. Distribución Asintótica de la Producto Mul-

tinomial
Si X vector aleatorio que sigue una distribución producto multinomial, en-
tonces π̂ se distribuye asintóticamente normal multivariable con vector de me-
dias π y matriz de varianzas y covarianzas dado por
28 CAPÍTULO 2. HERRAMIENTAS ASINTÓTICAS
 
Σ1 0 ··· 0
 0 Σ2 ··· 0 
ΣSR×SR = 
 
.. .. .. .. 
 . . . . 
0 0 · · · ΣS
Capı́tulo 3
Tablas Unidimensionales
Las tablas unidimensionales surgen cuando se analizan variables cualitati-

vas individualmente. Básicamente hay dos modelos de interés: el binomial y el
multinomial.
3.1. Modelo Binomial

Supongamos que x1 , x2 , · · · , xn es una muestra aletoria de tamaño n de una
distribución Bernoulli con parámetro π. La función de verosimilitud para π
está dado por
Yn Pn Pn
L(π) = π xi (1 − π)1−xi = π i=1 xi (1 − π)n− i=1 xi
i=1
El estimador de máxima verosimilitud para π será π̂ tal que
L(π̂) ≥ L(π), con π̂ ∈ Ω

donde Ω = (0, 1) es el espacio parametral.
Para obtener π̂ es preferible trabajar con el logaritmo de L, ya que es más
fácil de manipular a nivel de cálculo, ası́:
n n
!
X X
l(π) = log(L(π)) = log(π) xi + log(1 − π) n − xi
i=1 i=1
Para hallar el máximo derivamos la expresión anterior con respecto a π e

igualamos a cero y procedemos a resolver la ecuación resultante:
Pn Pn
∂l(π) xi n − i=1 xi
l0 (π) = = i=1 −
∂π π 1−π
Resolviendo l0 (π) = 0 obtenemos
n
1X
π̂ = xi = x̄.
n i=1
29
30 CAPÍTULO 3. TABLAS UNIDIMENSIONALES
Hallemos l00 (π) para poder hallar la varianza asintótica del estimador π̂.
Pn Pn
∂ 2 l(π) i=1 xi n − i=1 xi
l00 (π) = = − −
∂π 2 π2 (1 − π)2
La varianza asintótica es −E[(l00 (π))]−1 .
Pn Pn −1
xi n − i=1 xi π(1 − π)
var(π̂) = −E − i=1 − =
π2 (1 − π)2 n
3.1.1. Pruebas de hipótesis con respecto a π

Asumamos que deseamos verificar Ho : π = πo . La función de verosimilitud
para π está dado por

n
L(π) = π x (1 − π)n−x
x
Pn
donde x = i=1 xi .
La razón de verosimilitudes está dada por

n
πox (1 − πo )n−x π x 1 − π n−x
L(ω) x o o
R(π) = = =
L(Ω) n π 1 − π
π x (1 − π)n−x
x
Tenemos que −2 ln (R(π̂)) ∼ χ2(ν) , con ν = dim(Ω) − dim(ω). Por lo tanto
! !
L(ω̂) π x 1 − π n−x
o o
−2 ln (R(π̂)) = −2 ln = −2 ln
L(Ω̂) π̂ 1 − π̂
3.1.2. Intervalos de confianza

Esta sección está basada en el artı́culo de Correa y Esperanza (2000). Dado
que la distribución binomial es discreta, no es posible construir intervalos con
cualquier nivel de confianza preespecificado, a no ser que se aleatorice, procedi-
miento que no es aceptado en la práctica, y se trabaja con métodos aproximados,
en especial usando propiedades de muestras grandes.
Método Exacto Basado en la F

Para construir este intervalo con un nivel (1 − α)100 % de confianza para
π debemos determinar los lı́mites inferior, LI y superior, LS , tales que P (Y ≥
y|π = LI ) = α/2 y P (Y ≤ y|π = LS ) = α/2. Leemis y Trivedi (1996) muestran
dos procedimientos mediante los cuales se calculan LI y LS en términos de la
distribución F . El intervalo “exacto” es:
!
1 1
n−y+1 , n−y
1 + yF2y,2(n−y+1),1−α/2 1 + (y+1)F2(y+1),2(n−y),α/2
3.1. MODELO BINOMIAL 31
Métodos Aproximados
Basado en el Teorema Central del Lı́mite Este es el intervalo propuesto
en la mayorı́a de textos básicos en estadı́stica (Canavos, 1988; Wonnacott y
Wonnacott, 1979; Roussas, 1973; Walpole, 1992; Meyer, 1986; Mood et al., 1974)
r r !
π̂(1 − π̂) π̂(1 − π̂)
π̂ − zα/2 , π̂ + zα/2
n n
Se puede considerar la correción por continuidad (Snedecor y Cochran, 1980)

r r !
π̂(1 − π̂) 1 π̂(1 − π̂) 1
π̂ − zα/2 − , π̂ + zα/2 +
n 2n n 2n
Mood et al. (1974, pp. 394-395) y Larson (1983, pp.309-310)presentan un

intervalo de confianza que se halla como solución a una ecuación cuadrática. El
intervalo resultante es LI , LS , donde
2
q 2
zα/2 zα/2 zα/2
π̂ + 2n − √n π̂(1 − π̂) + 4n
LI = z2
1 + α/2
n
y q
2 2
zα/2
zα/2 zα/2
π̂ + 2n + √
n
π̂(1 − π̂) + 4n
LS = 2
zα/2
1+ n
Basado en la Transformación Arcoseno En Hogg y Craig (1978, pp. 217)

encontramos la justificación para que la función arcoseno pueda usarse en la
construcción de intervalos de confianza para π a partir de la desigualdad
√ √ zα/2
|arcsen( π) − arcsen( π̂)| ≤ √
2 n
Basado en la Aproximación Poisson Leemis y Trivedi (1996) apoyados

en que la variable binomial Y con parámetros n y π es asintóticamente Poisson
con parámetro λ = nπ; aproximan
∞ y−1
X λk e−λ X λk e−λ
P (Y ≥ y|π = LI ) ≈ =1− .
k! k!
k=y k=0
Esta expresión es igual a P (χ22y ≤ 2nLI ) = α/2 y se obtiene que LI =

2nχ22y,(1−α/2) . Similarmente se obtiene LS . El intervalo usando este método
es:
1 2 1 2
χ(2y,1−α/2) , χ(2(y+1),α/2)
2n 2n
Para algunas combinaciones de π y n esta aproximación es muy burda, lo que
hace que este intervalo no siempre sea adecuado.
Intervalos Máximo Verosı́miles Kalbfleish (1985) presenta la metodologı́a

para construir intervalos de verosimilitud. Si L(θ) es la función de verosimilitud,
se define la función de verosimilitud relativa como
L(θ)
R(θ) =
L(θ̂)
El conjunto de valores de θ para los cuales R(θ) ≥ p es llamado la intervalo de

100 %p de verosimilitud para θ. Los intervalos del 14.7 % y del 3.6 % de verosi-
militud corresponden a intervalos de confianza aproximadamente de niveles del
95 % y del 99 %. Lo que se debe hacer entonces es hallar las raı́ces que nos dan
los lı́mites del intervalo. Para el caso del parámetro de la Bernoulli, π, tenemos
que un intervalo de confianza del 95 % se halla encontrando el par de raı́ces tal
que
L(π) π y (1 − π)n−y
R(π) = = y ≥ 0,147
L(π̂) π̂ (1 − π̂)n−y
Esto se resuelve numéricamente. Una solución se halla a la izquierda de π̂ y la
otra a su derecha.
Las longitudes promedio de los intervalos basados en el Teorema Central del
Lı́mite (Método I) son menores que las de los intervalos construı́dos con los otros
métodos, pero cuando π es pequeño los intervalos no alcanzan, para ningún n,
el nivel de confianza nominal. Solo cuando π se acerca a 0.5 los niveles reales se
aproximan al nominal.
Los intervalos construı́dos con la trasformación arcoseno (Método III) son
inconsistentes: los niveles reales disminuyen dramáticamente cuando n aumenta.
Cuando π y n son muy pequeños los niveles reales son buenos pero las longitudes
promedio son grandes.
Los intervalos construı́dos usando la aproximación Poisson (Método IV) tie-
nen amplitudes grandes cuando n < 100, sin embargo los niveles reales están
muy próximos al nominal cuando π es pequeño, y si π se acerca a 0.5 estos
niveles superan el 95 %.
Los intervalos basados en la F alcanzan, para todos los tamaños, niveles de
confianza reales que superan el nivel nominal. Las longitudes son grandes, pero
disminuyen cuando n aumenta aproximándose a las longitudes de los intervalos
del método I.
Los intervalos construı́dos a partir de la función de verosimilitud (Método V)
presentan niveles reales muy próximos o superiores a los teóricos y longitudes
pequeñas especialmente cuando n no es muy pequeño.
Hay dos procedimientos que dominan: el intervalo basado en la F y el in-
tervalo basado en la función de verosimilitud (Método V). Este último exige
encontrar un par de raı́ces numéricamente, lo cual puede ser molesto si se ha-
ce a mano, pero con la ayuda de un computador es una tarea muy simple. El
primero es directo.
Obviamente ninguno de los otros debe utilizarse y nos parece extraño que
los libros sobre métodos estadı́sticos los presenten como única alternativa.
3.2. MODELO MULTINOMIAL 33
Ejemplo 3.1 ( Estimación del Porcentaje de Niños Zurdos) De la tabla

de niños zurdos del primer capı́tulo, sin considerar sexo, tenemos
Zurdos 136
Diestros 340
Para construir el intervalo de confianza utilizamos el método exacto. A con-

tinuación presentamos el program en R:
Intervalo.proporcion
<-function(exitos,fracasos,nivel=0.95){
alfa<-1-nivel
y<-exitos
n<-exitos+fracasos
LI<-1/(1+(n-y+1)/(y*qf(alfa/2,2*y,2*(n-y+1))))
LS<-1/(1+(n-y)/((y+1)*qf(1-alfa/2,2*(y+1),2*(n-y))))
list(LI=LI,LS=LS)
}
> Intervalo.proporcion(136,340)
$LI
[1] 0.2455206
$LS
[1] 0.3285939
>
Se puede por tanto decir que el porcentaje de niños zurdos está entre el 24.5 %
y el 32.8 %. Este dato puede ser de utilidad para personas que diseñan muebles
o para los encargados de compras de sillas universitarias, ya que de 100 sillas
al menos 24 deben ser para zurdos.
3.2. Modelo Multinomial

El modelo multinomial es uno de los más comunes en el trabajo estadı́stico
aplicado. Surge naturalmente cuando se reponden preguntas de selección múlti-
ple, etc. Siendo tan importante es extraño el poco énfasis al trabajo inferencial
que ralizan los textos básicos sobre él. Una situación especial se presenta cuan-
do las categorı́as tienen una estructura ordinal y se pueden considerar modelos
parsimoniosos (con menos parámetros) que el multinomial correspondiente a la
clasificación nominal que posee un número de parámetros igual al número de
categorı́as menos uno. En casos donde no aparezca un modelo con claridad se
puede aprovechar la ordinalidad para realizar una suavización de tipo nopa-
ramétrica, que en algunos casos puede tomar ventajas de ciertas condiciones
naturales como la monotonicidad.
3.2.1. Estimación
Asumamos que X1 , X2 , · · · ,P Xn es una muestra aleatoria de una multinomial
k
M (1, (π1 , π2 , · · · , πk )0 ) donde i=1 πi = 1. Cada Xi es un vector con ceros y
con un único uno en la posición correspondiente a la categorı́a que pertenece la
observación.
 
π1
 π2 
 
 . 
E(Xi ) = 
 
 . 

 . 
πk
 
π1 (1 − π1 ) −π1 π2 ··· −π1 πk
 −π2 π1 π2 (1 − π2 ) · · · −π2 π b 
var(Xi ) = Σ = 
 
.. .. .. .. 
 . . . . 
−πk π1 −πk π2 · · · πk (1 − πk )
La función de verosimilitud será:
n!
L(π1 , π2 , · · · , πk ) = π n1 π n2 · · · πknk
n1 !n2 ! · · · nk ! 1 2
donde
Pn i es el número de observaciones que pertenecen a la i-ésima categorı́a y
n
n = i=1 ni .
El log de la verosimilitud será
X k
n!
l = log(L(π1 , π2 , · · · , πk )) = log + ni log(πi )
n1 !n2 ! · · · nk ! i=1
Para hallar los estimadores de máxima verosimilitud derivamos la función

anterior con respecto a cada uno de los parámetros (aquı́ abusamos tanto de
Pk
notación como de lenguaje) teniendo en cuenta la restricción πi = 1,
∗
Pi=1
k
utilizando el multiplicador de Lagrange, l = l(π1 , π2 , · · · , πk ) − λ( i=1 πi − 1).
Igualamos a cero y resolvemos el sistema de ecuaciones resultante.
∂l∗ n1
= +λ
∂π1 π1
∂l∗ n2
= +λ
∂π2 π2
.. .. ..
. . .
∂l∗ n1
= +λ
∂πk πk
k
∂l∗ X
= πi − 1
∂λ i=1
Igualando a cero y resolviendo, obtenemos

ni
π̂i = para todo i = 1, · · · , k.
n
3.2.2. Intervalos de Confianza

Intervalos de Sison y Glaz
Sison y Glaz (1995) proponen dos formas de calcular intervalos de confianza
simultáneos para los parámetros multinomiales.
May y Johnson (2000) proporcionan macros en SAS para calcular estos in-
tervalos. Ellos argumentan que estos intervalos funcionan mejor que los otro
métodos cuando número de categorı́as es grande y el número de observaciones
no lo es tanto y si no existen celdas que polaricen las probabilidades.
Intervalo de Quesenberry y Hurst

Johnson y Kotz (1969) presentan el intervalo propuesto por Quesenberry y
Hurst en 1964. El intervalo para πi está dado por
r
χ2k−1,1−α + 2ni ± χ2k−1,1−α χ2k−1,1−α + 4 nNi (N − ni )

2 N + χ2k−1,1−α
Una mejora se logra si trabaja con 1 − α/k en lugar de 1 − α.
Método basado en el Teorema Central del Lı́mite

Si el tamaño muestral es lo suficientemente grande, podemos aplicar el teore-
ma central del lı́mite multivariable. Si n = (n1 , n2, · · · , nk )T es un vector alea-
torio k-dimensional
P proveniente de una multinomial M PU LT IN OM IAL(π, N ),
donde N = nj es fijo y π = (π1 , π2 , · · · , πk ), con πj = 1. Entonces
1
π̂ = n
N
Este es el intervalo propuesto en la mayorı́a de textos básicos en estadı́stica
(Canavos, 1988; Wonnacott y Wonnacott, 1979; Roussas, 1973; Walpole, 1992;
Meyer, 1986; Mood et al., 1974)
r r !
π̂i (1 − π̂i ) π̂i (1 − π̂i )
π̂i − zα/(2k) , π̂i + zα/(2k)
n n
Se puede considerar la correción por continuidad (Snedecor y Cochran, 1980)

r r !
π̂i (1 − π̂i ) 1 π̂i (1 − π̂i ) 1
π̂i − zα/(2k) − , π̂i + zα/(2k) +
n 2n n 2n
Intervalos basados en la Razón de Verosimilitud Relativa
Kalbfleish (1985) presenta la metodologı́a para construir intervalos de verosimi-

litud. Si L(θ) es la función de verosimilitud, se define la función de verosimilitud
relativa como
L(θ)
R(θ) =
L(θ̂)
El conjunto de valores de θ para los cuales R(θ) ≥ p es llamado la intervalo de
100 %p de verosimilitud para θ. Los intervalos del 14.7 % y del 3.6 % de verosi-
militud corresponden a intervalos de confianza aproximadamente de niveles del
95 % y del 99 %. Lo que se debe hacer entonces es hallar las raı́ces que nos dan
los lı́mites del intervalo. Para el caso del parámetro de la Bernoulli, π, tenemos
que un intervalo de confianza del 95 % se halla encontrando el par de raı́ces tal
que
L(π1 , π2 , · · · , πk )
R(π1 , π2 , · · · , πk ) = ≥ K(k, α)
L(π̂1 , π̂2 , · · · , π̂k )
Esto se resuelve numéricamente.
Método de Goodman
Bromaghin (1993) presenta el métod propuesto por Goodman en 1963, el

cual calcula los lı́mites para la i-ésima probabilidad a partir de las siguientes
ecuaciones:
q
+ 4ni n−n
2 2

z(α i /2)
+ 2n i − z αi /2 z(α i /2) n
i
LIi = 2
2(n + z(α i /2)
)
y
q
n−ni
2 2

z(αi /2)
+ 2ni + zαi /2 z(αi /2)
+ 4ni n
LSi = 2
2(n + z(αi /2)
)
Método Exacto Basado en la F
Para construir este intervalo con un nivel (1 − α)100 % de confianza para

π debemos determinar los lı́mites inferior, LI y superior, LS , tales que P (Y ≥
y|π = LI ) = α/2 y P (Y ≤ y|π = LS ) = α/2. Leemis y Trivedi (1996) muestran
dos procedimientos mediante los cuales se calculan LI y LS en términos de la
distribución F . El intervalo “exacto” es:
!
1 1
n−y+1 , n−y
1 + yF2y,2(n−y+1),1−α/2 1 + (y+1)F2(y+1),2(n−y),α/2
Bootstrap
El método bootstrap proporciona una manera directa y sencilla para hallar
intervalos simultáneos para los parámetros de la distribución multinomial. Para
hallarlos se procede ası́:
1. A partir de la muestra estime los parámetros por máxima verosimilitud.
ni
π̂i = i = 1, 2, · · · , k
n
2. Genere M muestras de tamaño n de una distribución multinomial con
parámetros π̂1 , π̂2 , · · · , π̂k . Para cada muestra estime los parámetros
π1 , π2 , · · · , πk , digamos que para la muestra j los estimadores son π̂1j , π̂2j , · · · , π̂kj
n oM
3. Para cada π̂ij , construya un histograma y calcule los percentiles
j=1
.025/(k-1) y 0.975/(k-1), denotémoslos por π̂i0,025 y π̂i0,975
Ejemplo 3.2 Los tipos de sangre La tabla presenta los datos sobre el tipo de
sangre presentados en el capı́tulo I sobre una muestra de personas de la región
central y oriental de Antioquia
Tipo de Sangre
O A AB B
Frecuencia 474 246 11 59
π̂i 0.60000000 0.31139241 0.01392405 0.07468354
Intervalos simultáneos: TCL
Lim. Inf. 0.556465534 0.270242626 0.003511297 0.051322879
Lim. Sup. 0.64353447 0.35254218 0.02433680 0.09804421
Intervalos simultáneos: Quesenberry y Hurst
Lim. Inf. 0.53763946 0.25675391 0.00505438 0.04795771
Lim. Sup. 0.65927993 0.37184116 0.03776781 0.11451171
Intervalos simultáneos Bootstrap
Lim. Inf. 0.5509415 0.2746835 0.005063291 0.05094146
Lim. Sup. 0.6414636 0.3518987 0.026582278 0.09842563
Intervalos simultáneos: Sison y Glaz
Lim. Inf. 0.5658 0.2772 0.0000 0.0405
Lim. Sup. 0.6363 0.3477 0.0502 0.1109
Intervalos simultáneos: Sison y Glaz II
Lim. Inf. 0.5646 0.2759 -0.0215 0.0392
Lim. Sup. 0.6354 0.3465 0.0494 0.1101
3.2.3. Qué hacer cuando hay celdas con cero observacio-

nes?
Jovanovic y Levy (1997) tratan el caso de intervalos de confianza para el
parámetro de la distrbución binomial cuando se tienen cero eventos utilizando
una sencilla cota
− ln(α)
n
Dado que estamos bajo el caso multinomial y podemos tener más de una
categorı́a con cero observaciones, esta cota la podemos modificar a
− ln(α/k)
n
3.2.4. Entropı́a como mediada de polarización en la mul-

tinomial
La entropı́a ha sido utizada como una medida de incertidumbre (Burrows,
1989), y para una distribución multinomial con J categorı́as se define como
J
X
H=− πj log(πj ).
j=1
Es bien conocido que la entropı́a es máxima para la distribución uniforme,

H = log(J), y si toda la masa de probabilidad está concentrada en una de las
categorı́as tenemos H = 0 (0 ≤ H ≤ log(J)). Si tenemos una muestra con N
PJ
sujetos y los clasificamos, tenemos n1 , n2 , · · · , nJ frecuencias tal que j=1 nj =
N , entonces el estimador de la entropı́a será
J
X nj n
j
H=− log .
j=1
N N
3.2.5. Tamaño muestral

Bromaghin (1993) presenta la siguiente fórmula que es útil para calcular los
intervalos de confianza simutáneos en el caso de aplicar el método basado en el
TCL modificado de Goodman, el cual no recomendamos, pero que es útil como
una aproximación. Se calcula
2
z(α
q
i /2)
ni = πi (1 − πi ) − 2d2i + πi2 (1 − πi )2 − d2i [4πi (1 − πi ) − 1]
2d2i
donde di hace referencia a la amplitud deseada para la i-ésima probabilidad,

αi es el nivel de cada intervalo y seleccionando n = min{ni , i = 1, 2, · · · , k}.
3.2.6. Pruebas de hipótesis

Asumamo que deseamos verificar la hipótesis Ho : π1 = π1 ∗, · · · , πk = πk∗
contra la alternativa HA : πj 6= πj∗ , para algún πj . La razón de verosimilitud es
L(π1∗ , · · · , πk∗ )
n! ∗n1 ∗n2
n1 !n2 !···nk ! π1 π2 · · · πk∗nk
R(π1 , · · · , πk ) = = n! n 1 n2 nk
L(π1 , · · · , πk ) n1 !n2 !···nk ! π1 π2 · · · πk
Lo cual se reduce a
n1 n 2 nk
π1∗ π2∗ πk∗

R(π1 , · · · , πk ) = ···
π1 π2 πk
Sabemos que −2 log (R(π̂1 , · · · , π̂k )) ∼ χ2ν , donde ν = dim(Ω) − dim(ω) =

(k − 1) − 0 = k − 1, tenemos entonces que
k
πi∗
X
−2 log (R(π̂1 , · · · , π̂k )) = −2 ni log ∼ χ2(k−1)
i=1
π̂i
Ejemplo 3.3 (Los tipos de sangre) El periódico El Tiempo (Abril 2 del 2000)
presentó una tabla con los porcentajes de los diferentes tipos de sangre en la po-
blación.
Ho : πO = 0,577, πA = 0,292, πAB = 0,091, πB = 0,021
La siguiente tabla presenta los datos sobre el tipo de sangre en una muestra
de personas de la región central y oriental de Antioquia
Tipo de Sangre
O A AB B
Frecuencia 474 246 11 59
π̂i 0.60000000 0.31139241 0.01392405 0.07468354
La siguiente función en R nos permite realizar los cálculos:
prueba.multinomial
<-function(observado,prob.teoricas){
if(length(observado)!=length(prob.teoricas))stop(’Longitudes diferentes!’)
observado<-ifelse(observado==0,0.5,observado)
G2<--2*sum(observado*log(prob.teoricas/(observado/sum(observado))))
gl<-length(observado)-1
valor.p<-1-pchisq(G2,gl)
list(G2=G2,valor.p=valor.p)
}
> prueba.multinomial(c(474,246,11,59),c(0.577,0.292,0.091,0.021))
$G2
[1] 177.1022
$valor.p
[1] 0
>
Los resultados anteriores nos llevan a creer que la distribución presentada
en el periódico no es correcta.
Ejemplo 3.4 (Sobre los resultados del juego de dados) En un juego de
parqués se registraron los resultados del lanzamiento de un par de dados 130
veces. A partir de estos resultados quiere uno ver si los dados son conjuntamente
buenos.
Resultado 2 3 4 5 6 7 8 9 10 11 12
Frecuencia 4 8 10 11 22 14 22 18 10 5 6
La hipótesis a verificar es la que la suma de los dos dados tiene una distri-
bución producida por un par de dados justos:
Resultado 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
Probabilidad esperada 36 36 36 36 36 36 36 36 36 36 36
> prueba.multinomial(c(4,8,10,11,22,14,22,18,10,5,6),
+ c(1,2,3,4,5,6,5,4,3,2,1)/36)
$G2
[1] 8.75751
$valor.p
[1] 0.555261
Los resultados no nos permiten rechazar la hipótesis nula sobre la distribu-

ción de la suma de los dos dados.
3.3. Ajustes a la prueba G2

Smith et al. (1981) presentan un análisis detallado de los problemas asintóti-
cos de la prueba G2 . Todas las pruebas que son asintóticas no dejan de presentar
problemas aún con tamaños muestrales muy grandes y en general no se encuen-
tran recomendaciones del todo apropiadas. Ellos hacen correcciones que son
fácilmente implemetables con el software disponible en la actualidad. Recorde-
mos que el estadı́stico de prueba es
K
2
X ni
G =2 ni log
i=1
N pi
La teorı́a asintótica para

la prueba de razón
de verosimilitud nos dice que para
N → ∞, P G2 ≤ x → P χ2K−1 ≤ x . Los autores reconocen las siguientes
deficiencias de esta aproximación:
3.3. AJUSTES A LA PRUEBA G2 41
Ninguno de los momentos de la distribución asintótica concuerda con los

reales.
El estadı́stico G2 tiene un rango [0, −2N log (πmin )] y no [0, ∞).
La media y la varianza de este estadı́stico son
K
!
2
1 X 1
E G = K −1+ −1
6N π
i=1 i
K
! K
!
1 X 1 1 1 X 1
+ − 2 +O + 3
6N 2 i=1 πi π N i=1 πi3
K
!
2 X 1
V ar G2

= 2(K − 1) + −1
3N i=1 πi
K
! K
!
4 X 1 1 1 X 1
+ − 2 +O + 3
3N 2 i=1 πi π N i=1 πi3
Utilizando estos dos resultados anteriores es posible proponer correcciónes a

los problemas vistos. La más sencilla es
G2
G2M ejorado =
q
donde q ha sido definido de varias formas. Dos soluciones que Smith et al.
exponen son una debida a Williams
K
!
1 X 1
q =1+ −1
6N (K − 1) i=1 πi
y la otra debida Lawley

K K
!!
∗ 1 X 1 1 X 1 1
q =1+ −1+ − 2
6N (K − 1) π
i=1 i
N π
i=1 i
π
Se pueden realizar mejoras si se consideran otro tipo de aproximaciones.

La siguiente utiliza el hecho
que si una variable aleatoria X tiene soporte en
X
[0, M ], entonces P M ≤ x puede aproximarse por una distribución beta con
parámetros
µ
µ(M − µ) − σ 2

a = 2
Mσ
a(M − µ)
b =
µ
donde µ = E(X) y σ 2 = V ar(X). En el caso de la prueba G2 se tiene que
M = −2N log (πmin )
y µ y σ 2 son aproximados por las ecuaciones de la media y la varianza de G2

presentados arriba.
Finalmente ellos presentan las siguientes recomendaciones:
Para K = 2 ningún procedimiento de ajuste parece recomendable.

Para K = 3 el ajuste χ2 es la mejor selección.
Para K ≥ 4 el ajuste de G2 /q ∗ es recomdendo para aproximaciones de la

cola de la G2 con tamaños moderados (N ≥ 25).
El ajuste de Williams no debe ser utilizado, ya que es inexacto para K ≥ 7
nunca es más exacto que G2 /q ∗ .
Capı́tulo 4
Tablas Bidimensionales
4.1. Esquemas de Muestreo

Las tablas bidimensionales son importantes por varios aspectos: Primero,
permiten el cruce de dos variables, lo que es manejable de una forma sencilla
por parte del investigador y usualmente los tamaños muestrales no permiten
elaborar tablas más complejas, ya que las tablas comienzan a presentar muchas
celdas con muy pocas observaciones, esto se puede ver si tenemos 5 variables hay
32 celdas posibles. Segundo, el usuario las entiende y las visualiza sin mayores
dificultades.
Un caso de importancia es el de las Tablas 2 × 2, el cual desarrollaremos
en detalle, ya que permite la introducción de conceptos importantes de una
forma simple. Hay un ejemplo clásico narrado por Fisher (1951) en su libro
“El Planeo de Experimentos” (la traducción es argentina) y que presentamos a
continuación:
“Una dama declara que catando una taza de té con leche, puede
distinguir si la leche o la infusión de té fué vertida primero en la taza.
Consideremos el problema de diseñar un experimento por medio del
cual este aserto puede ser testado. Con este propósito permı́tasenos
primero formular un experimento de forma simple con miras a es-
tudiar sus limitaciones y sus caracterı́sticas: aquellas que aparecen
como fundamentales para el método experimental, cuando está bien
desarrollado y las que no son esenciales sino auxiliares.
Nuestro experimento consiste en mezclar ocho tazas de té cuatro
en una forma y cuatro en la otra, y presentarlas ordenadas al azar al
sujeto que debe juzgarlas. El sujeto ha sido informado de antemano
en qué consistirá el test, a saber: que se le pedirá que cate ocho
tazas, que éstas serán cuatro de cada clase, y que le serán presentadas
ordenadas al azar, que es un orden no determinado arbitrariamente
por elección humana, sino por la manipulación actual de los aparatos
fı́sicos usados en juegos de azar, cartas, dados, ruletas, etc., o, más
43
44 CAPÍTULO 4. TABLAS BIDIMENSIONALES
expeditivamente a partir de una tabla de números para muestras al

azar, destinada a dar el resultado actual de tal manipulación. Su
tarea es separar las ocho tazas en dos grupos de 4, estipulando, si es
posible, los tratamientos recibidos. ”
4.1.1. Esquemas de Muestreo para Tablas 2 × 2

Las tablas 2 × 2 son del estilo de la que aparece a continuación:
Clasificación II
1 2 Total
Clasificación I 1 a b k1 = a + b
2 c d k2 = c + d
Total n1 = a + c n2 = b + d N
Muestreando con ambos conjuntos de marginales fijos

Sean A, B, C y D variables aleatorias con valores observados a, b, c y d.
Bajo este esquema de muestreo sólo una es independiente, digamos A.
Ejemplo 4.1 Prueba Exacta de Fisher Suponga que en un proceso de

selección de personal para cierta labor de promoción se decide entrevistar k1
hombres y k2 mujeres. De antemano se sabe que n1 personas serán seleccionadas.
Una pregunta que podrı́a ser de interés es la siguiente: Exite sesgo a favor de
la selección de mujeres (u hombres)? Si ka1 y kc2 son muy diferentes, uno puede
sospechar un sesgo. La hipótesis nula será en este caso:
Ho : La selección es estrictamente aleatoria.
Bajo la hipótesis nula la distribución de A será :

n1 n2 k1 k2
a b a c
PHo (A = a) = =
N N
k1 n1
para a = 0, 1, ..., mı́n(k1 , n1 ) y máx(0, k1 + n1 − N ) ≤ a ≤ mı́n(k1 , n1 ).

Es fácil ver que a ≥ 0. Se deja como ejercicio verificar que a ≥ k1 + n1 − N .
n1 n1
E[A] = k1 = k1 p , donde p =
N N
Si el número observado es mucho mayor que el valor esperado, digamos ≥ aα ,
esto indicará un sesgo a favor de los hombres, aqu´ i aα es el entero más pequeño
tal que
P (A ≥ aα ) ≤ α
α es el nivel de significancia deseado para probar Ho , donde la alternativa
serı́a
4.1. ESQUEMAS DE MUESTREO 45
Ha : Sesgo a favor de los hombres

El valor-p se calcula como

n1 n2
min(n1 ,k1 ) n1
X X j k1 − j
valor − p = P [A = j] =
j=a j=a
N
k1
Se rechaza Ho a un nivel α si p ≤ α. Esta prueba es conocida como la prueba

exacta de Fisher-Irwin1 .
La prueba anterior es de una cola. La prueba de dos colas, esto es: Sesgo
hacia alguno de los sexos, puede construirse de muchas formas. Una es: escoja
α1 y α2 tal que α1 + α2 = α con aα1 tal que
P (A ≤ aα1 ) ≤ α1
y a∗α2 tal que.

P (A ≤ a∗α2 ) ≤ α2
Rechace Ho si a ≤ aα1 ó a ≤ a∗α2 .
Prueba exacta de Fisher en R La función fisher.test() permite rea-

lizar la prueba exacta de Irwin-Fisher.
fisher.test(x, y = NULL, workspace = 200000, hybrid = FALSE,

or = 1, alternative = "two.sided", conf.level = 0.95)
x Es una matriz I × J de enteros no negativos o un objeto tipo factor.
y Es un objeto tipo factor y solo es considerardo si el argumento anterior no es

una matriz.
workspace Un entero que especifica el espacio de trabajo en R.
hybrid Un valor lógico que indica si se calculan las probabilidades exactas o

un hı́brido basado en una aproximación chi-cuadrada.
or Valor hipotético de la razón de odds.
alternative Solo se utiliza en matrices 2×2 y debe especificar el tipo de hipóte-

sis a ser verificada: “two-sided”, “greater” o “less”
1 Debemos anotar que varios autores hacen comentarios sobre la falsa idea que produce la
palabra exacta cuando se habla de la Prueba Exacta de Fisher. Como D’Agostino et al. (1988)
notan, esta prueba es muy conservadora y tiene una potencia muy pobre comparada con la
chi-cuadrada.
conf.level Solo se utiliza en matrices 2 × 2 y especifica el nivel de confianza.
Consideremos el famoso ejemplo de la dama que declara que conoce si en

una taza de té con leche fue colocado primero el té o la leche descrito por Fisher.
Decisión
Té Leche
Lo que primero Té 3 1
se colocó Leche 1 3
> data.te <- matrix(c(3,1,1,3),ncol=2,byrow=T)

> fisher.test(data.te)
Fisher’s exact test
data: data.te
p-value = 0.4857
alternative hypothesis: two.sided
Muestrando con un conjunto de marginales fijo

Suponga que una muestra aleatoria de tamaño n1 es sacada de la población
I con probabilidad de éxito π1 y a es el número de éxitos observados. Suponga
también que otra muestra aleatoria de tamaño n2 es sacada de la población II
con probabilidad de éxito π2 y b es el número de éxitos observados. El modelo
de probabilidad postulado se conoce como Producto-Binomial

n1 n2
P (A = a, B = b) = π1a (1 − π1 )n1 −a π2b (1 − π2 )n2 −b
a b
Aquı́ el problema de interés será verificar la siguiente hipótesis:
Ho : π1 = π2 = (π)
Bajo Ho tenemos,

n1 n2
P (A = a, B = b) = π a+b (1 − π)N −(a+b)
a b
Nota: a + b es un estadı́stico suficiente para el parámetro π (de perturbación

o molestia), bajo Ho , pero por sı́ mismo no proporciona información alguna
acerca de Ho . Bajo Ho tenemos que

N
P (A + B = a + b) = π a+b (1 − π)N −a−b
a+b
4.1. ESQUEMAS DE MUESTREO 47
Para probar Ho : π1 = π2 vs. H1 : π1 > π2 rechazamos Ho si a es suficiente-

mente grande con respecto a b, dado a + b. Esto es, rechazamos Ho si a ≥ aα ,
donde aα es el entero más pequeño tal que
P (A ≥ aα | A + B = a + b) ≤ α
Esta es una prueba condicional con nivel α. Coincide con la prueba de una
cola de Fisher-Irwin, tomando a + b = k1 . Tal prueba condicional con nivel α
para todo posible valor de a+b se puede aceptar como una prueba incondicional
de nivel α.
Muestreando sólo con N fijo

El modelo de probabilidad observado es
N!
P (A = a, B = b, C = c) = πa πb πc πd
a!b!c!d! 11 12 21 22
donde d = N − a − b − c y πij es la probabilidad de la (i, j)-ésima celda,
i, j = 1, 2.
La hipótesis de interés corriente es
Ho : Independencia de las dos respuestas o

Ho : πij = πi+ π+j , i, j = 1, 2.
Considere la prueba de una cola
H1 : π11 > π1+ π+1 ,
esto es, asociación positiva.

Bajo Ho el modelo se convierte en
N! c+d a+c b+d

P (A = a, B = b, C = c) = π a+b (1 − π1+ ) π+1 (1 − π+1 )
a!b!c!d! 1+
(a + b, a + c) son estadı́sticos suficientes para los parámetros de molestia
(π1+ , π+1 ). La distribución condicional de A dado a + b = k1 ( y a + c = n1 )
es multinomial bajo Ho . La prueba condicional de Fisher-Irwin rechaza Ho si
a ≥ aα , esta es una prueba unilateral.
Siguiendo los argumentos previos se puede generar una prueba para
H1 : πij 6= πi+ π+j

A + C = n1 n1 n2
P A = a, B = b = π1∗a (1−π1∗ )n1 −a π2∗b (1−π2∗ )n2 −b
B + D = n2 a b
donde π1∗ = ππ+1

11
y π2∗ = ππ+2
12
.
Ası́ en el marco condicional a + c = n1 y b + d = n2 reduce el modelo de
probabilidad a la hipótesis nula y a la alternativa del caso anterior.
Muestreo bajo el esquema Poisson

Suponga que A, B, C y D son Poisson independientes con medias λij , i, j =
1, 2.
El modelo de probabilidad es
λa11 λb12 λc21 λd22

P (A = a, B = b, C = c, D = d) = exp(−λ++ )
a!b!c!d!
donde λ++ = λ11 + λ12 + λ21 + λ22 . Como N = A + B + C + D, entonces N ∼
poisson(λ++ ). Si condicionamos en N reducimos este modelo al caso anterior
con
λij
πij = λ++ , i, j = 1, 2.
4.2. La Prueba χ2 de Pearson

Tal vez la prueba para independencia más famosa para tablas de contingencia
sea la prueba de Pearson. En una tabla n × m esta dado por
n X m
X (Oij − Eij )2
χ2 =
i=1 j=1
Eij
n n
donde Oij y Eij = i+N +j son los valores observados y esperados, respec-
tivamente, en la (i,j)-ésima celda, ni+ es el total de la i-ésima fila, n+j es el
total de la j-ésima columna y N es el total. Denotamos f = (n − 1)(m − 1).
En aplicaciones para probar independencia usualmente asumimos que χ2 ∼ χ2f ,
suponiendo que los valores esperados en las celdas no sean muy pequeños. Este
ha sido un tema de discusión y sobre el cual no hay reglas precisas ya que la
prueba es asintótica. Roscoe y Byars (1971) dicen:
“Tı́picamente, los autores de textos indican que una aproxima-

ción satisfactoria se logra cuando las frecuencias esperadas están
restringidas a valores de cinco (algunos autores dicen diez) o más.
Esta restricción parece que es arbitraria y solo basada en la tradición
más que en evidencia matemática o empı́rica.
La restricción tradicional con respecto a las mı́nimas frecuencias
esperadas ha probado ser un serio impedimento, especialmente pa-
ra los investigadores sociales. Algunos han abandonado el uso de
la chi cuadrado, muchos han manipulado sus datos para satisfacer
la restricción, y otros simplemente han ignorado el problema. Oca-
sionalmente, evidencia es presentada la cual sugiere que las reco-
mendaciones con respecto a las mı́nimas frecuencias esperadas son
ultraconservadoras y deben relajarse.”
Ellos mismos plantean la siguiente recomendación basados en la evidencia

obtenida a partir de sus estudios de simulación:
4.2. LA PRUEBA χ2 DE PEARSON 49
“En las pruebas de independencia, las magnitudes de las frecuen-

cias esperadas son usualmente desconocidas hasta que los datos no
han sido obtenidos y ya es demasiado tarde para realizar cambios
objetivos en el análisis. Por esta razón, y debido al trabajo de ciertos
investigadores se sugiere que el caso uniforme (donde Ei = N k ) es un
punto adecuado de referencia, los autores han escogido para hacer
sus recomendaciones en términos de la frecuencia esperada promedio.
Los autores sienten que sus hallazgos los llevan a esta interpretación,
y además es atractiva por su sencillez. El usuario notará que reque-
rir en promedio cinco o más observaciones por celda (por ejemplo)
puede ser mucho menos restrictivo que exigir un mı́nimo esperado
por celda de cinco o más en el caso no uniforme.”
En el caso de grandes tablas de contingencia con muchas celdas con pocas

observaciones esperadas Haberman (1988) recomienda ser muy cuidadosos ya
que la prueba chi-cuadrado de Pearson puede ser asintóticamente inconsistente,
aún en casos donde la distribución chi-cuadrado sea una buena aproximación a
la distribución poblacional. Lewis, T., Saunders, I. W. y Westcott, M. (1984)
dan las siguientes pautas sobre el uso de esta prueba:
i) Si E ≥ 5 utilice la aproximación χ2 .
ii) Si E < 5 calcule la var(χ2 ) como
2N N2
var(χ2 ) = (ν − σ)(µ − τ ) + στ
N −3 N −1
donde
(N − n)(n − 1) (N − m)(m − 1)
ν = ,µ=
N −1 N −1
P P
n −1 n2 m −1 m2
i=1 ni+ − N N j=1 n+j − N N
σ = ,τ=
N −2 N −2
si este valor de la varianza es menor que 2f use la aproximación χ2 para
obtener una prueba conservadora.
iii) Si la var(χ2 ) es mayor que 2f o si la prueba conservadora es inadecuada,
utilice una aproximación gamma basada en los dos primeros momentos de la χ2
si α ≤ 0,95 o los tres primeros momentos de la χ2 si α > 0,95.
Como un ejemplo tı́pico del uso de esta prueba tenemos el siguiente: Escudero
(1995) realizó una encuesta para un estudio sobre fármacodependencia entre los
estudiantes de la Universidad Nacional-Sede Medellı́n. De la encuesta puede
obtenerse la siguiente tabla:
Ha usado cocaı́na?
Nunca Sı́ Total
Ha fumado Nunca O11 = 267 O12 = 3 270
marihuana? Sı́ O21 = 49 O22 = 25 74
Total 316 28 344
Una pregunta que podemos plantearnos es: Son el haber usado marihuana
alguna vez y cocaı́na alguna vez independientes? Bajo la hipótesis de indepen-
dencia, la siguiente tabla nos presenta los valores esperados Eij .
Ha usado cocaı́na?
Nunca Sı́ Total
Ha fumado Nunca E11 = 248,02327 E12 = 21,976744 270
marihuana? Sı́ E21 = 67,97675 E22 = 6,023256 74
Total 316 28 344
La prueba χ2 = 82,9236 con 1 grado de libertad. El valor-p nos da practica-

mente cero, por lo tanto rechazamos la independencia entre las variables bajo
estudio. O sea, tenemos una evidencia estadı́stica que el ensayar marihuana y
cocaı́na están asociadas.
4.2.1. la Prueba Chi-cuadrado para Bondad de Ajuste

La prueba χ2 ha sido utilizada ampliamente en pruebas de ajuste de dis-
tribuciones. Como regla general debemos buscar pruebas diseñadas con fines
especı́ficos, por ejemplo, para normalidad la prueba de Shapiro-Wilks.
4.2.2. Limitaciones de la Prueba Chi-cuadrado

Mosteller (1968) escribe:
“Me temo que el primer acto de la mayorı́a de los cientı́ficos

sociales apenas ven una tabla de contingencia es calcularle una chi-
cuadrado. Algunas veces esto ayuda a entender, algunas veces es un
desperdicio, pero otras veces no es lo suficientemente profunda”
La prueba chi-cuadrado tiene varios problemas potenciales:
Su magnitud es proporcional al tamaño muestral.
Si multiplicamos la tabla por una constante, eventualmente rechazaremos

independencia.
La prueba es asintótica.
Debemos calcular medidas de asociación. Aunque obtengamos significan-

cia esta prueba no nos dice la dirección de la asociación.
Existe discusión entre los autores sobre la corrección por continuidad (Ver
D’Agostino et al.,1988).
4.3. TAMAÑOS MUESTRALES 51
4.2.3. La Corrección por Continuidad de Yates

Se hace referencia a Yates (Agresti,1990) como la persona que propuso la
correción por continuidad.
n X m
X (|Oij − Eij | − 0,5)2
χ2c =
i=1 j=1
Eij
4.2.4. Esquemas de Muestreo para Tablas I × J
4.3. Tamaños Muestrales

Para la distribución multinomial se puede determinar el tamaño muestral
utilizando las fórmulas presentadas en Bromaghin (1993).
Capı́tulo 5
Medidas de Asociación
A lo largo de los años muchas medidas de asociación han sido propuestas. La

aparición de los modelos loglineales han relegado estas medidas a un segundo
plano.
5.1. Medidas de Asociación en Tablas 2 × 2

5.1.1. Medidas basadas en la χ2 de Pearson
El estadı́stico chi-cuadrado no es una buena medida del grado de asociación
entre dos variables. Pero el amplio uso de este estadı́stico ha propiciado la crea-
ción de medidas de asociación basadas en él. Cada una de estas medidas intenta
minimizar la influencia del tamaño muestral y de la del número de celdas de la
tabla. Además se pretende establecer lı́mites, usualmente entre cero y uno, a es-
tas medidas para darle comparabilidad a diversas tablas. Aunque pueden estas
medidas ser difı́ciles de interpretar y carecer de interpretación probabilı́stica y
por lo tanto no se recomiendan (Upton). Para una tabla 2 × 2 es fácil verificar
que la chi-cuadrada de Pearson es
N (ad − bc)2
χ2 =
k1 k2 n1 n2
El coeficiente φ
r
χ2
φ=
N
Para aquellas tablas en las cuales una dimensión sea mayor que 2, puede
no estar entre 0 y 1 ya que el valor de la chi-cuadrado puede ser mayor que el
tamaño muestral.
53
54 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN
El Coeficiente de Contingencia
s
χ2
C=
χ2 + N
Esta medida fue sugerida por Pearson. Está confinada al rango 0 y 1, pero
puede no alcanzar el lı́mite superior del intervalo. Por ejemplo, para tablas 4×4,
el máximo valor de es 0.87.
V de Cramér
s
χ2
V =
N (k − 1)
donde k es el mı́nimo entre el número de filas y el de columnas de la tabla.

El estadı́stico V de Cramér puede alcanzar el máximo 1 para cualquier tabla.
Si una de las dimensiones de la tabla es 2, entonces V y φ son idénticas.
El Coeficiente de Tschuprov
s
χ2
T = p
N (I − 1)(J − 1)
5.1.2. El Estadı́stico G2
El estadı́stico G2 está basado en la razón de verosimilitud, y es tal vez la
medida de ajuste que más sirve en el análisis de datos categóricos, dadas sus
propiedades.
XX
G2 = 2 nij [log(nij ) − log(eij )]
i j
Bajo el supuesto de independencia tenemos en una tabla bidimensional 2 × 2

y bajo el esquema de muestreo multinomial πij = πi+ × π+j
P (N11 = n11 , N12 = n12 , N21 = n21 , N22 = n22 ) =
n++ !
π n11 π n12 π n21 π n22
n11 !n12 !n21 !n22 ! 11 12 21 22
El estadı́stico de la razón de verosimilitud es LR = L(ω̂)/L(Ω̂), que en nues-

tro caso y sabiendo que el estimador de πij es π̂ij = nij /n++ en el caso general
y bajo el modelo de independencia es π̂ij = ni+ /n++ × n+j /n++ . Recordemos
5.1. MEDIDAS DE ASOCIACIÓN EN TABLAS 2 × 2 55
que −2 log(LR) se distribuye asintóticamente con grados de libertad datos por

dim(Ω) − dim(ω). Por lo tanto
n11 n12 n21 n22
n++ ! n1+ n+1 n1+ n+2 n2+ n+1 n2+ n+2
n11 !n12 !n21 !n22 ! n++ n++ n++ n++ n++ n++ n++ n++
LR = n11 n12 n21 n22
n++ ! n11 n12 n21 n22
n11 !n12 !n21 !n22 ! n++ n++ n++ n++
n n n n
(e11 ) 11 (e12 ) 12 (e21 ) 21 (e22 ) 22
LR = n n n n
(n11 ) 11 (n12 ) 12 (n21 ) 21 (n22 ) 22
n n
donde eij i+
n++
+j
es el valor esperado de la celda i − j. Tomado logaritmo,
tomando el signo negativo y multiplicando por dos tenemos

XX eij
G2 = −2 log(LR) = nij log
i j
nij
o también se puede expresar como

XX nij
G2 = 2 log(LR) = nij log
i j
eij
5.1.3. El Q de Yule
El Q de Yule es una medida de asocición que ha resistido el paso del tiempo.
Se define como
ab − cd
Q=
ab + cd
Si n++ es razonablemente grande, la distribución de Q es normal, con varianza
1 1 1 1 1
(1 − Q2 )2 ( + + + )
4 a b c d
El rango de Q es (−1, 1), con los puntos extremos corespondiendo a asociación
completa (positiva o negativa) y con 0 como no asociación.
A continuación presentamos una función en R que permite calcular estas
medidas de asociación para una tabla 2 × 2 y la aplicamos al ejemplo del primer
capı́tulo sobre destreza manual y sexo.
medidas.de.asociación.2x2<-function(a,b,c,d){
k1<-a+b
k2<-c+d
n1<-a+c
n2<-b+d
N<-n1+n2
chi<-N*(a*d-b*c)^2/(k1*k2*n1*n2)
phi<-sqrt(chi/N)
C<-sqrt(chi/(chi+N))
V<-phi
T<-phi
Q<-(a*b-c*d)/(a*b+c*d)
list(chi2=chi,phi=phi,C=C,V=V,T=T,Q=Q)
> medidas.de.asociación.2x2(79,202,57,138)
$chi2
[1] 0.07036408
$phi
[1] 0.01215828
$C
[1] 0.01215738
$V
[1] 0.01215828
$T
[1] 0.01215828
$Q
[1] 0.3396575
>
5.1.4. Prueba de Simetrı́a de McNemar

La prueba de simetrı́a Chi-cuadrado de McNemar para tablas de contingen-
cia cuadradas. Es apropiada en experimentos con muestras pareadas. Aquı́ se
consideran respuestas de N sujetos en la muestra “antes” y “después” de algún
evento, por ejemplo la aplicación de un tratamiento.
La prueba chi-cuadrada de Pearson es fácil de mostrar está dada por
(b − c)2
χ2 =
b+c
Si pensamos en el problema de las parejas de casados en Medellı́n, tenemos

la tabla siguiente
5.2. LA RAZÓN DE ODDS 57
No se casarı́a Sı́ se casarı́a

No se casarı́a 13 12
Sı́ se casarı́a 25 97
> library(ctest)
> mcnemar.test(matrix(c(13,12,25,97),ncol=2,byrow=T))
McNemar’s Chi-squared test with continuity correction
data: matrix(c(13, 12, 25, 97), ncol = 2, byrow = T)

McNemar’s chi-squared = 3.8919, df = 1, p-value = 0.04852
> mcnemar.test(matrix(c(13,12,25,97),ncol=2,byrow=T),correct=F)
McNemar’s Chi-squared test

La prueba nos indica que no hay simetrı́a en la tabla, esto es, la insatisfacción
de uno de los cónyugues no es la misma si se trata de mujeres o de hombres.
5.2. La Razón de Odds

La siguiente tabla presenta el modelo poblacional para una tabla 2×2, donde
cada celda presenta la probabilidad de ella.
A Ac
B P (A ∩ B) P (Ac ∩ B)
Bc P (A ∩ B c ) P (Ac ∩ B c )
Los odds1 de que el evento B ocurra relativo al evento A se define como la

razón de las probabilidades
P [B | A]
P [B c | A]
La interpretación de la razón anteriror es directa: Asumiendo que el evento A
ha ocurrido, esta razón nos dice cúantas veces ocurre el evento B por cada
aparición del evento B c . Los odds de B relativo a Ac son
P [B | Ac ]
P [B c | Ac ]
1 La palabra odds no tiene una única y precisa traducción, algunos la traducen como dis-
paridad y otros como apuestas.

Cornfield (1951) definió la razón de odds como
P [B|A]
P [B c |A]
ψ= P [B|Ac ]
P [B c |Ac ]
El estimador muestral de ψ será

a
a+c
a
c
a+c c ad
r= = b
=
b
b+d d
bc
d
b+d
para lo anterior, se presupone una tabla conteos de como la que aparece a

continuación
A Ac
B a b
Bc c d
Fisher (1962) la llamó Razón del Producto Cruzado.
5.2.1. Problema con celdas con ceros

Un problema con este estimador r es la presencia de ceros en las celdas, ya
que puede convertirse en una forma indeterminada.
Varios estimadores adicionales han sido propuestos para la razón odds y para
el logarı́tmo de la razón de odds. Entre ellos tenemos:
El de Haldane:
(a + 12 )(d + 21 )
ψbH =
(c + 21 )(b + 12 )
El de Jewell:
ad
ψbJ =
(b + 1)(c + 1)
Estimador de máxima verosimilitud condicional: Este estimador es la so-

lución a un polinomio de alto grado de la forma:
δ
X N1 N2
(a − j)ρj
j k1 − j
j=s
donde s = máx(0, k1 − N2 ) y δ = mı́n(k1 , N1 )

5.2.2. Propiedades de la razón de odds

Algunas propiedades de la razón de odds son las siguientes:
1. Es un número nonegativo.
2. Cuando todas las celdas tienen probabilidades positivas, la independencia
entre las dos variables es equivalente a ψ = 0.
3. Es invariante bajo el intercambio de filas o columnas.
4. Es invariante bajo multiplicaciones de filas y columnas.
5. La interpretación es clara. Valores de ψ que se alejen de 1.0 en una direc-
ción particular representa una asocición fuerte. Dos valores de ψ pueden
representar un mismo nivel de asociación (un valor y su inverso) pero en
direcciones opuestas. Para simetrizar esta medida se trabaja con el log(ψ).
Valores menores que uno indican una asociación negativa, mientras valores
mayores que 1 indican una asociación positiva.
6. Puede usarse en tablas I × J (y tablas multidimensionales) mirando series
de particiones 2 × 2 o mirando subtablas 2 × 2.
5.2.3. Distribución asintótica de la Razón de Odds:

Esquema de muestreo multinomial
Sean (n1 , ..., nN ) ∼ M ultinomial(π, n), π = (π1 , π2 , ..., πN )T , n = n1 + · ·
· + nN ; una estimación para el vector π es el vector π b = (b π1 , π bN )T . La
b2 , ..., π
i-ésima observación es
Yi = (Yi1 , Yi2 , ..., YiN )0
donde
1 si cae en la celda j
Yij =
0 en otro caso
y además X
Yij = 1
j
Ahora
E[Yi ] = π
cov(Yi ) = Σ i = 1, ..., n
σjj = var(Yij ) = πj (1 − πj )
σjk = cov(Yij , Yik ) = E(Yij Yik ) − E(Yij )E(Yik )
= −πj πk j 6= k
Σ = Diag(π) − ππ T
n
1X
π
b = Yi
n i=1
(Diag(π) − ππ T )
cov(b
π) = ¯ → Matriz singular
n
Teorema 5.1 (Teorema central del lı́mite multivariable) Bajo el supues-
to que Yi , i = 1, · · · , n sea una muestra aleatoria de una distribución M ultinomial(π, 1),
entonces √ a
n(bπ − π) → N (0, Diag(π) − ππ T )
cuando n → ∞.
Ahora
g(π) = log(π)
∂g −1
= Diag(π)
∂π
La covarianza de la matriz asintótica de
√
π ) − log(π)]
n [log(b
es
−1 −1 −1
Diag(π) − ππ T Diag(π) = Diag(π) − 11T

Diag(π)
Para una matriz C de constantes
√ a −1
π ) − log(π)] → N (0, CDiag(π) C T − C11T C T
nC [log(b
Con base en el anterior resultado, consideremos el siguiente vector
 
π11
 π12 
 
 π21 
π22
El Odds ratio será π11
π21 π11 π22
OR = π12 =
π22 π12 π21
Ahora
C(log(π)) = [1 − 1 − 1 1]
entonces
−1
CDiag(π)C T − C11T C T
 1
0 0 0
     
π11 1 1 1
 0 1
π12 0 0   −1   1
 [1 1 1 1]  −1 
  
= [1 − 1 − 1 1]  1
  − [1 − 1 − 1 1] 
 0 0 π21 0   −1   1   −1 
1 1 1 1
0 0 0 π
 22 
1
1 1 1 1  −1 
= − −  
π11 π12 π21 π22  −1 
1
1 1 1 1
= + + +
π11 π12 π21 π22
5.2.4. Intervalo de confianza aproximado para ψ:

Esquema de muestreo Producto Binomial
El intervalo aproximado para el parámetro ψ de nivel (1-α)100 % es (L, U )
donde
L = exp(R − (1,96)b
σR )
U = exp(R + (1,96)b
σR )
donde
ψb = r
R = loge ψb
y el error estándar aproximado de R es

r
1 1 1 1
σ
bR = + + +
a b c d
Probemos esta última afirmación:

π1
b
1−b
π1 π
b1 π
b2
R = ln = log − log
π2
b 1−πb1 1−πb2
1−b
π2
donde
Xi
π
bi = i = 1, 2
ni
Asumamos que X1 y X2 son variables aleatorias independientes.

π
b1 π
b2
var(R) = var log + var log
1−π b1 1−πb2
hagamos !
X
n X
g(X) = log X
= log
1− n
n−X
derivando
dg(X) 0 n
= g (X) =
dX X(n − X)
Por medio de la formula de Taylor, expandimos g(X) alrededor de un punto
arbitrario ”a” 0
g(X) ≈ g(a) + (X − a)g (a)
0
note que cuando g (X) = 0 entonces

g(a)
X =a−
g 0 (a)
ya que X es v.a binomial, entonces

E[X] = nπ
var[X] = nπ(1 − π)
Haga
a = E[X]
entonces
0 n 1
g (a) = =
nπ(n − nπ) nπ(1 − π)
entonces
var[g(X)] = E[g 2 (X)] − E 2 [g(X)] pero

0
g(X) ≈ g(a) + (X − a)g (a)
entonces
0
var[g(X)] = var[g(a) + (X − a)g (a)]
0
= var[(X − a)g (a)]
0 2
= g (a) var[X − E[X]]
2
1
= nπ(1 − π)
nπ(1 − π)
1
=
nπ(1 − π)
1 1
= +
nπ n(1 − π)
asi
1 1 1 1
var(R) = + + +
c1 π1 c2 (1 − π1 ) c2 π2 c2 (1 − π2 )
por lo tanto
1 1 1 1
var(R) = + + +
a b c d
Un intervalo de confianza de (1 − α)100 % para el log(ψ) será
r r !
1 1 1 1 1 1 1 1
log ψ̂ − zα/2 + + + ; log ψ̂ + zα/2 + + +
a b c d a b c d
Un problema que se tiene cuando se construye el intervalo para ψ es que
no se puede considerar la transformación inversa y aplicarla directamente a los
lı́mites del intervalo anterior como es el sugerido inicialmente.
La distribución
asintótica de ψ̂ es N ψ, ψ 2 (1/a + 1/b + 1/c + 1/d) . Por lo tanto, el intevalo
de confianza para ψ será
r r !
1 1 1 1 1 1 1 1
ψ̂ − zα/2 ψ̂ + + + ; ψ̂ + zα/2 ψ̂ + + +
a b c d a b c d
5.2.5. Programa en R para calcular la razón de odds

Intervalo aproximado
> intervalo.razon.odds<-function(Tabla,nivel=0.95,correccion=0.5){
Tabla<-ifelse(Tabla==0,0.5,Tabla)
odds<-Tabla[1,1]*Tabla[2,2]/(Tabla[1,2]*Tabla[2,1])
error<-odds*sqrt(1/Tabla[1,1]+1/Tabla[1,2]+1/Tabla[2,1]+1/Tabla[2,2])
z<-qnorm(0.5+nivel/2)
LI<-odds-z*error
LS<-odds+z*error
list(odds=odds,error=error,LI=LI,LS=LS)
}
>nacimientos.medellin<-matrix(c(4757,430,5148,464),ncol=2,byrow=T)
> nacimientos.medellin
[,1] [,2]
[1,] 4757 430
[2,] 5148 464
> intervalo.razon.odds(nacimientos.medellin)
$odds
[1] 0.9971124
$error
[1] 0.06969253
$LI
[1] 0.8605176
$LS
[1] 1.133707
>
> odds.nacimientos<-intervalo.razon.odds(nacimientos.medellin)
> odds.nacimientos$LI
[1] 0.8605176
> odds.nacimientos$LS
[1] 1.133707
> odds.nacimientos$odds
[1] 0.9971124
>
> fisher.test(matrix(c(4757,430,5148,464),ncol=2,byrow=T))
Fisher’s Exact Test for Count Data

p-value = 0.9721
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.8674057 1.1463830
sample estimates:
odds ratio
0.9971126
>
Intervalo bootstrap
Mediante el bootstrap es posible construir un intervalo de confianza para la
razón de odds.
Si asumimos un esquema de muestreo hipergeométrico la forma de calcu-

larlo serı́a:
intervalo.bootstrap<-function(a,b,c,d,nivel=0.95){
temp<-matrix(rep(1,1000),ncol=1)
m<-a+b
n<-c+d
k<-a+c
res<-apply(temp,1,rhyper,m,n,k)
or<-res*(n-k+res)/((m-res)*(k-res))
or
}
> res<-intervalo.bootstrap(4757, 430,5148,464)

> quantile(res,probs=c(0.025,0.975))
2.5% 97.5%
0.8697532 1.1381850
Bajo el esquema producto binomial tenemos
n1<-a+c
n2<-b+d
pi1<-a/n1
pi2<-b/n2
cat(’\n’,’Tama~
no muestral población 1:’,n1,’ Prob. éxito:’,pi1,’\n’)
cat(’\n’,’Tama~
no muestral población 2:’,n2,’ Prob. éxito:’,pi2,’\n’)
res.a<-rbinom(1000,n1,pi1)
res.a<-ifelse(res.a==0,0.5,res.a)
res.c<-n1-res.a
res.b<-rbinom(1000,n2,pi2)
res.b<-ifelse(res.b==0,0.5,res.b)
res.d<-n2-res.b
or<-res.a*res.d/(res.b*res.c)
or
}
res<-intervalo.bootstrap(4757, 5148, 430,464)
Tama~
no muestral población 1: 5187 Prob. éxito: 0.9171004
Tama~
no muestral población 2: 5612 Prob. éxito: 0.91732
2.5% 97.5%
0.866078 1.135535
>
Bajo el esquema multinomial el programa será:
or<-function(x){
ifelse(x==0,0.5,x)
res<-x[1]*x[4]/(x[2]*x[3])
res
}
n<-a+b+c+d
pi1<-c(a,b,c,d)/n
res<-apply(t(rmultinom(10000,n,pi1)),1,or)
res
}
res<-intervalo.bootstrap(4757, 430, 5148, 464)

quantile(res,probs=c(0.025,0.975))
2.5% 97.5%
0.871892 1.143203
>
Si asumimos un modelo Poisson entonces
res.a<-apply(temp,1,rpois,a)
res.b<-apply(temp,1,rpois,b)
res.c<-apply(temp,1,rpois,c)
res.d<-apply(temp,1,rpois,d)
or<-res.a*res.d/(res.b*res.c)
or
}
res<-intervalo.bootstrap(4757, 430, 5148, 464)

quantile(res,probs=c(0.025,0.975))
2.5% 97.5%
0.8723758 1.1480379
5.3. Riesgo Relativo

Una de las medidas más utilizadas como medida del riesgo es la razón de
probabilidades condicionales conocida como riesgo relativo. Si consideramos dos
poblaciones (expuesta y no expuesta a un factor de riesgo) y π1 es la probabilidad
de éxito (dessarrollar un cáncer, por ejemplo)en la primera población y π2 la
probabilidad de éxito en la segunda población entonces podemos considerar la
siguiente razón como una medida de riesgo:
P [A∩B]
π1 P [B | A] P [A]
ρ= = = P [Ac ∩B]
π2 P [B | Ac ]
P [Ac ]
donde el evento A se asume como el evento de estar sometido al factor de riesgo

y Ac no estar sometido a este factor. El evento B denota el evento asociado
con el fenómeno de interés. Por lo tanto la razón puede interpretarse como el
número de ocurrencias de B cuando se está sometido al factor de riesgo por cada
ocurrencia del fenómeno cuando no se está sometido a este factor de riesgo.
Como estimador se tiene, asumiendo la tabla
A Ac
B a b a+b
Bc c d c+d
n1 = a + c n2 = b + d N
a
N a
∗ π̂1 n1
N n1
r = = b = b
π̂2 N
n2 n2
N
5.3. RIESGO RELATIVO 67
La distribución asintótica de r∗ se obtiene fácilmente partiendo del hecho

que

π1 (1 − π1 )
π̂1 ∼ AN π1 ,
n1

π2 (1 − π2 )
π̂2 ∼ AN π2 ,
n2
El log (r∗ ) se distribuye entonces

∗ π̂1 π1 (1 − π1 ) (1 − π2 )
log (r ) = log ∼ AN log , +
π̂2 π2 π1 n 1 π2 n 2
y por lo tanto
2 !
π̂1
∗ π1 π1 (1 − π1 ) (1 − π2 )
r = ∼ AN , +
π̂2 π2 π2 π1 n 1 π2 n 2
Ejemplo 5.1 En un estudio realizado a 1000 pacientes, 300 eran fumadores

y 700 no lo eran. Entre los fumadores, 10 sufrieron trombosis, y entre los no
fumadores solo 8 fueron afectados (Trombosis es un coágulo de la sangre en una
vena). La información recopilada se registro en la siguiente tabla
Factor de Riesgo
Fumar No fumar Total
Trombosis 10 8 18
Sin trombosis 290 692 982
Total 300 700 1000
Calculemos primero el riesgo relativo

10
r∗ = 300
8 = 2,92,
700
entonces una persona que fuma tiene aproximadamente 3 veces más posibilidades
de sufrir una trombosis que una persona que no fuma.
En R podemos programar una función que nos calcule el intervalo de con-

fianza asintótico de la siguiente forma:
IC.RR<-function(a,n1,b,n2,nivel=0.95){
if(a==0) a<-0.5
if(b==0) b<-0.5
pi1<-a/n1
pi2<-b/n2
RR<-pi1/pi2
alfa<-1-nivel
z<-qnorm(nivel+alfa/2)
sd<-RR*sqrt((1-pi1)/(pi1*n1)+(1-pi2)/(pi2*n2))
LI<-RR-z*sd
LS<-RR+z*sd
list(RR=RR,pi1=pi1,pi2=pi2,LI=LI,LS=LS)
}
> IC.RR(10,300,8,700)
$RR
[1] 2.916667
$pi1
[1] 0.03333333
$pi2
[1] 0.01142857
$LI
[1] 0.2339111
$LS
[1] 5.599422
>
Si queremos utilizar la técnica bootstrap para construir un intervalo de con-

fianza procedemos ası́:
IC.RR.boot<-function(c1,n1,c2,n2,nivel=0.95){
if(c1>0) p1<-c1/n1
else p1<-0.5/n1
if(c2>0) p2<-c2/n2
else p2<-0.5/n2
res1<-apply(temp,1,rbinom,n1,p1)/n1
res2<-apply(temp,1,rbinom,n2,p2)/n2
RR<-res1/res2
RR
}
> res<-IC.RR.boot(10,300,8,700)
2.5% 97.5%
1.060606 8.560417
>
Calculemos ahora la razón de odds

10
290
r= 8 = 2,98
692
Un intervalo de confianza aproximado del 95 % será
(1,165, 7,634)
5.3.1. Riesgo Atribuı́ble

En casos del estudio de un factor de riesgo (ausente, Ac , o presente, A) para
la aparición de cierto fenómeno (enfermedad, caso), digamos B, es tı́pico que el
fenómeno aparezca en poblaciones no expuestas al factor de riesgo, por lo tanto,
no todos los casos o enfermedades que aparezcan deban ser atribuı́dos al factor
de riesgo y entonces la medición del riesgo del factor puede ser elaborado bajo
esta consideración. Hubert, J (1995) “Basic Enviromental Quantitative Risk
Assessment”.
Factor de Riesgo
Fumador No Fumador
A Ac Total
Cáncer B 40=a 20=b 60=n1
No Cáncer Bc 40=c 100=d 140=no
Total 80=m1 120=mo 200
Calculemos el riesgo relativo

40
r∗ = 80
20 = 3,
120
o sea que hay tres veces más riesgo de desarrollar cáncer si se fuma que si no se
fuma. Ahora, la probabilidad estimada de desarrollar cáncer, sin tener en cuenta
la presencia o ausencia del factor de riesgo es:
n1 60
P̂ [cáncer] = P̂ [B] = = = 0,30
N 200
Ahora
40 20 60 3
P̂ [cáncer] = P̂ [B] = P̂ [AB] + P̂ [Ac B] = + = =
200 200 200 10
También P [Cáncer | No fumar] puede estimarse por
b 20
P̂ [B | Ac ] = = = 0,17,
b+d 120
o sea que 17 % de los no fumadores desarrollan cáncer. Ası́, si el fumar no
fuera un factor de riesgo, entonces esperarı́amos que 0.17×80 de los fumadores
desarrollaran cáncer, es decir 13.6.
Ası́
40 − 13,6 = 26,4 → número de personas que desarrollan cáncer que puede atribuirse al fumar
40 − 13,6 26,4
= = 0,44 = 44 %
60 60
o sea que el 44 % de los cánceres observados pudieran haber sido prevenidos si
el factor de riesgo, es decir fumar, fuese eliminado.
Definamos el riesgo atribuible
P [AB] − P [B | Ac ] P [A]
ρA =
P [B]
a b a+c
N − b+d · N ad − bc
rA = a+b
=
N
(a + b)(b + d)
Intervalo de Confianza Aproximado para ρA
(L, U )
donde
L = 1 − exp(L2 )
U = 1 − exp(L1 )
donde
L1 = w − zα/2 σ
bw
L2 = w + zα/2 σ
bw
donde
w = ln(1 − rA ) y
s
c + rA (a + d)
σ
bw =
Nb
En el ejemplo que se tiene el intervalo aproximado del 95 % será (0.24002,

0.59388).
IC.RA.boot<-function(a,b,c,d,nivel=0.95){
n1<-a+c
n2<-b+d
if(a>0) p1<-a/n1
else p1<-0.5/n1
if(b>0) p2<-b/n2
else p2<-0.5/n2
res1<-apply(temp,1,rbinom,n1,p1)
res2<-apply(temp,1,rbinom,n2,p2)
RA<-(res1*(n2-res2)-res2*(n1-res1))/((res1+res2)*n2)
RA
}
> mean(res<-IC.RA.boot(40,20,40,100))
[1] 0.4464592
> 4/9
[1] 0.4444444
> hist(res)
2.5% 97.5%
0.2856117 0.6078431
>
Teorema 5.2 Si ρ es el riesgo relativo y ρA es el riesgo atribuı́ble, entonces
P [A](ρ − 1)
ρA =
1 + P [A](ρ − 1)
5.3.2. Método Delta Aplicado al Logit Muestral
Xi ∼ Bin(1, π) i = 1, 2, ..., n independientes

E[Xi ] = π
var[Xi ] = π(1 − π)
Una estimación para π se obtiene de la siguiente forma

n
1X
π
b= Xi
n i=1
se tiene que
E[b
π] = π
π(1 − π)
var[b
π] =
n
ademas
π(1 − π)
b ∼ AN
π π,
n
Considere el Logit muestral

π
b
g(b
π ) = log
1−πb
asi

y
g(y) = log = log(y) − log(1 − y)
1−y
1 1
g 0 (y) = +
y 1−y
1−y+y
=
y(1 − y)
1
=
y(1 − y)
de donde
1
g 0 (b
π ) |b
π =π
=
π(1 − π)
de donde
π 1
π ) ∼ AN
g(b log ,
1−π nπ(1 − π)
5.4. Ejemplo usando el PROC FREQ del SAS

Para calcular medidas de asociación se puede utilizar el PROC FREQ del
SAS. Como un ejemplo consideremos la siguiente tabla donde se presenta infor-
mación recogida sobre el resultado de partos de bebés de menos de 2500 gramos
en instituciones públicas y privadas en Medellı́n en 1990.
Resultado
Institución Vivos Muertos
Oficial 4757 430
Privado 5148 464
Fuente: Revista de Planeación Metropolitana,
Medellı́n, Vol. 2, No. 5, pp212, 1992
5.4. EJEMPLO USANDO EL PROC FREQ DEL SAS 73
************************************************************;
* Ejemplo del PROC FREQ en tablas 2x2 *;
************************************************************;
options ps=65 ls=75 nodate nonumber;
data partos;
input institu $ result $ frec;
cards;
oficial vivos 4757
oficial muertos 430
privado vivos 5148
privado muertos 464
;
proc freq data=partos;
weight frec;
tables institu*result/exact;
run;
quit;
The SAS System

TABLE OF INSTITU BY RESULT
INSTITU RESULT
Frequency|
Percent |
Row Pct |
Col Pct |muertos |vivos | Total
---------+--------+--------+
oficial | 430 | 4757 | 5187
| 3.98 | 44.05 | 48.03
| 8.29 | 91.71 |
| 48.10 | 48.03 |
---------+--------+--------+
privado | 464 | 5148 | 5612
| 4.30 | 47.67 | 51.97
| 8.27 | 91.73 |
| 51.90 | 51.97 |
---------+--------+--------+
Total 894 9905 10799
8.28 91.72 100.00
STATISTICS FOR TABLE OF INSTITU BY RESULT

Statistic DF Value Prob
------------------------------------------------------
Chi-Square 1 0.002 0.967
Likelihood Ratio Chi-Square 1 0.002 0.967
Continuity Adj. Chi-Square 1 0.000 0.995
Mantel-Haenszel Chi-Square 1 0.002 0.967
Fisher’s Exact Test (Left) 0.531
(Right) 0.497
(2-Tail) 0.972
Phi Coefficient 0.000
Contingency Coefficient 0.000
Cramer’s V 0.000
Sample Size = 10799
De los anteriores resultados se muestra que hay independencia entre el re-

sultado de un nacimiento y el tipo de institución para bebés menores de 2.500
gramos. En general pensamos que las instituciones privadas proporcionan más
seguridad para la sobrevivencia de una criatura, lo que vemos no es válido desde
el punto de vista estadı́stico.
5.4.1. Medidas de Concordancia

Suponga que tenemos dos radiólogos que están calificando placas de ma-
mografı́as y su resultado es “Bien” o “Mal”, las calificaciones son realizadas
independientemente. Luego de clasificar n placas obtenemos una placa como la
siguiente:
Persona 2
Persona 1 Bien Mal Total
Bien n11 n12 n1+
Mal n21 n22 n2+
Total n+1 n+2 n
o en términos de las probabilidades de las celdas
Persona 2
Persona 1 Bien Mal Total
Bien π11 π12 π1+
Mal π21 π22 π2+
Total π+1 π+2 1,0
Utilizando la tabla de frecuencias se pueden definir varias medidas de con-

cordancia entre los evaluadores:
1. Proporción general de concordancia
n11 + n22
C=
n
2. Proporción de concordancia por categorı́a:

2n11
C1 =
2n11 + n12 + n21
2n22
C2 =
2n22 + n12 + n21
Mediada de Cocordancia κ de Cohen

La probabilidad total de concordancia se puede obtener como:
X
θ1 = πii
i
Ahora si generamos un proceso de clasificación en el cual se tenga un pro-

cedimiento aleatorio de clasificicación, o sea un modelo de independencia en el
proceso, se presentará una concordancia espúrea, cuya probabilidad se puede
establecer como:
X
θ2 = πi+ π+i
i
El κ de Cohen es definido como
θ1 − θ2
1 − θ2
Una propiedad importante es que 0 ≤ κ ≤ 1. Para tablas 2 × 2 el estimador

será:
θ̂1 − θ̂2 2 (n11 n22 + n12 n21 )

κ̂ = =
1 − θ̂2 n1+ n+2 + n+1 n2+
Para el caso de dos categorı́as, el error estándar está dado por (Le, 1998, pp.
160)
p
2 n1+ n+1 n2+ n+2 /2
σ̂κ =
n2 − (n1+ n+1 + n2+ n+2 )
Le (1998) presenta estas recomendaciones sobre la interpretación de los re-

sultados de κ:
κ > 0,75 Excelente reproducibilidad

0,40 ≤ κ ≤ 0,75 Buena reproducibilidad
0 ≤ κ < 0,40 Pobre reproducibilidad
Ejemplo 5.2 (Le, 1998) La siguiente tabla presenta los resultados de las eva-
luaciones de dos enfermeras sobre el color de la membrana del tı́mpano y el
diagnóstico: Normal (gris) o No normal (blanca, rosada, naranja o roja). Los
datos de 100 evaluaciones se presentan en la siguiente tabla:
Enfermera 2
Enfermera 1 Normal No Normal
Normal 35 10
No Normal 20 35
Programa en R para el cálculo del κ

El código siguiente permite calcular el intervalo asintótico para el κ de Cohen.
IC.kappa.asint<-function(a,b,c,d,nivel=0.95){
N<-a+b+c+d
n.1m<-a+b
n.2m<-c+d
n.m1<-a+c
n.m2<-b+d
k<-2*(a*d-b*c)/(n.1m*n.m2+n.m1*n.2m)
error<-2*sqrt((n.1m*n.m1*n.2m*n.m2)/N)/(N^2-(n.1m*n.m1+n.m2*n.2m))
alfa.medio<-(1-nivel)/2
z<-qnorm(nivel+alfa.medio)
LI<-k-z*error
LS<-k+z*error
list(k=k,LI=LI,LS=LS)
}
> IC.kappa.asint(35,10,20,35)
$k
[1] 0.4059406
$LI
[1] 0.2138253
$LS
[1] 0.5980559
La siguiente función permite calcular el intervalo de confianza bootstrap para

κ.
IC.kappa.boot<-function(a,b,c,d,nivel=0.95){
kappa1<-function(x){
a<-x[1]
b<-x[2]
c<-x[3]
d<-x[4]
n.1m<-a+b
n.2m<-c+d
n.m1<-a+c
n.m2<-b+d
k<-2*(a*d-b*c)/(n.1m*n.m2+n.m1*n.2m)
k
}
k<-kappa1(c(a,b,c,d))
N<-a+b+c+d
probs<-c(a,b,c,d)/N
alfa.medio<-(1-nivel)/2
res<-quantile(apply(rmultinom(1000,N,probs),2,kappa1),
probs=c(alfa.medio,(nivel+alfa.medio)))
LI<-res[1]
LS<-res[2]
list(k=k,LI=LI,LS=LS)
> IC.kappa.boot(35,10,20,35)
$k
[1] 0.4059406
$LI
2.5%
0.2412451
$LS
97.5%
0.571183
La librerı́a concord del R contiene la función cohen.kappa() que permite

estimar el coeficiente de concordancia.
Cuando hay más de dos catergorı́as de clasificación entonces el κ de Cohen
es definido como:
P P
− i πi+ π+i
i πii P
κ=
1 − i πi+ π+i
5.4.2. Sensibilidad, Especificidad y Valor Predictivo

En el diseño de pruebas clı́nicas hay necesidad de establecer estadı́sticamente
la calidad de las pruebas y para ello se han creado indicadores tales como la
especificidad y la sensibilidad. La sensibilidad no es más que la probabilidad

de detectar los positivos y la especificidad es la probabilidad de detectar los
negativos.
Verdadero Resultado Resultado Total

Estado Correcto Incorrecto
Enfermo π11 π12 1.0
Sano π21 π22 1.0
La sensibilidad se define como:
Sensibilidad = P (P rueba = + | Enf ermedad = +) = π1(1) = π11
y la especificidad como:
Especif icidad = P (P rueba = − | Enf ermedad = −) = π2(2) = π21
Cuando se realizan las pruebas para estimar los parámetros tenemos una
tabla como la siguiente:
Verdadero Resultado Resultado Total

Estado Correcto Incorrecto
Enfermo n11 n12 N1
Sano n21 n22 N2
Los estimadores serán por lo tanto

n11
Sensibilidad = π̂1(1) = π̂11 =
N1
Un intervalo de confianza aproximado puede hallarse utilizando las fórmulas pa-
ra la proporción en una población Bernoulli que se discutieron anteriormente. El
intervalo clásico no se recomienda ya que usualmente valores para la sensibilidad
están por encima de 0.80 en muchas situaciones.
−1 −1 !
N1 − n11 + 1 N1 − n11
1+ , 1+
n11 F2n11 ,2(N1 −n11 +1),1−α/2 (n11 + 1)F2(n11 +1),2(N1 −n11 ),α/2
La especificidad como:
n21
Especif icidad = π̂2(2) = π̂21 =
N2
y el intervalo de confianza será:
−1 −1 !
N2 − n21 + 1 N2 − n21
1+ , 1+
n21 F2n21 ,2(N2 −n21 +1),1−α/2 (n21 + 1)F2(n21 +1),2(N2 −n21 ),α/2
Conceptos asociados son el de Predictibilidad Positiva y Negativa. Una vez

se conoce la sensibilidad y la especificidad de una prueba y un sujeto es sometido
a ella y resulte positiva (o negativa), cuál es la probabilidad de que el sujeto real-

mente posea (o no posea) la enfermedad? Esto se conoce como predictibilidad,
y en términos de probabilidades se expresan como:
P P = Predictibilidad Positiva = P (Enf ermedad = + | P rueba = +)
P N = Predictibilidad Negativa = P (Enf ermedad = − | P rueba = −)
La predictibilidad no depende solo de la sensibilidad y la especificidad de

la prueba sino también de la prevalencia de la enfermedad en la población (Le,
1998). El eejmplo siguiente lo muestra:
Población 1
Resultado
Enfermedad + −
+ 45000 5000
− 5000 45000
Población 2
Resultado
Enfermedad + −
+ 9000 1000
− 9000 81000
En las anteriores tablas la sensibilidad y especificidad son del 90 %. Si se

observa en la población 1 la prevalencia (P (D = +)) de la enfermedad es del
50 %. Jugando un poco con probabilidades podemos ver lo siguiente:
PP = P (D = + | T = +)
T
P (D = + T = +)
=
P (T = +)
T
P (D = + T = +) P (D = +)
=
P (T = +) P (D = +)
P (D = +)
= P (T = + | D = +)
P (T = +)
Pero
\ \
P (T = +) = P D =+ T =+ +P D =− T =+
= P (T = + | D = +) P (D = +) + P (T = + | D = −) P (D = −)
= P (T = + | D = +) P (D = +) + (1 − P (T = − | D = −)) (1 − P (D = +))
= P revalencia × Sensibilidad + (1 − P revalencia) × (1 − Especif icidad)
Por lo tanto P P se expresa como:

5.5. MEDIDAS DE ASOCIACIÓN EN TABLAS BIDIMENSIONALES I ×J81
P revalencia × Sensibilidad
PP =
P revalencia × Sensibilidad + (1 − P revalencia) × (1 − Especif icidad)
De forma similar se llega a
(1 − P revalencia) × Especif icidad

PN =
P revalencia × (1 − Sensibilidad) + (1 − P revalencia) × Especif icidad
Los intervalos de confianza para estas cantidades se pueden hallar mediante

el bootstrap.
5.5. Medidas de Asociación en Tablas Bidimen-

sionales I × J
Muchos de los conceptos vistos hasta aquı́ pueden generalizarse fácilmente a
tablas mayores sin mucha dificultad. Aunque surgen problemas que son de im-
portancia, tales como los de simetrı́a, cuasi-simetrı́a. Otro problema importante
se presenta cuando una o las dos variables presentan una estructura ordinal.
Como un ejemplo de estas tablas presentamos la siguiente que hace referencia
al número de goles metidos por el equipo local contra los metidos por el equipo
visitante en 245 partidos de fútbol (Correa y Salazar, 1997),
Goles del Equipo Visitante

0 1 2 3 ó más
Goles 0 28 15 6 2
del 1 28 38 15 7
Equipo 2 17 22 16 4
Local 3 ó más 18 17 9 3
5.5.1. Pruebas de Asociación

Pruebas basadas en la χ2
Todos las medidas basadas en la χ2 se generalizan directamente a tablas
I × J. Para la tabla anterior tenemos χ2 = 12,267 con 9 grados de libertad y un
valor-p de 0.199. Por lo tanto esta prueba nos acepta independencia entre los
goles del local y los del visitante.
1. El coeficiente φ r
χ2
φ=
N
Para aquellas tablas en las cuales una dimensión sea mayor que 2, puede
no estar entre 0 y 1 ya que el valor de la chi-cuadrado puede ser mayor
que el tamaño muestral.
2. El Coeficiente de Contingencia
s
χ2
C=
χ2 +N
Esta medida fue sugerida por Pearson. Esta medida está confinada al rango
0 y 1, pero puede no alcanzar el lı́mite superior del intervalo. Por ejemplo,
para tablas 4 × 4, el máximo valor de es 0.87.
3. V de Cramér s
χ2
V =
N (k − 1)
donde es el mı́nimo entre el número de filas y el de columnas de la tabla. El

estadı́stico V de Cramér puede alcanzar el máximo 1 para cualquier tabla.
Si una de las dimensiones de la tabla es 2, entonces V y φ son idénticas.
Ejemplo en SAS de una Tabla I × J
options ps=55 ls=75;
data futbol;
infile ’futbol.dat’;
input plocal pvisi glocal gvisi tiempo $ @@;
gol_loca=glocal;
if glocal ge 3 then gol_loca=3 ;
gol_visi=gvisi;
if gvisi ge 3 then gol_visi=3;
proc freq;
tables gol_loca*gol_visi/all;
title ’Tabla de Goles del Local vs. Goles del Visitante’;
run;
quit;
Tabla de Goles del Local vs. Goles del Visitante
TABLE OF GOL_LOCA BY GOL_VISI

GOL_LOCA GOL_VISI
Frequency|
Percent |
Row Pct |
Col Pct | 0| 1| 2| 3| Total
---------+--------+--------+--------+--------+
0 | 28 | 15 | 6 | 2 | 51
| 11.43 | 6.12 | 2.45 | 0.82 | 20.82
| 54.90 | 29.41 | 11.76 | 3.92 |
| 30.77 | 16.30 | 13.04 | 12.50 |
---------+--------+--------+--------+--------+
1 | 28 | 38 | 15 | 7 | 88
| 11.43 | 15.51 | 6.12 | 2.86 | 35.92
| 31.82 | 43.18 | 17.05 | 7.95 |
| 30.77 | 41.30 | 32.61 | 43.75 |
---------+--------+--------+--------+--------+
2 | 17 | 22 | 16 | 4 | 59
| 6.94 | 8.98 | 6.53 | 1.63 | 24.08
| 28.81 | 37.29 | 27.12 | 6.78 |
| 18.68 | 23.91 | 34.78 | 25.00 |
---------+--------+--------+--------+--------+
3 | 18 | 17 | 9 | 3 | 47
| 7.35 | 6.94 | 3.67 | 1.22 | 19.18
| 38.30 | 36.17 | 19.15 | 6.38 |
| 19.78 | 18.48 | 19.57 | 18.75 |
---------+--------+--------+--------+--------+
Total 91 92 46 16 245
37.14 37.55 18.78 6.53 100.00
Tabla de Goles del Local vs. Goles del Visitante
STATISTICS FOR TABLE OF GOL_LOCA BY GOL_VISI
Statistic DF Value Prob

------------------------------------------------------
Chi-Square 9 12.267 0.199
Likelihood Ratio Chi-Square 9 11.888 0.220
Mantel-Haenszel Chi-Square 1 2.841 0.092
Phi Coefficient 0.224
Contingency Coefficient 0.218
Cramer’s V 0.129
Statistic Value ASE

------------------------------------------------------
Gamma 0.150 0.077
Kendall’s Tau-b 0.107 0.055
Stuart’s Tau-c 0.101 0.052
Somers’ D C|R 0.103 0.053

Somers’ D R|C 0.111 0.057
Pearson Correlation 0.108 0.063

Spearman Correlation 0.124 0.064
Lambda Asymmetric C|R 0.092 0.055

Lambda Asymmetric R|C 0.006 0.059
Lambda Symmetric 0.048 0.047
Uncertainty Coefficient C|R 0.020 0.012

Uncertainty Coefficient R|C 0.018 0.010
Uncertainty Coefficient Symmetric 0.019 0.011
Sample Size = 245

SUMMARY STATISTICS FOR GOL_LOCA BY GOL_VISI

Cochran-Mantel-Haenszel Statistics (Based on Table Scores)
Statistic Alternative Hypothesis DF Value Prob

--------------------------------------------------------------
1 Nonzero Correlation 1 2.841 0.092
2 Row Mean Scores Differ 3 8.157 0.043
3 General Association 9 12.217 0.201
Total Sample Size = 245
La siguiente función calcula el α de Cronbach para confiabilidad:
reliability.alpha<-function(x){
score.total<-0
var.items<-0
var.total<-0
z.x<-0
z.score.total<-0
z.var.items<-0
z.x<-scale(x, center = TRUE, scale = TRUE)
n.items<-length(x)
for (i in 1:n.items) score.total<-score.total + x[,i]

for (i in 1:n.items) var.items<-var.items + var(x[,i])
for (i in 1:n.items) z.score.total<-z.score.total + z.x[,i]
for (i in 1:n.items) z.var.items<-z.var.items + var(z.x[,i])
var.total<-var(score.total)
z.var.total<-var(z.score.total)
cronbachs.alpha<-(n.items/(n.items-1))*((var.total -
var.items)/var.total)
z.cronbachs.alpha<-(n.items/(n.items-1))*((z.var.total -
z.var.items)/z.var.total)
return(cronbachs.alpha, z.cronbachs.alpha)}
Se puede compactar más
score.total <- apply(x,1,sum)

var.items <- sum(apply(x,2,var))
z.score.total <- apply(z.score.total,1,sum)

z.var.items <- sum(apply(z.x,1,sum)
You can of course condense things even more, for example
var.total <- var(apply(x,1,sum))

z.var.total <- var(apply(z.score.total,1,sum))
Reducción Proporcional en el Error (PRE)

Existen tres medidas muy similares, λa , λb y λ. El estadı́stico λb involucra
una comparación de las siguientes dos situaciones: un individuo es seleccionado
al azar de una población y se nos pide adivinar a qué categorı́a de B pertenece,
bien sea que (a) no se proporcione más información o (b) que sea dada su
categorı́a en A. Si las respuestas A y B están totalmente incorrelacionadas, en
la segunda situación no podemos tener un mejor pronóstico que en la primera
situación, en otro caso habrá una mejora. La medida λb cuantifica la mejorı́a
como la disminución relativa en la probabilidad de error en la predicción de la
categorı́a de B:
PI
nim − n+m
λb = i=1
n++ − n+m
donde nim es la mayor celda en la ı-ésima fila de la tabla y n+m es la mayor de
los totales marginales de las columnas.
Ejemplo:
B
B1 B2 B3 B4 Total
A1 10 5 18 20 53
A2 8 16 5 13 42
A3 11 7 3 4 25
Total 29 28 26 37 120
Para estos datos, las mayores celdas para las tres filas son 20, 16 y 11,
mientras que el mayor total para las columnas es 37. Ası́
(20 + 16 + 11) − 37
λb = = 0,12.
120 − 37
lambda<-function(Tabla){
N<-sum(Tabla)
max.suma.filas<-max(apply(Tabla,2,sum))
sum.max.filas<-sum(apply(Tabla,1,max))
lambda.b<-(sum.max.filas-max.suma.filas)/(N-max.suma.filas)
lambda.b
}
> temp<-matrix(c(10,5,18,20,8,16,5,13,
+ 11,7,3,4),byrow=T,ncol=4)
> lambda(temp)
[1] 0.1204819
>
Equivalentemente definimos λa :
PJ
j=1 nmj − nm+
λa =
n++ − nm+
donde nmj es la mayor celda en la -ésima columna de la tabla y nm+ es la
mayor de los totales marginales de las filas.
El λ de Goodman y Kruskal
P (1) − P (2)
λresultado =
P (1)
donde P (1) es la probabilidad de clasificación incorrecta, definida como 1 menos

la categorı́a modal.
Equivalentemente definimos λ:
P P
J I
j=1 n mj − n m+ + i=1 nim − n+m )
λ=
2n++ − nm+ − n+m
La siguiente función en R nos permite calcular los diversos valores del lamb-
da:
lambda<-function(Tabla){
N<-sum(Tabla)
max.suma.filas<-max(apply(Tabla,2,sum))
sum.max.filas<-sum(apply(Tabla,1,max))
lambda.b<-(sum.max.filas-max.suma.filas)/(N-max.suma.filas)
max.suma.cols<-max(apply(Tabla,1,sum))
sum.max.cols<-sum(apply(Tabla,2,max))
lambda.a<-(sum.max.cols-max.suma.cols)/(N-max.suma.cols)
lambda<-((sum.max.filas-max.suma.filas)+
(sum.max.cols-max.suma.cols))/(2*N-max.suma.filas-max.suma.cols)
list(lambda.b=lambda.b,lambda.a=lambda.a,lambda=lambda)
> lambda(temp)
$lambda.b
[1] 0.1204819
$lambda.a
[1] 0.1791045
$lambda
[1] 0.1466667
Lambda siempre varı́a entre 0 y 1. Un valor de cero indica que la variable

independiente no ayuda a predecir la variable dependiente. Un valor de 1 sig-
nifica que la variable independiente especifica completamente la categorı́a de
la variable dependiente. Cuando las variables son independientes el lambda es
cero. Lo contrario no es cierto.
Razón de Odds
La razón de odds no se generaliza tan directamente a estas tablas y se sugiere
el análisis de las razones de odds para diversas particiones.
Hora Sin Vı́ctimas Con Vı́ctimas razon.prob Razón de Odds

1 0 225 473 2.10 3.95
2 1 212 418 1.97 3.70
3 2 199 334 1.68 3.15
4 3 144 264 1.83 3.44
5 4 131 217 1.66 3.11
6 5 233 274 1.18 2.21
7 6 709 446 0.63 1.18
8 7 1559 634 0.41 0.76
9 8 1600 659 0.41 0.77
10 9 1401 686 0.49 0.92
11 10 1698 876 0.52 0.97
12 11 1884 1021 0.54 1.02
13 12 2036 1084 0.53 1.00
14 13 1854 1051 0.57 1.06
15 14 2163 1105 0.51 0.96
16 15 2236 1127 0.50 0.95
17 16 2111 1182 0.56 1.05
18 17 2046 1330 0.65 1.22
19 18 1869 1297 0.69 1.30
20 19 1315 1178 0.90 1.68
21 20 801 1080 1.35 2.53
22 21 707 947 1.34 2.52
23 22 504 693 1.38 2.58
24 23 316 494 1.56 2.94
5.5.2. Prueba de Simetrı́a de McNemar

La prueba de simetrı́a Chi-cuadrado de McNemar para tablas de contingen-
cia cuadradas. Como un ejemplo consideremos la siguiente tabla que presenta
información sobre los registros de pruebas visuales de larga distancia que se rea-
lizaron a 7477 mujeres británicas entre 1943-1946 (Datos referenciados en Poon
y Hung, 1996)
2
n +n
Xk X k nij − ij 2 ji
χ2 = nij +nji
i=1 j=1 2
k(k−1)
con 2 grados de libertad.
Grado del Ojo Izquierdo

Grado del Ojo Derecho La mayor la segunda la tercera la menor Total
La mayor 1520 266 124 66 1976
la segunda 234 1512 432 78 2256
la tercera 117 362 1772 205 2456
la menor 36 82 179 492 789
Total 1907 2222 2507 841 7477
> McNemar.prueba<-function(tabla){
+ if(nrow(tabla)!=ncol(tabla))stop(’Tabla no es simétrica!!!’)
+ e<-(tabla+t(tabla))/2
+ chi2<-sum((tabla-e)^2/e)
+ gl<-nrow(tabla)*(nrow(tabla)-1)/2
+ valor.p<-1-pchisq(chi2,gl)
+ list(chi2=chi2,gl=gl,valor.p=valor.p)
+ }
> ojos.dat<-matrix(c(1520,266,124,66,234,1512,432,78,
+ 117,362,1772,205,36,82,179,492),ncol=4,byrow=T)
> ojos.dat
[,1] [,2] [,3] [,4]
[1,] 1520 266 124 66
[2,] 234 1512 432 78
[3,] 117 362 1772 205
[4,] 36 82 179 492
> McNemar.prueba(ojos.dat)
$chi2
[1] 19.10655
$gl
[1] 6
$valor.p
[1] 0.0039874
>
En R se tiene la función mcnemar.test(), la cual la ejemplificamos con el

caso anterior:
> ojos.dat<-matrix(c(1520,266,124,66,234,1512,432,78,117,362,1772,
+ 205,36,82,179,492),ncol=4,byrow=T)
> mcnemar.test(ojos.dat)
McNemar’s Chi-squared test
data: ojos.dat
5.6. Medidas de Asociacion Ordinales

Cuando al menos una de las variables de la tabla es ordinal es conveniente
diseñar medidas que tomen ventaja de esta nueva información. Consideremos
tablas donde ambas variables son ordinales. Consideremos un par tı́pico de ob-
servaciones, una en la celda (i, j) y la otra en la celda (i0 , j 0 ). Usualmente las
medidas de asociación son funciones simples de las siguientes cantidades:
S = Número total de pares de observaciones para los cuales, a la vez i > i0

y j > j 0 ó i < i0 y j < j 0 .
D = Total de pares para los cuales a la vez i > i0 y j < j 0 ó i < i0 y j > j 0 .
Ta = Total de pares para los cuales i = i0 .
Tb = Total de pares para los cuales j = j 0 .
Cuando hay asociación fuerte entre el par de variables, el número S será gran-
de y D será pequeño.
5.6.1. γ de Goodman y Kruskal

Esta medida está definida como
S−D
γ=
S+D
5.6. MEDIDAS DE ASOCIACION ORDINALES 91
Esta medida tiene interpretación probabilı́stica: Es la diferencia entre las pro-

babilidades de órdenes similares y diferentes para un par de observaciones se-
leccionadas al azar, condicionados en que no tengan rangos empatados. Si las
variables son independientes entonces γ estará cercano a cero, pero si γ = 0 esto
no implica que ambas variables sean independientes. γ es un valor cuyo rango
es [−1, 1].
5.6.2. τ de Kendall
2(S − D)
τ=p
((S + D + Ta )(S + D + Tb ))
5.6.3. d de Somer
Variaciones de los estadı́sticos anteriores que pueden ser más apropiadas
cuando una de las variables puede ser considerada como dependiente de la otra
son las siguientes:
S−D
dba =
S + D + Tb
S−D
dab =
S + D + Ta
Upton recomienda la selección del λ de Goodman y Kruskal para tablas
nominales y el γ de Goodman y Kruskal para tablas ordinales, si las dos variables
tienen igual importancia, y el λb de Goodman y Kruskal o el dab de Somers si
la variable B depende de la variable A.
La siguiente función en R permite el cálculo de estas medidas.
medidas<-function(tabla){
I<-nrow(tabla)
J<-ncol(tabla)
S<-0
D<-0
Ta<-0
Tb<-0
for(i in 1:I){
for(j in 1:J){
if(i<I & j<J){

tabla1<-tabla[(i+1):I,(j+1):J]
S<-S+tabla[i,j]*sum(tabla1)
if(i>1 & j<J){

tabla1<-tabla[1:(i-1),(j+1):J]
D<-D+tabla[i,j]*sum(tabla1)
}
if(i<I){
tabla3<-tabla[(i+1):I,j]
Tb<-Tb+tabla[i,j]*sum(tabla3)
}
if(j<J){
tabla4<-tabla[i,(j+1):J]
Ta<-Ta+tabla[i,j]*sum(tabla4)
}
}
}
GK<-(S-D)/(S+D)
d1<-(S-D)/(S+D+Tb)
d2<-(S-D)/(S+D+Ta)
K<-2*(S-D)/sqrt((S+D+Ta)*(S+D+Tb))
list(D=D,S=S,Ta=Ta,Tb=Tb,GoodmanKruskal=GK,
dbaSomers=d1,dabSomers=d2,tauKendall=K)
}
temp<-matrix(c(13,13,12,22,
4,24,28,34,
3,8,15,24),ncol=4,byrow=T)
> medidas(temp)
$D
[1] 3627
$S
[1] 5534
$Ta
[1] 4914
5.7. ELIMINANDO CATEGORÍAS EN UNA VARIABLE 93
$Tb
[1] 3739
$GoodmanKruskal
[1] 0.2081650
$dbaSomers
[1] 0.1478295
$dabSomers
[1] 0.1354885
$tauKendall
[1] 0.283049
>
5.7. Eliminando categorı́as en una variable

La eliminación de categorı́as en una o más variables es práctica corriente en-
tre los investigadores. Everitt (1977) hace las siguientes anotaciones con respecto
a esto:
Se puede perder una cantidad muy significativa de información.
La aleatoriedad de la muestra puede afectarse.
La forma en que se combinen las categorı́as puede influir en las inferencias

que se obtengan.
> genera.tabla<-function(N,prob){
+ p1<-prob[1]
+ p2<-prob[2]
+ p3<-prob[3]
+ if(sum(prob)>1)stop(’Vector de probabilidades incorrecto’)
+ numeros.aleatoris<-runif(N)
+ numeros.aleatorios<-runif(N)
+ numeros.aleatorios<-ifelse(numeros.aleatorios<p1,1,
+ ifelse(numeros.aleatorios<(p1+p2),2,
+ ifelse(numeros.aleatorios<(p1+p2+p3),3,4)))
+ resultado<-tabulate(numeros.aleatorios)
+ tabla<-matrix(resultado,ncol=2,byrow=T)
+ tabla
+ }
> genera.tabla(100,c(0.2,0.4,0.2))
[,1] [,2]
[1,] 15 42
[2,] 24 19
> genera.tabla(1000,c(0.2,0.4,0.05))
[,1] [,2]
[1,] 217 389
[2,] 49 345
> genera.tabla(1000,c(0.2,0.4,0.9))
Error in genera.tabla(1000, c(0.2, 0.4, 0.9)) :
Vector de probabilidades incorrecto
> calcula.odds<-function(N,probs){
+ tabla<-genera.tabla(N,probs)
+ odds<-tabla[1,1]*tabla[2,2]/(tabla[1,2]*tabla[2,1])
+ odds
+ }
> simula.odds<-function(N,prob,Nsim){
resultado<-matrix(rep(N,Nsim),ncol=1)
resultado<-apply(resultado,1,FUN=’calcula.odds’,prob)
resultado
}
>
> temp<-simula.odds(100,c(0.2,0.3,0.4),1000)
> par(mfrow=c(1,2))
> hist(temp,main=’Dist. de la Razón de Odds’,
sub=’N=100, p11=0.2,p12=0.3,p21=0.4’)
> hist(log(temp),main=’Dist. del log de Razón de Odds’,
sub=’N=100, p11=0.2,p12=0.3,p21=0.4’)
Capı́tulo 6
Estimación del Tamaño

Poblacional N
En muchas circunstancias se desea conocer el tamaño de una población, por

ejemplo en biologı́a es de interés saber cuántos animales de cierta especie hay
en una zona determinada o cuántos peces hay en un lago. La policı́a podrı́a
querer saber cuántos raponeros hay en el centro de la ciudad, un epidemiólogo
podrı́esear conocer el número de habitantes que tienen cierta caracterı́stica, etc.
Para la estimación del tamaño de una población se pueden utilizar técnicas
que se conocen como Captura-Recaptura. El proceso más simple consiste en
tomar una muestra y marcar de alguna los sujetos de ella. Se devuelven a la
población y se extrae una segunda muestra. Utilizando la información de ambas
muestras se puede estimar N . Métodos de captura-recaptura pueden hacer uso
de varias muestras para refinar el proceso de estimación o considerar problemas
con la estructura de la población. Aquı́ vamos a presentar la forma más simple
para estimar N .
Segunda Muestra
Sı́ No Total
Primera Sı́ n11 n12 n1+
Muestra No n21 ?
n+1 N
Se supone que la muestra 2 se toma independientemente de la muestra 1.
El esquema probabilı́stico para el número de éxitos de la segunda muestra es
hipergeométrico con probailidad dada por

M N −M
y n−y
P (Y = y|M, n, y) =
N
n
El logaritmo de la función de verosimilitud será
95
96 CAPÍTULO 6. ESTIMACIÓN DEL TAMAÑO POBLACIONAL N
N
X −M
NX
log (L(N )) = log(K) − log(i) + log(i)
i=N −n+1 i=N −M −n+y+1
donde
n!M !
K=
y!(M − y)!(n − y)!
Para hallar el estimador de máxima verosimilitud para N , derivamos la an-
terior función con respecto a N e igualamos a cero
N −M
NX
d log (L(N )) X 1 1
=− + =0
dN i i
i=N −n+1 i=N −M −n+y+1
Lo anterior se resuleve numéricamente y para hallar la varianza asintótica

necesitamos la segunda derivada evaluada en el em.v.
N −M
NX
d2 log (L(N )) X 1 1
= −
d N2 i2 i2
i=N −n+1 i=N −M −n+y+1
Otra alternativa es la siguiente:

Si pensamos que la segunda muestra es tomada con reemplazo, entonces
Y ∼ Binomial(n, π), donde π = M/N , entonces la función de verosimilitud es
y n−y
n M M
L(N ) = 1−
y N N
Para hallar el estimador de máxima verosimilitud para N derivamos el loga-

ritmo de L(N ) con respecto a N e igualamos a cero y resolvemos la ecuación:

d log(L(N )) y 1 1
= − + (n − y) − =0
dN N N −M N
Resolviendo y despejando para N llegamos al estimador

Mn
N̂ =
y
La varianza asintótica la hallamos primero determinado la segunda derivada
de log(L(N ))
d2 log(L(N ))

y 1 1
= 2 − (n − y) − 2
d N2 N (N − M )2 N
Capı́tulo 7
Tablas Multidimensionales
7.1. La Paradoja de Simpson

La paradoja de Simpson ocurre cuando se colapsan tablas de contingencia
descuidadamente. Presentamos de una forma sencilla este fenómeno con el ob-
jeto de prevenir al analista de datos en el manejo de tablas de contingencia.
Las ilusiones estadı́sticas ocurren con frecuencia y en cierto sentido se pare-
cen a las ilusiones ópticas: Solo las reconocemos cuando nos las han mostrado
(Wardrop, 1995). La paradoja de Simpson ocurre frecuentemente cuando ana-
lizamos tablas de contingencia cuando colapsamos las dimensiones de las tablas
indiscriminadamente, esto es, cuando eliminamos una covariable importante.
Puede ocurrir que datos de tablas bidimensionales puedan ser contradichos por
una tabla tridimensional. Ejemplos en diversas áreas aparecen de vez en cuando
en revistas especializadas (Wagner, 1982; Warddrop, 1995), pero lamentable-
mente los textos de clase no hacen énfasis en este problema.
7.1.1. Ejemplo
Consideremos por ejemplo la siguiente tabla
Sexo del Paciente

Hombre Mujer
Resultado Exito Fracaso Exitos Fracaso
Tratamiento 1 80 10 60 120
Tratamiento 2 200 100 10 25
La probabilidad estimada de éxito para el tratamiento 1 en hombres es

80/90=0.89 y la probabilidad estimada de éxito para el tratamiento 2 es 200/300=0.67.
La probabilidad estimada de éxito para el tratamiento 1 en mujeres es 60/180=0.33
y la probabilidad estimada de éxito para el tratamiento 2 es 10/35=0.28. Te-
nemos que tanto para hombres como para mujeres el tratamiento 1 tiene una
mayor probabilidad de éxito.
97
98 CAPÍTULO 7. TABLAS MULTIDIMENSIONALES
Consideremos ahora la siguiente tabla colapasada, que contiene los datos de

la tabla anterior pero en la cual no consideramos la variable sexo.
Resultado
Exito Fracaso
Tratamiento 1 140 130
Tratamiento 2 210 125
De esta tabla obtenemos una probabilidad de éxito del tratamiento 1 de

140/270=0.52, mientras que la probabilidad estimada de éxito para el trata-
miento 2 es 210/335=0.63, lo cual sugiere que el tratamiento 2 es mejor que el
tratamiento 1. Esto obviamente contradice lo que se habı́a establecido.
Esta contradicción puede ocurrir porque se ponderan inapropiadamente am-
bas poblaciones. En el tratamiento 2 tenemos 300 hombres y solo 35 mujeres.
La no inclusión de variables relevantes en tablas de contingencia puede llevar-
nos a conclusiones que pueden ser totalmente equivocadas y aún absurdas. De
lo anterior concluimos que no podemos confiar plenamente en las conclusiones
extraı́das de tablas marginales.
7.2. Prueba de Homogenidad de Simon o de Woolf

Si se tiene una tabla 2 × 2 que es generada para cada estrato (subpoblación)
es de interés verificar si la asociación entre las variables de la tabla permanece
constatnte a través de los diferentes estratos o si hay una interacción con los
mismos. La prueba de Simon (Hubert, 1995). Si tenemos K estratos, cada uno
generando una tabla 2 × 2, la hipótesis a verificar será
H0 : ψ 1 = ψ 2 = · · · = ψ K
El estadı́stico de prueba de Simon es

K
X
ωi Ri − R̄ ∼ χ2(K−1)

Q=
i=1
donde

Ri = log Ψ̂i
1 1 1 1 1
ωi = = + + +
var(R
d i) ai bi ci di
K
X ωi
R̄ = PK Ri
i=1 j=1 ωj
En R se puede utilizar una función similar a la siguiente para realizar la

prueba:
7.3. ESTIMADOR Y PRUEBA DE MANTEL-HAENZEL 99
woolf <- function(x) {

x <- x + 1 / 2
k <- dim(x)[3]
or <- apply(x, 3, function(x) (x[1,1]*x[2,2])/(x[1,2]*x[2,1]))
w <- apply(x, 3, function(x) 1 / sum(1 / x))
1 - pchisq(sum(w * (log(or) - weighted.mean(log(or), w)) ^ 2), k - 1)
}
7.3. Estimador y Prueba de Mantel-Haenzel

En muchas investigaciones sociales y médicas no es raro tener series de tablas
2 × 2 que examinan el mismo efecto bajo diferente condiciones (covariable que
hace el papel de un factor). Si tenemos K de tales tablas, estas tablas pueden
combinarse para formar una tabla 2 × 2 × K.
El estimador de la razón de odds corregida de Mantel-Hanzel es
PK ai di
i=1 Ni
ψ̂M H = PK bi ci
i=1 Ni
La varianza asintótica de el logaritmo de este estimador se debe a Robins y

otros (Hubert, 1995) y está dada por
2 T1 T2 + T3 T4
σ̂log (ψ̂ ) = 2R2 + 2RS + 2S 2
MH
donde
(ai + di )
Pi =
Ni
ai di
Ri =
Ni
(bi + ci )
Qi =
Ni
(bi ci )
Si =
Ni
XK
R = Ri
i=1
K
X
S = Si
i=1
K
X
T1 = Pi Ri
i=1
K
X
T2 = Pi Si
i=1
K
X
T3 = Qi Ri
i=1
K
X
T4 = Qi Si
i=1
Por lo tanto un intervalo de confianza del 95 % para log (ψM H ) será

q q
2
log ψ̂M H − 1,96 σ̂log ψ̂ 2
, log ψ̂M H + 1,96 σ̂log ψ̂
( MH ) ( MH )
El intervalo para ψM H se calcula exponenciando los lı́mites del anterior intervalo.
La hipótesis nula es que la razón de odds es la misma para cada tabla 2 × 2
e igual a uno, o sea independencia, controlando por la covariable. Esto puede
realizarse mediante el estadı́stico de Mantel-Haenzel
P 2
K
k=1 (n 11k − m11k )
MH = PK
(m11k m22k )
k=1
n++k −1
Este estadı́stico tiene una distribución asintótica χ2(1) bajo el modelo de inde-
pendencia condicional.
La siguiente tabla presenta información sobre partos de más de 20 sema-
nas de embarazo en el Valle del Aburrá (Información obtenida de los Anuarios
estadı́sticos de Antioquia):
Año 1996
Resultado
Peso Vivo Muerto
2500 gr o menos 4337 389
Más de 2500 gr 40716 128
Año 1997
Resultado
Peso Vivo Muerto
2500 gr o menos 4697 373
Más de 2500 gr 55098 137
Año 1998
Resultado
Peso Vivo Muerto
2500 gr o menos 5069 513
Más de 2500 gr 49577 131
En R la librerı́a ctest posee la función mantelhaen.test() que permite
realizar tanto pruebas de hipótesis como estimación de la razón de odds para
tablas estratificadas.
7.3. ESTIMADOR Y PRUEBA DE MANTEL-HAENZEL 101
> partos<-array(c(4737,389,40716,128,
+ 4697,373,55098,137,
+ 5069,513,49577,131),dim=c(2,2,3),list(c(’Vivos’,’Muertos’),
c(’2500gr o menos’,’Más de 2500gr’),c(’1996’,’1997’,’1998’)))
> partos
, , 1996
2500gr o menos Más de 2500gr

Vivos 4737 40716
Muertos 389 128
, , 1997

Vivos 4697 55098
Muertos 373 137
, , 1998

Vivos 5069 49577
Muertos 513 131
>
> library(ctest)
> mantelhaen.test(partos)
Mantel-Haenszel chi-squared test with continuity correction
data: partos
Mantel-Haenszel X-squared = 8345.42, df = 1, p-value = < 2.2e-16
alternative hypothesis: true common odds ratio is not equal to 1
95 percent confidence interval:
0.02793310 0.03511536
sample estimates:
common odds ratio
0.03131901
> (4737/389)/(40716/128)
[1] 0.03828236
> (4697/373)/(55098/137)
[1] 0.03131097
> (5069/513)/(49577/131)
[1] 0.02610935
>
> apply(partos, 3, function(x) (x[1,1]*x[2,2])/(x[1,2]*x[2,1]))
1996 1997 1998
0.03828236 0.03131097 0.02610935
>
Lo anterior lo podemos corroborar con la Prueba de Simon o Woolf
> woolf(partos)
[1] 0.02749509
>
Parte II
Modelos Loglineales
103
Capı́tulo 8
Modelos Loglineales
En el análisis de tablas de contingencia algunos autores durante los años

60 tomaron una aproximación análoga a los análisis de datos cuantitativos, ta-
les como regresión y el análisis de varianza. Principalmente Goodman, quien
usó estadı́sticos de la razón de verosimilitud y procedimientos stepwise en la
construcción jerárquica de modelos loglineales y el procedimiento similar a mo-
delos lineales propuesto por Grizzle, Starmer y Koch (1969), en los cuales se
puede llegar a solución del modelo sin pasar por la estimación de cada celda.
Una aproximación utilizando el principio de mı́nima información discriminativa
fue propuesto por Ku y Kullback (1974).
8.1. Modelos Loglineales para tablas 2 × 2

Los modelos loglineales han tomado una aceptación entre aquellos que tra-
bajan con datos categóricos debido a su semejanza con los modelos de análisis
de varianza. Consideremos la distribución de probabilidad conjunta para dos
clasificaciones:
Clasificacion II
B1 B2 Total
Clasificacion I A1 π11 π12 π1+
A2 π21 π22 π2+
Total π+1 π+2 π++
Denotemos νij = log(πij ). Expresemos este logaritmo como la suma de cua-

tro componentes, donde una de ellas representa el valor medio para toda la
tabla. Otra componente representa la variación debida a una clasificación y otra
componente a la otra clasificación. El último componente estará asociado con
el efecto adicional de tener presente las dos clasificaciones simultáneamente o
efecto de interacción
νij = µ + λA B AB
i + λj + λij
105
106 CAPÍTULO 8. MODELOS LOGLINEALES
donde X X X X
λA
i = λB
j = λAB
ij = λAB
ij = 0
i j i j
En una tabla 2 × 2 tenemos entonces
λA
2 = −λA
1
λB
2 = −λB
1
λAB
22 = −λAB AB AB
12 = λ11 = −λ21
Si el modelo tiene tantos parámetros como celdas en la tabla entonces lo

llamamos el modelo saturado. Notación
X νij X νij X X νij
νi· = , ν·j = , ν·· =
j
J i
I i j
IJ
Entonces
X X X X X
νij = µ+ λA
i + λB
j + λAB
ij
i i i i i
I × ν·j = I × µ + 0 + I × λB
j +0
Sumando en j tenemos
IJν·· = IJµ + 0 + 0 + 0
Por lo tanto
ν·· = µ
Sustituyendo tenemos
λA
i = νi· − ν··
λB
j = ν·j − ν··
λAB
ij = νij − νi· − ν·j + ν··
Expandiendo esto tenemos

ν11 + ν12 − ν21 − ν22 1X π1j
λA
1 = = log
4 4 j π2j

ν11 − ν12 + ν21 − ν22 1X πi1
λB
1 = = log
4 4 i πi2

ν11 − ν12 − ν21 + ν22 1 π11 π22
λAB
11 = = log
4 4 π12 π21
Asi vemos que el término que representa la interacción es una función del
log de la razón de odds. Vamos a mostrar que en el modelo de independencia
λAB
ij = 0, esto es, que el modelo de independencia puede expresarse como
νij = µ + λA B
i + λj
8.2. AJUSTANDO MODELOS LOGLINEALES 107
Ahora,
πij = exp(νij ) = exp(µ + λA B
i + λj )
π1+ = π11 + π12 = exp(µ + λA B A B

1 + λ1 ) + exp(µ + λ1 + λ2 )
= exp(µ + λ1 ) exp(λ1 ) + exp(−λ1 ) , ya que λ2 = −λB
A B B B

1
π+2 = π12 + π22 = exp(µ + λA B A B
1 + λ2 ) + exp(µ + λ2 + λ2 )
= exp(µ − λB A A B B A A

1 ) exp(λ1 ) + exp(−λ1 ) , ya que λ2 = −λ1 y λ2 = −λ1
También
π++ = π1+ + π2+
= exp(µ) exp(λA A
exp(λB B

1 ) + exp(−λ1 ) 1 ) + exp(−λ1 )
de donde obtenemos
π1+ π+2
= exp(µ + λA B
i + λj ) = π12
π++
que corresponde al modelo de independencia.
8.2. Ajustando Modelos Loglineales

Denotemos la tabla de frecuencias observadas por N == {nijk } . Observemos
que estas frecuencias son variables aleatorias. Asumamos que el esquema de
muestreo es Poisson, por lo tanto nuestra matriz de parámetros será, digamos,
M, que contiene los valores esperados : {mijk }
La función densidad de probabilidad conjunta de {nijk } es
Y Y Y exp(−mijk )mnijk
ijk
P (N = n) =
i j
nijk !
k
La función de verosimilitud será:

XXX XXX
L(M) = nijk log(mijk ) − mijk
i j k i j k
Veamos ahora el modelo loglineal para mijk

log(mijk ) = µ + λA B C AB AC BC ABC
i + λj + λk + λij + λik + λjk + λijk
X X X
L(M) = nµ + ni++ λA
i + n+j+ λB
j + n++k λC
k
i j k
XX XX
+ nij+ λAB
ij + ni+k λAC
ik
i j i k
XX XX XXX
+ nij+ λAB
ij + n+jk λBC
jk + nijk λABC
ijk
i j j k i j k
XXX
+ exp(µ + λA
i + λB
j + λC
k + λAB
ij + λAC
ik + λBC ABC
jk + λijk )
i j k
Ya que la distribución de Poisson pertenece a la familia exponencial, los

coeficientes de los parámetros en el log-verosimilitud son estadı́sticos
n suficientes.
o
Para el modelo saturado, las {nijk } son los coeficientes de los λABC ijk .
No hay reducción de los datos.
8.2.1. Notación para Modelos Loglineales

Modelo Notación
log(mijk ) = µ + λA B C AB AC BC ABC
i + λj + λk + λij + λik + λjk + λijk (ABC)
log(mijk ) = µ + λA B C AB AC BC
i + λj + λk + λij + λik + λjk (AB,AC,BC)
log(mijk ) = µ + λA B C AB AC
i + λj + λk + λij + λik (AB,AC)
log(mijk ) = µ + λA B C AB BC
i + λj + λk + λij + λjk (AB,BC)
log(mijk ) = µ + λA B C AC BC
i + λj + λk + λik + λjk (AC,BC)
log(mijk ) = µ + λA B C AB
i + λj + λk + λij (AB,C)
log(mijk ) = µ + λA B C BC
i + λj + λk + λjk (A,BC)
log(mijk ) = µ + λA B C AC
i + λj + λk + λik (AC,B)
log(mijk ) = µ + λA B C
i + λ j + λk (A,B,C)
8.2.2. Ecuaciones de Verosimilitud para Modelos Logli-

neales
Para el modelo (AC,BC)
X X X XX XX
L(M) = nµ + ni++ λA
i + n+j+ λB
j + n++k λC
k + ni+k λAC
ik + n+jk λBC
jk
i j k i k j k
XXX
− exp(µ + λA
i + λB
j + λC
k + λAC
ik + λBC
jk )
i j k
∂L XXX
= n− exp(µ + λA B C AC BC
i + λj + λk + λik + λjk )
∂µ i j k
XXX
= n− mijk
i j k
Haciendo esto igual a cero
m
b +++ = n
Ahora
∂L XX
= ni++ − mijk
∂λA
i j k
= ni++ − mi++ i = 1, ..., I
igualando a cero
m
b i++ = ni++ i = 1, ..., I
Asi
∂L
= 0⇒m
b +j+ = n+j+ j = 1, ..., J
∂λB
j
∂L
= ni+k − mi+k = 0 ⇒ m
b i+k = ni+k ∀i, k
∂λAC
ik
∂L
= n+jk − m+jk = 0 ⇒ m
b +jk = n+jk ∀j, k
∂λBC
jk
8.2.3. Estimando las Frecuencias Esperadas

Consideremos el modelo (AC,BC)
πi+k π+jk
πijk = ∀i, j, k
π++k
Para un esquema Poisson
mijk mi+k m+jk
πijk = , mijk =
n m++k
Las ecuaciones de verosimilitud producen
m
b i+k m
b +jk ni+k n+jk
m
b ijk = =
mb ++k n++k
Para el modelo
log mijk = µ + λA B C
i + λ j + λk
los estadı́sticos suficientes seran
{ni++ } , {n+j+ } , {n++k }
De esta manera podemos construir la siguiente tabla
Modelo Estadı́stico Suficiente Minimal

(A,B,C) {ni++ } , {n+j+ } , {n++k }
(AB,C) {nij+ } , {n++k }
(AB,BC) {nij+ } , {n+jk }
(AB,BC,AC) {nij+ } , {ni+k } , {n+jk }
8.2.4. Ejemplo: Frecuencias esperadas bajo la hipótesis de

independencia en R
Consideremos el ejemplo de los partos realizados en instituciones privadas y
oficiales. Si asumimos un esquema multinomial, podemos pensar en verificar la
independencia entre el resultado del parto y el tipo de institución. En R es muy
fácil realizar este tipo de prueba con la función loglin():
> partos.dat<-array(c(4757,5148,430,464),c(2,2))
> partos.dat
[,1] [,2]
[1,] 4757 430
[2,] 5148 464
> loglin(partos.dat,list(1,2),fit=T)
2 iterations: deviation 0
$lrt
[1] 0.00171166
$pearson
[1] 0.001711714
$df
[1] 1
$margin
$margin[[1]]
[1] 1
$margin[[2]]
[1] 2
> rownames(partos.dat)<-c(’Oficial’,’Privado’)
> colnames(partos.dat)<-c(’Vivos’,’Muertos’)
> partos.dat
Vivos Muertos
Oficial 4757 430
Privado 5148 464
>
> partos.MInd<-loglin(partos.dat,list(1,2),fit=T,param=T)
2 iterations: deviation 0
> partos.MInd$param
$"(Intercept)"
[1] 7.304328
$"1"
Oficial Privado
-0.03937583 0.03937583
$"2"
Vivos Muertos
1.202545 -1.202545
>
> partos.MInd$fit
Vivos Muertos
Oficial 4757.592 429.4081
Privado 5147.408 464.5919
>
> residuales<-partos.dat-partos.MInd$fit
> residuales
Vivos Muertos
Oficial -0.5919067 0.5919067
Privado 0.5919067 -0.5919067
> residuales/sqrt(partos.MInd$fit)
Vivos Muertos
Oficial -0.008581429 0.02856394
Privado 0.008250095 -0.02746107
>
Podemos presentar estos resultados en una forma más elegante ası́:

Modelo g.l. G2 χ2
Independencia 1 0.00171166 0.001711714
Tabla Tabla
Observada Esperada
4757 430 4757.592 429.4081
5148 464 5147.408 464.5919
Residuales Residuales
Crudos Estandarizados
-0.5919067 0.5919067 -0.008581429 0.02856394
0.5919067 -0.5919067 0.008250095 -0.02746107
Los resultados anteriores nos muestran que el resultado de un parto (vivo o

muerto) es independiente del tipo de institución (oficial o privada) y el modelo
ajusta muy bien!.
8.2.5. Otros modelos para tablas 2 × 2
Ho : Las categorı́as de B son igualmente posibles (obviamente A y B

independientes)
νij = µ + λA
i
o también
Ho : Las categorı́as de A son igualmente posibles.
νij = µ + λB
j
o también
Ho : todas las categorı́as son igualmente posibles
con lo que νij = µ
Comparación del modelo de independencia con el de no efecto de B
Modelo Parámetros Incluı́dos g.l. G2

Independencia µ, λA B
1 , λ1 1 6.9
A
No Efecto de B µ, λ1 2 41.7
Diferencia λB A
1 , dado que µ y λ1 ya están 1 34.8
La ventaja de trabajar con el estadı́stico G2 de razón de verosimilitud en

lugar del tradicional X 2 de Pearson es que la partición de la tabla anterior es
válida.
8.2.6. Ejemplo: Niños Zurdos
La función loglin asume un esquema de muestreo multinomial. Los siguinetes

comandos en R producen los resultados presentados en la siguiente tabla:
> ninos.dat<-array(c(79,57,202,138),c(2,2))
> loglin(ninos.dat,list(2),fit=T)
> loglin(ninos.dat,list(),fit=T)
> loglin(ninos.dat,list(1,2),fit=T)
> loglin(ninos.dat,list(1:2),fit=T)
8.3. MODELO LOGLINEAL CON TRES FACTORES 113
Modelo g.l. χ2 G2 Tabla Esperada
79 202
Saturado 0 0 0
57 138
80.28 200.71
Independencia 1 0.07036408 0.0702684
55.71 139.28
68 170
No efecto de sexo 2 15.60588 15.69374
68 170
119 119
Uniformidad 3 106.6723 106.0172
119 119
8.3. Modelo Loglineal con Tres Factores

8.3.1. Tablas Tridimensionales
Para tablas tridimensionales hay tres situaciones que debemos distinguir:
i) tres respuestas, ningún factor;
ii) dos respuestas, un factor;
iii) una respuesta, dos factores.
Para la situación i) sólo los esquemas de muestro Poisson o multinomial son
apropiados, mientras que para las situaciones ii) e iii) podemos también usar un
modelo producto-multinomial en el cual los totales marginales fijos corresponden
a las variables explicatorias o factores.
El modelo se define como sigue:
νijk = µ + λA B C AB AC BC ABC
i + λj + λk + λij + λik + λjk + λijk Con restricciones:
X X X X X X X
λAi = B
λj = C
λk = AB
λij = AB
λij = AC
λik = λAC
ik
i j k i j i k
X X X X X
= λBC
jk = λBC
jk = λABC
ijk = λABC
ijk = λABC
ijk =0
j k i j k
X X νijk
νi.. =
j
JK
k
X X νijk
ν.j. =
i
IK
k
X X νijk
ν..k =
i j
IJ
X νijk
νij. =
K
k
X νijk
ν.jk =
i
I
X νijk
νi.k =
j
J
Se tiene que
X
I × ν.jk = νijk
i
= I × µ + I × λB C BC
j + I × λk + I × λjk teniendo en cuenta las restricciones
I × J × K × ν... = I × J × K × µ entonces
ν... = µ
λA
i = νi.. − ν...
B
λj = ν.j. − ν...
λCk = ν..k − ν...
AB
λij = νij. − νi.. − ν.j. + ν...
λAC
ik = νi.k − νi.. − ν..k + ν...
λBC
jk = ν.jk − ν.j. − ν..k + ν...
ABC
λijk = νijk − νij. − νi.k − ν.jk + νi.. + ν.j. + ν..k − ν...
Se tiene entonces que
λABC
111 = ν111 − ν11. − ν1,1 − ν,11 + ν1.. + ν,1. + ν.,1 − ν...
1 1 1
= ν111 − (ν111 + ν112 ) − (ν111 + ν121 ) − (ν111 + ν211 )
2 2 2
1 1
+ (ν111 + ν112 + ν121 + ν122 ) + (ν111 + ν112 + ν211 + ν212 )
4 4
1
+ (ν111 + ν121 + ν211 + ν221 )
4
1
− (ν111 + ν112 + ν121 + ν122 + ν211 + ν212 + ν121 + ν222 )
8
1
= ν111 − (3ν111 + ν112 + ν121 + ν211 )
2
1
+ (3ν111 + 2ν112 + 2ν121 + 2ν211 + ν212 + ν122 + ν221 )
4
8.4. AJUSTE PROPORCIONAL ITERATIVO: IPF 115
1
− (ν111 + ν112 + ν121 + ν122 + ν221 + ν212 + ν221 + ν222 )
8
12ν111 + 4ν112 + 4ν121 + 4ν211 − 6ν111 − 4ν112 − 4ν121 − 4ν211 − 2ν122 − 2ν221 − 2ν212
= ν111 −
8
1
− (ν111 + ν112 + ν121 + ν122 + ν221 + ν212 + ν221 + ν222 )
8
6ν111 − ν122 − ν221 − ν212 + ν112 + ν121 + ν222 + ν211
= ν111 −
8
Se tiene que
ν111 + ν122 + ν221 + ν212 − ν112 − ν121 − ν222 − ν211
λABC
111 =
8
1
= (log(π111 ) + log(π122 ) + log(π221 ) + log(π212 ) − log(π112 )
IJK
− log(π121 ) − log(π212 ) − log(π211 )

1 π111 π122 π221 π212
= log
IJK π112 π121 π222 π211
De la última ecuación se tiene que

π111 π122 π221 π212 π111 π221 π112 π222
=1⇔ =
π112 π121 π222 π211 π121 π211 π212 π122
8.4. Ajuste Proporcional Iterativo: IPF

El algoritmo IPF permite estimar por el método de máxima verosimilitud
modelos loglineales de una forma rápida y segura. Este método fue desarrollado
en los años 40 por Deming y Stephan. El procedimiento es iterativo y en cada
iteración hay tantos pasos como conjuntos de estadı́sticos suficientes minimales
o marginales a ajustar tengamos en nuestro modelo. Por ejemplo en el modelo
[AB][C] debemos ajustar las marginales {Nij+ } y {N++k }. En este caso cada
iteración consta de dos etapas, una por cada marginal a ajustar. El IPF será en-
(l,p)
tonces, si denotamos mijk los valores calculados en la l-ésima iteración y en el
p-ésimo paso,
1. Haga
(0,2)
mijk = 1
2. Para cada etapa en la iteración l-ésima
2.1 Ajustar para [AB]
(l,1) nij+ (l−1,2)

mijk = (l−1,2)
mijk
mij+
2.2 Ajuste por [C]

(l,2) n++k (l,1)
mijk = (l,1)
mijk
m++k
(l,2) (l−1,2)
3. Pare cuando la diferencia absoluta entre mijk y mijk sea lo suficien-
temente pequeña.
Note que es posible ajustar primero por [C] y luego por [AB].
Para ilustrar el procedimiento consideremos el siguiente ejemplo:
Cercanı́a de Intensidad de Resultado
la Percepción la Preferencia Votó No votó
Débil 91 39
No Fuerte Mediana 121 49
Fuerte 64 24
Débil 214 87
Muy Fuerte Mediana 284 76
Fuerte 201 25
8.4.1. Modelo [AB] [C]

El conjunto minimal de estadı́sticos suficientes es {nij+ } {n++k }. El IPF
tendrá en cada iteración dos etapas:
(l,1) nij+ (l−1,2)
1) mijk = (l−1,2) mijk
mij+
(l,2) n++k (l,1)
2) mijk = (l,1) mijk
m++k
La tabla original y el conjunto marginal a ser usado es:
91 39 n11+ = 130
121 49 n12+ = 170
64 24 n21+ = 88
214 87 n22+ = 301
284 76 n31+ = 360
201 25 n32+ = 226
n++1 = 975 n++2 = 300
Primera Iteración:
mij+
1 1 2
1 1 2
1 1 2
1 1 2
1 1 2
1 1 2
(1,1) nij+ (0,2)
mijk = (l−1,2) mijk
mij+
(1,1) n11+ (0,2)
m111 = (0,2) m111 = 130
2 1 = 65
m11+
(1,1) n11+ (0,2)
m112 = (0,2) m112 = 130
2 1 = 65
m11+
8.4. AJUSTE PROPORCIONAL ITERATIVO: IPF 117
(1,1) n12+ (0,2) 170

m121 = (0,2) m121 = 2 1 = 85
m12+
(1,1) n12+ (0,2) 170
m122 = (0,2) m122 = 2 1 = 85
m12+
(1,1) n13+ (0,2) 88
m131 = (0,2) m131 = 2 1 = 44
m13+
(1,1) n13+ (0,2) 88
m132 = (0,2) m132 = 2 1 = 44
m13+
(1,1) n21+ (0,2) 301
m211 = (0,2) m111 = 2 1 = 150,5
m21+
(1,1) n21+ (0,2) 301
m212 = (0,2) m112 = 2 1 = 150,5
m21+
(1,1) n22+ (0,2) 360
m221 = (0,2) m121 = 2 1 = 180
m22+
(1,1) n22+ (0,2) 360
m222 = (0,2) m122 = 2 1 = 180
m22+
(1,1) n23+ (0,2) 226
m231 = (0,2) m131 = 2 1 = 113
m23+
(1,1) n23+ (0,2) 226
m232 = (0,2) m132 = 2 1 = 113
m23+
65 65
85 85
44 44
150.5 150.5
180 180
113 113
m++1 = 637,5 m++2 = 637,5
(1,2) n++k (1,1)

mijk = (1,1) mijk
m++k
(1,2) n++1 (1,1) 975
m111 = (1,1) m111 = 637,5 65 = 99,4118
m++1
(1,2) n++2 (1,1) 300
m112 = (1,1) m112 = 637,5 65 = 30,5882
m++2
(1,2) n++1 (1,1) 975
m121 = (1,1) m121 = 637,5 85 = 130,0000
m++1
(1,2) n++2 (1,1) 300
m122 = (1,1) m122 = 637,5 85 = 40,0000
m++2
(1,2) n++1 (1,1) 975
m131 = (1,1) m131 = 637,5 44 = 67,2941
m++1
(1,2) n++2 (1,1) 300
m132 = (1,1) m132 = 637,5 44 = 20,7059
m++2
(1,2) n++1 (1,1) 975
m211 = (1,1) m211 = 637,5 150,5 = 230,1765
m++1
(1,2) n++2 (1,1) 300
m212 = (1,1) m212 = 637,5 150,5 = 70,8235
m++2
(1,2) n++1 (1,1) 975
m221 = (1,1) m221 = 637,5 180 = 275,2941
m++1
(1,2) n++2 (1,1) 300
m222 = (1,1) m222 = 637,5 180 = 84,7059
m++2
(1,2) n++1 (1,1) 975

m231 = (1,1) m231 = 637,5 113 = 172,8235
m++1
(1,2) n++2 (1,1) 300
m232 = (1,1) m232 = 637,5 113 = 53,1765
m++2
Iteración 2:
99.4118 30.5882 m11+ = 130

130.0000 40.0000 m12+ = 170
67.2941 20.7059 m21+ = 88
230.1765 70.8235 m22+ = 301
275.2941 84.7059 m31+ = 360
172.8235 53.1765 m32+ = 226
(2,1) nij+ (1,2)

mijk = (l−1,2) mijk
mij+
(2,1) n11+ (1,2) 130
m111 = (1,2) m111 = 130 99,4118 = 99,4118
m11+
(2,1) n11+ (1,2) 130
m112 = (1,2) m112 = 130 30,5882 = 30,5882
m11+
(2,1) n12+ (1,2) 170
m121 = (1,2) m121 = 170 130,0000 = 130,0000
m12+
(2,1) n12+ (1,2) 170
m122 = (1,2) m122 = 170 40,0000 = 40,0000
m12+
(2,1) n13+ (1,2) 88
m131 = (1,2) m131 = 88 67,2941 = 67,2941
m13+
(2,1) n13+ (1,2) 88
m132 = (1,2) m132 = 88 20,7059 = 20,7059
m13+
(2,1) n21+ (1,2) 301
m211 = (1,2) m111 = 301 230,1765 = 230,1765
m21+
(2,1) n21+ (1,2) 301
m212 = (1,2) m112 = 301 70,8235 = 70,8235
m21+
(2,1) n22+ (1,2) 360
m221 = (1,2) m121 = 360 275,2941 = 275,2941
m22+
(2,1) n22+ (1,2) 360
m222 = (1,2) m122 = 360 84,7059 = 84,7059
m22+
(2,1) n23+ (1,2) 226
m231 = (1,2) m131 = 226 172,8235 = 172,8235
m23+
(2,1) n23+ (1,2) 226
m232 = (1,2) m132 = 226 53,1765 = 53,1765
m23+
99,4118 30,5882
130,000 40,0000
67,2941 20,7059
230,1765 70,8235
275,2941 84,7059
172,8235 53,1765
m++1 = 975 m++2 = 300

8.5. ALGUNOS MODELOS LOGLINEALES Y SUS INTERPRETACIONES119
8.5. Algunos Modelos Loglineales y sus Inter-

pretaciones
Modelo Interpretación
(ABC, ABD) Dados A y B, los factores C y D son
independientes
(ABC, AD, BD) Dados A y B, los factores C y D son
independientes
(ABC, AD) Dado A, el factor D es independiente de
los factores B y C.
(AB, AC, AD, BC) Dado A, el factor D es independiente de
los factores B y C.
(ABC, D) El factor D es independiente de
los factores A, B y C.
(AB, BC, CD, DA) Dados B y D, los factores A y C
son independientes. Dados A y C, los
factores B y D son independientes.
(AB, AC, AD) Dado A, los factores B, C y D son
independientes
(AB, AC, BD) Dado A, el factor C es independiente de
de B y D. Dado B, el factor D es
independiente de A y C.
(AB, CD) Los factores A y B son independientes de C y D.
(AB, AC, D) El factor D es independiente de
los factores A, B y C. Dado A, el factor B
es independiente de C
(AB, C, D) El factor C es independiente de
los factores A, B y D. El factor D
es independiente de A, B y C
(A, B, C, D) Todos los factores son independientes entre sı́.
8.6. Usando el SAS para modelos loglineales
options ls=75 ps=60;
title1;
title2 ’************************************************’;
title3 ’* EJEMPLO DE MODELOS LOGLINEALES EN SAS-CATMOD *’;
title4 ’************************************************’;
title5;
proc format;
value per 1=’No Fuerte’ 2=’Muy Fuerte’;
value int 1=’Debil’ 2=’Media’ 3=’Fuerte’;

value res 1=’Voto’ 2=’No Voto’;
run;
data uno;
do persp=1 to 2;
do inte=1 to 3;
do resu=1 to 2;
input frec @@;
output; end;end;end;
format persp per.
inte int. resu res.;
label persp=’Percepcion’
inte=’Intensidad’
resu=’Resultado’;
cards;
91 39 121 49 64 24 214 87 284 76 201 25
;
proc catmod;
weight frec;
model persp*inte*resu=_response_ /nogls ml pred=freq;
repeated _response_=persp inte resu;
title ’Modelo 1’;
run;
proc catmod;
weight frec;
repeated _response_=persp|inte resu;
run;
proc catmod;
weight frec;
repeated _response_=persp|resu inte;
run;
proc catmod;
weight frec;
repeated _response_=persp inte|resu;
run;
8.6. USANDO EL SAS PARA MODELOS LOGLINEALES 121
proc catmod;
weight frec;
repeated _response_=persp|inte persp|resu;
run;
proc catmod;
weight frec;
repeated _response_=persp|inte inte|resu;
run;
proc catmod;
weight frec;
repeated _response_=persp|resu inte|resu;
run;
proc catmod;
weight frec;
repeated _response_=persp|inte resu|inte persp|resu;
run;
quit;
Capı́tulo 9
Seleccionando un Modelo
Exiten varias formas de seleccionar un modelo:
Selección paso a paso hacia adelante,
Selección paso a paso hacia atrás,
Todos los modelos posibles, y
mezclas.
Christensen dice de la selección hacia adelante:
“La selección hacia adelante es notoriamente un mal método de

selección de variables ya que comienza con un modelo inadecuado y
no existe garantı́a de que llegará a un modelo adecuado.”
En modelos loglineales se recomienda utilizar el proceso de eliminación ha-

cia atrás. Se comienza con un modelo saturado, si se puede, o con un modelo
de alto orden. Siempre se elimina primero los términos de alto orden ya que
debemos tener presente el principio de jerarquı́a. Para ilustrar el procedimiento
de selección utilizamos un ejemplo del libro de Christensen.
9.1. Criterios Para la selección de un Modelo

1. Criterio de Goodman: Bajo la hipótesis nula, o sea, el modelo es correc-
to, G2 /gl tiene una distribución asintótica con media uno cuando n → ∞.
Goodman recomienda que valores pequeños representan un buen ajuste.
2. Criterio de Akaike: AIC=-2(verosimilitud maximizada - # parámetros

en el modelo) Para modelos loglineales es equivalente a usar AIC = G2 −
2(gl).
3. Criterio de Schwarz y Raftery BIC = G2 − (log(n))(gl)
123
124 CAPÍTULO 9. SELECCIONANDO UN MODELO
Ejemplo: Suponga que deseamos construir un modelo a partir de los datos

del ICFES para el departamento de Antioquia. Con una selección hacia atrás
obtenemos los siguientes resultados:
1. A: Sexo
2. B: Clasificación ICFES
3. C: Jornada
4. D: Región
1. Paso 1: Modelo saturado

Como primer paso, aunque trivial tenemos el modelo saturado. Debido
a que el ajuste es perfecto los estadı́sticos de prueba son iguales a cero,
aunque con este modelo no se logra una reducción en la complejidad del
modelo.
M odelo G2 G.L. AIC valorp
(ABCD) 0 0 0 1,000
2. Paso 2: Eliminando la interacción de tercer orden

El primer paso real consiste en la eliminación de la interacción de mayor
orden. Usualmente la interpretación de modelos con interacciones altas es
muy complicado.
(ABC, BCD, ACD, ABD) 11,53387 12 −12,46613 0,4838
Pasamos a realizar la prueba de hipótesis condicional para ver si el término
que queremos eliminar no es significativo para el modelo:
G2(ABC,BCD,ACD,ABD) − G2(ABCD) = 11,53387
gl(ABC,BCD,ACD,ABD) − gl(ABCD) = 12
Del anterior resultado, y observando el valor p, podemos eliminar la inter-

acción mayor y aceptar, al menos por el momento este modelo. Aunque la
idea es llegar a un modelo mucho más simple.
3. Paso 3: Eliminando otro término

El siguiente paso es más complejo que los anteriores, ya que se nos pre-
sentan varios modelos posibles: uno por la eliminación de una interacción
de segundo orden. Los resultados se presentan en la siguiente tabla:
(BCD, ACD, ABD) 23,40567 24 −24,59433 0,4960
(ABC, BCD, ACD) 17,00824 16 −14,99176 0,3851
(ABC, BCD, ABD) 29,29921 18 −6,70079 0,0448
(ABC, ACD, ABD) 30,32354 18 −5,67646 0,0344
9.1. CRITERIOS PARA LA SELECCIÓN DE UN MODELO 125
Del paso anterior podemos descartar de una vez dos modelos: (ABC, BCD, ABD)
y (ABC, ACD, ABD). Sus valores p los rechazan y podemos decir que es-
tos modelos no ajustan con los valores de la tabla. Nos quedan dos modelos
que podemos considerar como plausibles, aunque uno de ellos es clara-
mente mejor que el otro: el que tiene un mayor valor-p, o sea el modelo
(BCD, ACD, ABD) o sea la interacción ABC no es significativa.
G2(BCD,ACD,ABD) − G2(ABC,BCD,ACD,ABD) = 11,87283
gl(BCD,ACD,ABD) − gl(ABC,BCD,ACD,ABD) = 24 − 12 = 12
valor − p = 0,4559462
4. Paso 4: Eliminación de otra interacción
Seguimos buscando la reducción en la complejidad de nuestro modelo.
Procedemos a eliminar una de las mayores interacciones que restan en el
modelo seleccionado en el paso anterior.
(BCD, ACD, AB) 28,79952 28 −27,20048 0,4227
(BCD, ABD, AC) 41,37525 30 −18,62475 0,0809
(ACD, ABD, BC) 35,2374 30 −24,7626 0,2341
G2(BCD,ACD,AB) − G2(BCD,ACD,ABD) = 5,39385
gl(BCD,ACD,AB) − gl(BCD,ACD,ABD) = 28 − 24 = 4
valor − p = 0,2492189
Se logró eliminar otra interacción de segundo orden, aquella que involucra
sexo, resultado del ICFES y región.
5. Paso 5: Podemos simplicar más
(BCD, ABD) 62,53211 32 −1,46789 0,0010
(ACD, AB, BC, BD) 40,44407 34 −27,55593 0,2071
(BCD, AB, AC, AD) 46,27413 34 −21,72587 0,0780
G2(ACD,AB,BC,BD) − G2(BCD,ACD,AB) = 11,64455
gl(ACD,AB,BC,BD) − gl(BCD,ACD,AB) = 34 − 28 = 6
valor − p = 0,07038477
La prueba anterior nos lleva por lo tanto a aceptar el nuevo modelo pro-
puesto. Seguimos un paso más a ver si podemos reducir la complejidad de
nuestro modelo.
6. Paso 6: Otra simplificación
(ACD, AB, CD) 69,30073 36 −2,69927 0,0007
(ACD, AB, BD) 82,48395 40 2,48395 0,0001
(ACD, BC, BD) 80,48046 38 4,48086 0,0001
(AB, BC, BD, AC, AD, CD) 64,52528 40 −15,47472 0,0083
Ninguno de los anteriores modelos fue bueno para reproducir aproximada-
mente los valores de la tabla. El proceso por lo tanto se para con el modelo
obtenido en el paso previo. El modelo final será (ACD, AB, BC, BD).
9.2. Analizando los Parámetros Individual-

mente
El SAS permite realizar un análisis individual de los parámetros de un
modelo. Esto es útil ya que nos permite reducir una tabla analizando las
categorı́as de cada variable incluı́da en el modelo. Como un ejemplo consi-
deremos el caso de la clasificación de los colegios de Antioquia presentada
por el ICFES. Suponga que estamos en analizar la probabilidad de ser
clasificado como “BUENO”para los colegios del área metropolitana, uti-
lizando para ello las variables SEXO y JORNADA. Vamos a construir
tanto un modelo saturado como un modelo de independencia entre sexo y
jornada. El programa en SAS es el siguiente:
options ps=55 ls=70 nocenter nodate nonumber;
data icfes;
input area $ jornada $ sexo $ clasif $ frec @@;
cards;
metro man fem alto 19 metro man masc alto 5 metro man mixto alto 10
metro man fem bajo 14 metro man masc bajo 6 metro man mixto bajo 43
metro man fem medio 17 metro man masc medio 4 metro man mixto medio 15
metro uni fem alto 8 metro uni masc alto 5 metro uni mixto alto 9
metro uni fem bajo 5 metro uni masc bajo 0 metro uni mixto bajo 26
metro uni fem medio 2 metro uni masc medio 3 metro uni mixto medio 5
metro tar fem alto 1 metro tar masc alto 2 metro tar mixto alto 4
metro tar fem bajo 9 metro tar masc bajo 5 metro tar mixto bajo 96
metro tar fem medio 4 metro tar masc medio 4 metro tar mixto medio 8
;
proc catmod;
weight frec;
response 1 0 0;
model clasif= jornada|sexo/freq prob predict oneway;
title ’ MODELO SATURADO: Probabilidad de Ser Clasificado
BUENO por el ICFES’;
run;
proc catmod;
weight frec;
response 1 0 0;
model clasif= jornada sexo/freq prob predict oneway;
title ’ MODELO INDEPENDENCIA: Probabilidad de Ser Clasificado
BUENO por el ICFES’;
9.2. ANALIZANDO LOS PARÁMETROS INDIVIDUALMENTE 127
run;
quit;
De la salida del SAS al ejecutar el anterior programa tenemos:
MODELO SATURADO: Probabilidad de Ser Clasificado BUENO por el ICFES
CATMOD PROCEDURE
Response: CLASIF Response Levels (R)= 3

Weight Variable: FREC Populations (S)= 9
Data Set: ICFES Total Frequency (N)= 329
Frequency Missing: 0 Observations (Obs)= 26
ONE-WAY FREQUENCIES
Variable Value Frequency
--------------------------
CLASIF alto 63
bajo 204
medio 62
JORNADA man 133

tar 133
uni 63
SEXO fem 79
masc 34
mixto 216
POPULATION PROFILES
Sample
Sample JORNADA SEXO Size
--------------------------------
1 man fem 50
2 man masc 15
3 man mixto 68
4 tar fem 14
5 tar masc 11
6 tar mixto 108
7 uni fem 15
8 uni masc 8
9 uni mixto 40
RESPONSE PROFILES
Response CLASIF
----------------
1 alto
2 bajo
3 medio

RESPONSE FREQUENCIES
Response Number
Sample 1 2 3
---------------------------------
1 19 14 17
2 5 6 4
3 10 43 15
4 1 9 4
5 2 5 4
6 4 96 8
7 8 5 2
8 5 0 3
9 9 26 5
RESPONSE PROBABILITIES
Response Number
Sample 1 2 3
---------------------------------
1 0.38 0.28 0.34
2 0.33333 0.4 0.26667
3 0.14706 0.63235 0.22059
4 0.07143 0.64286 0.28571
5 0.18182 0.45455 0.36364
6 0.03704 0.88889 0.07407
7 0.53333 0.33333 0.13333
8 0.625 0 0.375
9 0.225 0.65 0.125
Response
Sample Function
------------------
1 0.38000
2 0.33333
3 0.14706
4 0.07143
5 0.18182
6 0.03704
7 0.53333
8 0.62500
9 0.22500
DESIGN MATRIX
Sample 1 2 3 4 5 6 7 8 9
---------------------------------------------------------------------
1 1 1 0 1 0 1 0 0 0
2 1 1 0 0 1 0 1 0 0
3 1 1 0 -1 -1 -1 -1 0 0
4 1 0 1 1 0 0 0 1 0
5 1 0 1 0 1 0 0 0 1
6 1 0 1 -1 -1 0 0 -1 -1
7 1 -1 -1 1 0 -1 0 -1 0
8 1 -1 -1 0 1 0 -1 0 -1
9 1 -1 -1 -1 -1 1 1 1 1
ANALYSIS-OF-VARIANCE TABLE
Source DF Chi-Square Prob
--------------------------------------------------
INTERCEPT 1 71.18 0.0000
JORNADA 2 19.52 0.0001
SEXO 2 16.20 0.0003
JORNADA*SEXO 4 5.96 0.2021
RESIDUAL 0 . .
ANALYSIS OF WEIGHTED-LEAST-SQUARES ESTIMATES

Standard Chi-
Effect Parameter Estimate Error Square Prob
----------------------------------------------------------------
INTERCEPT 1 0.2816 0.0334 71.18 0.0000
JORNADA 2 0.00524 0.0436 0.01 0.9044
3 -0.1848 0.0425 18.95 0.0000
SEXO 4 0.0467 0.0456 1.05 0.3057
5 0.0985 0.0570 2.99 0.0840
JORNADA*SEXO 6 0.0465 0.0583 0.64 0.4247
7 -0.0520 0.0754 0.47 0.4908
8 -0.0720 0.0574 1.58 0.2094
9 -0.0134 0.0738 0.03 0.8554
PREDICTED VALUES FOR RESPONSE FUNCTIONS

-----Observed----- -----Predicted----
Function Standard Standard
Sample Number Function Error Function Error Residual
----------------------------------------------------------------
1 1 0.38 0.068644 0.38 0.068644 0
2 1 0.333333 0.121716 0.333333 0.121716 0
3 1 0.147059 0.042949 0.147059 0.042949 0
4 1 0.071429 0.06883 0.071429 0.06883 0
5 1 0.181818 0.116291 0.181818 0.116291 0
6 1 0.037037 0.018172 0.037037 0.018172 0
7 1 0.533333 0.128812 0.533333 0.128812 0
8 1 0.625 0.171163 0.625 0.171163 0
9 1 0.225 0.066026 0.225 0.066026 0
MODELO INDEPENDENCIA: Probabilidad de Ser Clasificado BUENO por el IC
CATMOD PROCEDURE
ONE-WAY FREQUENCIES
--------------------------
CLASIF alto 63
bajo 204
medio 62
JORNADA man 133

tar 133
uni 63
SEXO fem 79
masc 34
mixto 216
POPULATION PROFILES
Sample
--------------------------------
1 man fem 50
2 man masc 15
3 man mixto 68
4 tar fem 14
5 tar masc 11
6 tar mixto 108
7 uni fem 15
8 uni masc 8
9 uni mixto 40
RESPONSE PROFILES
Response CLASIF
----------------
1 alto
2 bajo
3 medio

Response Number
Sample 1 2 3
---------------------------------
1 19 14 17
2 5 6 4
3 10 43 15
4 1 9 4
5 2 5 4
6 4 96 8
7 8 5 2
8 5 0 3
9 9 26 5
Response Number
Sample 1 2 3
---------------------------------
1 0.38 0.28 0.34
2 0.33333 0.4 0.26667
3 0.14706 0.63235 0.22059
4 0.07143 0.64286 0.28571
5 0.18182 0.45455 0.36364
6 0.03704 0.88889 0.07407
7 0.53333 0.33333 0.13333
8 0.625 0 0.375
9 0.225 0.65 0.125
Response DESIGN MATRIX

Sample Function 1 2 3 4 5
---------------------------------------------------------
1 0.38000 1 1 0 1 0
2 0.33333 1 1 0 0 1
3 0.14706 1 1 0 -1 -1
4 0.07143 1 0 1 1 0
5 0.18182 1 0 1 0 1
6 0.03704 1 0 1 -1 -1
7 0.53333 1 -1 -1 1 0
8 0.62500 1 -1 -1 0 1
9 0.22500 1 -1 -1 -1 -1

--------------------------------------------------
INTERCEPT 1 70.54 0.0000
JORNADA 2 25.57 0.0000
SEXO 2 12.90 0.0016
RESIDUAL 4 5.96 0.2021

Standard Chi-
----------------------------------------------------------------
INTERCEPT 1 0.2712 0.0323 70.54 0.0000
JORNADA 2 0.0109 0.0306 0.13 0.7210
3 -0.1297 0.0257 25.53 0.0000
SEXO 4 0.0302 0.0400 0.57 0.4508
5 0.0823 0.0531 2.41 0.1208

----------------------------------------------------------------
1 1 0.38 0.068644 0.312371 0.050831 0.067629
2 1 0.333333 0.121716 0.364496 0.079713 -0.03116
3 1 0.147059 0.042949 0.169653 0.037995 -0.02259
4 1 0.071429 0.06883 0.171736 0.049829 -0.10031
9.3. ELIMINADO CLASES DE UNA VARIABLE 133
5 1 0.181818 0.116291 0.223861 0.078296 -0.04204

6 1 0.037037 0.018172 0.029018 0.017784 0.008019
7 1 0.533333 0.128812 0.420171 0.06886 0.113162
8 1 0.625 0.171163 0.472296 0.089148 0.152704
9 1 0.225 0.066026 0.277454 0.0571 -0.05245
Del anterior resultado vemos que el modelo de independencia ajusta bien

a la tabla de los resultados del ICFES. De este modelo concluimos que
no existe interacción, pero tanto la variable sexo y la variable jornada son
importantes para la explicación de la probabilibad de ser clasificado como
BUENO por el ICFES.
9.3. Eliminado clases de una variable

Muchas veces deseamos reducir el número de categorı́as de una variable.
Esto puede hacerse fácilmente con el PROC CATMOD del SAS. Como
un ejemplo vamos a utilizar los datos del ICFES. Estamos explicando la
probabilidad de ser catalogado como “BUENO” por el ICFES basado en
los resultados de las pruebas nacionales. La variable SEXO presenta tres
categorı́as: Femenino, Masculino y Mixto.
data icfes;
cards;
metro man fem alto 27 metro man masc alto 10
metro man mixto alto 19 metro man fem bajo 19
metro man masc bajo 6 metro man mixto bajo 69
metro man fem medio 19 metro man masc medio 7
metro man mixto medio 20 metro tar fem alto 1
metro tar masc alto 2 metro tar mixto alto 4
metro tar fem bajo 9 metro tar masc bajo 5
metro tar mixto bajo 96 metro tar fem medio 4
metro tar masc medio 4 metro tar mixto medio 8
;
proc catmod;
weight frec;
response 1 0 0;
population jornada sexo;
title ’ MODELO INDEPENDENCIA: Probabilidad de Ser Clasificado’;

title2 ’BUENO por el ICFES’;
run;
quit;
MODELO INDEPENDENCIA: Probabilidad de Ser Clasificado

BUENO por el ICFES
CATMOD PROCEDURE

ONE-WAY FREQUENCIES

--------------------------
CLASIF alto 63
bajo 204
medio 62
JORNADA man 196

tar 133
SEXO fem 79
masc 34
mixto 216
POPULATION PROFILES
Sample
--------------------------------
1 man fem 65
2 man masc 23
3 man mixto 108
4 tar fem 14
5 tar masc 11
6 tar mixto 108
RESPONSE PROFILES
Response CLASIF
----------------
1 alto
2 bajo
3 medio

BUENO por el ICFES
Response Number
Sample 1 2 3
---------------------------------
1 27 19 19
2 10 6 7
3 19 69 20
4 1 9 4
5 2 5 4
6 4 96 8
Response Number
Sample 1 2 3
---------------------------------
1 0.41538 0.29231 0.29231
2 0.43478 0.26087 0.30435
3 0.17593 0.63889 0.18519
4 0.07143 0.64286 0.28571
5 0.18182 0.45455 0.36364
6 0.03704 0.88889 0.07407

Sample Function 1 2 3 4
-------------------------------------------------
1 0.41538 1 1 1 0
2 0.43478 1 1 0 1
3 0.17593 1 1 -1 -1
4 0.07143 1 -1 1 0
5 0.18182 1 -1 0 1
6 0.03704 1 -1 -1 -1

--------------------------------------------------
INTERCEPT 1 55.92 0.0000
JORNADA 1 23.74 0.0000
SEXO 2 11.87 0.0026
RESIDUAL 2 4.40 0.1110

BUENO por el ICFES
Standard Chi-
----------------------------------------------------------------
INTERCEPT 1 0.2280 0.0305 55.92 0.0000
JORNADA 2 0.0885 0.0182 23.74 0.0000
SEXO 3 0.0253 0.0405 0.39 0.5330
4 0.0847 0.0542 2.45 0.1177

BUENO por el ICFES
----------------------------------------------------------------
1 1 0.415385 0.061123 0.341806 0.048431 0.073578
2 1 0.434783 0.103367 0.401287 0.078906 0.033495
3 1 0.175926 0.036638 0.206571 0.033402 -0.03065
4 1 0.071429 0.06883 0.164733 0.050016 -0.0933
5 1 0.181818 0.116291 0.224214 0.079881 -0.0424
6 1 0.037037 0.018172 0.029498 0.017791 0.007539
data icfes;
cards;
metro man fem alto 27 metro man mascymix alto 29
metro man fem bajo 19 metro man mascymix bajo 77
metro man fem medio 19 metro man mascymix medio 27
metro taryno fem alto 1 metro taryno mascymix alto 6
metro taryno fem bajo 9 metro taryno mascymix bajo 104
metro taryno fem medio 4 metro taryno mascymix medio 12
;
proc catmod;
weight frec;
response 1 0 0;
run;
quit;
BUENO por el ICFES
CATMOD PROCEDURE

ONE-WAY FREQUENCIES

-----------------------------
CLASIF alto 63
bajo 209
medio 62
JORNADA man 198

taryno 136
SEXO fem 79
mascymix 255
POPULATION PROFILES
Sample
-----------------------------------
1 man fem 65
2 man mascymix 133
3 taryno fem 14
4 taryno mascymix 122
RESPONSE PROFILES
Response CLASIF
----------------
1 alto
2 bajo
3 medio

BUENO por el ICFES
Response Number
Sample 1 2 3
---------------------------------
1 27 19 19
2 29 77 27
3 1 9 4
4 6 104 12
Response Number
Sample 1 2 3
---------------------------------
1 0.41538 0.29231 0.29231
2 0.21805 0.57895 0.20301
3 0.07143 0.64286 0.28571
4 0.04918 0.85246 0.09836

Sample Function 1 2 3
-----------------------------------------
1 0.41538 1 1 1
2 0.21805 1 1 -1
3 0.07143 1 -1 1
4 0.04918 1 -1 -1

--------------------------------------------------
INTERCEPT 1 63.29 0.0000
JORNADA 1 28.06 0.0000
SEXO 1 4.83 0.0279
RESIDUAL 1 3.02 0.0821

BUENO por el ICFES
Standard Chi-
----------------------------------------------------------------
INTERCEPT 1 0.1967 0.0247 63.29 0.0000
JORNADA 2 0.0988 0.0187 28.06 0.0000

SEXO 3 0.0553 0.0252 4.83 0.0279

BUENO por el ICFES
----------------------------------------------------------------
1 1 0.415385 0.061123 0.350866 0.048573 0.064518
2 1 0.218045 0.035805 0.240184 0.033465 -0.02214
3 1 0.071429 0.06883 0.153244 0.050238 -0.08182
4 1 0.04918 0.019578 0.042561 0.019204 0.006619
data icfes;
cards;
metro man femymas alto 37 metro man mixto alto 19
metro man femymas bajo 25 metro man mixto bajo 69
metro man femymas medio 26 metro man mixto medio 20
metro tar femymas alto 3 metro tar mixto alto 4
metro tar femymas bajo 14 metro tar mixto bajo 96
metro tar femymas medio 8 metro tar mixto medio 8
;
proc catmod;
weight frec;
response 1 0 0;
run;
quit;

BUENO por el ICFES
CATMOD PROCEDURE

ONE-WAY FREQUENCIES

----------------------------
CLASIF alto 63
bajo 204
medio 62
JORNADA man 196

tar 133
SEXO femymas 113

mixto 216
POPULATION PROFILES
Sample
----------------------------------
1 man femymas 88
2 man mixto 108
3 tar femymas 25
4 tar mixto 108
RESPONSE PROFILES
Response CLASIF
----------------
1 alto
2 bajo
3 medio

BUENO por el ICFES
Response Number
Sample 1 2 3
---------------------------------
1 37 25 26
2 19 69 20
3 3 14 8
4 4 96 8
Response Number
Sample 1 2 3
---------------------------------
1 0.42045 0.28409 0.29545
2 0.17593 0.63889 0.18519
3 0.12 0.56 0.32
4 0.03704 0.88889 0.07407

-----------------------------------------
1 0.42045 1 1 1
2 0.17593 1 1 -1
3 0.12000 1 -1 1
4 0.03704 1 -1 -1

--------------------------------------------------
INTERCEPT 1 80.25 0.0000
JORNADA 1 21.43 0.0000
SEXO 1 13.04 0.0003
RESIDUAL 1 3.01 0.0826

BUENO por el ICFES
Standard Chi-
----------------------------------------------------------------
INTERCEPT 1 0.1999 0.0223 80.25 0.0000
JORNADA 2 0.0850 0.0184 21.43 0.0000
SEXO 3 0.0839 0.0232 13.04 0.0003

BUENO por el ICFES
----------------------------------------------------------------
1 1 0.420455 0.052621 0.368828 0.043407 0.051627
2 1 0.175926 0.036638 0.200954 0.033681 -0.02503
3 1 0.12 0.064992 0.198754 0.04653 -0.07875
4 1 0.037037 0.018172 0.03088 0.017823 0.006157
En el siguiente caso mezclamos las categorı́as “Femenino” y “Mixto”
data icfes;
cards;
metro man femymix alto 46 metro man masc alto 10
metro man femymix bajo 88 metro man masc bajo 6
metro man femymix medio 39 metro man masc medio 7
metro tar femymix alto 5 metro tar masc alto 2
metro tar femymix bajo 105 metro tar masc bajo 5

metro tar femymix medio 12 metro tar masc medio 4
;
proc catmod;
weight frec;
response 1 0 0;
run;
quit;

BUENO por el ICFES
CATMOD PROCEDURE

ONE-WAY FREQUENCIES

----------------------------
CLASIF alto 63
bajo 204
medio 62
JORNADA man 196

tar 133
SEXO femymix 295

masc 34
POPULATION PROFILES
Sample
----------------------------------
1 man femymix 173
2 man masc 23
3 tar femymix 122
4 tar masc 11
RESPONSE PROFILES
Response CLASIF
----------------
1 alto
2 bajo
3 medio

BUENO por el ICFES
Response Number
Sample 1 2 3
---------------------------------
1 46 88 39
2 10 6 7
3 5 105 12
4 2 5 4
Response Number
Sample 1 2 3
---------------------------------
1 0.2659 0.50867 0.22543
2 0.43478 0.26087 0.30435
3 0.04098 0.86066 0.09836
4 0.18182 0.45455 0.36364

-----------------------------------------
1 0.26590 1 1 1
2 0.43478 1 1 -1
3 0.04098 1 -1 1
4 0.18182 1 -1 -1

--------------------------------------------------
INTERCEPT 1 34.21 0.0000
JORNADA 1 37.49 0.0000
SEXO 1 3.82 0.0508
RESIDUAL 1 0.03 0.8610

BUENO por el ICFES
Standard Chi-
----------------------------------------------------------------
INTERCEPT 1 0.2319 0.0396 34.21 0.0000
JORNADA 2 0.1132 0.0185 37.49 0.0000
SEXO 3 -0.0780 0.0399 3.82 0.0508

BUENO por el ICFES
9.4. UN EJEMPLO 147

----------------------------------------------------------------
1 1 0.265896 0.03359 0.267129 0.032843 -0.00123
2 1 0.434783 0.103367 0.423101 0.078965 0.011681
3 1 0.040984 0.017949 0.040631 0.017836 0.000352
4 1 0.181818 0.116291 0.196603 0.079974 -0.01479
9.4. Un Ejemplo
En esta sección consideraremos un ejemplo desarrollado por Lee (1978)
que nos ilustra sobre el análisis que se puede realizar en la contrucción de
un modelo que lleva a un mejor entendimiento del problema. Consideremos
la siguiente tabla que contiene la información recogida de 66 adultos saca-
dos al azar y clasificados por sexo (femenino, masculino), opinión acerca
del contenido de una serie de televisión (aprobado o desaprobado), y su
localización demográfica (rural o urbana),
Rural Urbana
Aprueba Desaprueba Aprueba Desaprueba
Femenino 3 7 6 12
Masculino 5 15 17 1
Varios modelos pueden considerarse, por ejemplo el modelo saturado,
S×O
log(mijk ) = µ + λSi + λO L
j + λk + λij + λS×L
ik + λO×L
jk + λS×O×L
ijk
Este modelo ajusta perfectamente a los datos, sus residuales son cero, pero
no hay reducción de la complejidad del problema. Se pueden considerar
muchos modelos que no sean saturados, por ejemplo,
S×O
j + λk + λij + λS×L
ik + λO×L
jk
el cual es un modelo sin interacción de segundo orden, o
j + λk
el cual es el modelo de independencia.

El ajuste del modelo de independencia produce G2 = 27,78 con 4 grados
de libertad, un resultado que nos lleva a rechazar este modelo. Usualmen-
te nos quedamos en este paso con el modelo de independencia, pero un
análisis de los residuales estandarizados podemos entender un poco más
1/2
nuestra tabla. Los residuales estandarizados son (nijk − m̂ijk /m̂ijk . La
tabla con estos residuales es
Rural Urbana
Femenino -1.22 0.10 -0.44 1.37
Masculino -1.09 1.93 2.33 -3.01
La parte correspondiente a la zona rural contiene pequeños residuales es-

tandarizados, mientras la parte correspondiente a la zona urbana tiene
dos valores relativamente grandes. La diferencia entre estas dos subtablas
indica que se puede considerar el modelo de independencia entre sexo y la
opinión condicionados en localización geográfica. El estadı́stico de la razón
de verosimilitud G2 = 16,54 con 2 grados de libertad, que nos rechaza este
modelo. La tabla de residuales estandarizados es
Rural Urbana
Femenino 0.20 -0.12 -1.62 2.16
Masculino -0.14 0.09 1.62 -2.16
Ahora los residuales estandarizados de la primera subtabla son casi ceros,
lo cual indica que para la zona rural, la interacción entre sexo y opinión es
insignificante. Si embargo, para el área urbana, la interacción entre sexo y
opinión es altamente significativa. Esto sugiere que particionemos la tabla
en dos subtablas y ajustar diferentes modelos a cada una de ellas.
Capı́tulo 10
Modelos Especiales
10.1. Modelo de Bradley-Terry

Un problema que se presenta a veces es el de la clasificación de I objetos
basados en la comparación de algún atributo no fácilmente cuantificable,
por ejemplo en un reinado de belleza. Para un calificador puede ser difı́cil
calificar los objetos simultáneamente, por ejemplo en una degustación solo
se prueba un producto a la vez. Una solución es realizar una comparación
pareada entre objetos. Sea πij la probabilidad que el objeto i sea preferido
al objeto j. Supongamos además que πij + πji = 1, esto evita la aparición
de empates. El modelo entonces permite expresar esta probabilidades de
la siguiente forma:
ξi
πij =
ξi + ξj
En forma alterna, si hacemos ξi = exp(φi ), se tiene entonces

πij
log = φi − φj
πji
πij es una función monótona de φi − φj

πij = 0,5 cuando φi − φj = 0
Sea nij el número de veces que i fue preferido a j y nji lo contrario. Sea
Nij = nij +nji . Si las Nij comparaciones son ralizadas independientements
con la misma probabilidad πij , entonces nij ∼ Binomial (Nij , πij ).
149
150 CAPÍTULO 10. MODELOS ESPECIALES
Parte III
Aproximación GSK
151
Capı́tulo 11
La Aproximación GSK
11.1. Introducción
El análisis de datos cualitativos es un área de importancia en el trabajo
aplicado. El modelo lineal clásico ha sido utilizado extensivamente y con
mucho éxito en múltiples situaciones. En el análisis de regresión estamos
interesados en predecir la media de una variable, llamada la respuesta,
basados en un conjunto de variables, llamadas los predictores. La regresión
clásica asume que la respuesta es continua y distribuı́da normalmente.
Tiene ventajas que lo hacen muy útil para el usuario, entre ellas tenemos:
Interpretabilidad. La interpretación de un modelo lineal es en casi

todas las situaciones fácil y directa. La mayorı́a de los usuarios in-
terpretan los coeficientes de un modelo sin dificultades aún con poco
conocimiento técnico. Tal vez la interpretabilidad del modelo lineal
clásico ha popularizado tanto este modelo, que no es raro ver su ajuste
en situaciones inapropiadas, por ejemplo respuestas que son discretas
o sesgadas; y el desespero por parte de los usuarios por aproximarse a
él, por ejemplo mediante transformaciones sin considerar los cambios
en la estructura del error.
Teóricamente atractivo. Desde el punto de vista teórico el modelo
lineal bajo los supuestos es claro y sus resultados fácilmente obteni-
bles con un conocimiento básico de estadı́stica matemática y álgebra
matricial. Existen adicionalmente una gran cantidad de herramientas
colaterales para validar la calidad del ajuste y de la influencia de cada
observación en el modelo estimado. El tratamiento teórico del modelo
lineal clásico es claro y directo. El supuesto de normalidad conduce
a resultados que permiten realizar un trabajo inferencial directo. El
supuesto de normalidad se puede relajar a distribuciones simétricas
que posean hasta momento de orden cuarto y con tamaños muestra-
153
154 CAPÍTULO 11. LA APROXIMACIÓN GSK
les relativamente grandes se logran resultados aproximados de gran

calidad.
Fácil de estimar. La estimación se realiza por mı́nimos cuadrados,
un área ampliamente desarrollada en matemáticas y en computación.
La solución numérica ha sido estudiada ampliamente por los analis-
tas, y existen variedad de algoritmos que garantizan la estabilidad de
las soluciones ante muy diversas estructuras en los datos.
Poco costoso. Existen gran variedad de programas para compu-
tador, aún para equipos muy simples que trabajan satisfactoriamente
a nivel de resultados y tiempo de ejecución. Por último la invasión de
computadores personales y calculadoras de mano permiten resolver
esta clase de modelos practicamente sin ningún costo.
En 1969 Grizzle, Starmer y Koch presentaron una metodologı́a que es lo
suficientemente flexible y poderosa para aplicarse a multitud de situacio-
nes. Su implementación a nivel computacional no es complicada y existe
la ventaja de que un programa como el SAS tenga el módulo CATMOD
implementado basado en la metodologı́a GSK.
11.2. La Aproximación GSK

El método GSK consiste en varias etapas:
a) Definición de la variable dependiente: La variable dependiente en
el análisis GSK no se refiere a individuos per se sino más bien a
probabilidades o funciones de probabilidades
b) Definición del Modelo
c) Estimación y Validación
11.3. Arreglo de los datos en la aproxima-

ción GSK
Subpoblación 1 2 ... r ...R Total
1 π11 π12 ... π1r ... π1R 1.0
2 π21 π22 ... π2r ... π2R 1.0
. . . . . .
. . . . . .
. . . . . .
s πs1 πs2 ... πsr ... πsR 1.0
. . . . . .
. . . . . .
. . . . . .
S πS1 πS2 ... πSr ... πSR 1.0
11.3. ARREGLO DE LOS DATOS EN LA APROXIMACIÓN GSK 155
La tabla básica se ordena de acuerdo a respuestas y subpoblaciones (o

estratos). Las respuestas son los valores de la variable dependiente (puede
ser multivariable) y las subpoblaciones son combinaciones de categorı́as
de las variables independientes (factores).
πrs : probabilidad de que una observación tomada al azar tenga respuesta

r dado que pertenece a la subpoblación s. Tenemos R categorı́as para la
respuesta y S subpoblaciones. Tenemos las siguientes restricciones:
R
X
πij − 1 = 0, i = 1, 2, · · · , S
j=1
Adicionalmente
R
X
nij = ni , i = 1, 2, · · · , S
j=1
La muestra se puede presentar en una tabla N como sigue
Subpoblación 1 2 ... r ...R Total

1 n11 n12 ... n1r ... n1R n1
2 n21 n22 ... n2r ... n2R n2
. . . . . .
. . . . . .
. . . . . .
s ns1 ns2 ... nsr ... nsR ns
. . . . . .
. . . . . .
. . . . . .
S nS1 nS2 ... nSr ... nSR nS
Finalmente, la probabilidad de la tabla observada de frecuencias es

 
S R
 Q ni !
Y Y
ni j 
P (N = n) = R
πij
i=1 j=1 nij ! j=1
La tabla de probabilidades la vamos a representar en forma de vector ası́:

 
π11

 π12 


 . 


 . 


 . 


 π1R 


 π21 

 π22 
π= 

 . 


 . 


 . 


 π2R 


 . 


 . 

 . 
πSR
Las primeras R componentes del anterior vector pertenecen a la prime-

ra subpoblación, las segundas R componentes pertenecen a la segunda
subpoblación, y las últimas R a la última subpoblación. Si tomamos un
elemento al azar de la población podemos expresarlo como un vector de
dimensión SR × 1, compuestos de ceros excepto en una posición, en la
cual aparece un uno y nos indica a cuál subpoblación pertenece y en cuál
categorı́a en esa subpoblación cae.
El análisis de mı́nimos cuadrados ponderados requiere las estimaciones de

las varianzas y las covarianzas de π̂:
πsr (1 − πsr )
var(b
πsr ) =
ns+
πsr πsr0
cov(b bsr0 ) = −
πsr , π 6 r0
,r=
ns+
cov(b bsr0 ) = 0 si s 6= s0 .
πsr , π
ya que la covariación entre filas debe ser cero porque las subpoblaciones
se asumen independientes.
···
 b 
V1 0 0
 0 V2
b ··· 0 
V = .
 
b SR×SR
 .. .. .. .. 
. . . 
0 0 · · · VS
b
donde
 
bs1 (1 − π
π bs1 ) −b πs1 πbs2 ··· −bπs1 π bsR
1  −b πs2 πbs1 bs2 (1 − π
π bs2 ) · · · −bπs2 π bsR 
V =
 
bS
R×R .. .. .. ..
ns+ 
 
. . . . 
−bπsR π bs1 −bπsR π bs2 ··· π bsR (1 − π bsR )
11.3.1. Definición de la variable respuesta

Existen muchas funciones de respuesta pero las más importantes son la li-
neal y la logarı́tmica. Las relaciones lineales surgen cuando el investigador
quiere analizar las probabilidades por si mismas o algunas funciones adi-
tivas de ellas. En general funciones de respuesta lineales pueden obtenerse
del conjunto básico de probabilidades observadas como
f =A×π
donde f es un vector de U componentes, A es una matriz de dimensión
U × SR, y π es un vector con SR componentes.
 
a111 · · · a11R a121 · · · a12R · · · a1S1 · · · a1SR
 a211 · · · a21R a221 · · · a22R · · · a2S1 · · · a2SR 
A= .
 
. .. .. .. .. .. 
 . . . . . . 
aU 11 · · · aU 1R aU 21 · · · aU 2R · · · aU S1 · · · aU SR
En la práctica no se conoce π y lo estimamos por máxima verosimilitud.

En el capı́tulo de resultados asintóticos mostramos que la distribución
asintótica de π̂ es normal multivariable. Lo anterior nos implica que fˆ =
Aπ̂ se distribuye asintóticamente normal con vector de medias f = Aπ y
matriz de varianzas y covarianzas dada por Σfˆ = AΣπ̂ At .
Con esta aproximación queremos modelar la respuesta como
f = Xβ +
donde X es una matriz de diseño y β es un vector de parámetros. En
la práctica es imposible trabajar directamente con f , ya que está en fun-
ción de probabilidades no observables, entonces trabajamos con una es-
timación, digamos f ∗ , que se calcula a partir del estimador de máxima
verosimilitud de π, digamos π ∗ . En el caso lineal la matriz de covarianzas
estimada de f será
b SR×SR AT
SU ×U = AU ×SR V SR×U
Como alternativa a relaciones lineales uno podrı́a analizar funciones lo-

garı́tmicas, como por ejemplo el log-odds,

πs1
φs = log = log(πs1 ) − log(πs2 )
πs2
Suponga que tenemos funciones logarı́tmicas de interés. Ellas pueden de-

rivarse de π
b ası́:
fT ×1 = KT ×U {log(AU ×SR π
bSR×1 )}
donde K y A son matrices con constantes adecuadas.

En el caso de función logarı́tmica
donde
aT1 π
 
b 0 ··· 0
 0 aT2 π b ··· 0 
DU ×U =
 
.. .. .. .. 
 . . . . 
0 0 · · · aTU π
b
y aTi es la i-ésima fila de A.
data uno;
input partido $ actitud $ voto $ frecuen @@;
cards;
L L L 620 L L C 80 L N L 367 L N C 64 L C L 116
L C C 63 I L L 89 I L C 40 I N L 151 I N C 150
I C L 69 I C C 153 C L L 13 C L C 55 C N L 52
C N C 200 C C L 50 C C C 511
;
proc catmod;
weight frecuen;
response 1 0;
model voto=partido actitud / freq prob predict oneway;
run;
quit;
The SAS System 1

CATMOD PROCEDURE
Response: VOTO Response Levels (R)= 2
Weight Variable: FRECUEN Populations (S)= 9
Data Set: UNO Total Frequency (N)= 2843
ONE-WAY FREQUENCIES
--------------------------
VOTO C 1316
L 1527
PARTIDO C 881
I 652
L 1310
ACTITUD C 962
L 897
N 984
POPULATION PROFILES
Sample
Sample PARTIDO ACTITUD Size
----------------------------------
1 C C 561
2 C L 68
3 C N 252
4 I C 222
5 I L 129
6 I N 301
7 L C 179
8 L L 700
9 L N 431
RESPONSE PROFILES
Response VOTO
--------------
1 C
2 L
Response Number
Sample 1 2
------------------------
1 511 50
2 55 13
3 200 52
4 153 69
5 40 89
6 150 151
7 63 116
8 80 620
9 64 367
Response Number
Sample 1 2
------------------------
1 0.91087 0.08913
2 0.80882 0.19118
3 0.79365 0.20635
4 0.68919 0.31081
5 0.31008 0.68992
6 0.49834 0.50166
7 0.35196 0.64804
8 0.11429 0.88571
9 0.14849 0.85151

Sample Function 1 2 3 4 5
---------------------------------------------------------
1 0.91087 1 1 0 1 0
2 0.80882 1 1 0 0 1
3 0.79365 1 1 0 -1 -1
4 0.68919 1 0 1 1 0
5 0.31008 1 0 1 0 1
6 0.49834 1 0 1 -1 -1
7 0.35196 1 -1 -1 1 0
8 0.11429 1 -1 -1 0 1
9 0.14849 1 -1 -1 -1 -1
--------------------------------------------------
INTERCEPT 1 4031.22 0.0000
PARTIDO 2 901.17 0.0000
ACTITUD 2 97.39 0.0000
RESIDUAL 4 19.30 0.0007

Standard Chi-
----------------------------------------------------------------
INTERCEPT 1 0.5054 0.00796 4031.22 0.0000
PARTIDO 2 0.2964 0.0123 583.00 0.0000
3 0.0112 0.0135 0.69 0.4078
ACTITUD 4 0.1207 0.0124 94.23 0.0000
5 -0.0878 0.0116 57.72 0.0000

-------Observed------- -------Predicted------
--------------------------------------------------------------------------
1 1 0.91087344 0.0120296 0.92245112 0.01138983 -0.0115777
2 1 0.80882353 0.04768586 0.71386577 0.02152352 0.09495776
3 1 0.79365079 0.0254927 0.76879539 0.01880314 0.0248554
4 1 0.68918919 0.03106281 0.63727568 0.02213141 0.05191351
5 1 0.31007752 0.04072306 0.42869033 0.02313426 -0.1186128
6 1 0.49833887 0.02881936 0.48361995 0.02084939 0.01471892
7 1 0.35195531 0.03569601 0.31856689 0.02029509 0.03338841
8 1 0.11428571 0.01202524 0.10998154 0.01146224 0.00430417
9 1 0.14849188 0.01712802 0.16491117 0.01503215 -0.0164193
11.3.2. Ejemplo sobre Accidentalidad Laboral

La siguiente tabla presenta información sobre accidentalidad laboral en
Antioquia. Se presenta el sexo, edad, tiempo en el oficio y parte del cuerpo
afectada (datos proporcionados por Dra. Marı́a Isabel Gallego)
Parte Afectada
Edad Sexo Tiempo en el Oficio M. Inferior M. Superior Otra
Menor de 30 Años Masculino Menos de un año 537 913 860
Uno a 4 año 186 449 338
Cinco o más año 34 69 65
Uno a 4 año 22 109 41
30 a 39 años Masculino Menos de un año 352 567 544
Uno a 4 año 162 375 278
Uno a 4 año 34 102 39
40 o más años Masculino Menos de un año 179 300 262
Uno a 4 año 76 181 157
Uno a 4 año 16 64 20
*========== Accidentalidad Laboral en Antioquia =============;

options ls=50 ps=75 nocenter nonumber nodate;
PROC FORMAT;
VALUE edadf 1=’< 30 a~
nos’
2=’30-39 a~nos ’
3=’40 y más’;
VALUE experf 1=’Menos de un a~
no’ 2=’Uno a 4 a~
nos’ 3=’Cinco o más a~
nos’;
VALUE partef 1=’Inferior’ 2=’Superior’ 3=’Otra’;
VALUE sexof 1=’Hombres’ 2=’Mujeres’;
RUN;
DATA acciden;
DO edad=1 TO 3;
DO sexo=1 TO 2;
DO exper=1 TO 3;
DO parte=1 TO 3;
INPUT frec @@;OUTPUT;
END;END;END;END;
FORMAT exper experf.;
FORMAT edad edadf.;
FORMAT parte partef.;
FORMAT sexo sexof.;
CARDS;
537 913 860 186 449 338 34 69 65 43 140 37 22 109 41
11 20 8 352 567 544 162 375 278 115 226 183 28 129
24 34 102 39 38 83 32 179 300 262 76 181 157 109 273
199 19 51 27 16 64 20 56 132 54
;
PROC TABULATE DATA=acciden;

TITLE ’Datos sobre Accidentalidad Laboral en Antioquia’;
VAR frec;
CLASS exper parte edad sexo;
TABLE edad*sexo*exper,parte*frec;
RUN;
PROC CATMOD DATA=acciden;

WEIGHT frec;
RESPONSE 1 1 1 -1 -1 -1;
MODEL sexo*edad= exper parte/pred=freq;

RUN;
QUIT;
11.3.3. Ejemplo sobre Hemorroides

La siguiente tabla presenta información sobre datos de Kinugasa et al. y
refenciados por Yanagawa et al. (1994)sobre el efecto clı́nico de un suposi-
torio Neriproct (nueva droga, abreviado por droga N abajo) y un suposi-
torio que contiene Tribenisoide (una droga estándar, abreviada por droga
T abajo) en hemorroides internas en un estudio clı́nico comparativo. Se
presenta la historia pasada de la enfermedad, digamos, si nunca se habı́a
sufrido hemorroides internas antes, o si se habı́an tenido varios casos, o si
era una condición crónica.
Historia Drogas Efectiva No Efectiva

de la Enfermedad
Ninguna N 13 10
T 15 14
Varios N 30 20
T 27 18
Crónica N 19 19
T 8 23
Fuente:Yanagawa, T. et al.(1994) On Tests Against One-Sided Hypotheses
in Some Generalized Linear Models. Biometrics, Vol. 50, pp. 853-858
Utilizando la aproximación GSK verifique la hipótesis que las drogas son
igualmente efectivas.
*======= Ajuste de Modelo para Hemorrides ==============;
options PS=55 LS=75 NONUMBER NODATE;
DATA hemorro;
DO historia=1 TO 3;
DO droga=1 TO 2;
DO resulta=1 TO 2;
INPUT frecuen @@;OUTPUT;
END;END;END;
CARDS;
13 10 15 14 30 20 27 18 19 19 8 23
;
PROC CATMOD DATA=hemorro;

WEIGHT frecuen;
RESPONSE 1 0 ;
MODEL resulta=droga historia droga*historia/CORRB COV COVB
PRED=PROB;
RUN;
MODEL resulta=droga historia/CORRB COV COVB
PRED=PROB;
RUN;
QUIT;
The SAS System
CATMOD PROCEDURE
Response: RESULTA Response Levels (R)= 2

Data Set: HEMORRO Total Frequency (N)= 216
POPULATION PROFILES
Sample
Sample DROGA HISTORIA Size
---------------------------------
1 1 1 23
2 1 2 50
3 1 3 38
4 2 1 29
5 2 2 45
6 2 3 31
RESPONSE PROFILES
Response RESULTA
-----------------
1 1
2 2
Response
Sample Function Variance
----------------------------
1 0.5652 0.0107
2 0.6000 0.004800
3 0.5000 0.006579
4 0.5172 0.008610
5 0.6000 0.005333
6 0.2581 0.006176
The SAS System
DESIGN MATRIX
Sample 1 2 3 4 5 6
-----------------------------------------------------
1 1 1 1 0 1 0
2 1 1 0 1 0 1
3 1 1 -1 -1 -1 -1
4 1 -1 1 0 -1 0
5 1 -1 0 1 0 -1
6 1 -1 -1 -1 1 1

--------------------------------------------------
INTERCEPT 1 219.16 0.0000
DROGA 1 1.99 0.1581
HISTORIA 2 8.78 0.0124
DROGA*HISTORIA 2 2.70 0.2596
RESIDUAL 0 . .
Standard Chi-
----------------------------------------------------------------
INTERCEPT 1 0.5068 0.0342 219.16 0.0000

DROGA 2 0.0483 0.0342 1.99 0.1581
HISTORIA 3 0.0345 0.0527 0.43 0.5132
4 0.0932 0.0449 4.31 0.0378
DROGA*HISTORIA 5 -0.0243 0.0527 0.21 0.6445
6 -0.0483 0.0449 1.16 0.2819
COVARIANCE MATRIX OF THE PARAMETER ESTIMATES
1 2 3 4 5 6
---------------------------------------------------------------------------
1 0.00117177 0.00005398 0.00043615 -.00032733 0.00011887 -.00009843
2 0.00005398 0.00117177 0.00011887 -.00009843 0.00043615 -.00032733
3 0.00043615 0.00011887 0.00277969 -.00128060 0.00022683 -.00007442
4 -.00032733 -.00009843 -.00128060 0.00201621 -.00007442 9.540E-06
5 0.00011887 0.00043615 0.00022683 -.00007442 0.00277969 -.00128060
6 -.00009843 -.00032733 -.00007442 9.540E-06 -.00128060 0.00201621
The SAS System
CORRELATION MATRIX OF THE PARAMETER ESTIMATES
1 2 3 4 5 6
---------------------------------------------------------------------------
1 1.0000000 0.0460711 0.2416681 -0.2129562 0.0658620 -0.0640375
2 0.0460711 1.0000000 0.0658620 -0.0640375 0.2416681 -0.2129562
3 0.2416681 0.0658620 1.0000000 -0.5409360 0.0816042 -0.0314360
4 -0.2129562 -0.0640375 -0.5409360 1.0000000 -0.0314360 0.0047318
5 0.0658620 0.2416681 0.0816042 -0.0314360 1.0000000 -0.5409360
6 -0.0640375 -0.2129562 -0.0314360 0.0047318 -0.5409360 1.0000000
The SAS System

--------------------------------------------------------------------------
1 1 0.56521739 0.10336653 0.56521739 0.10336653 0
2 1 0.6 0.06928203 0.6 0.06928203 0
3 1 0.5 0.08111071 0.5 0.08111071 0
4 1 0.51724138 0.09279245 0.51724138 0.09279245 0
5 1 0.6 0.07302967 0.6 0.07302967 0
6 1 0.25806452 0.07858983 0.25806452 0.07858983 0
The SAS System
CATMOD PROCEDURE
Response: RESULTA Response Levels (R)= 2

Data Set: HEMORRO Total Frequency (N)= 216
POPULATION PROFILES
Sample
Sample DROGA HISTORIA Size
---------------------------------
1 1 1 23
2 1 2 50
3 1 3 38
4 2 1 29
5 2 2 45
6 2 3 31
RESPONSE PROFILES
Response RESULTA
-----------------
1 1
2 2
Response
Sample Function Variance
----------------------------
1 0.5652 0.0107
2 0.6000 0.004800
3 0.5000 0.006579
4 0.5172 0.008610
5 0.6000 0.005333
6 0.2581 0.006176
The SAS System
DESIGN MATRIX
Sample 1 2 3 4
-------------------------------------
1 1 1 1 0
2 1 1 0 1
3 1 1 -1 -1
4 1 -1 1 0
5 1 -1 0 1
6 1 -1 -1 -1

--------------------------------------------------
INTERCEPT 1 219.68 0.0000
DROGA 1 2.01 0.1562
HISTORIA 2 8.84 0.0120
RESIDUAL 2 2.70 0.2596
Standard Chi-
----------------------------------------------------------------
INTERCEPT 1 0.5060 0.0341 219.68 0.0000
DROGA 2 0.0469 0.0330 2.01 0.1562
HISTORIA 3 0.0377 0.0525 0.52 0.4728
4 0.0916 0.0449 4.16 0.0413
COVARIANCE MATRIX OF THE PARAMETER ESTIMATES
1 2 3 4
-------------------------------------------------------------------
1 0.00116535 0.00003146 0.00042737 -.00032490
2 0.00003146 0.00109213 0.00008594 -.00008894
3 0.00042737 0.00008594 0.00276055 -.00127400
4 -.00032490 -.00008894 -.00127400 0.00201379
The SAS System
CORRELATION MATRIX OF THE PARAMETER ESTIMATES
1 2 3 4
-------------------------------------------------------------------
1 1.0000000 0.0278901 0.2382772 -0.2120876
2 0.0278901 1.0000000 0.0494942 -0.0599758
3 0.2382772 0.0494942 1.0000000 -0.5403377
4 -0.2120876 -0.0599758 -0.5403377 1.0000000
The SAS System
--------------------------------------------------------------------------
1 1 0.56521739 0.10336653 0.59054922 0.07815105 -0.0253318
2 1 0.6 0.06928203 0.64439464 0.05921582 -0.0443946
3 1 0.5 0.08111071 0.4235543 0.06593795 0.0764457
4 1 0.51724138 0.09279245 0.4968272 0.07508645 0.02041418
11.4. APLICACIONES 171
5 1 0.6 0.07302967 0.55067262 0.0611264 0.04932738

6 1 0.25806452 0.07858983 0.32983228 0.06488399 -0.0717678
11.4. Aplicaciones
11.4.1. Modelo de Dos Clasificaciones
Después de una cirugı́a de úlcera duodenal puede quedar una molestia
conocida como el sı́ndrome de descarga. La siguiente tabla presenta la
información correspondiente a varios pacientes sometidos a la cirugı́a.
Hospital Procedimiento Evaluación Clı́nica del Sı́ndrome
Qurirúrgico Ninguno Ligero Moderado Score Promedio
1 A 23 7 2 1.3
B 23 10 5 1.5
C 20 13 5 1.6
D 24 10 6 1.6
2 A 18 6 1 1.3
B 18 6 2 1.4
C 13 13 2 1.6
D 9 15 2 1.7
3 A 8 6 3 1.7
B 12 4 4 1.6
C 11 6 2 1.5
D 7 7 4 1.8
4 A 12 9 1 1.5
B 15 3 2 1.4
C 14 8 3 1.6
D 13 6 4 1.6
donde
A: drenaje y vagotomı́a
B: 25 % antrectomı́a y vagotomı́a
C: 50 % hemigastrectomı́a y vagotomı́a
D: resección
El score medio de cada tratamiento dentro de cada hospital se calculó como
1 × πi1 + 2 × πi2 + 3 × πi3
Entonces
 
1 2 3 0 0 0 0 0 0 ··· 0 0 0
 0 0 0 1 2 3 0 0 0 ··· 0 0 0 
A16×48 = 
 
.. .. .. .. .. .. .. .. .. .. .. .. 
 . . . . . . . . . . . . 
0 0 0 0 0 0 0 0 0 ··· 1 2 3
La matriz de diseño es
 
1 1 0 0 1 0 0
 1 1 0 0 0 1 0 
 
 1 1 0 0 0 0 1 
 
 1
 1 0 0 −1 −1 −1 

 1 0 1 0 1 0 0   

 1
 µ
 0 1 0 0 1 0 
  α1 
 1 0 1 0 0 0 1   
   α2 
 1 0 1 0 −1 −1 −1  
 β7×1 =  α3

X16×7 =   1

 0 0 1 1 0 0 


 τ1


 1 0 0 1 0 1 0   
   τ2 
 1 0 0 1 0 0 1 
  τ3
 1
 0 0 1 −1 −1 −1 

 1 −1 −1 −1 1 0 0 
 
 1 −1 −1 −1 0 1 0 
 
 1 −1 −1 −1 0 0 1 
1 −1 −1 −1 −1 −1 −1
donde
µ: efecto promedio general
αi : efecto diferencial del i-ésimo hospital, i = 1, 2, 3
τj : efecto diferencial del j-ésimo tratamiento, j = 1, 2, 3
El parámetro α4 puede calcularse como α4 = −α1 − α2 − α3 y la de τ4
como τ4 = −τ1 − τ2 − τ3 .
Las estimaciones de los parámetros son
µ̂ = 1,54
α̂1 = −0,04 α̂2 = −0,04 α̂3 = 0,11 α̂4 = −0,03
τ̂1 = −0,11 τ̂2 = −0,07 τ̂3 = 0,05 τ̂4 = 0,13
Las siguientes matrices C son utilizadas para calcular las sumas de cuadra-
dos para efectos de tratamientos ajustadas por hospital y para hospitales
ajustadas por tratamientos
 
0 1 0 0 0 0 0
CHospital =  0 0 1 0 0 0 0 
0 0 0 1 0 0 0
y  
0 0 0 0 1 0 0
CT ratamientos = 0 0 0 0 0 1 0 
0 0 0 0 0 0 1
La tabla de análisis de varianza asociada es
Fuente de Variación Suma de Cuadrados Grados de Lbertad
Hospitales 2.33 3
Tratamientos 8.90 3
Error 6.32 9
options ls=75 ps=55 nodate nonumber;
DATA dumping;
DO evalua=1 TO 3;
DO proc_qui=1 TO 4;
DO hospital=1 TO 4;
END;END;END;
CARDS;
23 23 20 24 18 18 13 9 8 12 11 7 12 15 14 13
7 10 13 10 6 6 13 15 6 4 6 7 9 3 8 6
2 5 5 6 1 2 2 2 3 4 2 4 1 2 3 4
;
PROC CATMOD DATA=dumping;

WEIGHT frecuen;
RESPONSE 1 2 3;
MODEL evalua=proc_qui hospital;
RUN;
QUIT;
The SAS System
CATMOD PROCEDURE
Response: EVALUA Response Levels (R)= 3

Data Set: DUMPING Total Frequency (N)= 417
POPULATION PROFILES
Sample
Sample PROC_QUI HOSPITAL Size
------------------------------------
1 1 1 32
2 1 2 38
3 1 3 38
4 1 4 40
5 2 1 25
6 2 2 26
7 2 3 28
8 2 4 26
9 3 1 17
10 3 2 20
11 3 3 19
12 3 4 18
13 4 1 22
14 4 2 20
15 4 3 25
16 4 4 23
RESPONSE PROFILES
Response EVALUA
----------------
1 1
2 2
3 3
The SAS System

Sample Function 1 2 3 4 5 6 7
-------------------------------------------------------------------------
1 1.34375 1 1 0 0 1 0 0
2 1.52632 1 1 0 0 0 1 0
3 1.60526 1 1 0 0 0 0 1
4 1.55000 1 1 0 0 -1 -1 -1
5 1.32000 1 0 1 0 1 0 0
6 1.38462 1 0 1 0 0 1 0
7 1.60714 1 0 1 0 0 0 1
8 1.73077 1 0 1 0 -1 -1 -1
9 1.70588 1 0 0 1 1 0 0
10 1.60000 1 0 0 1 0 1 0
11 1.52632 1 0 0 1 0 0 1
12 1.83333 1 0 0 1 -1 -1 -1
13 1.50000 1 -1 -1 -1 1 0 0
14 1.35000 1 -1 -1 -1 0 1 0
15 1.56000 1 -1 -1 -1 0 0 1
16 1.60870 1 -1 -1 -1 -1 -1 -1

--------------------------------------------------
INTERCEPT 1 1999.88 0.0000
PROC_QUI 3 2.33 0.5065
HOSPITAL 3 8.90 0.0307
RESIDUAL 9 6.33 0.7069
Standard Chi-
----------------------------------------------------------------
INTERCEPT 1 1.5449 0.0345 1999.88 0.0000
PROC_QUI 2 -0.0408 0.0527 0.60 0.4388
3 -0.0356 0.0535 0.44 0.5055
4 0.1061 0.0703 2.28 0.1312
HOSPITAL 5 -0.1105 0.0541 4.17 0.0411
6 -0.0730 0.0579 1.59 0.2073
7 0.0496 0.0560 0.78 0.3757
11.4.2. Prueba para Homogenidad de las Distribucio-

nes Marginales
La siguiente tabla presenta información sobre la agudeza visual de mujeres
entre 30 y 40 años, utilizando la distancia de visión sin ayuda
Ojo Izquierdo
Ojo Derecho Mayor Grado Segundo Grado Tercer Grado Peor Grado
Mayor Grado 1520 266 124 66
Segundo Grado 234 1512 432 78
Tercer Grado 117 362 1722 205
Peor Grado 36 82 179 492
La hipótesis a verificar es
Ho : π1+ = π+1 , π2+ = π+2 , π3+ = π+3 , π4+ = π+4
Lo anterior mostramos se puede reexpresar en forma Ho : Aπ = 0. Note

que π1+ = π+1 implica π12 + π13 + π14 − π21 − π31 − π41 , por lo tanto
 
0 1 1 1 −1 0 0 0 −1 0 0 0 −1 0 0 0
 0 −1 0 0 1 0 1 1 0 −1 0 0 0 −1 0 0 
A4×16 = 
 0 0 −1 0 0 0 −1 0 1 1 0 1 0 0 −1 0 
0 0 0 −1 0 0 0 −1 0 0 0 −1 1 1 1 0
 
π11
 π12 
 
 π13 
 
π16×1 =  π14 
 
 π21 
 
 .. 
 . 
π44
La matriz A da la hipótesis correcta pero es singular ya que la suma de

las dos primeras filas es igual al negativo de las últimas dos, entonces
consideramos A∗ que es igual a A pero con una fila menos. Por lo tanto
−1
χ2 = π̂A∗ T A∗ Σ̂π̂ A∗ T A∗ π̂ = f ∗ T Σ̂f ∗ f ∗
Reemplazando los datos de la tabla tenemos

 
0,00923
f ∗ =  0,00455 
−0,00682
 
0,1507 −0,0894 −0,0430
Σ̂f ∗ = 10−4  0,2601 −0,1420 
0,2538
La χ2 = 11,98 con 3 grados de libertad.
DATA ojos;
DO izquier=1 TO 4;
DO derecho=1 TO 4;
INPUT frecu @@;OUTPUT;
END;END;
CARDS;
1520 266 124 66 234 1512 432 78 117 362 1772 205 36 82 179 492
;
PROC CATMOD DATA=ojos;

WEIGHT frecu;
RESPONSE MARGINALS;
MODEL izquier*derecho=_RESPONSE_/FREQ;
REPEATED TIME 2;
RUN;
QUIT;
The SAS System
CATMOD PROCEDURE
Response: IZQUIER*DERECHO Response Levels (R)= 16

Weight Variable: FRECU Populations (S)= 1
Data Set: OJOS Total Frequency (N)= 7477
Sample
Sample Size
----------------
1 7477
RESPONSE PROFILES
Response IZQUIER DERECHO

--------------------------
1 1 1
2 1 2
3 1 3
4 1 4
5 2 1
6 2 2
7 2 3
8 2 4
9 3 1
10 3 2
11 3 3
12 3 4
13 4 1
14 4 2
15 4 3
16 4 4
Response Number
Sample 1 2 3 4 5 6
------------------------------------------------------------
1 1520 266 124 66 234 1512
The SAS System
Response Number
Sample 7 8 9 10 11 12
------------------------------------------------------------
1 432 78 117 362 1772 205
Response Number
Sample 13 14 15 16
------------------------------------------
1 36 82 179 492
Function Response DESIGN MATRIX

Sample Number Function 1 2 3 4 5 6
---------------------------------------------------------------------------
1 1 0.26428 1 0 0 1 0 0
2 0.30173 0 1 0 0 1 0
3 0.32847 0 0 1 0 0 1
4 0.25505 1 0 0 -1 0 0
5 0.29718 0 1 0 0 -1 0
6 0.33529 0 0 1 0 0 -1

--------------------------------------------------
INTERCEPT 3 78744.17 0.0000
TIME 3 11.98 0.0075
RESIDUAL 0 . .
Standard Chi-
----------------------------------------------------------------
INTERCEPT 1 0.2597 0.00468 3073.03 0.0000
2 0.2995 0.00464 4160.17 0.0000
3 0.3319 0.00483 4725.25 0.0000
TIME 4 0.00461 0.00194 5.65 0.0174
5 0.00227 0.00255 0.80 0.3726
6 -0.00341 0.00252 1.83 0.1757
11.4.3. Modelos Loglineales y Logit

Agresti (1983) muestra como podemos ajustar modelos con estructura
ordinal utilizando la metodologı́a GSK, o sea, expresados en la forma
K log(Am) = Xβ
11.4.4. Respuesta a Tres Drogas

A B C Número Probilidad Esperada
1 1 1 6 π1
1 1 0 16 π2
1 0 1 2 π3
0 1 1 2 π4
1 0 0 4 π5
0 1 0 4 π6
0 0 1 6 π7
0 0 0 6 π8
T1 = 28 T2 = 28 T3 = 16 46 1
La hipótesis a verificar es Ho : Las drogas son igualmente efectivas, o sea

Ho : E(T1 ) = E(T2 ) = E(T3 ).
options ls=75 ps=55 nodate nonumber;
DATA tratam;
DO A=1 TO 2;
DO B=1 TO 2;
DO C=1 TO 2;
INPUT frecu @@;OUTPUT;
END;END;END;
CARDS;
6 16 2 4 2 4 6 6
;
PROC CATMOD;
WEIGHT frecu;
RESPONSE MARGINALS;
MODEL A*B*C=_RESPONSE_;
REPEATED TIME 3/_RESPONSE_=TIME;
RUN;
QUIT;
The SAS System
CATMOD PROCEDURE
Response: A*B*C Response Levels (R)= 8

Weight Variable: FRECU Populations (S)= 1
Data Set: TRATAM Total Frequency (N)= 46
Sample
Sample Size
1 46
RESPONSE PROFILES
Response A B C
1 1 1 1
2 1 1 2
3 1 2 1
4 1 2 2
5 2 1 1
6 2 1 2
7 2 2 1
8 2 2 2
Function Response DESIGN MATRIX

Sample Number Function 1 2 3
1 1 0.60870 1 1 0
2 0.60870 1 0 1
3 0.34783 1 -1 -1

--------------------------------------------------
INTERCEPT 1 146.84 0.0000
TIME 2 6.58 0.0372
RESIDUAL 0 . .
The SAS System
Standard Chi-
----------------------------------------------------------------
INTERCEPT 1 0.5217 0.0431 146.84 0.0000
TIME 2 0.0870 0.0507 2.95 0.0861

3 0.0870 0.0507 2.95 0.0861
11.5. Modelos Loglineales vs. Modelos por

GSK
El investigador puede preguntarse sobre las ventajas de los modelos lo-
glineales sobre el método de mı́nimos cuadrados ponderados utilizando
la aproximación GSK. Básicamente podemos con los modelos loglinea-
les establecer distintos tipos de asociaciones entre las variables. Con estos
modelos es complicado establecer claramente una variable dependiente. La
metodologı́a GSK es más flexible en este aspecto, permitiendo adicional-
mente entrar sobre los resultados obtenidos por categorı́as de las variables.
Para ilustrar esto consideremos el siguiente ejemplo, del cual ya habı́amos
considerado parte cuando se presentaron diversas medidas de asociación
para tablas de contingencia.
La siguiente tabla contiene información sobre el número de nacimientos de
mas de 20 semanas, y viabilidad en las instituciones oficiales y particulares
de Medellı́n en 1990
Institución Con 2500 gramos o menos Con más de 2500 gramos
vivos muertos vivos muertos
Oficial 4757 430 38360 206
Privado 5148 464 42307 210
Fuente: Revista de Planeación Metropolitana, Medellı́n ,
Vol 2, No. 5, 1992, pp. 212
Al observar una tabla como la anterior pueden surgir muchas preguntas,

tales como: 1) Es más probable tener un bebé vivo en una institución
privada o pública? 2) Es más probable tener un bebé vivo si pesa más de
2.500 gramos que si pesa menos?
options ls=65 ps=50 nodate nonumber nocenter;
data nacidos;
input institu $ nacimien $ peso $ frec;
cards;
oficial vivo menos 4757
oficial muerto menos 430
privado vivo menos 5148
privado muerto menos 464
oficial vivo mas 38360
11.5. MODELOS LOGLINEALES VS. MODELOS POR GSK 183
oficial muerto mas 206

privado vivo mas 42307
privado muerto mas 210
;
proc catmod;
weight frec;
response 1 0;
model nacimien=institu peso institu*peso/freq prob predict oneway;
title ’Ilustracion del Metodo GSK’;
title2 ’=========================================’;
run;
quit;
Ilustracion del Metodo GSK

=========================================
CATMOD PROCEDURE
Response: NACIMIEN Response Levels (R)= 2

Data Set: NACIDOS Total Frequency (N)= 91882
ONE-WAY FREQUENCIES

----------------------------
NACIMIEN muerto 1310
vivo 90572
INSTITU oficial 43753

privado 48129
PESO mas 81083

menos 10799
POPULATION PROFILES
Sample
Sample INSTITU PESO Size
--------------------------------
1 oficial mas 38566
2 oficial menos 5187
3 privado mas 42517

4 privado menos 5612
RESPONSE PROFILES
Response NACIMIEN
------------------
1 muerto
2 vivo

=========================================
Response Number
Sample 1 2
------------------------
1 206 38360
2 430 4757
3 210 42307
4 464 5148
Response Number
Sample 1 2
------------------------
1 0.00534 0.99466
2 0.0829 0.9171
3 0.00494 0.99506
4 0.08268 0.91732

Sample Function 1 2 3 4
-------------------------------------------------
1 0.00534 1 1 1 1
2 0.08290 1 1 -1 -1
3 0.00494 1 -1 1 -1
4 0.08268 1 -1 -1 1
--------------------------------------------------
INTERCEPT 1 1088.01 0.0000
INSTITU 1 0.01 0.9071
11.5. MODELOS LOGLINEALES VS. MODELOS POR GSK 185
PESO 1 848.46 0.0000

INSTITU*PESO 1 0.00 0.9727
RESIDUAL 0 . .

========================================
Standard Chi-
----------------------------------------------------------------
INTERCEPT 1 0.0440 0.00133 1088.01 0.0000
INSTITU 2 0.000155 0.00133 0.01 0.9071
PESO 3 -0.0388 0.00133 848.46 0.0000
INSTITU*PESO 4 0.000046 0.00133 0.00 0.9727

=========================================
----------------------------------------------------------------
1 1 0.005341 0.000371 0.005341 0.000371 0
2 1 0.0829 0.003828 0.0829 0.003828 0
3 1 0.004939 0.00034 0.004939 0.00034 0
4 1 0.08268 0.003676 0.08268 0.003676 0
Con el anterior ejemplo se modela la probabilidad de nacer muerto con

un modelo que considera tanto el tipo de institución, el peso al nacer y
la posible interacción entre estas dos variables. De la tabla de probabi-
lidades observadas obtenemos la impresión de que es más seguro nacer
en una institución privada pero el modelo nos rechaza esto. Realmente la
probabilidad de nacer muerto está explicada en el modelo por el peso de
la criatura.
Parte IV
Datos Ordinales
187
Capı́tulo 12
Modelos para datos

Ordinales
El trabajo con datos categóricos ordinales ha sido descuidado por des-

conocimiento de la existencia de técnicas apropiadas. Agresti (1989) comen-
ta sobre esto:
“Casi todos los textos elementales de estadı́stica introducen

el estadı́stico chi-cuadrado de Pearson para probar independen-
cia de variables categóricas; pocos de esos libros indican que
la prueba de Pearson es generalmente inapropiada cuando al
menos una de las clasificaciones está ordenada”.
Existen muchas ventajas de trabajar datos como ordinales en lugar de tra-

bajarlos nominalmente si hay lugar para ello (Agresti, 1984). Usualmente
los modelos ordinales son más potentes para detectar alternativas impor-
tantes a la hipótesis bajo prueba. Pueden contruirse medidas y modelos
“similares” a aquéllos en regresión y análisis de varianza para variables
continuas. Se puede trabajar con una clase más amplia de modelos y más
interpretables.
Armstrong y Sloan (1989) presentan una introducción a modelos logı́sticos

con respuesta ordinal. En su artı́culo ellos revisan varios de los modelos
que han sido propuestos: El modelo de odds acumulado y el modelo de
razón continuo.
189
190 CAPÍTULO 12. MODELOS PARA DATOS ORDINALES
12.1. Funciones Logit Unidimensionales

Sean π1 , π2 , ..., πI las probabilidades de I eventos mutuamente excluyentes
y exhaustivos, tal que
XI
πi = 1
i=1
Asuma que todas las πi son estrictamente positivas.

Definimos los logits pivotales λ1 , λ2 , ..., λI−1 por

πi
λi (π) = ln , i = 1, 2, ..., I − 1
πI
con respecto a la probabilidad pivotal. Note que λI = 0.

0
λ0 = [λ1 , λ2 , ..., λI−1 ] es una función 1-1 de los π∗ = [π1 , π2 , ..., πI−1 ] donde
exp(λi )
πi = PI , i = 1, 2, ..., I − 1
j=1 exp(λi )
Definimos los logits sucesivos por λ∗1 , λ∗2 , ..., λ∗I−1 por

∗ πi
λi (π) = ln , i = 1, 2, ..., I − 1
πi+1
0
λ∗ = [λ∗1 , λ∗2 , ..., λ∗I−1 ] es una función 1-1 de los λ. Tenemos que

∗ πi πi+1
λi = ln − ln = λi − λi+1 , i = 1, 2, ..., I − 1
πI πI
I−1
πi πi+1 πI−1 X
λi = ln · ··· = λ∗i , i = 1, ..., I − 1
πi+1 πi+2 πI j=1
Definimos la sucesión acumulada de logits, denotada por Λ1 , Λ2 , ..., ΛI−1

por

π1 + ... + πi Fi
Λi (π) = ln = ln , i = 1, 1, ..., I − 1
πi+1 + ... + πI 1 − Fi
con Fi = π1 + ... + πi . Ademas se pueden definir los logits acumulados a

izquierda, ΛiL , y a derecha, ΛiR , de la siguiente forma

π1 + ... + πi Fi
ΛiL (π) = ln = ln , i = 1, 2, ..., I − 1
πi+1 + ... + πI 1 − Fi

πi πi
ΛiR (π) = ln = ln , i = 1, 2, ..., I − 1
πi+1 + ... + πI 1 − Fi
12.2. MODELOS ORDINALES UNIDIMENSIONALES 191
El vector logit generalizado η = η(A,B) , se define como

T
ai π
ηi(A,B) (π) = ln , i = 1, 2, ..., I − 1
bTi π
A = [a1 , a2 , ..., aI−1 ] y B = [b1 , b2 , ..., bI−1 ]. A y B satisfacen las siguien-

tes condiciones:
1) η es una funcion 1-1 de π∗
2) los elementos de A y B son 0 o 1 tal que para I = 2 aT1 = [0, 1] y
bT1 = [0, 1].
Si el vector observado multinomial es nT = [n1 , n2 , n3 , ..., nI ], donde N ∼
PI
M N (n+ , π), n+ = i=1 ni . El estimador sin restricciones de η es ηb dado
por T
ai p
ηi(A,B) (p) = ln , i = 1, 2, ..., I − 1,
bTi p
n
donde p = n+
12.2. Modelos Ordinales Unidimensionales

Si las categorı́as tienen alguna estructura ordinal, podemos estar interesa-
dos en considerar modelos logit del tipo
M : λi (π) = λ(i, β), i = 1, 2, ..., I − 1
donde λ es una función conocida con argumentos i y β es un vector con k

(≤ I − 1) parámetros desconocidos. O tambien se puede expresar como
M : Λi (π) = Λ(i, β), i = 1, 2, ..., I − 1
donde Λ es una función conocida.
12.2.1. Modelo Equiprobable
1
M : πi = , para todo i = 1, 2, ..., I
I
o equivalentemente
M : λ = 0 o M : λ∗ = 0
Para probar este modelo usualmente se emplea el estadı́stico de Pearson

I 2
2
X ni − nI+
χ = n+ con g.l. = I − 1
i=1 I
También puede emplearse la versión modificada de Neyman

I 2
2
X ni − nI+
y = , con g.l. = I − 1
i=1
ni
el estadı́stico de Wald.
12.2.2. Modelo Loglineal para Tendencia de la Proba-

bilidad
M : λ∗i (π) = β, i = 1, 2, ..., I − 1
o equivalentemente
M : λi (π) = (I − i)β, i = 1, 2, ..., I − 1
o equivalentemente
M : ln(πi ) = (I − i)β + ln(πI ), i = 1, 2, ..., I − 1
El estimador de mı́nimos cuadrados es

PI−1 PI−1 PI−1
nI i=1 (I − i)ni λi − i=1 ni λi i=1 (I − i)ni
βb = PI−1 P 2
I−1
nI i=1 (I − i)2 ni − i=1 (I − i)ni
Para mostrar esto consideremos el modelo
M : λi (π) = (I − i)β, i = 1, ..., I − 1

donde λi (π) = ln ππIi . Recordando que el estimador mı́nimo-cuadrático
es
θe = [XT M−1 (z)X]− XT M−1 (z)f (z)

T
M(ζ) = F(ζ)Σ(ζ)F (ζ)
F(ζ) = [∂fi (ζ)∂ζj ]U ×R∗
En nuestro caso tenemos que

 
π1
ln
 πI 
ln ππI2
 
 
πi  
f (z) = λ(π) = [λi (π)] = ln = ln ππI3
 
πI

 
 .. 
.
 
 
πI−1
ln πI
1
0 ··· 0
 
π1
1
 0 π2 ··· 0 
F(ζ) = 
 
.. .. .. .. 
 . . . . 
1
0 0 ··· πI−1
 
π1 (1 − π1 ) −π1 π2 ··· −π1 πI−1
 −π2 π1 π2 (1 − π2 ) −π2 πI−1 
Σ(ζ) = 
 
.. .. .. .. 
 . . . . 
−πI−1 π1 −πI−1 π2 ··· πI (1 − πI−1 )
1−π1
 
π1 −1 ··· −1
 −1 1−π2
π2 ··· −1 
T  
M(ζ) = F(ζ)Σ(ζ)F (ζ) = 
 .. .. .. .. 
 . . . .


1−πI−1
−1 −1 πI−1
−1
= (Diag(π)) − 11T
Considere la siguiente tabla que presenta el número de goles marcados en

un partido de fútbol en 340 partidos de fútbol en Holanda (Rider et al,
1994).
Intervalo de Número de
Tiempo (min.) Goles
00-15 128
16-30 140
31-45 147
46-60 169
61-75 170
76-90 198
*******************************************;
* Programa en SAS-IML para ajustar un *;
* modelo para tendencia de probabilidad *;
*******************************************;
options ps=55 ls=75 nocenter nonumber nodate;
proc iml;
******** ENTRADA DE DATOS ***********;

periodo={1,2,3,4,5,6};
goles={128,140,147,169,170,198};
******** MATRIZ DE DISENO ***********;

X={5,4,3,2,1};
******** CALCULO DE LOGITS **********;

lambda=log(goles/goles[6]);
lambda=lambda[1:5];
print lambda;
********* ESTIMACION DE LOS PARAMETROS *********;

uno={1,1,1,1,1};
pi=goles[1:5]/sum(goles);
print pi;
M=inv(diag(pi))-uno*t(uno);
print M;
M1=inv(M);
theta=inv(t(X)*M1*X)*t(X)*M1*lambda;
print theta;
********* LOGITS ESTIMADOS **************;

logits=X*theta;
print ’Logits estimados ’ logits;
********* CALCULO DE RESIDUALES *********;

resid=lambda-logits;
print ’Residuales ’ resid;
mserr=ssq(resid)/(5-1);
var_cov=inv(t(X)*M1*X)*mserr;
print ’MSE=’ mserr;
print ’Matriz de Varianzas y Covarianzas de los estimadores’;
print var_cov;
********* PROBABILIDADES ESTIMADAS *******;

pi_est=exp(logits)/(1+sum(exp(logits)));
temp=1-sum(pi_est);
pi_est=pi_est//temp;
print ’Probabilidades estimadas’ pi_est;
goles_est=sum(goles)*pi_est;
print goles_est;
quit;
A continuación presentamos los resultados obtenidos del anterior progra-

ma.
The SAS System
LAMBDA
-0.436237
-0.346625
-0.297834
-0.158368
-0.152469
PI
0.1344538
0.1470588
0.1544118
0.177521
0.1785714
M
6.4375 -1 -1 -1 -1
-1 5.8 -1 -1 -1
-1 -1 5.4761905 -1 -1
-1 -1 -1 4.6331361 -1
-1 -1 -1 -1 4.6
THETA
-0.092581
LOGITS
Logits estimados -0.462904

-0.370323
-0.277742
-0.185162
-0.092581
RESID
Residuales 0.0266672
0.0236985
-0.020092
0.0267933
-0.059888
MSERR
MSE= 0.0014952
Matriz de Varianzas y Covarianzas de los estimadores
VAR_COV
0.000046
PI_EST
Probabilidades estimadas 0.1305919
0.1432595
0.1571559
0.1724004
0.1891235
0.2074688
GOLES_ES
124.32347
136.38307
149.61246
164.12514
180.04556
197.5103
12.3. MODELOS ORDINALES BIDIMENSIONALES 197
12.3. Modelos Ordinales Bidimensionales
B
B1 B2 ··· BJ Total
A1 n11 n12 ··· n1J n1+
A2 n21 n22 ··· n2J n2+
.. .. .. .. .. ..
. . . . . .
AI nI1 nI2 ··· nIJ nI+
Total n+1 n+2 ··· n+J n++
Si esta tabla tuviera una estructura doblemente ordinal, esto es tanto en A

como en B, se puede considerar modelos de dependencia menos complejos
que el que se utiliza si no se tiene esta estructura, el cual es el moodelo
saturado que nos deja sin grados de libertad.
log(mij ) = µ + λA B AB
i + λj + λij
12.3.1. Modelo de Asociación Uniforme

Si se considera una estructura ordinal en ambas variables, pudiéramos
considerar tipos de dependencia más especı́ficos como el siguiente:
log(mij ) = µ + λA B
i + λj + β(ui − ū)(vj − v̄)
donde u1 , u2 , · · · , uI y v1 , v2 , · · · , vJ son scores asignados a las categorı́as

de la tabla. Este modelo se conoce como modelo de dependencia uniforme.
Si consideramos el log de la razón de odds para cualquier subtabla 2 × 2,
digamos m
ij
log(φ) = log
El algoritmo para estimar los valores ajustados estilo IPF es
Paso 1: !
(t+1) ni+ (t)
mij = (t)
mij
mi+
Paso 2: !
(t+2) n+j (t+1)
mij = (t+1)
mij
m+j
Paso 3:
!u∗i vj∗ !1−u∗i vj∗
u∗a vb∗ nab (1 − u∗a vb∗ ) nab
P P P P
(t+3) a b a b (t+2)
mij = mij
∗ ∗ (t+2) (t+2)
u∗a vb∗ ) mab
P P P P
a b ua vb mab a b (1 −
donde los u∗i y los vj∗ son los scores luego de un re-escalamiento de tal
forma que 0 ≤ u∗i ≤ 1 y 0 ≤ vj∗ ≤ 1.
12.3.2. Programa para Ajustar asociación Uniforme

El siguiente programa en SAS-IML se ajusta un modelo de asociación
uniforme.
proc iml;
cota=0.0001;
difmax=10000;
datos={61 28 7,
68 23 13,
58 40 12,
53 38 16};
u={1,2,3,4};
v={1,2,3};
u=u/sqrt(t(u)*u);
v=v/sqrt(t(v)*v);
uivj=u*t(v);
unouivj=j(nrow(datos),ncol(datos),1)-uivj;
nimas=datos[,+];
nmasj=datos[+,];
m=j(nrow(datos),ncol(datos),1);
mviejo=m;
ss1=t(u)*datos*v;
ss2=sum(datos)-ss1;
do while(difmax>cota);
mimas=m[,+];
m=hdir((nimas/mimas),m);
mmasj=m[+,];
m=hdir(t(nmasj/mmasj),t(m));
m=t(m);
ss3=t(u)*m*v;
ss4=sum(m)-ss3;
t1=ss1/ss3;
t2=ss2/ss4;
temp11=j(nrow(datos),ncol(datos),t1);
temp12=j(nrow(datos),ncol(datos),t2);
temp1=(temp11)##uivj;
temp2=(temp12)##unouivj;
m=m#temp1#temp2;
difmax=max(abs(m-mviejo));
mviejo=m;
end;
g2=2*sum(datos#log(datos/m));
gl=(nrow(datos)-1)*(ncol(datos)-1)-1;
print ’Valores estimados para la tabla bajo ASOCIACION UNIFORME’;

print g2 gl m;
quit;
12.3.3. Modelo de Efecto de Fila para Tablas Ordinal-

Nominal
log(mij ) = µ + λA B
i + λj + τi (vj − v̄)
X X X
λA
i = λB
j = τi = 0
donde v1 , v2 , · · · , vJ son scores asignados a la variable ordinal. Los τi son

parámetros que nos representan los efectos de la variable nominal, la cual
asumimos está en las filas. Para este modelo los grados de libertad se
calculan como gl = rc − [1 + (r − 1) + (c − 1) + (r − 1)] = (r − 1)(c − 2).
El modelo de independencia es un caso especial cuando todos los τi = 0.
Los τi pueden interpretarse a través de la razón de odds,

mac mbd
log = (τb − τa )(vd − vc )
mad mbc
Por lo tanto el log de la razón de odds es proporcional a la distancia entre

las columnas y será positiva si τb > τa .
El algoritmo para estimar los valores ajustados estilo IPF es
Paso 1: !
(t+1) ni+ (t)
mij = (t)
mij
mi+
Paso 2: !
(t+2) n+j (t+1)
mij = (t+1)
mij
m+j
Paso 3:
!vj∗ !1−vj∗
∗ ∗
P P
(t+3) b vb nib b (1 − vb ) nib (t+2)
mij = (t+2) (t+2)
mij
∗ ∗
P P
b vb mib b (1 − vb ) mib
donde los los vj∗ son los scores luego de un re-escalamiento de tal forma
que 0 ≤ vj∗ ≤ 1.
DATA dumping;
DO severida=1 TO 3;
DO hospital=1 TO 4;
DO operacio=1 TO 4;
END;END;END;
CARDS;
23 23 20 24 18 18 13 9 8 12 11 7 12 15 14 13
7 10 13 10 6 6 13 15 6 4 6 7 9 3 8 6
2 5 5 6 1 2 2 2 3 4 2 4 1 2 3 4
;

WEIGHT frecuen;
RESPONSE CLOGITS;
MODEL severida=operacio hospital/PRED=FREQ;
TITLE ’Modelo Para El Problema de Descarga’;
TITLE2 ’Modelo con respuesta ordinal’;
RUN;

WEIGHT frecuen;
DIRECT operacio;
RESPONSE CLOGITS;
MODEL severida=operacio hospital/PRED=FREQ;
TITLE ’Modelo Para El Problema de Descarga’;
TITLE2 ’Modelo con respuesta ordinal y operacion ordinal’;
RUN;
QUIT;
Modelo Para El Problema de Descarga

Modelo con respuesta ordinal
CATMOD PROCEDURE
Response: SEVERIDA Response Levels (R)= 3

POPULATION PROFILES
Sample
Sample OPERACIO HOSPITAL Size
------------------------------------
1 1 1 32
2 1 2 25
3 1 3 17
4 1 4 22
5 2 1 38
6 2 2 26
7 2 3 20
8 2 4 20
9 3 1 38
10 3 2 28
11 3 3 19
12 3 4 25
13 4 1 40
14 4 2 26
15 4 3 18
16 4 4 23
RESPONSE PROFILES
Response SEVERIDA
------------------
1 1
2 2
3 3

Response Functions DESIGN MATRIX

Sample 1 2 1 2 3 4 5 6 7
-------------------------------------------------------------------------
1 -0.93827 -2.70805 1 1 0 0 1 0 0
2 -0.94446 -3.17805 1 1 0 0 0 1 0
3 0.11778 -1.54045 1 1 0 0 0 0 1
4 -0.18232 -3.04452 1 1 0 0 -1 -1 -1
5 -0.42744 -1.88707 1 0 1 0 1 0 0
6 -0.81093 -2.48491 1 0 1 0 0 1 0
7 -0.40547 -1.38629 1 0 1 0 0 0 1
8 -1.09861 -2.19722 1 0 1 0 -1 -1 -1
9 -0.10536 -1.88707 1 0 0 1 1 0 0
10 0.14310 -2.56495 1 0 0 1 0 1 0
11 -0.31845 -2.14007 1 0 0 1 0 0 1
12 -0.24116 -1.99243 1 0 0 1 -1 -1 -1
13 -0.40547 -1.73460 1 -1 -1 -1 1 0 0
14 0.63599 -2.48491 1 -1 -1 -1 0 1 0
15 0.45199 -1.25276 1 -1 -1 -1 0 0 1
16 -0.26236 -1.55814 1 -1 -1 -1 -1 -1 -1

--------------------------------------------------
INTERCEPT 2 153.36 0.0000
OPERACIO 6 10.06 0.1223
HOSPITAL 6 6.84 0.3359
RESIDUAL 18 11.88 0.8533
Standard Chi-
----------------------------------------------------------------
INTERCEPT 1 -0.2903 0.1047 7.68 0.0056

2 -2.0469 0.1683 147.97 0.0000
OPERACIO 3 -0.2231 0.1846 1.46 0.2267
4 -0.4444 0.3248 1.87 0.1713
5 -0.3136 0.1793 3.06 0.0802
6 0.0915 0.2640 0.12 0.7288
7 0.2132 0.1695 1.58 0.2086
8 -0.0238 0.2713 0.01 0.9300
HOSPITAL 9 -0.1614 0.1595 1.02 0.3114
10 0.0234 0.2411 0.01 0.9226
11 0.0616 0.1791 0.12 0.7308
12 -0.5768 0.3201 3.25 0.0715
13 0.2342 0.1965 1.42 0.2333
14 0.4966 0.2730 3.31 0.0689

--------------------------------------------------------------------------
1 1 -0.9382696 0.39317855 -0.6748231 0.61012479 -0.2634466
2 -2.7080502 0.73029674 -2.4678746 0.61012479 -0.2401756
2 1 -0.9444616 0.4454354 -0.4517753 0.68663282 -0.4926863

2 -3.1780538 1.02062073 -3.0681455 0.68663282 -0.1099083
3 1 0.11778304 0.48591266 -0.2791532 0.63913656 0.39693622

2 -1.540445 0.63620901 -1.9946921 0.63913656 0.45424706
4 1 -0.1823216 0.42817442 -0.6478336 0.66672284 0.465512

2 -3.0445224 1.02353263 -2.4345104 0.66672284 -0.6100121
5 1 -0.427444 0.33188089 -0.7653586 0.52108017 0.33791456

2 -1.8870696 0.47989898 -1.9319709 0.52108017 0.04490124
6 1 -0.8109302 0.42491829 -0.5423108 0.62839627 -0.2686194

2 -2.4849066 0.73598007 -2.5322418 0.62839627 0.04733512
7 1 -0.4054651 0.45643546 -0.3696887 0.59896625 -0.0357764

2 -1.3862944 0.55901699 -1.4587883 0.59896625 0.07249399
8 1 -1.0986123 0.51639778 -0.7383691 0.63256578 -0.3602432

2 -2.1972246 0.74535599 -1.8986066 0.63256578 -0.298618
9 1 -0.1053605 0.32489314 -0.2385226 0.50578067 0.13316208

2 -1.8870696 0.47989898 -2.047336 0.50578067 0.1602663
10 1 0.14310084 0.37893237 -0.0154748 0.60218221 0.15857563

2 -2.5649494 0.73379939 -2.6476068 0.60218221 0.08265747
11 1 -0.3184537 0.46466019 0.15714729 0.60915493 -0.475601

2 -2.1400662 0.747545 -1.5741534 0.60915493 -0.5659128
12 1 -0.2411621 0.40291148 -0.2115331 0.58615098 -0.029629

2 -1.9924302 0.61545745 -2.0139717 0.58615098 0.0215415
13 1 -0.4054651 0.32274861 -0.128134 0.49512459 -0.2773311

2 -1.7346011 0.44280744 -1.6468373 0.49512459 -0.0877637
14 1 0.63598877 0.41223129 0.09491378 0.59885038 0.54107498

2 -2.4849066 0.73598007 -2.2471082 0.59885038 -0.2377985
15 1 0.45198512 0.48349378 0.26753586 0.58111082 0.18444927

2 -1.252763 0.56694671 -1.1736548 0.58111082 -0.0791082

--------------------------------------------------------------------------
16 1 -0.2623643 0.42062225 -0.1011445 0.57631128 -0.1612198
2 -1.5581446 0.5501196 -1.613473 0.57631128 0.0553284

Modelo con respuesta ordinal y operacion ordinal
CATMOD PROCEDURE
Response: SEVERIDA Response Levels (R)= 3

POPULATION PROFILES
Sample
Sample HOSPITAL OPERACIO Size
------------------------------------
1 1 1 32
2 1 2 38
3 1 3 38
4 1 4 40
5 2 1 25
6 2 2 26
7 2 3 28
8 2 4 26
9 3 1 17
10 3 2 20
11 3 3 19
12 3 4 18
13 4 1 22
14 4 2 20
15 4 3 25
16 4 4 23
RESPONSE PROFILES
Response SEVERIDA
------------------
1 1
2 2
3 3

Response Functions DESIGN MATRIX

Sample 1 2 1 2 3 4 5
---------------------------------------------------------------------
1 -0.93827 -2.70805 1 1 1 0 0
2 -0.42744 -1.88707 1 2 1 0 0
3 -0.10536 -1.88707 1 3 1 0 0
4 -0.40547 -1.73460 1 4 1 0 0
5 -0.94446 -3.17805 1 1 0 1 0
6 -0.81093 -2.48491 1 2 0 1 0
7 0.14310 -2.56495 1 3 0 1 0
8 0.63599 -2.48491 1 4 0 1 0
9 0.11778 -1.54045 1 1 0 0 1
10 -0.40547 -1.38629 1 2 0 0 1
11 -0.31845 -2.14007 1 3 0 0 1
12 0.45199 -1.25276 1 4 0 0 1
13 -0.18232 -3.04452 1 1 -1 -1 -1
14 -1.09861 -2.19722 1 2 -1 -1 -1
15 -0.24116 -1.99243 1 3 -1 -1 -1
16 -0.26236 -1.55814 1 4 -1 -1 -1

--------------------------------------------------
INTERCEPT 2 34.95 0.0000
OPERACIO 2 5.99 0.0500
HOSPITAL 6 6.97 0.3235
RESIDUAL 22 15.95 0.8185
Standard Chi-
----------------------------------------------------------------
INTERCEPT 1 -0.8499 0.2599 10.70 0.0011
2 -2.4991 0.4284 34.03 0.0000
OPERACIO 3 0.2224 0.0924 5.79 0.0161
4 0.2015 0.1448 1.93 0.1643
HOSPITAL 5 -0.1672 0.1592 1.10 0.2934
6 0.0137 0.2407 0.00 0.9547
7 0.0651 0.1790 0.13 0.7161
8 -0.5813 0.3198 3.30 0.0691
9 0.2224 0.1963 1.28 0.2573
10 0.5085 0.2714 3.51 0.0609

--------------------------------------------------------------------------
1 1 -0.9382696 0.39317855 -0.7946677 0.5037383 -0.1436019
2 -2.7080502 0.73029674 -2.2839877 0.5037383 -0.4240625
2 1 -0.427444 0.33188089 -0.5722488 0.39227818 0.14480476

2 -1.8870696 0.47989898 -2.0825242 0.39227818 0.19545457
3 1 -0.1053605 0.32489314 -0.3498298 0.36730915 0.2444693

2 -1.8870696 0.47989898 -1.8810608 0.36730915 -0.0060089
4 1 -0.4054651 0.32274861 -0.1274109 0.44368211 -0.2780542

2 -1.7346011 0.44280744 -1.6795973 0.44368211 -0.0550037
5 1 -0.9444616 0.4454354 -0.5623433 0.6012272 -0.3821183

2 -3.1780538 1.02062073 -2.8789956 0.6012272 -0.2990582
6 1 -0.8109302 0.42491829 -0.3399243 0.51361057 -0.4710059

2 -2.4849066 0.73598007 -2.6775322 0.51361057 0.19262552
7 1 0.14310084 0.37893237 -0.1175053 0.49701252 0.26060619

2 -2.5649494 0.73379939 -2.4760687 0.49701252 -0.0888806
8 1 0.63598877 0.41223129 0.10491361 0.55780913 0.53107516

2 -2.4849066 0.73598007 -2.2746053 0.55780913 -0.2103014
9 1 0.11778304 0.48591266 -0.4050236 0.55957108 0.52280664

2 -1.540445 0.63620901 -1.7891197 0.55957108 0.24867468
10 1 -0.4054651 0.45643546 -0.1826046 0.47868773 -0.2228605

2 -1.3862944 0.55901699 -1.5876563 0.47868773 0.20136192
11 1 -0.3184537 0.46466019 0.03981431 0.47546612 -0.358268

2 -2.1400662 0.747545 -1.3861928 0.47546612 -0.7538733
12 1 0.45198512 0.48349378 0.26223326 0.55126952 0.18975186

2 -1.252763 0.56694671 -1.1847294 0.55126952 -0.0680336
13 1 -0.1823216 0.42817442 -0.7477501 0.59129788 0.56542853

2 -3.0445224 1.02353263 -2.2385532 0.59129788 -0.8059692
14 1 -1.0986123 0.51639778 -0.5253311 0.49837429 -0.5732812

2 -2.1972246 0.74535599 -2.0370898 0.49837429 -0.1601348
15 1 -0.2411621 0.40291148 -0.3029122 0.47751925 0.06175012

2 -1.9924302 0.61545745 -1.8356263 0.47751925 -0.1568038

--------------------------------------------------------------------------
16 1 -0.2623643 0.42062225 -0.0804932 0.53719297 -0.181871
2 -1.5581446 0.5501196 -1.6341629 0.53719297 0.07601828
prop.trend.test <-
function (x, n, score = 1:length(x))
{
method <- "Chi Square Test for Trend in Proportions"
dname <- paste(deparse(substitute(x)), "out of", deparse(substitute(n)))
dname <- paste(dname, ",\n using scores:", paste(score, collapse = " "))
freq <- x/n
p <- sum(x)/sum(n)
freq <- x/n
p <- sum(x)/sum(n)
w <- n/p/(1 - p)
a <- anova(lm(freq ~ score, weight = w))
chisq <- a["score", "Sum Sq"]
names(chisq) <- "X-squared"
df <- 1
names(df) <- "df"
pval <- 1 - pchisq(chisq, 1)
rval <- list(statistic = chisq, parameter = df, p.value = pval,
method = method, data.name = dname)
class(rval) <- "htest"
return(rval)
}
Parte V
Regresión Logı́stica para

Tablas
211
Capı́tulo 13
Regresión Logı́stica y
Modelo Logit
En el análisis de regresión estamos interesados en predecir la media de

una variable, llamada la respuesta, basados en un conjunto de variables,
llamadas los predictores. El análisis de regresión clásico es un área muy
bien desarrollada en estadı́stica, tanto desde el punto de vista teórico,
computacional y aplicado. Prácticamente todo curso de estadı́stica básica
cubre regresión en alguna extensión. Muchas extensiones de los análisis que
se realizan en regresión se han llevado a otras áreas de la estadı́stica, por
ejemplo aproximaciones a la modelación, análisis de outliers, diagnósticos,
etc.
El análisis de tablas de contingencia mediante modelos loglineales puede
llegar a a ser bastante insatisfactorio, como Allison (1991) comenta:
“Cuando comencé mis estudios de posgrado en la Universi-
dad de Wisconsin en 1970, el análisis de datos categóricos con-
sistı́a en pruebas chi-cuadrado de tablas de contingencia, una
técnica introducida a comienzos del siglo por Karl Pearson. Es-
ta metodologı́a era vista con desprecio por la mayorı́a de colegas
orientados cuantitativamente. Era la provincia de los anticuados
que no se preocuparon por aprender Análisis de Regresión, la
nueva herramienta universal para el análisis de datos de las cien-
cias sociales. También nos dimos cuenta de otra revolución que
se estaba desarrollando bajo nuestras narices. En la época que
terminé en Wisconsin en 1975, la nueva cosa insanamente gran-
de era el Análisis Loglineal, que habı́a hecho posible analizar
tablas de contingencia complicadas en formas en que Karl Pear-
son nunca soñó. Pero el análisis loglineal un animal más bien
diferente de la regresión lineal y yo nunca me sentı́ completa-
mente a gusto trabajando de la manera loglineal.”
213
214 CAPÍTULO 13. REGRESIÓN LOGÍSTICA Y MODELO LOGIT
La regresión clásica asume que la respuesta es continua. La regresión

logı́stica trata con el caso de una respuesta categórica. El caso más común
es aquél en que la respuesta es binaria, e.g. la respuesta toma valores 0
ó 1. Esto es similar al caso binomial donde la respuesta puede considerarse
como “éxito” o “fracaso”. Lo más importante es que el modelo logı́stico es
un modelo de regresión y las variables explicativas pueden ser categóricas
expresadas mediante variables “dummy”. Por lo tanto es perfectamente
factible construir una regresión logı́stica para una tabla que tenga como
variable de interés un atributo dicótomo.
El modelo logit lineal expresa una variable cualitativa dependiente dicóto-
ma como función de varias variables independientes. Recordemos que en
el problema clásico de regresión tenemos
yi = α + βxi + i
donde i ∼ N (0, σ 2 ), cov(i , j ) = 0, para todo i 6= j. En este caso

E(yi |xi ) = α + βxi . Ahora asuma que la variable dependiente Yi toma
solo los valores de 0 o 1 con probabilidades
P (Y = 1|X = xi ) = P (Yi = 1) = πi
P (Y = 0|X = xi ) = P (Yi = 0) = 1 − πi
Bajo el supuesto de que E(i ) = 0 tenemos que πi = α + βxi , llamado el

modelo lineal de probabilidad. Además si
Yi = 1 ⇒ i = 1 − E(Yi ) = 1 − (α + βxi ) = 1 − πi
Yi = 0 ⇒ i = 0 − E(Yi ) = 0 − (α + βxi ) = −πi
por lo tanto
var(i ) = πi (1 − πi )2 + (1 − πi )(−πi )2 = πi (1 − πi )
Transformaciones en π
πi = P (α + βxi )
donde P es una función de distribución acumulada. Si P es la F.D.A de

la distribución uniforme entonces

 0 si α + βxi < 0
πi = α + βxi si 0 ≤ α + βxi ≤ 1
1 si α + βxi > 1

Usualmente preferimos P suave y correspondiente a una p.d.f simétrica

con valores asintóticos de π = 0 y π = 1. Si P es estrictamente crecien-
te entonces la transformación será 1 a 1 y podremos calcular la función
inversa de la PDF P
P −1 (πi ) = α + βxi
13.1. ESTIMACIÓN DEL MODELO LOGÍSTICO POR MÁXIMA VEROSIMILITUD215
Usualmente se toma P = Φ o P = Λ, donde

Z z
2
1 z
Φ(z) = √ exp − dz
2π −∞ 2
1
Λ(z) =
1 + exp(−z)
Entonces tenemos
πi = Φ(α + βxi ) ←−conocido como modelo lineal probit y
1
πi = Λ(α + βxi ) = 1+exp{−(α+βxi )} ←−conocido como modelo lineal
logı́stico o logit.
Es un poco más ventajoso trabajar con el modelo logit por cuestiones de
interpretación. Haciendo
1
= 1 + exp {−(α + βxi )}
πi
1
− 1 = exp {−(α + βxi )}
πi
πi
= exp(α + βxi )
1 − πi

πi
log = α + βxi
1 − πi

−1 πi
Λ (πi ) = log
1 − πi
13.1. Estimación del Modelo Logı́stico por

Máxima Verosimilitud
Si Xn×k es la matriz de diseño, de rango columna completo entonces
1
πi = Λ(xTi β) =
1 + exp(−xTi β)

πi
Λ−1 (πi ) = log = xTi β
1 − πi
La función densidad de probabilidad conjunta de y1 , y2 , ..., yn está dada

por
n n y i
Y Y πi
p(y1 , y2 , ..., yn ) = πiyi (1 − πi ) 1−yi
= (1 − πi )
i=1 i=1
1 − πi
Asumiendo un modelo logit tenemos que

πi
= exp(xTi β) y que
1 − πi
1
1 − πi =
1 + exp(xTi β)
entonces la función de verosimilitud esta dada por

n
Y y 1
L(β|X, y1 , y2 , ..., yn ) = exp(xTi β) i
i=1
1 + exp(xTi β)
Pn Pn
log (L(β)) = i=1 yi xTi β − i=1 log 1 + exp(xTi β)
n n
∂ log L(β) X X exp(xTi β)
= yi xi − xi
∂β i=1 i=1
1 + exp(xTi β)
n n
∂ log L(β) X X 1
= yi xi − xi
∂β i=1 i=1
1 + exp(−xTi β)
Haciendo esto igual a cero, los estimadores de máxima verosimilitud son

las souciones a
n n
X 1 X
xi = yi xi
i=1
1 + exp(−xTi β) i=1
En forma matricial es
XT p = XT y
donde p = (p1 , p2 , ..., pn )T . La matriz de información es
2
∂ log L(β)
I(β) = −E
∂β∂β T
Para hallar el estimador de máxima verosimilitud para β debemos derivar

la ecuación anterior con respecto a β e igualar a 0.
13.1.1. Regresión logı́stica y tablas

Para tablas de contingencia los coeficientes de la regresión están asociados
con el odds como podemos ver en una tabla 2 × 2. En este caso la variable
explicativa X toma dos niveles, digamos 0 y 1. El modelo logı́stico será:

πx
log = α + βx
1 − πx
Cuando x = 0 entonces el modelo será:

π0
log =α
1 − π0
y cuando x = 1 el modelo será

π1
log =α+β
1 − π1
Por lo tanto
 
π1
π1 π0 1−π1
β = log − log = log   = log (ψ)
1 − π1 1 − π0 π0
1−π0
Por lo tanto eβ corresponde a la razón de odds. Si hay más covariables, la

interpretación será la misma asumiendo que las otras variables se mantie-
nen iguales.
Un problema surge cuando la variable explicativa categórica tiene más de
dos clases, ya que en este caso hay una clase de referencia y contra ella
se hace la comparación en la interpretación de los coeficientes de los otros
modelos.
13.1.2. Estimación del Modelo Logı́stico en R y SAS

El ejemplo que presentamos utiliza la información sobre la viabilidad en
los partos de mujeres con menos de 20 semanas en hospitales oficiales y
privados.
En R el mismo ejemplo anterior será:
resultado<-matrix(c(4757,430,5148,464),ncol=2,byrow=T)
tipo<-c(’Oficial’,’Privado’)
res<-glm(resultado~as.factor(tipo),family=binomial)
summary(res)
Call:
glm(formula = resultado ~ as.factor(tipo), family = binomial)
Deviance Residuals:
[1] 0 0
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 2.403587 0.050357 47.731 <2e-16 ***
as.factor(tipo)Privado 0.002892 0.069894 0.041 0.967
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1.7117e-03 on 1 degrees of freedom

Residual deviance: 1.5143e-12 on 0 degrees of freedom
AIC: 19.707
Number of Fisher Scoring iterations: 2
> res$fitted.values
[1] 0.9171004 0.9173200
>
>
> 4757/(4757+430)
[1] 0.9171004
>
> 5148/(5148+464)
[1] 0.91732
>
> 4757*464/(5148*430)
[1] 0.9971124
> log(4757*464/(5148*430))
[1] -0.002891729
>
Vemos que la variable independiente tipo de hospital no es significativa

para explicar los odds entre nacer vivo y nacer muerto dado si el hospital es
oficial o privado. O sea no hay diferencias entre las proporciones de niños
que nacen muertos entre hospitales oficiales y privados. La razón de odds
se puede estimar como e0,002892 = 1,002896. Un intervalo de confianza
asintótico del 95 % para el logaritmo de la razón de odds se halla como
(0,002892 − 1,96 · 0,069894; 0,002892 + 1,96 · 0,069894)

Ejemplo 13.1 La siguiente tabla presenta información extractada del

Anuario Estadı́stico de Antioquia 2000 sobre muertes accidentales y muer-
tes violentas (incluyen suicidios) por región del departamento. Se quiere
modelar la probabilidad de una muerte accidental por región.
Accidental Violenta
1 1336 6062
2 97 244
3 45 171
4 85 390
5 97 433
6 51 424
7 267 951
8 150 766
9 161 644
muerte<-matrix(c(
1336,6062,97,244,45,171,85,390,
97,433,51,424,267,951,150,766,
161,644),ncol=2,byrow=T)
region<-c(’Valle de Aburrá’,
’Bajo Cauca’,
’Magd. Medio’,
’Nordeste’,
’Norte’,
’Occidente’,
’Oriente’,
’Suroeste’,
’Urabá’)
res<-glm(muerte~as.factor(region),family=binomial)
summary(res)
Call:
glm(formula = muerte ~ as.factor(region), family = binomial)
Deviance Residuals:
[1] 0 0 0 0 0 0 0 0 0
Coefficients:
(Intercept) -0.9225 0.1200 -7.685 1.53e-14 ***

as.factor(region)Magd. Medio -0.4125 0.2061 -2.002 0.045322 *
as.factor(region)Nordeste -0.6010 0.1695 -3.546 0.000392 ***
as.factor(region)Norte -0.5736 0.1644 -3.489 0.000485 ***
as.factor(region)Occidente -1.1955 0.1907 -6.268 3.65e-10 ***
as.factor(region)Oriente -0.3478 0.1386 -2.510 0.012080 *
as.factor(region)Suroeste -0.7081 0.1496 -4.733 2.21e-06 ***
as.factor(region)Urabá -0.4638 0.1489 -3.115 0.001839 **
as.factor(region)Valle de Aburrá -0.5899 0.1238 -4.766 1.88e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Null deviance: 5.6509e+01 on 8 degrees of freedom

AIC: 76.834
Si recodificamos podemos establecer nosostros mismos la región de com-

paración. En este caso asignamos 1 al Valle de Aburrá, 2 al Bajo Cauca,
etc. La base de comparación será por lo tanto el Valle de Aburrá.
> res<-glm(muerte~as.factor(1:nrow(muerte)),family=binomial)
> summary(res)
Call:
glm(formula = muerte ~ as.factor(1:nrow(muerte)), family = binomial)
Deviance Residuals:
[1] 0 0 0 0 0 0 0 0 0
Coefficients:
(Intercept) -1.51236 0.03022 -50.039 < 2e-16 ***
as.factor(1:nrow(muerte))2 0.58990 0.12378 4.766 1.88e-06 ***
as.factor(1:nrow(muerte))3 0.17736 0.17025 1.042 0.29751
as.factor(1:nrow(muerte))4 -0.01114 0.12346 -0.090 0.92813
as.factor(1:nrow(muerte))6 -0.60555 0.15126 -4.003 6.25e-05 ***
as.factor(1:nrow(muerte))7 0.24209 0.07557 3.204 0.00136 **
as.factor(1:nrow(muerte))8 -0.11819 0.09426 -1.254 0.20992
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Null deviance: 5.6509e+01 on 8 degrees of freedom

AIC: 76.834
> res$fitted.values
[1] 0.1805893 0.2844575 0.2083333 0.1789474 0.1830189 0.1073684 0.2192118
[8] 0.1637555 0.2000000
> region<-as.factor(c(1,2,1,1,1,6,7,1,1))
> res2<-glm(muerte~region,family=binomial)
> summary(res2)
Call:
glm(formula = muerte ~ region, family = binomial)
Deviance Residuals:
[1] -1.449e-01 2.075e-07 1.015e+00 -1.298e-01 1.063e-01 0.000e+00
[7] -4.944e-07 -1.392e+00 1.364e+00
Coefficients:
(Intercept) -1.50798 0.02553 -59.069 < 2e-16 ***
region2 0.58553 0.12272 4.771 1.83e-06 ***
region6 -0.60992 0.15039 -4.056 5.00e-05 ***
region7 0.23772 0.07381 3.220 0.00128 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Null deviance: 56.5086 on 8 degrees of freedom

Residual deviance: 4.8768 on 5 degrees of freedom
AIC: 71.711
> res2$fitted.values
[1] 0.1812379 0.2844575 0.1812379 0.1812379 0.1812379 0.1073684 0.2192118
[8] 0.1812379 0.1812379
>
Si queremos estimar un modelo logit en SAS utilizamos el PROC CAT-

MOD con la opción DIRECT para indicar que variables no se toman
como categóricas sino como numéricas, o el PROC LOGISTIC o el PROC
GENMOD.
data uno;
input x y frec;
cards;
0 0 4757
0 1 430
1 0 5148
1 1 464 ;
proc catmod;
direct x;
model y=x;
weight frec;
run;
El listado de los resultados presentados por el SAS se presentan a conti-

nuacion
The SAS System 1

CATMOD PROCEDURE
Response: Y Response Levels (R)= 2
Data Set: UNO Total Frequency (N)= 10799
Frequency Missing: 0 Observations(Obs)= 4
POPULATION PROFILES
Sample
Sample X Size
1 0 5187
2 1 5612
RESPONSE PROFILES
Response Y
1 0
2 1
MAXIMUM-LIKELIHOOD ANALYSIS
Sub -2 Log Convergence Parameter Estimates
Iteration Iteration Likelihood Criterion 1 2
0 0 14970.593 1.0000 0 0
1 0 6713.0314 0.5516 1.6684 0.000878
2 0 6190.9811 0.0778 2.2358 0.001986
3 0 6166.7645 0.003912 2.3926 0.002771
4 0 6166.6642 0.0000163 2.4035 0.002891
5 0 6166.6642 3.407E-10 2.4036 0.002892
MAXIMUM-LIKELIHOOD ANALYSIS-OF-VARIANCE TABLE

INTERCEPT 1 2278.36 0.0000
X 1 0.00 0.9670
LIKELIHOOD RATIO 0 . .
ANALYSIS OF MAXIMUM-LIKELIHOOD ESTIMATES

Standard Chi-
INTERCEPT 1 2.4036 0.0504 2278.36 0.0000
X 2 0.00289 0.0699 0.00 0.9670
Como un segundo ejemplo para ilustrar el PROC LOGISTIC consi-

deremos un ejemplo de Neter y Wasserman (1974). En un estudio para
comprobar la efectividad de cupones que ofrecen una reducción del pre-
cio en un producto determinado, 1000 hogares fueron seleccionados y un
cupón y material publicitario fueron enviados por correo a cada uno. Los
cupones ofrecı́an diferentes reducciones en el precio (200 cupones de 5, 10,
15, 20 y 30 centavos de dólar para un total de 1000), y los hogares fueron
seleccionados al azar para cada tipo de cupón. La variable independiente
es la cantidad de descuento en el precio y la variable dependiente es una
variable binaria que nos dice si un cupón fue usado en los siguientes seis
meses. En SAS el PROC LOGISTIC genera a veces confusión entre los
usuarios debido a la codificación interna que maneja, con lo que hay que
ser cuidadosos. Por ejemplo si nosotros codificamos: 1 para éxito y 0 para
un fracaso, el SAS codificara internamente 1 para éxito y 2 para fracaso,
con lo que, si somos poco cuidadosos obtendremos resultados opuestos a
los deseados (Scheuchenpflug y Blettner, 1996). El programa en SAS es el
siguiente:
options ls=70;
data uno;
input rebaja nhogares ncupones;
cards;
5 200 32
10 200 51
15 200 70
20 200 103
30 200 148
;
proc logist data=uno;

model ncupones/nhogares=rebaja;
run;
The SAS System 1

The LOGISTIC Procedure
Data Set: WORK.UNO

Response Variable (Events): NCUPONES
Response Variable (Trials): NHOGARES
Number of Observations: 5
Link Function: Logit
Response Profile
Ordered Binary
Value Outcome Count
1 EVENT 404
2 NO EVENT 596
The SAS System

Criteria for Assessing Model Fit
Intercept
Intercept and
Criterion Only Covariates Chi-Square for Covariates
AIC 1351.200 1172.763 .

SC 1356.108 1182.579 .
-2 LOG L 1349.200 1168.763 180.437 with 1 DF (p=0.0001)
Score . . 173.057 with 1 DF (p=0.0001)
The SAS System

Analysis of Maximum Likelihood Estimates
Parameter Standard Wald Pr > Standardized
Variable DF Estimate Error Chi-Square Chi-Square Estimate
INTERCPT 1 -2.1855 0.1647 176.1542 0.0001 .
REBAJA 1 0.1087 0.00884 151.1552 0.0001 0.515881
Analysis of
Maximum
Likelihood
Estimates
Odds
Variable Ratio
INTERCPT 0.112
REBAJA 1.115
The SAS System

Association of Predicted Probabilities and Observed Responses
Concordant = 65.3 % Somers’ D = 0.472

Discordant = 18.2 % Gamma = 0.565
Tied = 16.5 % Tau-a = 0.227
(240784 pairs) c = 0.736
Otro ejemplo que podemos mirar es el de la predicción del sexo de una

persona a partir de su longitud del pie y de la longitud de la mano. En
una muestra de adultos colombianos para generar una base de datos para
estudios ergonómicos se midieron las variables de interés. El programa en
SAS para correr la regresión logı́stica es:
*************************************************;
* Ejemplo en SAS de Regresion Logistica con *;
* datos ergonomicos. *;
* Var. Dependiente: SEXO 1:Hombre 5:Mujer *;
* Var. Indep. p27: Longitud del pie (cms) *;
* p29: Longitud de la mano (cms) *;
*************************************************;

libname chucho ’c:\base’;
data temp;
set chucho.nuevo;
proc logistic;
model sexo=p27 p29/covb;
title ’Regresion Logistica para Predecir el Sexo a’;
title2 ’partir de las longitudes del pie y la mano’;
run;
quit;
Regresion Logistica para Predecir el Sexo a

partir de las longitudes del pie y la mano
Data Set: WORK.TEMP

Response Variable: SEXO
Response Levels: 2
Response Profile
Ordered
Value SEXO Count
1 1 1315
2 5 785
Intercept
Intercept and
AIC 2777.999 1412.000 .

13.2. CONSTRUYENDO UN MODELO LOGÍSTICO 227
SC 2783.648 1428.949 .
-2 LOG L 2775.999 1406.000 1369.999 with 2 DF (p=0.0001)
Score . . 1022.656 with 2 DF (p=0.0001)
Parameter Standard Wald Pr > Standardized Odds

Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio
INTERCPT 1 -42.9325 1.8606 532.4306 0.0001 . 0.000

P27 1 1.0552 0.0943 125.1893 0.0001 0.934352 2.872
P29 1 1.0343 0.1211 72.9687 0.0001 0.690528 2.813
Concordant = 92.4% Somers’ D = 0.851

Discordant = 7.3% Gamma = 0.853
Tied = 0.2% Tau-a = 0.399
(1032275 pairs) c = 0.926
Estimated Covariance Matrix
Variable INTERCPT P27 P29
INTERCPT 3.46185847 -0.086078605 -0.080576161

P27 -0.086078605 0.0088937661 -0.007283033
P29 -0.080576161 -0.007283033 0.0146602587
13.2. Construyendo un Modelo Logı́stico

Cuando tenemos muchas variables explicativas y necesitamos construir un
modelo podemos, recurriendo a técnicas similares a la regresión clásica
tales como regresión hacia atrás, hacia adelante y stepwise (paso a paso).
En general la modelación realizada por estas formas es débil y altamente
dependiente de los datos, esto significa que si tenemos acceso a una base
de datos con la misma estructura, el modelo ajustado no tenga un poder
predictivo tan bueno como se tenı́a en la base original. Además, variables
que en la nueva base pueden ser importantes en la primera haber sido
rechazadas por el procedimiento automatizado.
Un problema grande que se presenta cuando se ajustan modelos de esta
clase a tablas de gran dimensión, es decir con muchas variables, es la

presencia de numerosas celdas con ceros o con grandes desbalances o pocas
observaciones por celda, esto debilita cualquier resultado inferencial, ya
que en general estos resultados son asintóticos. Aquı́ cabe el dicho “Quien
mucho abarca, poco aprieta”.
Como un ejemplo consideremos la construcción de un modelo para predecir
el sexo de un estudiante a partir de las notas obtenidas en las pruebas del
ICFES. Para esto utilizamos el PROC LOGISTIC del SAS, utilizando
la opción selection. Es posible que utilizando los diferentes métodos no
obtengamos el mismo resultado final. En este caso se recomienda evaluar
cada uno de los modelos a los cuales se arrivó por cada procedimeiento y
tener en cuenta la complejidad de los modelos.
options ps=55 ls=70 nodate nonumber nocenter;
data icfes;
infile ’c:\datos\icfes.dat’;
input sexo $ ano biologia quimica
fisica sociales apt_verb espanol
apt_mate con_mate electiva opcion $;
proc logistic;
model sexo= biologia quimica
apt_mate con_mate electiva/selection=b;
title ’Seleccion del Modelo HACIA ATRAS’;
run;
proc logistic;
apt_mate con_mate electiva/selection=f;
title ’Seleccion del Modelo HACIA ADELANTE’;
run;
proc logistic;
apt_mate con_mate electiva/selection=s;
title ’Construccion del Modelo STEPWISE’;
run;
quit;
Seleccion del Modelo HACIA ATRAS
Data Set: WORK.ICFES

Response Levels: 2
Response Profile
Ordered
Value SEXO Count
1 F 74
2 M 58
Backward Elimination Procedure
Step 0. The following variables were entered:
INTERCPT BIOLOGIA QUIMICA FISICA SOCIALES APT_VERB

ESPANOL APT_MATE CON_MATE ELECTIVA

Intercept
Intercept and
AIC 183.047 123.984 .
SC 185.929 152.812 .
-2 LOG L 181.047 103.984 77.062 with 9 DF (p=0.0001)
Score . . 61.015 with 9 DF (p=0.0001)
Step 1. Variable QUIMICA is removed:


Intercept
Intercept and
AIC 183.047 122.043 .
SC 185.929 147.988 .
-2 LOG L 181.047 104.043 77.004 with 8 DF (p=0.0001)
Score . . 61.004 with 8 DF (p=0.0001)
Residual Chi-Square = 0.0587 with 1 DF (p=0.8086)
Step 2. Variable CON_MATE is removed:

Intercept
Intercept and
AIC 183.047 120.286 .
SC 185.929 143.348 .
-2 LOG L 181.047 104.286 76.761 with 7 DF (p=0.0001)
Score . . 60.703 with 7 DF (p=0.0001)
Step 3. Variable APT_VERB is removed:

Intercept
Intercept and
AIC 183.047 118.533 .
SC 185.929 138.713 .
-2 LOG L 181.047 104.533 76.513 with 6 DF (p=0.0001)
Score . . 59.783 with 6 DF (p=0.0001)

Step 4. Variable BIOLOGIA is removed:

Intercept
Intercept and
AIC 183.047 117.067 .
SC 185.929 134.363 .
-2 LOG L 181.047 105.067 75.980 with 5 DF (p=0.0001)
Score . . 59.428 with 5 DF (p=0.0001)
Step 5. Variable APT_MATE is removed:

Intercept
Intercept and
AIC 183.047 117.287 .

SC 185.929 131.701 .
-2 LOG L 181.047 107.287 73.760 with 4 DF (p=0.0001)
Score . . 57.673 with 4 DF (p=0.0001)
Step 6. Variable ELECTIVA is removed:

Intercept
Intercept and
AIC 183.047 118.081 .

SC 185.929 129.612 .
-2 LOG L 181.047 110.081 70.966 with 3 DF (p=0.0001)
Score . . 55.870 with 3 DF (p=0.0001)
NOTE: No (additional) variables met the 0.05 significance level for

removal from the model.
Summary of Backward Elimination Procedure

Variable Number Wald Pr >
Step Removed In Chi-Square Chi-Square
1 QUIMICA 8 0.0587 0.8086
2 CON_MATE 7 0.2416 0.6231
3 APT_VERB 6 0.2461 0.6199
4 BIOLOGIA 5 0.5264 0.4681
5 APT_MATE 4 2.0697 0.1502
6 ELECTIVA 3 2.6971 0.1005

INTERCPT 1 9.7258 1.9849 24.0093 0.0001 .
FISICA 1 -0.2605 0.0545 22.8237 0.0001 -1.298781
SOCIALES 1 -0.1118 0.0417 7.1746 0.0074 -0.574723
ESPANOL 1 0.1815 0.0475 14.6058 0.0001 0.916826

Analysis of
Maximum
Likelihood
Estimates
Odds
Variable Ratio
INTERCPT 999.000
FISICA 0.771
SOCIALES 0.894
ESPANOL 1.199

Tied = 0.1% Tau-a = 0.386
(4292 pairs) c = 0.889
Seleccion del Modelo HACIA ADELANTE

Response Levels: 2
Response Profile
Ordered
Value SEXO Count
1 F 74
2 M 58
Forward Selection Procedure
Step 0. Intercept entered:
Step 1. Variable FISICA entered:

Intercept
Intercept and
AIC 183.047 134.861 .
SC 185.929 140.626 .
-2 LOG L 181.047 130.861 50.186 with 1 DF (p=0.0001)

Score . . 41.953 with 1 DF (p=0.0001)
Step 2. Variable ESPANOL entered:

Intercept
Intercept and
AIC 183.047 124.054 .
SC 185.929 132.703 .
-2 LOG L 181.047 118.054 62.992 with 2 DF (p=0.0001)
Score . . 50.823 with 2 DF (p=0.0001)
Step 3. Variable SOCIALES entered:

Intercept
Intercept and
AIC 183.047 118.081 .
SC 185.929 129.612 .
-2 LOG L 181.047 110.081 70.966 with 3 DF (p=0.0001)
Score . . 55.870 with 3 DF (p=0.0001)

entry into the model.
Summary of Forward Selection Procedure

Variable Number Score Pr >
Step Entered In Chi-Square Chi-Square
1 FISICA 1 41.9532 0.0001
2 ESPANOL 2 11.8346 0.0006
3 SOCIALES 3 7.7683 0.0053

INTERCPT 1 9.7258 1.9849 24.0093 0.0001 .
FISICA 1 -0.2605 0.0545 22.8237 0.0001 -1.298781
SOCIALES 1 -0.1118 0.0417 7.1746 0.0074 -0.574723
ESPANOL 1 0.1815 0.0475 14.6058 0.0001 0.916826
Analysis of
Maximum
Likelihood
Estimates
Odds
Variable Ratio
INTERCPT 999.000
FISICA 0.771
SOCIALES 0.894
ESPANOL 1.199

Tied = 0.1% Tau-a = 0.386
(4292 pairs) c = 0.889
Construccion del Modelo STEPWISE


Response Levels: 2
Response Profile
Ordered
Value SEXO Count
1 F 74
2 M 58
Stepwise Selection Procedure
Step 0. Intercept entered:
Step 1. Variable FISICA entered:

Intercept
Intercept and
AIC 183.047 134.861 .
SC 185.929 140.626 .
-2 LOG L 181.047 130.861 50.186 with 1 DF (p=0.0001)
Score . . 41.953 with 1 DF (p=0.0001)
Step 2. Variable ESPANOL entered:


Intercept
Intercept and
AIC 183.047 124.054 .
SC 185.929 132.703 .
-2 LOG L 181.047 118.054 62.992 with 2 DF (p=0.0001)
Score . . 50.823 with 2 DF (p=0.0001)
Step 3. Variable SOCIALES entered:
Intercept
Intercept and
AIC 183.047 118.081 .

SC 185.929 129.612 .
-2 LOG L 181.047 110.081 70.966 with 3 DF (p=0.0001)
Score . . 55.870 with 3 DF (p=0.0001)

entry into the model.
Summary of Stepwise Procedure

Variable Number Score Wald Pr >
Step Entered Removed In Chi-Square Chi-Square Chi-Square
1 FISICA 1 41.9532 . 0.0001

2 ESPANOL 2 11.8346 . 0.0006
3 SOCIALES 3 7.7683 . 0.0053

INTERCPT 1 9.7258 1.9849 24.0093 0.0001 .
FISICA 1 -0.2605 0.0545 22.8237 0.0001 -1.298781
SOCIALES 1 -0.1118 0.0417 7.1746 0.0074 -0.574723
ESPANOL 1 0.1815 0.0475 14.6058 0.0001 0.916826
Analysis of
Maximum
Likelihood
Estimates
Odds
Variable Ratio
INTERCPT 999.000
FISICA 0.771
SOCIALES 0.894
ESPANOL 1.199

Tied = 0.1% Tau-a = 0.386
(4292 pairs) c = 0.889
13.3. Diagnósticos para Regresión Logı́stica

Pregibon (1981) desarrolla técnicas similares a las propuestas por Belsley
et al. (1980) para realizar diagnósticos en modelos de regresión logı́stica.
β `+1 = β ` + (XT VX)−1 XT s
b ) y V y s evaluados en β `
donde s = (y − y
Los valores ajustados ni π
bi = ybi
bi (1 − π
La varianza estimada de yi es νii = ni π bi )
13.3. DIAGNÓSTICOS PARA REGRESIÓN LOGÍSTICA 239
Los resultados estándar de un programa de computador que haga regresión

logı́stica son:
a) βb
b) s.e.(βbj ) : errores estándar individuales de los coeficientes
−1
c) D(β) = XT VX
db
d) El estadı́stico de bondad de ajuste

N
X s2i
χ2 =
ν
i=1 ii
e) Componentes individuales de χ2 , digamos
si (yi − ni πbi )
χi = √ =p
νii bi (1 − π
ni π bi )
f) La deviance h i
D = −2 ` X β;
b y − ` θ;
by

donde ` θ;
b y : Máximo de la función log-verosimilitud basada en ajustar

cada punto exactamente. θi = log nyii .
Para la regresión logı́stica los elementos fundamentales para la detección
de puntos outliers e influenciales son un vector de residuales y una matriz
de proyección X
D= d2i
donde
√ n o 1
b yi 2
di = ± 2 ` θbi ; yi − ` xi T β;
lo anterior es positivo si θbi > xT Tb

i β y es negativo si θi < xi β
b b
Una análoga de la matriz de proyección es
1 1
M = I − H = I − V 2 X(X T V X)−1 X T V 2
********************************************************;
* Ejemplo en SAS de DIAGNOSTICOS en regresion logistica*;
* Variable Dependiente: Accidentado (1=Si, 0=No) *;
* Variable Independiente: Velocidad (Km/Hora) *;
********************************************************;
options ps=50 ls=65 nonumber nodate nocenter;
data uno;
input veloc acciden @@;
cards;
55 1 36 0 45 0 60 1 65 1 55 0 48 1 47 0 53 0
;
proc logistic;
model acciden=veloc/influence iplots;
run;
quit;
The SAS System
Data Set: WORK.UNO

Response Variable: ACCIDEN
Response Levels: 2
Response Profile
Ordered
Value ACCIDEN Count
1 0 5
2 1 4
Intercept
Intercept and
AIC 14.365 12.376 .

SC 14.563 12.771 .
-2 LOG L 12.365 8.376 3.989 with 1 DF (p=0.0458)
Score . . 3.222 with 1 DF (p=0.0727)

INTERCPT 1 12.5802 8.5803 2.1497 0.1426 .

VELOC 1 -0.2361 0.1617 2.1300 0.1444 -1.123563
The SAS System
Analysis of
Maximum
Likelihood
Estimates
Odds
Variable Ratio
INTERCPT 999.000
VELOC 0.790

Tied = 5.0% Tau-a = 0.417
(20 pairs) c = 0.875
The SAS System

Regression Diagnostics
Pearson Residual
Covariates
Case (1 unit = 0.23)
Number VELOC Value -8 -4 0 2 4 6 8
1 55.0000 -0.8174 | * | |
2 36.0000 0.1299 | |* |
3 45.0000 0.3758 | | * |
4 60.0000 -0.4530 | * | |
5 65.0000 -0.2511 | *| |
6 55.0000 1.2234 | | * |
7 48.0000 -1.8675 |* | |
8 47.0000 0.4759 | | * |
9 53.0000 0.9662 | | * |
Deviance Residual
Number Value -8 -4 0 2 4 6 8
1 -1.0116 | * | |
2 0.1829 | |* |
3 0.5140 | | * |
4 -0.6110 | * | |
5 -0.3497 | * | |
6 1.3528 | | * |
7 -1.7328 |* | |
8 0.6389 | | * |
9 1.1483 | | * |
Hat Matrix Diagonal
Number Value 0 2 4 6 8 12 16
1 0.2054 | * |
2 0.1322 | * |
3 0.2508 | * |
4 0.2951 | *|
5 0.2583 | * |
6 0.2054 | * |
7 0.2297 | * |
8 0.2413 | * |
9 0.1818 | * |
INTERCPT Dfbeta

Number Value -8 -4 0 2 4 6 8
1 0.1370 | |* |
2 0.0533 | * |
3 0.2210 | | * |
4 0.2600 | | * |
5 0.1504 | |* |
6 -0.2050 | * | |
7 -0.8625 |* | |
8 0.2472 | | * |
9 0.0296 | * |
VELOC Dfbeta
Case (1 unit = 0.1)
Number Value -8 -4 0 2 4 6 8
1 -0.1806 | * | |
2 -0.0519 | *| |
3 -0.2080 | * | |
4 -0.2819 | * | |
5 -0.1580 | * | |
6 0.2702 | | * |
7 0.7808 | | *|
8 -0.2277 | * | |
9 0.0205 | * |
C
Number Value 0 2 4 6 8 12 16
1 0.2173 | * |
2 0.00296 |* |
3 0.0631 | * |
4 0.1219 | * |
5 0.0296 |* |
6 0.4868 | * |
7 1.3496 | *|
8 0.0949 | * |
9 0.2536 | * |
CBAR
Number Value 0 2 4 6 8 12 16
1 0.1727 | * |
2 0.00257 |* |
3 0.0473 | * |
4 0.0859 | * |
5 0.0220 |* |
6 0.3868 | * |
7 1.0397 | *|
8 0.0720 | * |
9 0.2075 | * |
The SAS System

DIFDEV
Number Value 0 2 4 6 8 12 16
1 1.1961 | * |
2 0.0360 |* |
3 0.3115 | * |
4 0.4593 | * |
5 0.1442 | * |
6 2.2168 | * |
7 4.0422 | *|
8 0.4803 | * |
9 1.5261 | * |
DIFCHISQ
Number Value 0 2 4 6 8 12 16
1 0.8408 | * |
2 0.0194 |* |
3 0.1885 | * |
4 0.2912 | * |
5 0.0850 |* |
6 1.8836 | * |
7 4.5270 | *|
8 0.2985 | * |
9 1.1409 | * |
-+------------------------+------------------------+--
P RESCHI | |
e | |
a 2 + +
r | |
s | . |
o 1 + . +
n | |
| . . |
R 0 + . +
e | . . |
s | . |
i -1 + +
d | |
u | |
a -2 + . +
l | |
-+------------------------+------------------------+--
0 5 10
Case Number INDEX
-+------------------------+------------------------+--
D RESDEV | |
e | |
v 2 + +
i | |
a | . |
n 1 + . +
c | . . |
e | . |
0 + +
R | . |
e | . |
s -1 + . +
i | |
d | . |
u -2 + +
a | |
l -+------------------------+------------------------+--
0 5 10
Case Number INDEX
-+------------------------+------------------------+--
H | |
0.3 + . +
H | |
a | |
t | . . |
| . |
D | . |
i | |
a 0.2 + . . +
g | . |
o | |
n | |
a | |
l | . |
| |
0.1 + +
-+------------------------+------------------------+--
0 5 10
Case Number INDEX
--+------------------------+------------------------+--
I 0.5 + +
N | |
T | . |
E | . . . |
R | . . |
C 0.0 + . +
P | |
T DFBETA0 | . |
| |
D | |
f -0.5 + +
b | |
e | |
t | |
a | . |
-1.0 + +
--+------------------------+------------------------+--
0 5 10
Case Number INDEX
--+------------------------+------------------------+--
V 1.0 + +
E | |
L | . |
O | |
C | |
0.5 + +
| |
DFBETA1 | . |
| |
D | |
f 0.0 + . +
b | . |
e | . . . . |
t | . |
a | |
-0.5 + +
--+------------------------+------------------------+--
0 5 10
Case Number INDEX
-+------------------------+------------------------+--
C 1.5 + +
I | |
| . |
D | |
i | |
s 1.0 + +
p | |
l C | |
a | |
c | |
e 0.5 + . +
m | |
e | . |
n | . |
t | . . . |
0.0 + . . +
-+------------------------+------------------------+--
0 5 10
Case Number INDEX
-+------------------------+------------------------+--
C 1.5 + +
I | |
| |
D | |
i | |
s 1.0 + . +
p | |
l CBAR | |
a | |
c | |
e 0.5 + +
m | . |
e | |
n | . . |
t | . . |
0.0 + . . . +
-+------------------------+------------------------+--
0 5 10
Case Number INDEX
-+------------------------+------------------------+--
DIFDEV | |
D 4 + . +
e | |
l | |
t | |
a | |
| |
D | . |
e 2 + +
v | |
i | . |
a | . |
n | |
c | . . |
e | . . |
0 + . +
-+------------------------+------------------------+--
0 5 10
Case Number INDEX
-+------------------------+------------------------+--
D 6 + +
e | |
l | |
t | |
a | . |
4 + +
C | |
h DIFCHISQ | |
i | |
S | |
q 2 + . +
u | |
a | . |
r | . |
e | . . |
0 + . . . +
-+------------------------+------------------------+--
0 5 10
Case Number INDEX
Capı́tulo 14
Regresión Logı́stica
Multinomial
14.1. Extensión del Modelo Lineal Logit a

datos Policótomos
Suponiendo que la respuesta tiene m categorias denotemos por πij la pro-
babilidad de que la i-ésima observacion caiga en la j-ésima categoria de
la respuesta, esto es,
πij = P (Yi = jXi )
la función logı́stica multivariada
exp(xTi γj )
πij = Pm T
l=1 exp(xi γl )
donde xi es un vector de regresores para la i-ésima observación

γj es un vector de parámetros para la j-ésima categoria de la variable
dependiente.
Pm
Ya que j=1 πij = 1 necesitamos imponer restricciones en los γj para
Pm
definirlos de manera única, por ejemplo, j=1 γj = 0.
Para ajustar el modelo podemos usar el método de máxima verosimilitud.
Notemos que cada Yi toma valores posibles de 1, 2, ..., m con probabilidades
πi1 , πi2 , ..., πim . Defina las variables indicadoras Wi1 , Wi2 , ..., Wim tal que

1 si Yi = j
Wij =
0 si Yi 6= j
253
254 CAPÍTULO 14. REGRESIÓN LOGÍSTICA MULTINOMIAL
Asi
m
w
Y
p(yi ) = πijij
j=1
Si las observaciones muestreadas son independientes, entonces la f.d.p.

conjunta esta dada por
n Y
m
w
Y
p(y1 , y2 , ..., yn ) = πijij
i=1 j=1
Usando el modelo
n Y
m wij
Y exp(xTi γj )
p (y1 , y2 , ..., yn X) = Pm T
i=1 j=1 l=1 exp(xi γl )
y
n X
m
( m
!)
X X
log (L(γ1 , γ2 , ..., γm )) = Wij xTi γj − log exp(xTi γl )
i=1 j=1 l=1
n X
m n m
!
X X X
= Wij xTi γj − log exp(xTi γl )
i=1 j=1 i=1 l=1
Diferenciando con respecto a los parámetros, y haciendo las derivadas

parciales iguales a cero, produce las ecuaciones estimadoras no lineales
m n
exp(xTi cj )
X X
Wij xi = Pm T
xi , j = 1, ..., m
i=1 i=1 l=1 exp(xi cl )
Estas
Pecuaciones pueden resolverse numéricamente sujetas a las restriccio-
m
nes j=1 cj = 0.
Ejemplo 14.1 Escolaridad de la mujer en matrimonios Para estu-

diar la relación entre la escolaridad de la mujer asociado con la escolaridad
del hombre y el proveedor del hogar consideremos la siguiente tabla:
Nivel Educativo
Hombre
Mujer 1 2 3
1 17 5 0
2 8 32 24
3 3 15 45
La librerı́a nnet nos permite estimar un modelo multinomial utilizando

redes neuronales.
14.2. MODELO DE ODDS PROPORCIONALES 255
parejas<-read.table(’c:/parejas.txt’,header=T)
escolmuj<-parejas[,9]
escolhom<-parejas[,4]
library(nnet)
> summary(multinom(escolmuj~escolhom))
# weights: 9 (4 variable)
initial value 163.693231
iter 10 value 116.717807
final value 116.716096
converged
Call:
multinom(formula = escolmuj ~ escolhom)
Coefficients:
(Intercept) escolhom
2 -3.223631 2.568471
3 -5.963363 3.668512
Std. Errors:
(Intercept) escolhom
2 0.8547668 0.5587736
3 1.0983385 0.6229113
Residual Deviance: 233.4322

AIC: 241.4322
Correlation of Coefficients:
2:(Intercept) 2:escolhom 3:(Intercept)
2:escolhom -0.9306203
3:(Intercept) 0.6798904 -0.6883345
3:escolhom -0.7642459 0.8631553 -0.9268761
>
14.2. Modelo de Odds Proporcionales

En muchos casos la variable respuesta multinomial presenta una estructu-
ra ordinal. Asumiendo que una variable explicativa está relacionada linea-
mente con con el log de los odds de algún evento, entonces la ordinalidad
de la respuesta implca que los eventos de interés tienen una estructura
ordinal. Si para los diferentes valores o niveles de la variable explicativa
las probabilidades estimadas de eventos adyacentes no son muy diferentes,
entonces esto nos indica que estos eventos se deben combinar para formar
uno solo (Harrel,Jr., 2001).

El modelo multinomial de odds proporcionales (OP) para una respuesta
con niveles 0, 1, 2, · · · , k (0 es la categorı́a de referencia) es
1
P (Y ≤ j | X) =
1 + exp [− (αj + Xβ)]
donde j = 1, 2, · · · , k. Hay k interceptos.
Ejemplo 14.2 Escolaridad de la mujer en matrimonios Para estu-

diar la relación entre la escolaridad de la mujer asociado con la escolaridad
del hombre y el proveedor del hogar consideremos la siguiente tabla:
Escolaridad Escolaridad Ingreso

Mujer Hombre Mujer Hombre
1 1 1 4 13
2 1 2 0 5
3 1 3 0 0
4 2 1 0 8
5 2 2 2 30
6 2 3 0 24
7 3 1 0 3
8 3 2 1 14
9 3 3 1 44
> parejas<-read.table(’c:/parejas.txt’,header=T)
> library(MASS)
> escolmuj<-parejas[,9]
> escolhom<-parejas[,4]
>inghom<-parejas[,5]
> summary(polr(as.factor(escolmuj)~as.factor(escolhom)+as.factor(inghom)))
Re-fitting to get Hessian
Call:
polr(formula = as.factor(escolmuj) ~ as.factor(escolhom) + as.factor(inghom))
Coefficients:
Value Std. Error t value
as.factor(escolhom)2 2.4188099 0.5493499 4.4030410
as.factor(inghom)1 0.5897497 0.7702928 0.7656176
Intercepts:
14.2. MODELO DE ODDS PROPORCIONALES 257

1|2 0.8077 0.7754 1.0416
2|3 3.8512 0.8660 4.4472

AIC: 248.0343
> summary(polr(as.factor(escolmuj)~as.factor(escolhom)))
Call:
polr(formula = as.factor(escolmuj) ~ as.factor(escolhom))
Coefficients:
Intercepts:
1|2 0.3025 0.3936 0.7686
2|3 3.3397 0.5341 6.2526

AIC: 246.638
>
> summary(polr(as.factor(escolmuj)~as.factor(inghom)))
Call:
polr(formula = as.factor(escolmuj) ~ as.factor(inghom))
Coefficients:
as.factor(inghom)1 1.567863 0.7447047 2.105349
Intercepts:
1|2 -0.2983 0.7192 -0.4147
2|3 1.8223 0.7392 2.4650

AIC: 302.3358
>
Parte VI
Anexos
259
Capı́tulo 15
Resultados Asintóticos
15.1. Distribuciones Muestrales de los MLE

Asumamos que la función de log-verosimilitud tiene un único máximo en
βb y que este estimador esta cercano al verdadero β.
La aproximación de Taylor de primer orden del vector Score U (β) alre-
dedor del punto β =βb es

U (β) ' U βb +H βb β−βb

donde H βb es la matriz de segundas derivadas de la función log-verosimilitud
evaluada en β =β. b Asintóticamente H es igual al valor esperado que
está relacionado con la matriz de información
h i
J = E UUT = E [−H]
para muestras grandes

U (β) ' U βb − J β−βb
pero
U βb = 0
esto ya que βb es el punto en el cual la función de log-verosimilitud es

máximo y sus derivadas son cero. Por lo tanto, aproximadamente

βb − β ≈ J −1 U
261
262 CAPÍTULO 15. RESULTADOS ASINTÓTICOS
asumiendo que la inversa exista.

Si J se asume como constante, entonces

E βb − β ≈ J −1 E (U) = 0
asi
E βb = β
(lo anterior se cunple asintóticamente).

La dispersión de βb
T h i
E βb − β βb − β ≈ J −1 E UUT J −1 = J −1
ya que h i
J = E UUT
y
T
J −1 = J −1
ya que J es simétrica.
Asi, para muestras grandes
T
βb − β J βb − β ∼ χ2p
Este último es llama el Estadı́stico de WALD. Equivalentemente

βb − β N 0, J −1

cuando n → ∞.
15.2. Modelos Loglineales

Para la distribución de Poisson con frecuencias de celda y1 , ..., yN y para-
metros λ1 , ..., λN la esperanza por celda E[yi ] = λi .
Para la distribución multinomial las frecuencias de celda y1 , ..., yN , con
probabilidades θ1 , ..., θN con
N
X
θi = 1
i=1
y frecuencia total
N
X
yi = n
i=1
15.2. MODELOS LOGLINEALES 263
valor esperado
E[yi ] = nθi i = 1, ..., N
Para la distribución producto multinomial las frecuencias esperadas son
E[yjk ] = yj. θjk
Para tablas de contingencia bidimensionales, una hipótesis es que las filas

y las columnas son independientes, es decir
θjk = θj. θ.k
entonces
E[yjk ] = nθj. θ.k (∗)
Para tablas con total de fila fijo yj.
θjk = θ.k ∀j
para la anterior expresión las probabilidades de celda son iguales en todas

las celdas(hipótesis de homogeneidad).
Los valores esperados son
E[yjk ] = yj. θ.k
esto sugiere que para los GLM el logaritmo es la función link natural entre
E[yi ] y una combinación lineal de parámetros
yi = log E[yi ] = XTi β i = 1, ..., N
de esta expresión se intuye el porque del nombre de log-lineal.

(*) se puede expresar como
yij = log E[yjk ] = µ + αj + βk
y el correspondiente modelo maximal E[yjk ] = nθjk puede escribirse como
yjk = log E[yjk ] = µ + αj + βk + (αβ)jk
La hipótesis de independencia es equivalente a la hipótesis de no interac-

ción, es decir
θjk = θj. θ.k ∀jk ≡ (αβ)jk = 0 ∀jk
Existen (J − 1)(K − 1) parámetros independientes.

15.3. Modelos de Independencia para tablas

Bidimensionales
Estos modelos se pueden resumir con la siguiente tabla
Modelos loglineales para tablas de

contingencia bidimensionales
Modelo Dist. Dist. Dist. producto
Log-lineal Poisson multinom. multinom. con yj. fijo
Mod. maximal E[yjk ] = λjk E[y
P jkP] = nθjk con E[y
P jk ] = yj. θjk con
µ + αj + βk + (αβ)jk j k θjk = 1 k θjk = 1 j = 1, .., J
µ + αj + βk con Hipótesis Hipótesis Hipótesis de
J +K =1 Independ. Independ. Homogeneidad
parámetros indep. E[yjk ] = λj λk E[y
P jk ] = nθ Pj. θ.k con E[y
P jk ] = yj. θ.k con
j θ j. = k θ.k = 1 k θ.k = 1
Términos que deben µ + αj
incluirse en cualquier µ ya que n es fijo ya que
modelo log-lineal yj. es fijo
Ejemplo
: Asociación entre el tumor y el lugar.
Ho : E[yjk ] = nθj. θ.k

X
θj. = 1
j
X
θ.k = 1
k
el correspondiente modelo loglineal es
ηjk = log E[yjk ] = µ + αj + βk
sujeto a X X
αj = βk = 1
j k
o
α1 = 0 y β1 = 0
Hay J = 4 tumores y K = 3 lugares, ademas hay
1 + (J − 1) + (K − 1) = J + K − 1 = 6
15.4. TABLAS DE CONTINGENCIA Y MODELOS LOGLINEALES 265
pendientes a ser estimadas.

este modelo es comparado (implicitamente) al modelo maximal
ηjk = µ + αj + βk + (αβ)jk
el modelo maximal tiene p = 12 parámetros, ası́ que
ηbjk = log yjk
y
D=0
si Ho es correcto, se tiene que
D ∼ χ2N −p
con N = 12 y p = 6.
Para este problema
X σ
D=2 σ log = 51,795
e
y como
P χ26 > 50 < 0,001

por lo tanto rechazamos Ho .
15.4. Tablas de Contingencia y Modelos Lo-

glineales
La variable respuesta y las explicativas son de tipo categórico. Las obser-
vaciones consisten de conteos de frecuencias. Una tabla de contingencia es
la tabla que se forma al cruzar las diversas variables.
Ejemplo
: Muestra de gente con cancer en la piel

SITIO
TIPO DE TUMOR cabeza y nuca Tronco Extremidades TOTAL
Tipo melomático de Hutkinson 22 2 10 34
Superficial 16 54 115 185
Nodular 19 33 73 125
Indeterminado 11 17 28 56
TOTAL 68 106 226 400
Ejemplo
: Ensayos de vacunas para la gripa.

RESPUESTA
TIPO DE TUMOR Leve Moderada Grande TOTAL
Placebo 25 8 5 38
Vacuna 6 18 11 35
TOTAL 31 26 16 73
Respuesta : Niveles de HIA (Anticuerpo inhibidor hemoglutinin)
Ejemplo
: Relación entre uso de aspirina y úlcera

USO DE ASPIRINA
TIPO DE ULCERA No usa Usa TOTAL
GASTRICA
Casos 39 25 64
Controles 62 6 68
DUODENAL
Casos 49 8 57
Controles 53 8 61
TOTAL 203 47 250
NOTACION PARA TABLAS BIDIMENSIONALES
B1 ··· BK TOTAL
A1 y11 ··· y1k y1.
A2 y21 ··· y2k y2.
.. .. .. ..
. . . .
AJ yj1 ··· yj1 yj.
TOTAL y,1 ··· y.j n = y..
Si las yjk son Poisson con λjk ≥ 0 e independientes
J Y
k y
Y λjkjk e−λjk
f (y; λ) =
j=1 k=1
yjk !
Si hay restricción en los yjk ’s, por ejemplo, n fijo, de la propiedad aditiva
n ∼ P oisson(λ..)
XX
λ.. = λjk
J Y
K y
Y λjkjk e−λjk
f (Y | n) = λn −λ..
.. e
j=1 k=1 n!
 
J Y
K y
Y θjkjk λjk
= n  donde θjk = (∗)
j=1 k=1
yjk ! λ..
QJ QK QJ QK
ya que λn.. = j=1 k=1 λy..jk y e−λ = j=1 k=1 e−λjk . A (∗) la llama-
remos Distribución multinomial.
Otra forma de restricción es para tablas en las cuales los totales de fila
o de columna, en lugar del total, son fijos. En esta caso la distribución
de probabilidades para cada fila (o columna) es multinomial; por ejemplo,
para la j − ésima fila con total de fila fijo yj. la distribución es
k y
Y θjkjk
f (yj1 , ..., yjk | yj. ) = yj. !
yjk !
k=1
donde X
θjk = 1
k
las filas se asumen independientes
J k y
Y Y θjkjk
f (y | yj. , j = 1, ..., J) = yj. (∗∗)
j=1
yjk !
k=1
donde X
θjk = 1 ∀j
k
A (∗∗) la llamaremos Distribución Producto Multinomial
Ejemplo
: Para la normal con varianza σ 2 , los estadı́sticos de razón de verosimi-

litud dependen de σ 2 y no pueden calcularse directamente de los valores
ajustados. Esta dificultad se evita procediendo de la manera siguiente :
Sea
µ
bi (0) valores ajustados bajo Ho
µ
bi (1) valores ajustados bajo H1
1 X 2
Do = [yi − µ
bi (0)]
σ2 i
1 X 2
D1 = [yi − µ
bi (1)]
σ2 i
si Ho es correcto
D1 ∼ χ2n−p
si H1 es correcto
Do ∼ χ2n−q
∆D = Do − D1 ∼ χ2p−q
si Ho no es cierto ∆D se distribuira como una χ2 no central. Para estimar

a σ 2 usamos
Do −D1
p−q
F = D1
∼ Fp−q,n−p
n−p
Distribución muestral para el estadı́stico de log-verosimilitud
b y) ≈ `(β;
`(β; b y) + (β − β) b + 1 (β − β)
b T U (β) b T H(β)(β
b − β)
b (∗)
2
donde
∂`
U (β)
b : Vector de Scores, que se obtiene de evaluada en ∼β
c
∂βj
∂2`
H(β)
b : Matriz de segundas derivadas evaluada en βb
∂βj ∂βk
De la definición de βb se tiene que U (β)

b =0
También para muestras grandes H(β) b puede aproximarse por medio de la
matriz de información J = E[−H].
Ası́(∗) puede reordenarse para obtener
T
b y = 1 β − βb J(β)

` β;b y − ` β; b β − βb
2
como tenemos que
T
b β − βb ∼a χ2
β − βb J(β) p
entonces h i
b y ∼a χ2
b y − ` β;
2 ` β; p
15.4.1. Estadı́stico de la razón de verosimilitud (De-

viance)
.
Este estadı́stico se define como
h i
D = 2 log λ = 2 ` βbmáx ; y − ` β; by
nh i h i o
D = 2 ` βbmáx ; y − ` (β; y) − ` β; b y − ` (β; y) + [` (βmáx ; y) − ` (β; y)]
en la parte derecha de la anterior igualdad el primer término se distribuye

como una χ2n , el segundo término como una χ2p y el tercer término es muy
cercano a cero si el modelo es muy bueno; entonces podemos decir que
D ∼ χ2n−p (si las 2 primeras componentes son independientes y la tercera es cero) (∗∗)
15.4.2. El método de Newton-Raphson

a) Comience con un valor inicial bo (usualmente bo = 0)
b) En cada iteración ` + 1 calcule los nuevos estimadores
b`+1 = b` + (X T V` X)−1 X T (y − p` )
donde
1
p` =
1 + exp(−XT
i bi )
y
p` i
V` = diag
1 − p` i

c) Continue las iteraciones hasta que b`+1 ≈ b`.

Note que la convergencia tiene lugar cuando
(X T V` X)−1 X T (y − p` ) ≈ 0
y asi
XT y = XT p
que llamaremos ecuaciónes estimadoras son aproximadamente satis-

fechas.
El trabajo con datos categóricos está sustentado en gran parte por resul-
tados asintóticos a pesar de que en los últimos tiempos se ha logrado un
gran avance en métodos exactos.
de Inferencia
Para tablas de contingencia el proceso de estimación de modelos loglineales

opera ası́(realmente opera para otro tipo de modelos también): Se asume
un modelo teórico válido, por ejemplo el modelo de independencia, y bajo
este modelo se trata de encontrar un conjunto de valores, estimadores,
que reproduzcan la tabla lo más cercano posible a la observada. Entre los
métodos más utilizados tenemos:
Estimación de máxima verosimilitud MLE.

Mı́nimo χ2 MCE.
Mı́nimo χ2 modificado MMCE.
Estimación por mı́nimos cuadrados ponderados WLSE.
Estimación por mı́nima discrimación por información MDIE.
Estimación Bayesiana.
15.5. Elementos Básicos de Inferencia

15.5.1. Teorema de Rao-Blackwell
Sea X1 , ..., Xn con función densidad de probabilidad conjunta f (x1 , ..., xn | θ) ,
y sea S = (s1 , ..., sk ) un vector de estadı́sticos conjuntamente suficientes
para θ. Si T es cualquier estimador insesgado de J (θ) , y si T ∗ = E [T | S],
entonces
1) T ∗ es un estimador insesgado de J (θ)
2) T ∗ es una función de S y
3) var (T ∗ ) ≤ var (T ) para todo θ, y var (T ∗ ) < var (T ) para algún θ a
menos P (T = T ∗ ) = 1.
prueba
Por suficiencia fT /S (t) no involucra a θ, asi
t∗ (S) = E (T | S)
no depende de θ. Asi
T ∗ = t∗ (S) = E (T | S)
es un estimador que es una función de S, y además,
E [T ∗ ] = ES [T ∗ ]
= ES [E (T | S)]
= E [T ]
= J (θ)
15.5. ELEMENTOS BÁSICOS DE INFERENCIA 271
para lo anterior recuerde que
E [E (Y | X)] = E (Y )
ahora
var (T ) = var [E (T | S)] + E [var (T | S)]

≥ var [E (T | S)]
= var (T ∗ )
para lo anterior recuerde que
var (Y ) = EX [var (Y | X)] + varX [E (Y | X)]
Se tiene la igualdad
var (T ) = var (T ∗ )
si y solo si
E [var (T | S)] = 0
que ocurre si y solo si

var (T | S) = 0
con probabilidad uno, o si
T = E [T | S] = T ∗
Definicion
Una familia de funciones densidad de probabilidad
{fT (t; θ) : θ ∈ Θ}
se dice completa si E [µ (T )] = 0 para todo θ ∈ Θ entonces µ (t) = 0 con

probabilidad uno para todo θ ∈ Θ.
15.5.2. Teorema de Lehmann-Scheffé

Sea X1 , ..., Xn con función densidad de probabilidad conjunta f (x1 , ..., xn ; θ)
y sea S un vector de estadı́sticos suficiente y completo para θ. Si T ∗ =
t∗ (S) es un estadı́stico insesgado para J (θ) y una función de S, entonces
T ∗ es un estimador uniformemente insesgado de varianza mı́nima de J (θ)
(UMVUE).
Prueba
Por completez de cualquier estadı́stico que sea función de S y un estimador
insesgado de J (θ) debe ser igual a T ∗ con probabilidad 1.
Si T es cualquier otro estadı́stico que es insesgado para J (θ) entonces por

Rao-Blackwell
E [T | S]
tambien es insesgado para J (θ) y una función de S, asi por unicidad
T ∗ = E [T | S]
con probabilidad uno. Además
var (T ∗ ) ≤ var (T ) ∀θ
asi T ∗ es un UMVUE de J (θ) .

Definición, Clase exponencial
Una función se dice que es un miembro de la clase exponencial regular
(CER) si puede expresarse de la forma
( P
k
c (θ) h (x) exp q
j=1 j (θ) t j (x) x∈A
f (x; θ) =
0 enotrocaso
donde θ = (θ1 , ..., θk ) es un vector de parámetros desconocidos. Si el espacio

paramétrico tiene la forma
Θ = {θ : ai ≤ bi i = 1, ..., k}
(en el anterior conjunto ai = −∞ y bi = ∞ son valores paramétricos) y si

se satisfacen las siguientes condiciones de regularidad:
1) El conjunto
A = {x : f (x; θ) > 0}
no depende de θ.
2) Las funciones qj (θ) son no triviales, funcionalmente independientes y
continuas de las θi .
0
3) a) Para una variable aleatoria continua, las derivadas tj (x) son funcio-
nes de x continuas linealmente independientes en A.
b) Para una variable aleatoria discreta, las tj (x) son funciones no triviales
de x en A, y ningunas son funciones lineales de las otras.
TEOREMA
Si X1 , ..., Xn es una m.a de un miembro de una CER, entonces los es-
tadı́sticos
n
X n
X
S1 = t1 (xi ) , ..., Sk = tk (xi )
i=1 i=1
son un conjunto minimal de estadı́sticos suficientes y completos para θ1 , ..., θk .

Ejemplo
Sea X ∼ binomial (1, p)
1−x
f (x, p) = px (1 − p)

p
= (1 − p) exp x ln x ∈ A = {0, 1}
1−p
que es con
p
q1 (p) =
1−p
t1 (x) = x
si tenemos una muestra aleatoria X1 , ..., Xn
t (xi ) = xi
Xn
S = xi
i=1
S es un estadı́stico suficiente y completo para p. Si deseamos un UMVUE

de var (x) = p (1 − p) podemos tratar X 1 − X
h 2i
E X 1−X = E X −E X
= p − p2 + var X

p (1 − p)
= p − p2 −
n
1
= p (1 − p) 1 −
n
asi
n
E X 1−X = p (1 − p)
n−1
y este es el UMVUE de p (1 − p) .
15.5.3. Pruebas de Hipótesis

Sean X1 , ..., Xn con f.dpc y sea C la region crı́tica; la función de potencia
que corresponde a C es
πC (θ) = P [(x1 , ..., xn ) ∈ C | θ]
Definición
Una prueba Ho : θ = θo vs Ha : θ = θ1 basada en la región crı́tica C ∗ se

dice que es una prueba mas poderosa de tamaño α si
1) πC ∗ (θo ) = α y
b) πC ∗ (θ1 ) ≥ πC (θ1 ) para cualquier otra región critica de tamaño α
15.5.4. Lema de Neyman-Pearson

f (x1 ,...,xn ;θo )
Sea X1 , ..., Xn con f (x1 , ..., xn ; θ) . Sea λ (x1 , ..., xn ; θo , θ1 ) = f (x1 ,...,xn ;θ1 )
y sea
C ∗ = {(x1 , ..., xn ) : λ (x1 , ..., xn ; θo , θ1 ) ≤ k}
donde k es una constante tal que
P [(x1 , ..., xn ) ∈ C ∗ | θo ] = α
entonces C ∗ es la región critica de tamaño α mas potente para probar

Ho : θ = θo vs Ha : θ = θ1 .
Ejemplo
H o : π = πo
H a : π = π1 > π o
S ∼ binomial (n, π)
n−s
nsπoS (1 − πo )
λ= n−s ≤k
nsπ1S (1 − π1 )
S
{}πo (1 − π1 )π1 (1 − πo ) ≤ k1
o
S ln{}πo (1 − π1 )π1 (1 − πo ) ≤ ln k1
rechace Ho si s ≥ k2
P [S ≥ i | π = πo ] = 1 − B (i − 1; n, πo ) = αi
asi para enteros i = 1, ..., n pruebas exactas mas poderosas se logran para
rechazar Ho si s ≥ i.
Definición
Sea X1 , ..., Xn con fdpc f (x1 , ..., xn ; θ) para θ ∈ Θ, y considere hipotesis
de la forma
Ho : θ ∈ Θo
Ha : θ ∈ Θ − Θo
donde Θo ⊂ Θ. Una región critica C ∗ y la prueba asociada, se dice que

son uniformemente mas potentes de tamaño α (UMP) si
máx πC ∗ (θ) = α
θ∈Θo
y
πC ∗ (θ) ≥ πC (θ)
para todo θ ∈ Θ − Θo y todas las regiones criticas C de tamaño α.

Teorema
Sea X1 , ..., Xn tiene fdpc de la forma
f (x; θ) = C (θ) h (x) exp (q (θ) t (x))
donde q (θ) es una función creciente de θ

1) Una prueba UMP de tamaño α para
Ho : θ ≤ θo
Ha : θ > θo
se rechaza Ho si t (x) ≥ k, donde P [t (x) ≥ k | θo ] = α

2) Una prueba UMP de tamaño α para Ho : θ ≥ θo vs H1 : θ < θo es
rechazar Ho si
t (x) ≤ k
donde
P [t (x) ≤ k | θo ] = α
15.5.5. Pruebas Condicionales

Algunas veces es posible eliminar parámetros ”nuisance” y obtener pruebas
exactas de tamaño α considerando test basados en variables condicionales.
θ : parametronuisance
S : estadı́sticosuf icienteparaθ
la distribución de X | S no depende de θ.
Ejemplo
X ∼ binomial (n1 , π1 )
Y ∼ binomial (n2 , π2 )
donde X y Y son independientes.
Ho : π1 = π2 = π
Ha : π1 < π2
bajo Ho , la fdpc es X y Y es
n1 +n2 −(x+y)
f (x, y) = n1 xn2 yπ x+y (1 − π)
es claro que S = X + Y es suficiente para π.

Una prueba basada en (X, Y ) dado S = s ya que Y = S − X, es suficiente
una prueba basada en Y | S = s. Bajo Ho
S ∼ binomial (n1 + n2 , π)
fS,y (S, y)
fY /S (y) =
fS (S)
fX,Y (S − y, y)
=
fS (S)
n1 +n2 −S
n1 S − yn2 yπ S (1 − π)
= n1 +n2 −S
n1 + n2 Sπ S (1 − π)
n2 yn1 S − y
=
n1 + n2 S
donde
y = 0, ..., S
S = 0, ..., n1 + n2
observe que fY /S (y) es igual a una hipergeometrica que no involucra π.

Para Ha : π1 < π2 rechace Ho si y ≥ k (S) , o para una de tamaño α
rechace Ho si
s
X n2 in1 s − i
≤α
i=y
n1 + n 2 s
15.6. Estimación por el Método de Máxima

Verosimilitud
El método de estimación de máxima verosimilitud fue desarrollado por
Fisher y ha llegado a ser el más popular método de estimación, ya que po-
see ventajas teóricas y prácticas que lo aventajan sobre los otros métodos1
1 En el Apéndice B mostramos una de las propiedades más importantes de los estimadores
de máxima verosimilitud como es la normalidad asintótica

15.6. ESTIMACIÓN POR EL MÉTODO DE MÁXIMA VEROSIMILITUD277
(Serfling, 1980). Supongamos que p(y; θ) es la ley de probabilidad de Y,

y θ ∈ Θ. La función de verosimilitud de θ dado y es L(θ; y) ∝ p(y; θ). Un
estimador de máxima verosimilitud, si existe, esta definido por la relación
L(θ;
b y) = sup L(θ, y).
θ∈Θ
Si p(y; θ) es diferenciable y Θ es un conjunto abierto, entonces θb es una

solución a las ecuaciones
∂L
=0
∂θ
o equivalentemente a las ecuaciones de verosimilitud
∂ log L
=0
∂θ
asumiendo θ que caiga en Θ.
Si YT es una muestra (XT1 , XT2 , ..., XTN ) de tamaño N, donde las XT1 0 s son
i.i.d. con ley f (x; θ) entonces
N
Y
p(y; θ) = f (xl ; θ)
l=1
Si θbN es el EMV se puede mostrar bajo algunas condiciones de regularidad

que
√ L
N (θbN −θ) → Nm 0, I−1 (θ)

, cuando N → ∞,
donde m es la dimensión de Θ y I(θ) = (ijk (θ)) es la matriz de información

de Fisher, esto es,
∂ 2 log f (X; θ)

ijk (θ) = −E
∂θj ∂θk
Más generalmente, supongamos que YT contiene muestras aleatorias (XT1j , XT2j , ..., XTnj j )
de tamaño nj , donde los XTlj0 s, l = 1, ..., nj son i.i.d., con densidad fj (x; θ),
j = 1, 2, ..., s. Entonces
nj
s Y
Y
p(y; θ) = f (xlj ; θ),
j=1 l=1
s
X nj
N = nj y → λj > 0 cuando N → ∞
j=1
N
I(θ) = (ikk0 (θ))

Con
s
∂ 2 log f (X; θ)
X
ikk0 (θ) = − λj E
j=1
∂θk ∂θk0
Ası́
s
X
I(θ) = λj Ij (θ)
j=1
donde Ij (θ) es la matriz de información de la j-ésima población.
15.6.1. Distribución Multinomial MN(N, π)

Definición: Decimos que un modelo es un modelo no restringido si no se
imponen restricciones adicionales sobre π, más allá de la restricción básica
R
X
πi = 1
i=1
Considere
R∗ = R−1
 
π1
 π2 
π∗ =  .
 
 ..


πR−1
Entonces π̂i = nNi = pi , i = 1, 2, · · · , R−1 son los EMV de πi. Tenemos

entonces que π̂∗ es el EMV de π∗ . Haciendo
R−1
X nR
π̂ = 1 − π̂i = = pR
i=1
N
π̂ es el EMV sin restricción de π.

( R−1
)
X
Π∗ = Θ∗ = π∗ : 0 < πi < 1, i = 1, 2, · · · , R − 1, πi < 1
i=1
( R
)
X
Θ = π: 0 < πi < 1, i = 1, 2, · · · , R, πi = 1
i=1
El modelo, digamos M, puede ser restringido en el sentido que algunas res-

tricciones adicionales se impongan a π. Supongamos que se ha especificado
a πi como una función conocida del parámetro desconocido β,
πi = πi (β), i = 1, 2, · · · , R
ó
π = π(β)
Estas relaciones se asumen consistentes,

R
X
πi (β) = 1
i=1
Ası́, la ley de probabilidad de la tabla es

N!
P [N = n; β] = π1 (β)n1 π2 (β)n2 · · · πR (β)nR
n1 !n2 ! · · · nR !
Si β̂ es el EMV de β entonces π̂M = π(β̂) es el EMV de π bajo M.

El modelo restringido M puede expresarse alternamente en términos de
ecuaciones restringidas de las π, digamos
f (π) = 0
de tal forma que se puede eliminar β.

Si el número de β’s independientes es m, entonces el número de parámetros
independientes, digamos u, está dado por
u = (R − 1) − m = R∗ − m
π̂M puede obtenerse directamente, sin obtener β̂, maximizando la función

log-verosimilitud sujeto a las restricciones, con multiplicadores de Lagran-
ge.
M : π= π(β), ecuaciones libres de especificaciones

M : f (π) = 0, ecuaciones con especificaciones
Ejemplo
πij = πi+ π+j o

X X
πij = ξi ηj ξi = ηj = 1
i j
estas son ecuaciones libres de especificación

πij πrc
ln = 0 → ecuación con especificación de restricción
πic πrj
πij = πi+ π+j ⇔ πij − πi+ π+j = 0 i = 1, ..., r − 1, j = 1, ..., c − 1
tenemos
R = rc
M = (r − 1) + (c − 1)
µ = (R − 1) − M = (r − 1)(c − 1)
P (y; θ) : ley de probabilidad de y, θ ∈ Θ
La función de verosimilitud de θ dado y es
L(θ; y)αP (y; θ)
Una estimada de MV, si existe, esta definida por la relación
L(θ;
b y) = sup L(θ; y)
mathbf θ∈Θ
Si P (y; θ) es diferenciable en θ, y Θ es un conjunto abierto, entonces θb es

una estimación a las ecuaciones
∂L
=0
∂θ
O equivalentemente a las ecuaciones de verosimilitud
∂ ln L(θ; y)
=0
∂θ
asumiendo que θb caiga en Θ.

Si Y0 es una muestra (X01 , X02 , ..., X0N ) de tamaño N , donde los X0` son
i.i.d con ley f (X; θ) entonces
N
Y
P (y; θ) = f (X` ; θ)
`=1
si θbN es el EMV se puede demostrar bajo algunas condiciones de regula-

ridad que
√
N θbN − θ aNm 0, I−1 (θ) cuando N → ∞, m : dimensión de Θ

I(θ) = [ijk (θ)] →matriz de información de Fisher
∂ 2 ln f (X; θ)

ijk (θ) = −E
∂θj ∂θk
Mas generalmente, supongamos que Y0 contiene muestras aleatorias (X01j , X02j , ..., X0nj j )
de tamaño nj donde los X0`j ` = 1, ..., nj son i.i.d, con densidad fj (X; θ)
j = 1, 2, ..., s, entonces
nj
s Y
Y
P (y; θ) = fj (X`j ; θ)
j=1 `=1
s
X
N = nj (15.1)
j=1
nj
→ λj cuando N → ∞ (15.2)
N
I(θ) = [ikk0 (θ)]
s
∂ 2 ln fj (X; θ)
X
ikk0 (θ) = − λj E
j=1
∂θk ∂θk0
asi
s
X
I(θ) = λj Ij (θ)
j=1
donde
Ij : matriz de información para la j-ésima población
15.6.2. Distribución Producto Multinomial P M (n+ , π)
s
X
R= rj
j=1
donde rj : número de celdas de la j-ésima distribución multinomial y

R−s : número de parámetros independientes πij en el modelo sin restringir

con las restricciones básicas
rj
X
πij = 1 ∀ j = 1, ..., s
i=1
0
Si m es el número de β s independientes, entonces el número de restric-
ciones independientes f , digamos µ, está dado por
µ = r−s−m
= R∗ − m
Para el modelo de homogeneidad

πij − πic = 0 j = 1, ..., c − 1, i = 1, ..., r − 1 → ecuación de restricción
πij = θi j = 1, ..., c, i = 1, ..., r − 1

R = rc
s = c
m = r−1
µ = (R − s) − m
= (r − 1)(c − 1)
15.6.3. Distribución Producto Poisson P P (µ)
Ni ∼ P oisson(µi ) i = 1, ..., R Independientes
M :µ = µ(β) →Ecuaciones libres

f (µ) = 0 →Restricciones
Si βb es el EMV, entonces µ b es el EMV bajo M.

bM = µ(β)
m : número de variables independientes.
µ : número de restricciones independientes.
X X
λij = λξi ηj , ξi = ηj = 1
i j
m = 1 + (r − 1) + (c − 1)

λij λrc
log = 0
λic λrj
µ = R−m
= rc − m
= (r − 1)(c − 1)
15.7. APÉNDICE A: EJERCICIOS 283
15.7. Apéndice A: Ejercicios

Pregunta 1
Asumiendo una tabla I × J × K encuentre las condiciones de máxima
verosimilitud bajo el esquema multinomial para el siguiente modelo:
υijk = µ + λA B C AC
i + λj + λk + λik
Pregunta 2
Considere la siguiente tabla de frecuencias en una investigación sobre el
aborto. Las variables son: Sexo, Opinion y Edad.
SEXO OPINION EDAD

18-25 26-35 36+
Mujer A favor 140 130 45
No a favor 43 23 26
Hombre A favor 130 180 38
No a favor 13 35 30
Describa el algoritmo IPF para hallar los estimadores de máxima verosi-

militud para el modelo en el que no se considera interacción de segundo
orden. Encuentre los valores estimados para la tabla por el IPF y además
calcule el estadistico G2 para verificar si este modelo es adecuado.
Pregunta 1
a) ¿ Cuáles son las componentes básicas de un modelo lineal generalizado?
b) Describa el proceso de estimación de un modelo lineal generalizado por
máxima verosimilitud.
c) Pruebe que el valor esperado del score es 0.
Pregunta 2
(En esta pregunta ud. utiliza el SAS, recuerde que sólo tiene 10 minutos)
Se preguntó a 1000 conductores de ambos sexos, 500 mujeres y 500 hom-
bres, si alguna vez habian conducido embriagados. 420 respondieron afir-
mativamente, de las cuales 100 eran mujeres.
a) Estime un modelo logit para determinar si el sexo es una variable sig-
nificativa para explicar el comportamiento en el manejo de un carro bajo
influencia alcohólica.
b) Interprete los coeficientes del modelo.
c) Suponga que ud. hubiera obtenido de los resultados del computador
que ninguno de los coeficientes es significativo, ¿ qué estarı́a pasando?
Pregunta 3
Describa el procedimiento para estimar un modelo logit.¿ Cómo verificarı́a

la significancia de los coeficientes?
Pregunta 4
La distancia recorrida entre la aparición de una señal (por ejemplo encen-

der una luz, observar un triángulo de estacionamiento en una carretera) y
parar un automóvil a tiempo puede prestarse a colisión si el conductor va
rápido. Suponga que se observa la velocidad de 4 R-4 que transitan sobre
el sitio del experimento. Se ha colocado una valla de espuma y una luz
indicadora de peligro a 60 metros de la valla. Se obtuvieron los siguientes
resultados:
Auto # 1 2 3 4
Velocidad 45 55 60 30
Colisión Si No Si No
Aplique un modelo logit para estimar el cambio en los odds debido a la

velocidad. Solo calcule un paso en el proceso iterativo. Observe que
el intercepto puede no ser necesario, ¿ por qué ? Interprete el coeficiente
estimado.
15.8. Apéndice B: Datos
15.8.1. Datos sobre rendimiento académico
Las siguientes tablas provienen del estudio de Cabarcas y Sierra (1996)

sobre factores que afectan el rendimiento académico a los estudiantes de
la Universidad Nacional-Sede Medellı́n. Una de las limitantes en muchos
estudios es el tamano muestral. Usualmente es muy pequeno cuando se
quieren cruzar a la vez muchas variables de tipo categórico. Las variables
son
a) Rendimiento: El rendimiento se mide como el porcentaje de mate-

rias aprobadas con relación al número de materias registradas.
b) Sexo
c) Estrato : Hace referencia al estrato social de pertenencia del indivi-
duo.
d ) Trabaja : Esta variable nos indica si un estudiante trabaja o no.
e) Facultad : Facultad a la cual pertenece el estudiante
f ) Uso de la Biblioteca
15.8. APÉNDICE B: DATOS 285
TABLA 1
Estrato x Trabaja x Rendimiento
Estrato
1y2 3 4 5y 6
Trabaja ? No Si No Si No Si No Si
Rendi- Alto 5 1 18 14 16 13 6 3
mien- Medio 9 5 32 31 21 11 56 4
to Bajo 4 6 14 9 4 7 1 3
TABLA 2
Estrato x Facultad x Rendimiento
Estrato
1y2 3
Facultad Agro. Arq. Min. Agro. Arq. Min.
Rendi- Alto 0 2 4 9 9 14
mien- Medio 3 1 10 13 8 44
to Bajo 2 0 8 5 1 17
4 5y6
Facultad Agro. Arq. Min. Agro. Arq. Min.
Rendi- Alto 0 9 20 1 5 3
mien- Medio 1 6 25 2 0 8
to Bajo 2 0 9 0 0 4
TABLA 3
Trabaja x Uso de Biblioteca x Sexo x Rendimiento
No Usa la Usa la
Biblioteca Biblioteca
Hombre Mujer Hombre Mujer
No Rendi- Alto 4 2 23 16
Trabaja mien- Medio 1 4 33 30
to Bajo 2 1 10 10
Rendi- Alto 1 0 23 7
Trabaja mien- Medio 5 0 32 14
to Bajo 2 3 17 3
TABLA 4
Edad x Sexo x Rendimiento
Edad 1 2
Sexo Hombre Mujer Hombre Mujer
mien- Medio 1 4 33 30
to Bajo 2 1 10 10
Edad 3 4
mien- Medio 5 0 32 14
to Bajo 2 3 17 3
15.8.2. Datos sobre mortalidad en Antioquia

Los siguientes datos fueron tomados del Anuario Estadı́stico de An-
tioquia, 1994, Vol. I. Hacen referencia a muertes en el departamento
claificadas por EDAD, SEXO, REGION GEOGRAFICA y ZONA
(Urbana o rural).
TABLA 5
Sexo
Hombres Mujeres
Zona Cabecera Area Cabecera Area
Municipa Rural Municipa Rural
REGION EDAD
Valle de Aburra ¡1 año 349 12 285 12
de Aburrá 1-4 87 7 83 5
5-9 46 5 48 3
10-14 151 3 64 2
15-19 1496 31 154 2
20-24 1750 52 135 8
25-29 1381 30 148 8
30-34 1052 35 181 10
35-39 827 19 169 7
40-44 558 20 170 6
45-49 404 16 195 8
50-54 402 19 255 3
55-59 473 19 367 14
60-64 633 18 526 17
65 y más 2807 113 3375 85
Bajo Cauca ¡1 año 28 13 32 13
1-4 10 14 15 11
5-9 5 3 7 2
10-14 5 4 2 5
15-19 15 16 3 6
20-24 24 31 7 7
25-29 20 8 4 3
30-34 20 15 7 7
35-39 16 16 8 2
40-44 5 12 7 0
45-49 10 3 8 3
50-54 15 6 8 3
55-59 14 5 8 4
60-64 20 6 13 5
65 y más 65 39 64 19
Continuación TABLA 5
Sexo
Hombres Mujeres
REGION EDAD
Magdalena Medio ¡1 año 11 7 14 4
1-4 2 2 1 3
5-9 2 3 3 1
10-14 2 3 1 0
15-19 7 3 1 0
20-24 11 10 4 1
25-29 11 13 1 3
30-34 8 3 3 0
35-39 11 12 1 1
40-44 7 6 3 2
45-49 10 6 6 2
50-54 7 8 8 4
55-59 6 5 8 1
60-64 8 6 11 1
65 y más 66 20 52 15
Nordeste ¡1 año 17 19 17 21
1-4 5 15 11 14
5-9 1 9 1 3
10-14 4 6 2 4
15-19 27 16 2 2
20-24 46 40 5 3
25-29 32 27 3 6
30-34 32 19 6 6
35-39 22 14 6 4
40-44 13 10 6 3
45-49 15 10 5 6
50-54 20 8 8 10
55-59 10 9 9 4
60-64 35 16 19 7
65 y más 127 80 120 59
Sexo
Hombres Mujeres
REGION EDAD
Norte ¡1 año 27 38 10 23
1-4 4 22 4 13
5-9 0 8 2 2
10-14 6 9 2 4
15-19 15 25 4 5
20-24 38 51 4 5
25-29 25 37 6 11
30-34 20 24 5 6
35-39 16 15 9 5
40-44 17 10 4 6
45-49 9 16 8 15
50-54 15 17 10 9
55-59 16 12 16 17
60-64 26 23 29 18
65 y más 145 127 152 104
Occidente ¡1 año 9 31 16 10
1-4 4 5 7 12
5-9 7 2 2 2
10-14 6 2 2 2
15-19 10 15 6 5
20-24 25 26 3 0
25-29 13 17 1 3
30-34 10 19 9 6
35-39 9 12 4 5
40-44 10 17 4 5
45-49 9 20 3 5
50-54 9 13 2 7
55-59 7 13 10 8
60-64 11 15 11 7
65 y más 91 105 99 80
Sexo
Hombres Mujeres
REGION EDAD
Oriente ¡1 año 40 51 28 43
1-4 14 24 13 20
5-9 6 12 8 8
10-14 8 9 2 5
15-19 64 35 11 10
20-24 74 60 9 11
25-29 66 50 16 7
30-34 58 55 18 9
35-39 48 44 10 7
40-44 38 34 13 10
45-49 32 42 14 12
50-54 35 26 18 19
55-59 34 37 37 15
60-64 50 47 64 34
65 y más 365 220 398 186
Suroeste ¡1 año 33 32 26 33
1-4 10 19 7 22
5-9 5 10 3 7
10-14 6 14 1 7
15-19 35 42 4 4
20-24 50 47 6 11
25-29 38 56 7 5
30-34 33 44 6 17
35-39 33 42 5 13
40-44 22 33 16 11
45-49 29 29 16 20
50-54 17 31 24 16
55-59 28 31 28 24
60-64 45 46 35 37
65 y más 253 191 282 179
Sexo
Hombres Mujeres
REGION EDAD
Urabá ¡1 año 33 18 25 17
1-4 19 10 21 9
5-9 8 4 3 3
10-14 11 6 7 0
15-19 49 21 11 6
20-24 97 35 8 9
25-29 69 45 20 4
30-34 57 35 6 5
35-39 48 21 10 6
40-44 38 12 9 3
45-49 24 11 11 3
50-54 27 6 9 5
55-59 30 5 12 3
60-64 16 7 27 4
65 y más 98 37 66 23
15.8.3. Datos sobre las Elecciones de 1994
La siguiente tabla contiene la información aparecida en la revista

SEMANA de Junio 21, 1994, referente a los resultados electorales.
Las columnas corresponden a la siguiente información:
Columna 1: Departamento
Columna 2: Votacion por Pastrana en la vuelta 1
Columna 3: Votacion por Pastrana en la vuelta 2
Columna 4: Votacion por Samper en la vuelta 1
Columna 5: Votacion por Samper en la vuelta 2

Depto pastra1 pastra2 samper1 samper2

Bolivar 86622 119688 105765 154809
Sucre 48015 62462 71624 103262
Cordova 82964 107464 110336 150430
Antioquia 330056 471026 265900 367473
Choco 14479 14732 22806 24377
Caldas 121466 163767 94610 116313
Risaralda 71833 100269 60227 81547
Quindio 39879 53062 45341 54361
Valle 259855 361912 281145 387250
Cauca 54433 74218 47334 101895
Narino 102447 149368 81329 113255
Tolima 89610 123704 94133 144627
Putumayo 12918 17180 11360 15951
Huila 82336 111097 53783 80042
Caqueta 14752 21620 13329 22024
Amazonas 2609 3336 2995 4014
Bogota 383535 495498 419859 570209
Cundinamarca 142201 200386 134030 198230
San Andres 4078 5643 3827 6048
Atlantico 91898 133692 129838 192046
Magdalena 58336 84404 72092 107770
Guajira 23188 31531 24982 38534
Cesar 40239 59841 43511 70776
N. Santander 102276 135217 71744 98992
Santander 157154 207107 159312 226201
Boyaca 125593 166191 87411 131284
Arauca 6057 8132 10737 15377
Casanare 4411 5929 14926 23121
Vichada 1006 1282 2406 2936
Meta 35020 50066 39115 57093
Guainia 1085 1242 1488 1985
Guaviare 2436 3250 2839 3534
Vaupes 1043 1077 1726 2619
15.8.4. REGRESION POISSON
µy e−µ
Py (y; µ) = y = 0, 1, 2, ...
y!
considere x1 , ..., xk
Para el subgrupo i, i = 1, 2, ..., n sea yi : número observado de eventos
y sean
ì tiempo total para el grupo i.
15.9. APÉNDICE C: ESTIMACIÓN POR MÁXIMA VEROSIMILITUD 293
Pk
βo + βj xij
λ (Xi , β) : función de Xi y β e j=1 , donde β es la tasa
de falla del grupo i.
xi = (xi1 , ..., xi1 ) → grupo i
β = (β1 , ..., βk )
E [yi ] = µi = ì λ (xi , β) i = 1, ..., n
Yi es P oisson note que λ (xi , β) > 0
µy e−µi
Pyi (yi ; µi ) = i
yi ! i = 1, ..., n
[ì λ(Xi ,β)]yi e−ì λ(Xi ,β )
Pyi (yi ; µi ) = P1 (Yi = yi ; β) = yi ! yi = 0, 1, ...;
i = 1, 2, ..., n
n
Y
L (Y; β) = Pyi (yi ; β)
i=1
n y
[ì λ (Xi , β)] i e−ì λ(Xi ,β)
Y
=
i=1
yi !
Pn
{ i=1 [ì λ (Xi , β)] i } e− i=1 ì λ(Xi ,β)
Qn y
= Qn
i=1 yi !
donde
E[yi ] = µi = ì λ (Xi , β) i = 1, ..., n

∂ ln L (Y; β)
= 0 j = 0, 1, ..., k
∂βj
Xn Xn n
X
ln L (Y; β) = yi ln (ì λ (Xi , β)) − ìi λ (Xi , β) − ln yi !
i=1 i=1 i=1
15.9. Apéndice C: Estimación por Máxi-

ma Verosimilitud
Teorema: Sean X1 , X2 , ..., Xn una muestra aleatoria de tamaño n de
una población con función densidad de probabilidad fX (xθ), θ ∈ Ω.
Supongamos que las siguientes condiciones son satisfechas:
(i) El parámetro θ es un punto interior de algún intervalo no degene-
rado I ⊂ Ω.
∂ ∂2 ∂3
(ii) Las derivadas parciales ∂θ log fX (xθ), ∂θ 2 log fX (xθ), ∂θ 3 log fX (xθ)
existen para todo θ ∈ I y casi todo x.

(iii) Para todo θ ∈ I, tenemos

∂
log fX (xθ) < H1 (x)
∂θ
2
∂
∂θ
3
∂
∂θ
donde H1 , H2 son funciones integrables sobre el eje real (−∞, ∞) y

H3 satisface
Z ∞
H3 (x)fX (xθ) dx < M, donde M es independiente de θ
−∞
(iv) Para cada θ ∈ I

Z ∞ 2
∂
0< log fX (xθ) fX (xθ) dx < ∞
−∞ ∂θ
Entonces la ecuación
n
X ∂
log fXi (xi θ) = 0
i=1
∂θ
tiene una solución θbn (X1 , X2 , ...,

Xn ) que converge en probabilidad a
√
θ cuando n → ∞ y n θbn − θ es asintóticamente normal con media
0 y varianza
1
2 , cuando n → ∞
∂
E ∂θ log fX (xθ)
Prueba:
Sea x1 , x2 , ..., xn la realización de X1 , X2 , ..., Xn . Sea
n
X
L(θ) = log fX (xi θ)
i=1
Sea θ ∈ I el verdadero valor del parámetro desconocido θ. Ya que

log fX (xθ) tiene tres derivadas, expandiendo log fX (xθ) por medio
de series de Taylor en una vecindad de θo ∈ I tenemos,
∂ ∂ ∂2 (θ − θo )2 ∂ 3
log fX (xθ) = log fX (xθ) |θ=θo +(θ − θo ) 2 log fX (xθ) |θ=θo + lo
∂θ ∂θ ∂θ 2 ∂θ3
2 2
∂ ∂ (θ − θo )
= log fX (xθ) |θ=θo +(θ − θo ) 2 log fX (xθ) |θ=θo + νH3 (x
∂θ ∂θ 2
donde 0 < ξ < 1, |ν| < 1. Re-escribiendo
n
1X ∂
Bo = log fX (xθ) |θ=θo
n i=1 ∂θ
15.9. APÉNDICE C: ESTIMACIÓN POR MÁXIMA VEROSIMILITUD 295
n
1 X ∂2
B1 = log fX (xθ) |θ=θo (3.47)
n i=1 ∂θ2
n
1X
B2 = H3 (xi ) (3.48)
n i=1
De (3.46) y (3.47), la ecuación de verosimilitud puede escribirse como

n
1 X
nBo +nB1 (θ−θo )+ (θ−θo )2 νi H3 (xi ) = 0 donde |νi | < 1, i = 1, 2, ..., n (3.49)
2 i=1
Ya que |νi | < 1, tenemos

n
X
−nB2 ≤ νi H3 (xi ) ≤ nB2
i=1
Asi podemos escribir

n
X
νi H3 (xi ) = νnB2 , |ν| < 1
i=1
De la ecuación (3.49) tenemos

1
nBo +nB1 (θ−θo )+ (θ−θo )2 νnB2 = 0 (3.50)
2
Para probar la primera parte del teorema debemos establecer que la
ecuación (3.50) tiene una raiz entre (θo − δ, θo + δ) con probabili-
dad uno cuando n → ∞, sin importar que tan pequeno sea δ. Por
supuestos (ii) e (iii) tenemos
Z ∞
∂ ∂
E log fX (xθ) = fX (xθ) dx = 0
∂θ −∞ ∂θ
2 Z ∞ ( ∂2 ∂
2 )
∂ ∂θ 2 fX (xθ) ∂θ fX (xθ)
E log fX (xθ) = − 2 fX (xθ) dx
∂θ2 −∞ fX (xθ) (fX (xθ))
2
∂
= −E log fX (xθ)
∂θ
= −k 2 (θ)
donde k 2 (θ) es una designación arbitraria. Por la ley débil de los

grandes números tenemos
1. Bo P Eθo (Bo ) cuando n → ∞;
2. B1 P − k 2 (θ) cuando n → ∞;
3. B2 P Eθo (H3 (x)) ≤ M para todo θo cuando n → ∞.
Se sigue entonces que para δ > 0 y > 0 dados existe No (, δ) tal
que, para n ≥ No ,
1
P |Bo | ≥ δ 2

≤ t
3
1 1
P B1 ≥ − k 2 (θo ) ≤ t
2 3
1
P {|B2 | ≥ 2M } ≤ t
3
Defina el evento S de la siguiente forma

1
S = |Bo | < δ 2 ∩ B1 < − k 2 (θo ) − P {|B2 | < 2M }

2
Claramente, para todo n ≥ No tenemos

2
1 2
P (S) ≥ 1−P |Bo | ≥ δ −P B1 ≥ − k (θo ) −P {|B2 | ≥ 2M } ≥ 1−t
2
k2 (θo )
Sea δ = θ − θo . Asuma que S ha ocurrido y que |δ| < 2(M +1) .
Si δ > 0, la parte izquierda de la ecuación (3.50) es menor que

δ 1
δ 2 − k 2 (θo ) + M δ 2 = δ (M + 1)δ − k 2 (θo ) < 0
2 2
Si δ < 0, la parte izquierda de la ecuación (3.50) es mayor que

2 1 2 2 1 2
−δ + |δ| k (θo ) − M δ = − |δ| (M + 1) |δ| − k (θo ) > 0
2 2
Pn ∂
Asi si S ocurre, i=1 ∂θ log fXi (xi θ), una función continua de θ, es
positiva cuando θ = θo − δ y es negativa cuando θ = θo + δ. Luego si
S ocurre, existe una raiz θ(x
b 1 , ..., xn ) de la ecuación de verosimilitud
n
X ∂
log fXi (xi θ) = 0, en el intervalo (θo − δ, θo + δ)
i=1
∂θ
2
Escogiendo δ muy pequeno sujeto a |δ| < 2(Mk +1) , podemos hacer
P (S) cada vez mayor. Luego existe un estimador de máxima vero-
similitud consistente. Esto completa la prueba de la primera parte.
Sea θ(x
b 1 , ..., xn ) una raiz de la ecuación de verosimilitud
n
X ∂
log fXi (xi θ) = 0
i=1
∂θ
15.10. MÉTODOS DE ESTIMACIÓN 297
la existencia de la cual hemos establecido. De las ecuaciones (3.48) y

(3.50) obtenemos
√
√ − nBo
n(θ − θo ) =
B1 + 21 B2 (θ − θo )
Además, B1 + 12 B2 (θ−θo ) converge en probabilidad a −k 2 (θo ) cuando

n → ∞. Ahora
n
√ −1 X ∂
− nBo = √ log fXi (xi θ) |θ=θo
n i=1 ∂θ
Por
√ las ecuaciones (3.51) y (3.52) y el teorema Linderberg-Lévy,
− nBo está distribuido asintóticamente
√ normal con media 0 y va-
rianza k 2 (θo ) cuando n → ∞. Luego n(θ − θo ) está distribuida
−1
asintóticamente normal con media 0 y varianza k 2 (θo ) cuando
n → ∞.
15.10. Métodos de Estimación
15.11. Estimación por Mı́nimos Cuadra-

dos ponderados (WLSE)
Ejemplo:
(N, π)
z =bπ∗
 = π∗
Σ∗ (b
π∗ ) = Diag(b π∗ ) − πb∗ πb∗T
R∗ = R − 1
M∗ (b
π∗ ) = f∗ (b
π∗ )Σ∗ (bπ∗ )f∗T (b
π∗ )
Alternativamente podemos trabajar con π b y π completos, es decir

con dimensión R teniendo en cuenta la restricción básica
R
X
πi = 1
i=1
Además

f (π)
rank = µ + 1 ∀π ∈ Π
1T (µ+1)×R
1T = [1, 1, ..., 1]

∂fi (π)
f (π) =
∂πj µ×R
T
Σ(π) = Diag(π) − ππ
T T
f (π)Σ(π)f (π) = f ∗ (π ∗ )Σ∗ (π ∗ )f ∗ (π ∗ ) ∀π
T
S 2 (β,b
π) π ) − X(β)] M−1 (b
= N [f (b π ) − X(β)]
π ) [f (b
Sea βe el estimador WLSE bajo el modelo M: f (π) = X(β)

βe minimiza S 2 (β,b
π)
S 2 (b
π ) = S 2 (β,b
M
e π)
Bajo Ho se puede probar que esto es una prueba χ2 asintótica con

µ − m grados de libertad, donde m : número de parámetros libres.
15.12. Estimación Mı́nimo χ2 (MCE)

Supongamos que Z es un vector R-dimensional de estadı́sticos sufi-
cientes para los datos y con ley p(y; ).
Supongamos que
√
N (ZN − )aNR∗ (0, Σ∗ ()) N → ∞, Σ∗ () > 0 ∀
Modelo M :  = (θ) donde (θ) : funciones conocidas y θ ∈Θ paráme-

tro desconocido.
La función chi-cuadrado de θ, dado Z = z es
T
χ2 (θ; z) = N (z − (θ)) Σ−1
∗ ((θ)) (z − (θ))
El EMC θ∗ , si existe esta definido por
χ2 (θ∗ ; z) = ı́nf χ2 (θ; z)

θ∈Θ
Si Σ∗ (θ) tiene elementos que son funciones diferenciables de θ, θ∗ ∈

Θ, entonces θ∗ satisface las ecuaciones minimo χ2
∂χ2 (θ; z)
=0
∂θ
15.13. Estimación Mı́nimo χ2 Modificada

DE θ DADO Z (MMCE)
T
Y 2 (θ; z) = N (z − (θ)) Σ−1
∗ (z) (z − (θ))
15.13. ESTIMACIÓN MÍNIMO χ2 MODIFICADA DE θ DADO Z (MMCE)299
El estimador mı́nimo chi-cuadrado modificado MMCE, si existe, está de-

finido
Y 2 (θ;
e z) = ı́nf Y 2 (θ; z)
θ∈Θ
Si θe ∈ Θ, él satisface las ecuaciones en términos de Y 2 en lugar de

χ2 .
15.13.1. Distribución Multinomial M N (N, π)
χ2 (π∗ , p∗ ) = N (p∗ − π∗ )T Σ−1

∗ (π∗ )(p∗ − π∗ )
−1 −1 −1
Σ∗ (π∗ ) = ∆ (π∗ ) + πR 11T
Resultado:
Σ∗ (π∗ ) = ∆(π∗ ) − π∗ π∗T

(A + µν T )−1 = A−1 − A−1 µν T A−1 (1 + ν T A−1 µ)−1 (Seber pag. 520)
1
χ2 (π∗ , p∗ ) = N (p∗ − π∗ )T ∆−1 (π∗ )(p∗ − π∗ ) + N (p∗ − π∗ )T 11T (π∗ )(p∗ − π∗ )
πR
R−1
X (pi − πi )2 (pR − πR )2
= N +N
i=1
πi πR
ya que
1T (p∗ − π∗ ) = (1 − pR ) − (1 − πR ) = πR − pR
asi
R n
X (pi − πi )2 X (ni − N πi )2
χ2 = N =
i=1
πi i=1
N πi
15.13.2. Distribución Producto Multinomial
s X rj
X (nij − nj πij )2
χ2 (π, p) =
j=1 i=1
nj πij
15.13.3. Distribución Poisson P P (µ)
R
X (ni − µi )2
χ2 (µ, n) =
i=1
µi
15.14. Pruebas Asintóticas de Bondad de

Ajuste
15.14.1. Prueba χ2 de la razón de verosimilitud
L(θ; y) : función de verosimilitud del parametro θ dada y, θ ∈ Θ, y Θ abierto
Supongamos que θb es el estimador de máxima verosimilitud MLE sin

restricciones.Considere el modelo M, que restringe θ al subespacio
ΘM ⊂ Θ
θbM : estimador de máxima verosimilitud restringido

L(θbM ; y) = sup L(θ; y)
θ∈Θ
Hipotesis nula
Ho : θ ∈ ΘM
L(θbM ; y)
ΛM (y) = 0 ≤ ΛM ≤ 1
L(θ;
b y)
La prueba de la razón de verosimilitud (PRV) rechaza Ho si ΛM (y)

es pequeño
ΛM (y) ≤ λα
P (ΛM (y) ≤ λα | Ho) ≤ α
Bajo ciertas condiciones de regularidad
G2M (y) → χ2µ cuando N → ∞(indice adecuado relacionado conel tamaño muestral
Bajo Ho
G2M (y) = −2 ln ΛM
Los grados de libertad para ladistribución limite son
µ = Dim(Θ) − Dim(ΘM )
Rechace Ho si
G2M ≥ χ2µ,α
Esta prueba se conoce como prueba de bondad de ajuste del modelo
M.
El modelo M usualmente se especifica bien como
ecuaciones libres θ = θ(β) β ∈ ß parámetros libres

15.14. PRUEBAS ASINTÓTICAS DE BONDAD DE AJUSTE 301
ecuaciones con restricciones f (θ) = 0 (se obtiene eliminando los β 0 s)
µ : número de restricciones independientes impuestas en θ por M
Suponga que M es aceptado por una prueba. Sea ΘM1 ⊂ ΘM ⊂ Θ
θbM1 : MLE bajo el modelo M1
L(b
θM1 ;y)
L(θbM1 ; y) L(b
θ ;y) ΛM1 (y)
ΛM1 |M (y) = = =
L(θbM ; y) L(b
θM ;y) ΛM (y)
L(b
θ ;y)
Lo anterior se denomina Criterio de la razón de verosimilitud para

probar la sub-hipotesis
H1 : θ ∈ΘM1 dado que θ ∈ΘM
G2M1 |M (y) = −2 ln ΛM1 |M (y)

= G2M1 (y) − G2M (y)
G2M1 (y) : es la χ2 de razón de verosimilitud para probar la bondad

del ajuste de M1 directamente sin referencia del modelo intermedio
M, sino con relación al espacio original Θ.
Los grados de libertad para la prueba χ2 usando G2M1 |M (y) son
ν = Dim(ΘM ) − Dim(ΘM1 )
mientras que para la prueba basada en G2M1 (y) son µ + ν.

M1 es un modelo encajado dentrode M. Puede expresarse como
β = β(γ) ecuaciones libres o como

g(θ) =0 ecuaciones de restricción
ν : número de restricciones independientes adicionales impuestas

sobre θ, mas alla de las impuestas por M.
Capı́tulo 16
Referencias
Agresti, A. (1990) Categorical Data Analysis. New York: John

Wiley
Agresti, A. (1989) Tutorial on Modeling Ordered Categorical
Response Data. Psycological Bulletin. 105, 2, 290-301.
Agresti, A. (1984) Analysis of Ordinal Categorical Data. New
York: John Wiley
Armstrong, B. G. y Sloan, M. (1989) Ordinal Regression Models
for Epidemiologic Data. American Journal of Epidemiology. Vol
129, No. 1, 191-204.
Belsley, D. A., Kuh, E. y Welsch, R. E. (1980) Regression Diag-
nostics: Identifying Influential Data and Sources of Collinearity.
New York: John Wiley & Sons
Bhapkar, V. P. (1988) Lecture Notes in Categorical Data Analy-
sis. Dept. of Statistics. University of Kentucky.
Bishop, Y. M. M., Fienberg, S. E, y Holland, P. W. (1975) Discre-
te Multivariate Analysis: Theory and Practice. Cambridge: The
MIT Press
Bromaghin, J. F. (1993) Sample size Determination for Interval
Estimation of Multinomial Probabilities. The American Statisti-
cian. Vol. 47, No. 3, pp. 203-206.
Christensen, R. (1990) Log-Linear Models. New York: Springer-
Verlag
Cody, R. P. y Smith, J. K. (1991) Applied Statistics and the
SAS Programming Language. Tercera Edicio n. Prentice Hall,
Englewood Cliffs.
D’Agostino, R. B., Chase, W. y Belanger, A. (1988) The Appro-
piateness of Some Common Procedures for Testing the Equality
of Two Independent Binomial Populations. The American Sta-
tistician. Vol. 42, No. 3, pp. 198-202
303
304 CAPÍTULO 16. REFERENCIAS
DiIorio, F. C. (1991) SAS Applications Programming: A Gentle

Introduction. Duxbury Press, Belmont.
Fowlkes, E. B. (1986) Some Diagnostics for Binary Logistic Re-
gression Via Smoothing. Proceedings of the Statitical Computing
Section: ASA.
Greenland, S. (1991) On the Logical Justification of Conditional
Tests for Two-by-Two Contingency Tables.The American Statis-
tician. 45, No. 3, 248-251.
Grizzle, J. E., Starmer, C. F. y Koch, G. G. (1969). Analysis of
Categorical Data by Linear Models Biometrics. 25, 489-504.
Haberman, S. H. (1988) A Warning on the Use of Chi-Squared
Statistics With Frequency Tables With Small Expected Cell Counts.
JASA. Vol. 83, No. 402, 555-560.
Lewis, T., Saunders, I. W. y Westcott, M. (1984) The Moments
of the Pearson Chi-Squared Statistic and the Minimum Expected
Value in Two-Way Table.Biometrika. 71, No. 3, 515-522.
McCullagh, P. and Nelder, J.A. (1989) Generalized Linear Mo-
dels. 2nd Edition. London: Chapman and Hall.
Mosteller (1900)
Poon, W.Y. y Hung, H.Y. (1996) Analysis of square tables with
ordered categories. Computational & Data Analysis. Vol. 22, No.
3, pp.303-322
Pregibon (1981) Logistic Regression Diagnostics.The Annals of
Statistics, Vol. 9, No. 4, 705-724.
Reynolds, H. T. (1977) The Analysis of Cross-Classifications.
New York: The Free Press.
Ridder, G., Cramer, J. S. y Hopstaken, P. (1994) Down to Ten:
Estimating the Effect of a Red Card in Soccer. JASA. Vol. 89,
No. 427, 1124-1127.
Roscoe, J. T. y Byars, J. A. (1971) An Investigation of the Res-
traints with Respect to Sample Size Commonly Imposed on the
Use of the Chi-Square Statistic. JASA. Vol. 66, No. 336, 755-759.
Santner, T. J. y Duffy, D. E. (1989) The Statistical Analysis of
Discrete Data. New York: Spriger-Verlag.
Institute Inc. (1990) SAS Technical Report P-200, SAS/STAT
Software: CALIS and LOGISTIC Procedures, Release 6.04, Cary,
NC: SAS Institute Inc.
SAS/IML Software: Usage and Reference. Version 6, First Edi-
tion. SAS Institute Inc. 1990, Cary, NC.
SAS User’s Guide: Statistics. Version 5 Edition. SAS Institute
Inc. 1985, Cary, NC.
Scheuchenpflug, T. y Blettner (1996) Coding Confusion using
PROC LOGISTIC in SAS Computational Statistics & Data
Analysis , Vol. 21 No. 1, 111-115
305
Statistical Sciences (1994) S-PLUS for Windows Version 3.2

Supplement Statsci, a division of MathSoft, Inc.:Seattle
Smith, P. J. et al. (1981) Approximating the Moments and Dis-
tribution of the Likelihood ratio Statistics for Multinomial Good-
ness of Fit. Journal of the American Statistical Association, Vol.
76, No. 375, pp. 737-740
UNTCC: Introduction to SAS. Academic Computing Services.
University of North Texas Computing Center.
Thompson, S. K. (1987) Sample Size for Estimating Multinomial
Proportions. The American statistician, Vol. 41, No. 1, pp. 42-46
Upton, G. J. G. (1978) The Analysis of Cross-Tabulated Data.
Chichster: John Wiley & Sons.
Walter, S. D. y Cook, R. J. (1991) A comparison of Several Points
Estimators in a Single 2 × 2 Contingency Table. , 47, 795-811.
Yule, G. U. y Kendall, M. G. (1967) Introduccion a la Estadistica
Matema tica. 5 Edición. Madrid: Aguilar.
Canavos, G. (1988).Probabilidad y Estadı́stica: Aplicaciones y
Métodos. McGraw Hill: Madrid
Hogg, R.V. y Craig, A.T. (1978). Introduction to Mathematical
Statistics. Cuarta Edición. Collier MacMillan International:New
York
Kalbfleish, J.G. (1985). Probability and Statistical Inference. Vol.
2. Segunda edición. Springer-Verlag: New York
Larson, H.J. (1983). Introducción a la Teorı́a de Probabilidades
e Inferencia Estadı́stica. Editorial Limusa: México
Leemis, L.M. y Trivedi, K.S. (1996) A Comparison of Approxi-
mate Interval Estimators for the Binomial Parameter. The Ame-
rican Statistician. Vol. 50, No. 1, pp. 63-68
Meyer, P.L. (1986). Probabilidad y aplicaciones estadı́sticas. Se-
gunda Edición. Addison Wesley Iberoamericana: México.
Mood , A.M, Graybill, F.A. y Boes, D.C. (1974). Introduction to
the Theory of Statistics. Third Edition. McGraw-Hill Kogasakua,
Ltd: Tokyo.
Roussas, G.G. (1973). A First Course in Mathematical Statistics.
Addison-Wesley Publishing Company: Reading, Massachusetts
Schader, M. y Schmid, F. (1989). Two Rules of Thumb for the
Approximation of the Binomial Distribution by the Normal Dis-
tribution. The American Statistician. Vol. 43, No. 1, pp. 23-24
Snedecor, G.W. y Cochran, W.G. (1980). Statistical Methods.
Séptima Edición. The Iowa State University Press:Ames
Walpole, R.E. y Myers, R.H. (1992). Probabilidad y Estadı́stica.
Cuarta Edición. MaGraw Hill: México
306 CAPÍTULO 16. REFERENCIAS
Wardell, D.G. (1997) Small-Sample Interval Estimation of Ber-

noulli and Poisson Parameters. The American Statistician. Vol.
51, No. 4, pp. 321-325
Wonnacott, T.H. y Wonnacott, R.J. (1979). Fundamentos de
Estadı́stica para Administración y Economı́a. Editorial Limusa:
México
Bromaghin, J.F. (1993) Sample Size Determination for Interval
Estimation of Multinomial Probabilities. The American Statisti-
cian, Vol. 47, No. 3, pp. 203-206
Johnson, N.L. y Kotz, S. (1969) Discrete Distributions. John
Wiley & Sons: New York
Jovanovic, B.D. y Levy, P.S. (1997) A Look at the Rule of Three.
The American Statistician. Vol. 51, No. 2, pp. 137-139
May, W.L. y Johnson, W.D. (2000) Constructing Two-Sided Si-
multaneous Confidence Intervals for Multinomial Proportions for
Small Counts in a Large Number of Cells. Journal of Statistical
Software, Vol. 5
Sison, C.P. y Glaz, J. (1995) Simultaneous Confidence Inter-
vals and sample Size Determination for Multinomial Proportions.
Journal of the American Statistical Association, Vol. 90, No. 429,
pp. 366-369
51, No. 4, pp. 321-325
Canavos, G. (1988).Probabilidad y Estadı́stica: Aplicaciones y
Métodos. McGraw Hill: Madrid
Hogg, R.V. y Craig, A.T. (1978). Introduction to Mathematical
Statistics. Cuarta Edición. Collier MacMillan International:New
York
Larson, H.J. (1983). Introducción a la Teorı́a de Probabilidades
e Inferencia Estadı́stica. Editorial Limusa: México
307
Meyer, P.L. (1986). Probabilidad y aplicaciones estadı́sticas. Se-

gunda Edición. Addison Wesley Iberoamericana: México.
Mood , A.M, Graybill, F.A. y Boes, D.C. (1974). Introduction to
the Theory of Statistics. Third Edition. McGraw-Hill Kogasakua,
Ltd: Tokyo.
Roussas, G.G. (1973). A First Course in Mathematical Statistics.
Addison-Wesley Publishing Company: Reading, Massachusetts
Snedecor, G.W. y Cochran, W.G. (1980). Statistical Methods.
Séptima Edición. The Iowa State University Press:Ames
Walpole, R.E. y Myers, R.H. (1992). Probabilidad y Estadı́stica.
Cuarta Edición. MaGraw Hill: México
51, No. 4, pp. 321-325
Wonnacott, T.H. y Wonnacott, R.J. (1979). Fundamentos de
Estadı́stica para Administración y Economı́a. Editorial Limusa:
México
Appleton, D. R., French, J.M. y Vanderpump, M.P.J. (1996)
Ignoring a Covariate: An Example of Simpson’s Paradox. The
American Statistician. Vol. 50, No. 4, pp. 340-341
Goddard, M. J. (1991) Constructing Some Categorical Anoma-
lies. The American Statistician. Vol. 45, No. 2, pp. 129-133
Mittal, Y. (1991) Homogeneity of Subpopulations and Simpson’s
Paradox. Journal of American Statistical Association. Vol. 86,
No. 413, pp. 167-172
Shapiro, S. H. (1982) Collapsing Contingency Tables-A Geome-
tric Approach. The American Statistician. Vol. 36, No. 1, pp.
43-46
Wagner, C. H. (1982) Simpson’s Paradox in Real Life. The Ame-
Warddrop, R. L. (1995) Simpson’s Paradox and the Hot Hand in
Basketball. The American Statistician. Vol. 49, No. 1, pp. 24-28

Libro Categoricos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Libro Categoricos

Cargado por

Copyright:

Formatos disponibles

Notas de Clase:

Análisis de Datos Categóricos

Juan Carlos Correa Morales

El análisis de tablas de conteos (contingencia) es una de las labores que los

5.6. Medidas de Asociacion Ordinales . . . . . . . . . . . . . . . . . . 90

6. Estimación del Tamaño Poblacional N 95

II Modelos Loglineales 103

8. Modelos Loglineales 105

9. Seleccionando un Modelo 123

10.Modelos Especiales 149

III Aproximación GSK 151

11.La Aproximación GSK 153

IV Datos Ordinales 187

12.Modelos para datos Ordinales 189

V Regresión Logı́stica para Tablas 211

13.Regresión Logı́stica y Modelo Logit 213

14.Regresión Logı́stica Multinomial 253

En su quehacer diario el analista de datos enfrenta bases de datos gene-

Un análisis estadı́stico con sentido no puede realizarse sin información no

Entre más información estadı́stica se posea, mejores serán las conclusiones

Exiten varias formas de clasificar variables para el trabajo estadı́stico. A

Variable discreta Una variable es discreta si solo puede tomar valores en un

Variable mixta Estas variables hacen referencia a situaciones donde se tienen

Variable categórica nominal Una variable categórica es la que nos lleva a

1. Asociaciones entre variables: Cuáles variables están asociadas o rela-

Definición 1.1 (Tabla de Contingencia ) Una tabla de contingencia es una

Las unidades muestreadas de una población son clasificadas en la tabla de

Definición 1.2 (Tabla Completa) Decimos que una tabla de contingencia es

Un ejemplo de la anterior situación puede ocurrir cuando cruzamos la edad

1.1. Categorización de variables continuas

1.2. Tipos de Estudios

1.2.1. Retrospectivo o Caso-Control

1.2.4. Programas de Computador para Datos Cualitativos

1.3.1. Lanzamiento de un par de dados

En los 130 lanzamientos de los dados esperarı́amos hallar

estudiada antes de utilizar el programa si no se ha utilizado antes.

1.3.2. Ejemplo de niños zurdos

1.3.3. Homicidios de niños en Medellı́n

1.3.4. Ejemplo sobre Tipo de Sangre

Los siguientes datos fueron tomados de la página WEB de la Cruz Roja

Los grupos sanguı́neos (A, B, AB y O) son hereditarios. La presencia o

Residencia Sexo Grupo Edad Tipo de Sangre

1.3.5. Datos sobre accidentalidad vial

1.3.6. Ejemplo sobre Accidentalidad Laboral

1.3.7. Ejemplo sobre rendimiento académico

1. Rendimiento: El rendimiento se mide como el porcentaje de materias

2. Sexo : H : Hombre y M : Mujer.

3. Edad : Hace al grupo de edad (de menor a mayor) de pertenencia del

Edad x Sexo x Rendimiento

En una tabla como la anterior surgen preguntas tales como:

Es el sexo independiente del rendimiento?

1.3.8. Ejemplo sobre salubridad

La próxima tabla presenta la información sobre partos en el departamento

Es diferente la posibilidad de nacer vivo entre las diferentes regiones

Nacimientos de más de 20 semanas, 1994

1.3.9. Otro ejemplo de salubridad

Consideremos la siguiente tabla donde se presenta información recogida

1.3.10. Ejemplo sobre colegios en Antioquia

El ICFES clasifica los colegios de acuerdo al rendimiento obtenido en las

De una tabla de datos como la anterior se plantean varias preguntas im-

Hay independencia entre el tipo de colegio y los resultados en las

1.4. Razones y proporciones

Una razón es el resultado de dividir una cantidad por otra.