Está en la página 1de 319

Notas de Clase:

Análisis de Datos Categóricos

Juan Carlos Correa Morales


Escuela de Estadı́stica
Universidad Nacional de Colombia-Sede Medellı́n

2005
ii
Prefacio

El análisis de tablas de conteos (contingencia) es una de las labores que los


analistas de datos enfrentan en su quehacer diario. Es importante por lo tan-
to contar con diversas técnicas que le permitan entender el fenómeno que da
origen a estas tablas. Presentamos en estas notas dos formas básicas y corrien-
tes de analizar tablas de conteos: mediante modelos loglineales y mediante la
metodologı́a GSK. Otra forma que ha tomado fuerza durante los últimos años
es mediante el uso de modelos de regresión, en especial el modelo logı́stico. El
análisis de correspondencias múltiples, técnica desarrollada por la escuela fran-
cesa, sigue siendo una herramienta exploratoria que, a pesar de su popularidad,
a nivel estadı́stico adolece de los problemas del análisis de factores en el análisis
multivariable.
El análisis de tablas de conteo usualmente se realiza acompañado de un
programa estadı́stico adecuado. Es recomendable un programa estadı́stico de
buena calidad, que permita definir fácilmente macros o funciones de tal forma
que pueda utilizarse a su vez como lenguaje de programación. Programas tales
como R y M acAnova permiten hacer esto con relativa facilidad y que no cuestan
dinero al usuario ya que trabajan bajo licencia GNU. El SAS es un programa de
muy alto nivel y lleno de procedimientos que permiten realizar los más variados
análisis, pero que es muy costoso. En la actualidad han aparecido muy buenos
programas especializados en datos categóricos realizando estadı́stica exacta, tal
como LogExact de Cytel. El manejo de modelos para datos categóricos en SPSS
no es recomendable debido a las limitaciones del programa.

iii
iv
Índice general

I Elementos Básicos XI

1. Introducción 1
1.1. Categorización de variables continuas . . . . . . . . . . . . . . . . 3
1.2. Tipos de Estudios . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.1. Retrospectivo o Caso-Control . . . . . . . . . . . . . . . . 3
1.2.2. Prospectivo . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.3. Transversales . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2.4. Programas de Computador para Datos Cualitativos . . . 4
1.3. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3.1. Lanzamiento de un par de dados . . . . . . . . . . . . . . 4
1.3.2. Ejemplo de niños zurdos . . . . . . . . . . . . . . . . . . . 5
1.3.3. Homicidios de niños en Medellı́n . . . . . . . . . . . . . . 5
1.3.4. Ejemplo sobre Tipo de Sangre . . . . . . . . . . . . . . . 5
1.3.5. Datos sobre accidentalidad vial . . . . . . . . . . . . . . . 8
1.3.6. Ejemplo sobre Accidentalidad Laboral . . . . . . . . . . . 9
1.3.7. Ejemplo sobre rendimiento académico . . . . . . . . . . . 9
1.3.8. Ejemplo sobre salubridad . . . . . . . . . . . . . . . . . . 10
1.3.9. Otro ejemplo de salubridad . . . . . . . . . . . . . . . . . 11
1.3.10. Ejemplo sobre colegios en Antioquia . . . . . . . . . . . . 11
1.4. Razones y proporciones . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.1. Razón . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4.2. Proporción . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5. Funciones en R para Datos Cualitativos . . . . . . . . . . . . . . 13
1.5.1. Funciones para manipular tablas . . . . . . . . . . . . . . 13
1.5.2. Funciones para Probar Bondad de Ajuste . . . . . . . . . 19
1.6. Análisis Exploratorio de una Tabla . . . . . . . . . . . . . . . . . 21

2. Herramientas Asintóticas 25
2.1. El T.C.L. y la Distribución Multinomial . . . . . . . . . . . . . . 27
2.2. Distribución Asintótica de la Producto Multinomial . . . . . . . 27

v
vi ÍNDICE GENERAL

3. Tablas Unidimensionales 29
3.1. Modelo Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.1.1. Pruebas de hipótesis con respecto a π . . . . . . . . . . . 30
3.1.2. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . 30
3.2. Modelo Multinomial . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.1. Estimación . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2.2. Intervalos de Confianza . . . . . . . . . . . . . . . . . . . 35
3.2.3. Qué hacer cuando hay celdas con cero observaciones? . . 37
3.2.4. Entropı́a como mediada de polarización en la multinomial 38
3.2.5. Tamaño muestral . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.6. Pruebas de hipótesis . . . . . . . . . . . . . . . . . . . . . 38
3.3. Ajustes a la prueba G2 . . . . . . . . . . . . . . . . . . . . . . . . 40

4. Tablas Bidimensionales 43
4.1. Esquemas de Muestreo . . . . . . . . . . . . . . . . . . . . . . . . 43
4.1.1. Esquemas de Muestreo para Tablas 2 × 2 . . . . . . . . . 44
4.2. La Prueba χ2 de Pearson . . . . . . . . . . . . . . . . . . . . . . 48
4.2.1. la Prueba Chi-cuadrado para Bondad de Ajuste . . . . . . 50
4.2.2. Limitaciones de la Prueba Chi-cuadrado . . . . . . . . . . 50
4.2.3. La Corrección por Continuidad de Yates . . . . . . . . . . 51
4.2.4. Esquemas de Muestreo para Tablas I × J . . . . . . . . . 51
4.3. Tamaños Muestrales . . . . . . . . . . . . . . . . . . . . . . . . . 51

5. Medidas de Asociación 53
5.1. Medidas de Asociación en Tablas 2 × 2 . . . . . . . . . . . . . . . 53
5.1.1. Medidas basadas en la χ2 de Pearson . . . . . . . . . . . 53
5.1.2. El Estadı́stico G2 . . . . . . . . . . . . . . . . . . . . . . . 54
5.1.3. El Q de Yule . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.1.4. Prueba de Simetrı́a de McNemar . . . . . . . . . . . . . . 56
5.2. La Razón de Odds . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.2.1. Problema con celdas con ceros . . . . . . . . . . . . . . . 58
5.2.2. Propiedades de la razón de odds . . . . . . . . . . . . . . 59
5.2.3. Distribución asintótica de la Razón de Odds:
Esquema de muestreo multinomial . . . . . . . . . . . . . 59
5.2.4. Intervalo de confianza aproximado para ψ:
Esquema de muestreo Producto Binomial . . . . . . . . . 61
5.2.5. Programa en R para calcular la razón de odds . . . . . . 63
5.3. Riesgo Relativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.3.1. Riesgo Atribuı́ble . . . . . . . . . . . . . . . . . . . . . . . 69
5.3.2. Método Delta Aplicado al Logit Muestral . . . . . . . . . 71
5.4. Ejemplo usando el PROC FREQ del SAS . . . . . . . . . . . . . 72
5.4.1. Medidas de Concordancia . . . . . . . . . . . . . . . . . . 75
5.4.2. Sensibilidad, Especificidad y Valor Predictivo . . . . . . . 78
5.5. Medidas de Asociación en Tablas Bidimensionales I × J . . . . . 81
5.5.1. Pruebas de Asociación . . . . . . . . . . . . . . . . . . . . 81
5.5.2. Prueba de Simetrı́a de McNemar . . . . . . . . . . . . . . 89
ÍNDICE GENERAL vii

5.6. Medidas de Asociacion Ordinales . . . . . . . . . . . . . . . . . . 90


5.6.1. γ de Goodman y Kruskal . . . . . . . . . . . . . . . . . . 90
5.6.2. τ de Kendall . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.6.3. d de Somer . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.7. Eliminando categorı́as en una variable . . . . . . . . . . . . . . . 93

6. Estimación del Tamaño Poblacional N 95

7. Tablas Multidimensionales 97
7.1. La Paradoja de Simpson . . . . . . . . . . . . . . . . . . . . . . . 97
7.1.1. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
7.2. Prueba de Homogenidad de Simon o de Woolf . . . . . . . . . . . 98
7.3. Estimador y Prueba de Mantel-Haenzel . . . . . . . . . . . . . . 99

II Modelos Loglineales 103

8. Modelos Loglineales 105


8.1. Modelos Loglineales para tablas 2 × 2 . . . . . . . . . . . . . . . 105
8.2. Ajustando Modelos Loglineales . . . . . . . . . . . . . . . . . . . 107
8.2.1. Notación para Modelos Loglineales . . . . . . . . . . . . . 108
8.2.2. Ecuaciones de Verosimilitud para Modelos Loglineales . . 108
8.2.3. Estimando las Frecuencias Esperadas . . . . . . . . . . . . 109
8.2.4. Ejemplo: Frecuencias esperadas bajo la hipótesis de inde-
pendencia en R . . . . . . . . . . . . . . . . . . . . . . . . 110
8.2.5. Otros modelos para tablas 2 × 2 . . . . . . . . . . . . . . 112
8.2.6. Ejemplo: Niños Zurdos . . . . . . . . . . . . . . . . . . . . 112
8.3. Modelo Loglineal con Tres Factores . . . . . . . . . . . . . . . . . 113
8.3.1. Tablas Tridimensionales . . . . . . . . . . . . . . . . . . . 113
8.4. Ajuste Proporcional Iterativo: IPF . . . . . . . . . . . . . . . . . 115
8.4.1. Modelo [AB] [C] . . . . . . . . . . . . . . . . . . . . . . . 116
8.5. Algunos Modelos Loglineales y sus Interpretaciones . . . . . . . . 119
8.6. Usando el SAS para modelos loglineales . . . . . . . . . . . . . . 119

9. Seleccionando un Modelo 123


9.1. Criterios Para la selección de un Modelo . . . . . . . . . . . . . . 123
9.2. Analizando los Parámetros Individualmente . . . . . . . . . . . . 126
9.3. Eliminado clases de una variable . . . . . . . . . . . . . . . . . . 133
9.4. Un Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

10.Modelos Especiales 149


10.1. Modelo de Bradley-Terry . . . . . . . . . . . . . . . . . . . . . . 149
viii ÍNDICE GENERAL

III Aproximación GSK 151

11.La Aproximación GSK 153


11.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
11.2. La Aproximación GSK . . . . . . . . . . . . . . . . . . . . . . . . 154
11.3. Arreglo de los datos en la aproximación GSK . . . . . . . . . . . 154
11.3.1. Definición de la variable respuesta . . . . . . . . . . . . . 157
11.3.2. Ejemplo sobre Accidentalidad Laboral . . . . . . . . . . . 162
11.3.3. Ejemplo sobre Hemorroides . . . . . . . . . . . . . . . . . 164
11.4. Aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
11.4.1. Modelo de Dos Clasificaciones . . . . . . . . . . . . . . . . 171
11.4.2. Prueba para Homogenidad de las Distribuciones Marginales175
11.4.3. Modelos Loglineales y Logit . . . . . . . . . . . . . . . . . 179
11.4.4. Respuesta a Tres Drogas . . . . . . . . . . . . . . . . . . . 179
11.5. Modelos Loglineales vs. Modelos por GSK . . . . . . . . . . . . . 182

IV Datos Ordinales 187

12.Modelos para datos Ordinales 189


12.1. Funciones Logit Unidimensionales . . . . . . . . . . . . . . . . . . 190
12.2. Modelos Ordinales Unidimensionales . . . . . . . . . . . . . . . . 191
12.2.1. Modelo Equiprobable . . . . . . . . . . . . . . . . . . . . 191
12.2.2. Modelo Loglineal para Tendencia de la Probabilidad . . . 192
12.3. Modelos Ordinales Bidimensionales . . . . . . . . . . . . . . . . . 197
12.3.1. Modelo de Asociación Uniforme . . . . . . . . . . . . . . . 197
12.3.2. Programa para Ajustar asociación Uniforme . . . . . . . . 198
12.3.3. Modelo de Efecto de Fila para Tablas Ordinal-Nominal . 199

V Regresión Logı́stica para Tablas 211

13.Regresión Logı́stica y Modelo Logit 213


13.1. Estimación del Modelo Logı́stico por Máxima Verosimilitud . . . 215
13.1.1. Regresión logı́stica y tablas . . . . . . . . . . . . . . . . . 216
13.1.2. Estimación del Modelo Logı́stico en R y SAS . . . . . . . 217
13.2. Construyendo un Modelo Logı́stico . . . . . . . . . . . . . . . . . 227
13.3. Diagnósticos para Regresión Logı́stica . . . . . . . . . . . . . . . 238

14.Regresión Logı́stica Multinomial 253


14.1. Extensión del Modelo Lineal Logit a datos Policótomos . . . . . 253
14.2. Modelo de Odds Proporcionales . . . . . . . . . . . . . . . . . . . 255
ÍNDICE GENERAL ix

VI Anexos 259
15.Resultados Asintóticos 261
15.1. Distribuciones Muestrales de los MLE . . . . . . . . . . . . . . . 261
15.2. Modelos Loglineales . . . . . . . . . . . . . . . . . . . . . . . . . 262
15.3. Modelos de Independencia para tablas Bidimensionales . . . . . . 264
15.4. Tablas de Contingencia y Modelos Loglineales . . . . . . . . . . . 265
15.4.1. Estadı́stico de la razón de verosimilitud (Deviance) . . . . 269
15.4.2. El método de Newton-Raphson . . . . . . . . . . . . . . . 269
15.5. Elementos Básicos de Inferencia . . . . . . . . . . . . . . . . . . . 270
15.5.1. Teorema de Rao-Blackwell . . . . . . . . . . . . . . . . . . 270
15.5.2. Teorema de Lehmann-Scheffé . . . . . . . . . . . . . . . . 271
15.5.3. Pruebas de Hipótesis . . . . . . . . . . . . . . . . . . . . . 273
15.5.4. Lema de Neyman-Pearson . . . . . . . . . . . . . . . . . . 274
15.5.5. Pruebas Condicionales . . . . . . . . . . . . . . . . . . . . 275
15.6. Estimación por el Método de Máxima Verosimilitud . . . . . . . 276
15.6.1. Distribución Multinomial MN(N, π) . . . . . . . . . . . . 278
15.6.2. Distribución Producto Multinomial P M (n+ , π) . . . . . . 281
15.6.3. Distribución Producto Poisson P P (µ) . . . . . . . . . . . 282
15.7. Apéndice A: Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . 283
15.8. Apéndice B: Datos . . . . . . . . . . . . . . . . . . . . . . . . . . 284
15.8.1. Datos sobre rendimiento académico . . . . . . . . . . . . . 284
15.8.2. Datos sobre mortalidad en Antioquia . . . . . . . . . . . . 286
15.8.3. Datos sobre las Elecciones de 1994 . . . . . . . . . . . . . 291
15.8.4. REGRESION POISSON . . . . . . . . . . . . . . . . . . . 292
15.9. Apéndice C: Estimación por Máxima Verosimilitud . . . . . . . . 293
15.10.Métodos de Estimación . . . . . . . . . . . . . . . . . . . . . . . 297
15.11.Estimación por Mı́nimos Cuadrados ponderados (WLSE) . . . . 297
15.12.Estimación Mı́nimo χ2 (MCE) . . . . . . . . . . . . . . . . . . . 298
15.13.Estimación Mı́nimo χ2 Modificada DE θ DADO Z (MMCE) . . 298
15.13.1.Distribución Multinomial M N (N, π) . . . . . . . . . . . . 299
15.13.2.Distribución Producto Multinomial . . . . . . . . . . . . . 299
15.13.3.Distribución Poisson P P (µ) . . . . . . . . . . . . . . . . . 299
15.14.Pruebas Asintóticas de Bondad de Ajuste . . . . . . . . . . . . . 300
15.14.1.Prueba χ2 de la razón de verosimilitud . . . . . . . . . . . 300

16.Referencias 303
x ÍNDICE GENERAL
Parte I

Elementos Básicos

xi
Capı́tulo 1

Introducción

En su quehacer diario el analista de datos enfrenta bases de datos gene-


ralmente compuestas por variables de varios tipos. Dependiendo del tipo de
variables y de su relación se pueden realizar diversos análisis estadı́sticos. No
podemos en este momento dejar de establecer dos principios fundamentales del
análisis de datos (Wickens, 1989):

Un análisis estadı́stico con sentido no puede realizarse sin información no


estadı́stica.

Entre más información estadı́stica se posea, mejores serán las conclusiones


que se puedan obtener.

Exiten varias formas de clasificar variables para el trabajo estadı́stico. A


continuación presentamos una forma corriente de clasificarlas:

Variable continua Una variable decimos que es continua si puede tomar cual-
quier valor en un intervalo de la recta real. Ejemplos de estas variables
son la estatura de una persona, el peso de un objeto, la edad exacta de
alguien, etc. En teorı́a las probabilidades para estas variables se calculan
para intervalos y la probabilidad de un valor particular es cero.

Variable discreta Una variable es discreta si solo puede tomar valores en un


conjunto contable de puntos de la recta real. Muchas de estas variables
hacen referencia a conteos o a la aparición de fenómenos, por ejemplo, el
número de muertes violentas en la ciudad en un dı́a cualquiera, el número
de bebés que nacen en un parto, los votos a favor de cierto candidato, etc.

Variable mixta Estas variables hacen referencia a situaciones donde se tienen


variables que toman valores en intervalos, pero algunos puntos de estos
intervalos tienen puntos con probabilidades positivas. Un ejemplo de esta
situación es cuando se estudia el tiempo de inactividad de una máquina
durante el dı́a normal de operación, si la máquina ha estado funcionando
bien el tiempo de inactividad es cero.

1
2 CAPÍTULO 1. INTRODUCCIÓN

Variable categórica nominal Una variable categórica es la que nos lleva a


poner al elemento poblacional en una celda con una marquilla especı́fica,
por ejemplo el sexo, pero la nominalidad significa que el orden en que
pongamos las marquillas es irrelevante.
Variable categórica ordinal Para estas variables el orden de la marquilla es
relevante, por ejemplo, en una caso de degustación de un producto se
puede pedir a un sujeto que lo clasifique en una de las categorı́as:
No me gusta
Me es indiferente
Me gusta
lo cual permite una ordenación.

En forma esquemática


 Continua
Discreta 

Variable
Nominal
 Categórica


Ordinal
Las relaciones entre varias variables categóricas se estudian mediante el análi-
sis de tablas de frecuencia o conteos. Algunos de los objetivos de los análisis son:

1. Asociaciones entre variables: Cuáles variables están asociadas o rela-


cionadas entre sı́ y cuál es el tipo de asociación que se da?
2. Efecto sobre una variable dependiente: Cuando en una tabla tene-
mos una variable que es dependiente estamos interesados en determinar la
influencia que sobre ella tienen el conjunto de covariables que conforman
la tabla.
3. Estimación de parámetros: Cuál es el número esperado de observacio-
nes para una combinación particular de variables?
4. Importancia de los efectos:
5. Comparaciones especı́ficas y análisis de tendencias:

Definición 1.1 (Tabla de Contingencia ) Una tabla de contingencia es una


tabla de clasificación cruzada de conteos.

Las unidades muestreadas de una población son clasificadas en la tabla de


acuerdo a cada una de las variables categóricas o conjuntos de categorı́as tales
como sexo (masculino, femenino), edad (joven, adulto, anciano). Cuando va-
rias variables categóricas son consideradas a la vez ellas forman una tabla de
contingencia multidimensional donde cada variable corresponde a una dimen-
sión de la tabla. Tales tablas presentan problemas especiales para el análisis e
interpretación.
1.1. CATEGORIZACIÓN DE VARIABLES CONTINUAS 3

Definición 1.2 (Tabla Completa) Decimos que una tabla de contingencia es


una tabla completa si cada celda tiene probabilidad de ocurrencia diferente de
cero, o sea que es posible, al menos en teorı́a, observar elementos en cada celda.
Si lo anterior no es posible, entonces hablamos de tablas con ceros estructurales.

Un ejemplo de la anterior situación puede ocurrir cuando cruzamos la edad


categorizada de una mujer contra el número de hijos nacidos. Si tenemos mujeres
menores de cinco años, es imposible que haya alguna con hijos a esta edad. Por
lo tanto la celda que cruza estas dos situaciones tendrá obligatoriamente un cero
estructural.

1.1. Categorización de variables continuas


La categorización de variables continuas o discretas es algo que se hace de
forma permanente en la presentación de reportes, ya que para el lector pue-
de ser más fácil la visualización de los resultados de esta forma. Categorizar
variables continuas puede ser peligroso cuando se trata de realizar análisis de
tipo estadı́stico y aún conducir a conclusiones erróneas, sin importar la técnica
usada. Como una regla general, el investigador no debe discretizar ni combinar
categorı́as y debe luchar por conservar tanta precisión como sea posible.

1.2. Tipos de Estudios


Podemos dividir en tres grandes clases los estudios realizados:

1.2.1. Retrospectivo o Caso-Control


En este tipo de trabajo se mira al pasado. Serı́a tratar de responder a la
pregunta: Qué pasó ?

1.2.2. Prospectivo
En este tipo de estudios podemos considerar los Ensayos Clı́nicos, donde
los objetos se asignan aleatoriamente a los experimentos y los de cohorte, donde
se hace un seguimiento a través del tiempo a un grupe interés. La pregunta a
responderserı́a : Quépasará?

1.2.3. Transversales
La pregunta serı́a: Qué está pasando? Los estudios de caso-control y los
de cohorte son llamados observacionales. Los ensayos clı́nicos son experimenta-
les. Tablas tı́picas con datos transversales son las presentadas en los anuarios
estadı́sticos.
4 CAPÍTULO 1. INTRODUCCIÓN

1.2.4. Programas de Computador para Datos Cualitativos


Prácticamente todo programa estadı́stico contiene alguna función o módulo
que permite trabajar con datos categóricos. El SAS1 trae varios procedimientos:
el FREQ, el CATMOD y el LOGISTIC. El CATMOD es un procedimiento
bastante técnico y se recomienda practicarlo mucho antes de realizar un trabajo
en serio. Está basado en la metodologı́a GSK, para lo cual la lectura del artı́culo
de Grizzle, Starmer y Koch (1968) es casi indispensable, en especial si se piensa
usar repetidamente.
El lenguaje estadı́stico R es muy poderoso para realizar los análisis de tablas
de contingencia, ya que posee una amplia variadad de funciones tanto para la
manipulación de datos como para el modelamiento de los mismos. Otra ventaja
es que es un programa de distribución gratuita y de código abierto, lo cual lo
hace ideal para el desarrollo de nuevas metodologı́as.

1.3. Ejemplos
Es muy fácil encontrar ejemplos reales de tablas de contigencia ya que apa-
recen con frecuencia tanto en revistas como en periódicos. A continuación pre-
sentamos ejemplos de tablas de contingencia.

1.3.1. Lanzamiento de un par de dados


En un juego de parqués se registraron los resultados del lanzamiento de un
par de dados 130 veces. A partir de estos resultados quiere uno ver si los dados
son conjuntamente buenos.

Resultado 2 3 4 5 6 7 8 9 10 11 12
Frecuencia 4 8 10 11 22 14 22 18 10 5 6

Nos podemos preguntar si con los datos anteriores podrı́amos jugar tranquila-
mente este juego de parqués, o sea si los dados son buenos o están cargados.
Si el par de dados fueran perfectos, entonces el modelo teórico serı́a el que
aparece en la siguiente tabla:

Resultado 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
Probabilidad 36 36 36 36 36 36 36 36 36 36 36

En los 130 lanzamientos de los dados esperarı́amos hallar

Resultado 2 3 4 5 6 7 8 9 10 11 12
Esperada 3.61 7.22 10.83 14.44 18.06 21.67 18.06 14.44 10.83 7.22 3.61

1 El Apéndice A presenta una extensa introducción al sistema SAS, que recomendamos sea

estudiada antes de utilizar el programa si no se ha utilizado antes.


1.3. EJEMPLOS 5

1.3.2. Ejemplo de niños zurdos


La siguiente tabla presenta información sobre niños zurdos y el sexo:
Zurdo Diestro
Niño 79 202
Niña 57 138
La pregunta que nos surge es: Hay más niños zurdos que niñas?
Padre Madre Edad Zurdo Diestro
Diestro Diestra 0-10 15 4
10-20 136 12
20 ó más 133 6
Diestro Zurda 0-10 0 0
10-20 14 3
20 ó más 6 3
Zurdo Diestra 0-10 2 0
10-20 6 7
20 ó más 5 3
Zurdo Zurdo 0-10 0 0
10-20 1 0
20 ó más 0 0

1.3.3. Homicidios de niños en Medellı́n

Grupo Edad Sexo 1990 1991 1992 1993 1994 1995 1996 1997
0 M 2 2 2 5 2 0 7 6
F 1 2 0 3 1 2 2 4
1-4 M 1 5 7 6 2 2 3 1
F 0 1 1 3 2 0 1 2
5-14 M 62 107 107 83 75 52 74 56
F 9 24 19 25 12 13 12 17
15-17 M 911 1129 538 577 525 521 411 352
F 42 73 38 41 41 29 36 26
Fuente: El Colombiano, Junio 7 de 1998.
La tabla anterior produce una profunda tristeza.

1.3.4. Ejemplo sobre Tipo de Sangre


La siguiente tabla presenta la distribución aceptada como poblacional
Grupo Tipo de Sangre
O A AB B
Rh positivos 56.2 % 26.5 8.4 1.8
Rh negativos 5.1 % 2.7 0.7 0.3
El Tiempo, Abril 2 del 2000, pp. 2C
6 CAPÍTULO 1. INTRODUCCIÓN

Los siguientes datos fueron tomados de la página WEB de la Cruz Roja


norteamericana:
De 100 personas, alrededor de:

38 serán O positivo

7 serán O negativo

34 serán A positivo

6 serán A negativo

8 serán B positivo

2 serán B negativo

4 serán AB positivo

1 será AB negativo

Los grupos sanguı́neos (A, B, AB y O) son hereditarios. La presencia o


ausencia de un factor Rh en las células rojas de la sangre es lo que hace que
su tipo sea positivo o negativo. Los grupos sanguı́neos (A, B y O) y los tipos
Rh son descripciones de ciertos antı́genos que se encuentran en las células rojas.
Las personas con sangre del tipo A tienen antı́genos A en sus células rojas de la
sangre y carecen de los antı́genos B; las personas con sangre del tipo B tienen
antı́genos B y carecen de de los antı́genos A; las personas con sangre del tipo AB
tienen ambos antı́genos y las personas con sangre del tipo O carecen de ambos
antı́genos A y B.
Se observa que los datos presentados por la Cruz Roja difieren de los pre-
sentados en el periódico El Tiempo.
La siguiente tabla presenta información sobre el tipo de sangre, lugar de
residencia, sexo y edad de unas personas en el departamento de Antioquia (datos
proporcionados por Dra. Marı́a Isabel Gallego)
1.3. EJEMPLOS 7

Residencia Sexo Grupo Edad Tipo de Sangre


O A AB B
Medellı́n Hombre 20-29 años 50 24 1 7
30-39 36 17 0 3
40-49 18 14 2 1
50-59 7 3 0 3
Medellı́n Mujer 20-29 años 55 30 1 9
30-39 33 19 2 11
40-49 21 11 2 3
50-59 8 9 0 1
Oriente Hombre 20-29 años 62 23 1 3
Antioqueño 30-39 26 27 0 0
40-49 19 12 0 2
50-59 9 3 0 2
Oriente Mujer 20-29 años 65 28 1 8
Antioqueño 30-39 37 16 1 2
40-49 22 8 0 2
50-59 6 2 0 2

Esta tabla nos debe permitir cotejar las informaciones que poseemos.
8 CAPÍTULO 1. INTRODUCCIÓN

1.3.5. Datos sobre accidentalidad vial


Accidentes por Hora: 1997
Hora Accidentes Accidentes
Solo Daños con Vı́ctimas
0 225 473
1 212 418
2 199 334
3 144 264
4 131 217
5 233 274
6 709 446
7 1559 634
8 1600 659
9 1401 686
10 1698 876
11 1884 1021
12 2036 1084
13 1854 1051
14 2163 1105
15 2236 1127
16 2111 1182
17 2046 1330
18 1869 1297
19 1315 1178
20 801 1080
21 707 947
22 504 693
23 316 494
Fuente Fuente: Revista Accidentalidad Vial 1997
Secretarı́a de Transportes
y Tránsito de Medellı́n
1.3. EJEMPLOS 9

1.3.6. Ejemplo sobre Accidentalidad Laboral


La siguiente tabla presenta información sobre accidentalidad laboral en An-
tioquia. Se presenta el sexo, edad, tiempo en el oficio y parte del cuerpo afectada
(datos proporcionados por Dra. Marı́a Isabel Gallego)

Parte Afectada
Edad Sexo Tiempo en el Oficio M. Inferior M. Superior Otra
Menor de Masculino Menos de un año 537 913 860
30 Años Uno a 4 años 186 449 338
Cinco o más años 34 69 65
Femenino Menos de un año 43 140 37
Uno a 4 año 22 109 41
Cinco o más años 11 20 8
30 a Masculino Menos de un año 352 567 544
39 años Uno a 4 años 162 375 278
Cinco o más años 115 226 183
Femenino Menos de un año 28 129 24
Uno a 4 años 34 102 39
Cinco o más años 38 83 32
40 o Masculino Menos de un año 179 300 262
más años Uno a 4 años 76 181 157
Cinco o más años 109 273 199
Femenino Menos de un año 19 51 27
Uno a 4 años 16 64 20
Cinco o más años 56 132 54

1.3.7. Ejemplo sobre rendimiento académico


Las siguientes tablas provienen del estudio de Cabarcas y Sierra (1996) sobre
factores que afectan el rendimiento académico a los estudiantes de la Universidad
Nacional-Sede Medellı́n. Una de las limitantes en muchos estudios es el tamaño
muestral. Usualmente es muy pequeño cuando se quieren cruzar a la vez muchas
variables de tipo categórico. Las variables son

1. Rendimiento: El rendimiento se mide como el porcentaje de materias


aprobadas con relación al número de materias registradas.

2. Sexo : H : Hombre y M : Mujer.

3. Edad : Hace al grupo de edad (de menor a mayor) de pertenencia del


individuo.
10 CAPÍTULO 1. INTRODUCCIÓN

Edad x Sexo x Rendimiento


Edad
1 2 3 4
Sexo H M H M H M H M
Ren- Alto 14 8 26 14 9 2 2 1
dimien- Medio 9 5 32 29 19 15 11 2
to Bajo 3 1 8 8 13 5 7 3

En una tabla como la anterior surgen preguntas tales como:

Es el sexo independiente del rendimiento?


Si la respuesta es no, cuál es la distribución marginal para cada sexo?
El rendimiento y la edad serán independientes? Si no lo son, existe al-
guna estructura simple que nos explique esta asociación considerando
la estructura ordinal de la tabla?

1.3.8. Ejemplo sobre salubridad

La próxima tabla presenta la información sobre partos en el departamento


de Antioquia por regiones. Al ver una tabla de eśtas nos podemos pregun-
tar cosas como las siguientes:

Es diferente la posibilidad de nacer vivo entre las diferentes regiones


del departamento?
Qué pasa con lo anterior si condicionamos por peso?
Es la probabilidad de nacer con menos de 2500 gramos igual para
cada zona?

Nacimientos de más de 20 semanas, 1994


Menos de 2500 gms Más de 2500 gms
Zona Vivos Muertos Vivos Muertos
Valle de Aburrá 6388 555 55929 255
Bajo Cauca 417 100 3422 47
Magdalena Medio 83 11 1489 10
Nordeste 157 29 2462 22
Norte 246 31 2760 21
Occidente 143 16 2290 12
Oriente 781 98 8748 44
Suroeste 518 51 5660 31
Urabá 426 53 4169 58
Fuente: Anuario Estadı́stico de Antioquia, 1994.
1.3. EJEMPLOS 11

1.3.9. Otro ejemplo de salubridad

Consideremos la siguiente tabla donde se presenta información recogida


sobre el resultado de partos de bebés de menos de 2500 gramos en insti-
tuciones públicas y privadas en Medellı́n en 1990.

Institucion Resultado
Vivos Muertos
Oficial 4757 430
Privado 5148 464
Fuente: Revista de Planeación Metropolitana,
Medellı́n, Vol. 2, No. 5, pp212, 1992

1.3.10. Ejemplo sobre colegios en Antioquia

El ICFES clasifica los colegios de acuerdo al rendimiento obtenido en las


pruebas nacionales como Alto, Medio o Bajo. La siguiente tabla presenta
el resultado de la clasificación del ICFES por Región (Area metropolitana,
Otra),Jornada, Tipo de colegio (Femenino, Masculino o Mixto)

Area Metropolitana
Jornada Mañana Unificada
Tipo Alto Medio Bajo Alto Medio Bajo
Femenino 19 17 14 8 2 5
Masculino 5 4 6 5 3 0
Mixto 10 15 43 9 5 26
Jornada Tarde Noche
Tipo Alto Medio Bajo Alto Medio Bajo
Femenino 1 4 9 0 0 0
Masculino 2 3 5 0 1 0
Mixto 4 7 51 0 1 45
Otra Area Diferente de la Metropolitana
Jornada Mañana Unificada
Tipo Alto Medio Bajo Alto Medio Bajo
Femenino 0 1 1 1 2 7
Masculino 1 0 2 1 3 6
Mixto 0 4 46 2 12 108
Jornada Tarde Noche
Tipo Alto Medio Bajo Alto Medio Bajo
Femenino 0 0 0 0 0 0
Masculino 0 0 0 0 0 1
Mixto 1 1 23 0 1 34
Fuente: Antioquia 1995. Estudios Descriptivos
Doc. No. 5, S.N.P. 115, ICFES, 1996.
12 CAPÍTULO 1. INTRODUCCIÓN

De una tabla de datos como la anterior se plantean varias preguntas im-


portantes tales como:

Hay independencia entre el tipo de colegio y los resultados en las


pruebas del ICFES?
Existe independencia entre la jornada y los resultados del ICFES?

1.4. Razones y proporciones


Existen una gran variedad de herramientas numéricas que nos permiten
entender mejor muchos datos. Para los categóricos tenemos las razones y
proporciones como medidas descriptivas básicas, que usualmente son de
fácil cálculo e interpretación.

1.4.1. Razón

Una razón es el resultado de dividir una cantidad por otra.

Razón

Una razón es utilizada para comparar las frecuencias de dos clases mu-
tuamente excluyentes. Un ejemplo es el ı́ndice de masculinidad en una
población o cohorte que se define como

Número de hombres
Número de mujeres

Un valor importante en el caso de tablas de contingencia es lo que se llama


el odds, que es sencillamente

P (A)
P (B)

donde A y B son subconjuntos del mismo espacio muestral, y además


P (B) 6= 0. Esta cantidad se puede interpretar como el número de apari-
ciones del evento A por cada aparición del evento B. En el ejemplo de los
dados tenemos que el odds del evento A = La suma sea 3 con relación al
evento A = La suma sea 2 es (2/36)/(1/36) = 2, por lo tanto el evento de
aparecer una suma de 3 en los dados es dos veces más frecuente que el de
aperecer una suma de 2.
1.5. FUNCIONES EN R PARA DATOS CUALITATIVOS 13

Indice

Un ı́ndice es una medida que intenta reflejar la relación entre variables.


Un ejemplo es el ı́ndice de masa corporal que se define como

Peso -masa- en kilogramos


IM C =
(Estatura en metros)2

1.4.2. Proporción
La proporción es una clase especial de razón en la cual el numerador es
el tamaño (en un sentido general) una parte del conjunto utilizado en el
denominador, o sea,

a
p=
a+b
donde a es el tamaño de un conjunto A y a + b es el tamaño del conjunto
AB.

1.5. Funciones en R para Datos Cualitativos


1.5.1. Funciones para manipular tablas
cut(): Nos permite categorizar una variable continua. Acepta tanto
un vector de puntos de corte que definen las categorı́as o un entero
que indica cuantas clases queremos y la función automáticamente
halla los puntos de corte equiespaciados. Esta función permite partir
un vector de datos en grupos con igual amplitud, por ejemplo,

>edad<-c(22,31,37,23,22,35,23,19,42,35,33,36,18)
>cut(edad,breaks=3)
[1] 1 2 3 1 1 3 1 1 3 3 2 3 1
attr(,"levels"):
[1] "17.76+ thru 25.92" "25.92+ thru 34.08" "34.08+ thru 42.24"

Si deseamos que los puntos de corte sean con un formato presentable,


podemos usar la función pretty()

>cut(edad,pretty(edad))
[1] "15+ thru 20" "20+ thru 25" "25+ thru 30" "30+ thru 35"
[5] "35+ thru 40" "40+ thru 45"
14 CAPÍTULO 1. INTRODUCCIÓN

table(): Esta función permite crear una tabla de contingencia. Por


ejemplo,

>edad<-c(22,31,37,23,22,35,23,19,42,35,33,36,18)
> table(cut(edad,breaks=3))

(18,26] (26,34] (34,42]


6 2 5

Otro ejemplo un poco más elaborado es el siguiente, en el cual se


hace una tabla de doble entrada contando con el sexo:

> sexo<-factor(c(1,2,1,2,2,1,1,1,2,2,1,1,2),labels=c(’Mujer’,’Hombre’))
> table(cut(edad,breaks=3),sexo)
sexo
Mujer Hombre
(18,26] 3 3
(26,34] 1 1
(34,42] 3 2
>

rownames()
colnames()
> partos.dat<-array(c(4757,5148,430,464),c(2,2))
> partos.dat
[,1] [,2]
[1,] 4757 430
[2,] 5148 464

> rownames(partos.dat)<-c(’Oficial’,’Privado’)
> colnames(partos.dat)<-c(’Vivos’,’Muertos’)
> partos.dat
Vivos Muertos
Oficial 4757 430
Privado 5148 464

ftable() : Esta función permite construir tablas de clasificación cru-


zada a partir de diferentes objetos. Como esta función es importante
la vamos a ilustrar con el siguiente ejemplo: Tenemos una base de da-
tos creada a partir de una encuesta que se le realizó a parejas casadas
en Medellı́n sobre su conformidad en el matrimonio. El objetivo fun-
damental del ejercicio es la implemetación de técnicas para captura
1.5. FUNCIONES EN R PARA DATOS CUALITATIVOS 15

de información que es muy delicada sin crear sesgos. La pregunta


fundamental era si tuviera la oportunidad de volver al pasado, se ca-
sarı́a con la misma persona que se encuentra casada o casado? Una
condición del estudio era que ambos cónyugues estuvieran presen-
tes durante la entrevista. Las preguntas demográficas eran abiertas
y no se consideraban delicadas, por ejemplo el tiempo de casados, el
número de hijos, escolaridad, etc. La pregunta clave del estudio se
pasaba simultáneamente por escrito en sobre sellado a cada persona
y la persona señalaba por escrito la respuesta (Sı́ o No mediante una
X) e inmediatamente procedı́a a depositarla en una alcancı́a sellada
que estaba a su lado. La hoja de respuestas estaba codificada y el
encuestador no conocı́a los códigos de los encuestados. las alcancı́as
contenı́an varias hojas de respuestas falsas colocadas de antemano
por los investigadores con el propósito de evitar que en alguna situa-
ción extrema uno de los cónyugues pudiera conocer la respuesta real
de su pareja. Las variables en la base son 12:
HOM 1 si es hombre, 0 si es mujer.
EDADH Edad del hombre al momento de la encuesta.
ESCOLH Escolaridad del hombre. 1 si hizo hasta primaria, 2 se-
cundaria y 3 estudios universitarios.
INGH 1 si el igreso de la familia principal es adquirido por el hom-
bre.
CASARH 1 si sı́ se volverı́a a casar y 0 si no.
MUJ 1 si es mujer, 0 si es hombre.
EDADM Edad de la mujer al momento de la encuesta.
ESCOLM Escolaridad de la mujer. 1 si hizo hasta primaria, 2 se-
cundaria y 3 estudios universitarios.
INGM 1 si el igreso de la familia principal es adquirido por la mujer.
CASARM 1 si sı́ se volverı́a a casar y 0 si no.
TPOCAS Tiempo de casados.
NHIJOS Número de hijos.

1 50 1 1 1 0 48 3 1 1 28 2
1 62 2 1 1 0 59 2 0 1 38 5
1 44 2 1 1 0 44 2 0 1 22 3
1 44 3 1 0 0 23 2 1 0 1 1
1 33 2 1 1 0 37 2 1 1 5 1
...

Asumiendo que la base anterior está grabada en un archivo de tex-


to, también llamado plano, lo podemos leer utilizando el siguiente
comando:
> parejas<-read.table(’c:/parejas.txt’,header=T)
16 CAPÍTULO 1. INTRODUCCIÓN

Si queremos crear una tabla que cruce la escolaridad del hombre vs.
la escolaridad de la mujer entonces el comando será:
> ftable(parejas[,c(3,8)])
ESCOLM 1 2 3
ESCOLH
1 17 8 3
2 5 32 15
3 0 24 45
>

Una tabla más compleja surge cuando cruzamos las variables CA-
SARH, CASARM, ESCOLH, ESCOLM.
> ftable(parejas[,c(5,10,3,8)])
ESCOLM 1 2 3
CASARH CASARM ESCOLH
0 0 1 1 0 0
2 0 2 1
3 0 2 7
1 1 2 1 0
2 1 1 0
3 0 2 5
1 0 1 6 3 1
2 1 4 3
3 0 2 5
1 1 8 4 2
2 3 25 11
3 0 18 28
>

Si queremos cruzar el deseo de las personas de volverse a casar, hom-


bres y mujeres, considerando el tiempo de casados, dependiendo del
orden de entrada de los argumentos se obtienen distintas presenta-
ciones de la misma tabla:
> ftable(parejas[,5],parejas[,10],cut(parejas[,11],breaks=c(0,5,10,100)))
(0,5] (5,10] (10,100]

0 0 5 2 6
1 5 1 6
1 0 7 5 13
1 28 15 54
>

> ftable(cut(parejas[,11],breaks=c(0,5,10,100)),parejas[,5],parejas[,10])
1.5. FUNCIONES EN R PARA DATOS CUALITATIVOS 17

0 1

(0,5] 0 5 5
1 7 28
(5,10] 0 2 1
1 5 15
(10,100] 0 6 6
1 13 54
>

tabulate : En un vector de enteros cuenta el número de veces que


ocurren cada uno de los enteros, considerando también los que no
ocurren.

> tabulate(c(2,3,5))
[1] 0 1 1 0 1
> tabulate(c(2,3,3,5), nb = 10)
[1] 0 1 2 0 1 0 0 0 0 0
>

levels() : Presenta los niveles de un factor.

> levels(as.factor(parejas[,5]))
[1] "0" "1"
>

binom.test(): Permite realizar pruebas de hipótesis acerca de la π


(probabilidad de éxito) en una población dicótoma. Por ejemplo, si
obtuvimos 42 éxitos en una muestra de 100 elementos y queremos
verificar Ho : π = 0,50 vs. HA : π 6= 0,50 el comando es

> binom.test(42,100,p=0.50)$p.value
[1] 0.1109183

Si la alternativa es HA : π < 0,50 el comando es

> binom.test(42,100,p=0.50,alt=’’l’’)$p.value
[1] 0.06660531

Si la alternativa es HA : π > 0,50 el comando es


18 CAPÍTULO 1. INTRODUCCIÓN

> binom.test(42,100,p=0.50,alt=’’g’’)$p.value
[1] 0.955687

Si se quiere calcular un intervalo de confianza del 90 % para π el comando


es

> prop.test(45,100,conf.level=.9)$conf.int
[1] 0.3657761 0.5370170
attr(,"conf.level"):
[1] 0.9

4. chisq.test : Ejecuta la prueba Chi-cuadrado de Pearson en una tabla de


contingencia bidimensional.

> datos.dat <- matrix(c(21,25,114,20,18,57),ncol=3,byrow=T)


> dimnames(datos.dat) <- list(c("Hombres","Mujeres"),
+ c("Agronomia","Arquitectura","Minas")

Agronomia Arquitectura Minas


Hombres 21 25 114
Mujeres 20 18 57

>chisq.test(datos.dat)

Pearson’s chi-square test without Yates’ continuity correction

data: datos.dat
X-squared = 3.8451, df = 2, p-value = 0.1462

5. mcnemar.test() : En la librerı́a ctest. Esta función nos permite ejecutar


la prueba de simetria Chi-cuadrado de McNemar para tablas de contin-
gencia cuadradas.

mcnemar.test(x, y = NULL, correct = TRUE)

6. mantelhaen.test(): En la librerı́a ctest. Ejecuta la prueba chi-cuadrado


de Mantel-Haenzel para tablas de contingencia tridimensionales. Una apli-
cación corriente es para verificar la no interacción entre un par de variables
en cualquier nivel de otra variable.
1.5. FUNCIONES EN R PARA DATOS CUALITATIVOS 19

mantelhaen.test(x, y = NULL, z = NULL,


alternative = c("two.sided", "less", "greater"),
correct = TRUE, exact = FALSE, conf.level = 0.95)

7. loglin(): esta función nos permite ajustar modelos log-lineales a tablas de


frecuencias.

loglin(table, margin, start = rep(1, length(table)), fit = FALSE,


eps = 0.1, iter = 20, param = FALSE, print = TRUE)

La opción fit=T nos presenta la tabla de valores esperados bajo el modelo


y param=T nos da los valores estimados del modelo que ajustamos.

loglm(): esta función se encuentra en la librerı́a MASS y nos permite ajustar


modelos log-lineales a tablas de frecuencias.

loglm(formula, data = parent.frame(), subset, na.action, ...)

polr() : Librerı́a MASS. Ajusta un modelo de regresión logı́stica proporcional


para un factor de respuesta ordenado.

polr(formula, data = NULL, weights, start, ..., subset,


na.action = na.fail, contrasts = NULL, Hess = FALSE)

1.5.2. Funciones para Probar Bondad de Ajuste


El R posee varias funciones para realizar pruebas de bondad de ajuste.

chisq.test() : (En la librerı́a ctest) Esta función permite realizar la ya


clásica prueba chi-cuadrado de bondad de ajuste de Pearson.

chisq.test(x, y = NULL, correct = TRUE,


p = rep(1/length(x), length(x)),
simulate.p.value = FALSE, B = 2000)

donde

x Un vector o una matriz


20 CAPÍTULO 1. INTRODUCCIÓN

y Es un vector y si x es una matriz este argumento es ignorado.


correct Un valor lógico para determinar si se aplica corrección por con-
tinuidad.
p Un vector de probabilidades teóricas de igual longitud que x.
simulate.p.value Valor lógico para calcular el valor p vı́a simulación.
B Número de simulaciones.
ks.test() : (En la librerı́a ctest)Preba de bondad de ajuste utilizando
Kolmogorov-Smirnov. Esta prueba está basada en la distribución acumu-
lada.

ks.test(x, y, ..., alternative = c("two.sided", "less", "greater"),


exact = NULL)

x Un vector de valores.
y Puede ser un vector de valores o el nombre de una distribución.
alternative ”two.sided”(default), ”less”, o ”greater”.
exact Un valor lógico que indica si se debe calcular un valor p exacto.
Solo funciona en la prueba bilateral.

pairwise.prop.test() En la librerı́a ctest. Permite hacer comparaciones


múltiples entre proporciones.

pairwise.prop.test(x, n, p.adjust.method=p.adjust.methods, ...)

prop.test() En la librerı́a ctest. Permite verificar la igualdad de propor-


ciones.

prop.test(x, n, p = NULL,
alternative = c("two.sided", "less", "greater"),
conf.level = 0.95, correct = TRUE)

goodfit() En la librerı́a vcd. Permite realizar pruebas de bondad de ajuste


para distribuciones discretas.

goodfit(obj, type = c("poisson", "binomial", "nbinomial"), method = c("ML", "Mi

Kappa() La librerı́a vcd trae una función para estimar el κ de Cohen.

Kappa(x, weights = c("Equal-Spacing", "Fleiss-Cohen"), conf.level = 0.95)


1.6. ANÁLISIS EXPLORATORIO DE UNA TABLA 21

woolf.test() La librerı́a vcd trae la prueba de Woolf para verificar la


igualdad de la razón de odds a través de k estratos.

woolf.test(x)

donde x es un arreglo 2 × 2 × k.

Funciones en R para generar números aleatorios

• runif(): Grnerador de números aleatorios de la distribución unifor-


me.
• rbinom(): Generador de muestras de una binomial.
• rnbinom(): Generador de muestras de una binomial negativa.
• rgeom(): Generardor de muestras de una geométrica.
• rmultinom(): Permite generar muestras de una distribución multi-
nomial.
• rnegbin: En la librerı́a MASS. Permite generar muestras de una dis-
tribución binomial negativa.
> rmultinom(5,7,c(0.2,0.3,0.5))
[,1] [,2] [,3] [,4] [,5]
[1,] 1 1 2 0 2
[2,] 2 4 1 4 3
[3,] 4 2 4 3 2
> rmultinom(9,3,c(0.2,0.3,0.5))
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9]
[1,] 2 0 0 0 2 1 0 0 0
[2,] 0 2 1 2 0 2 2 3 1
[3,] 1 1 2 1 1 0 1 0 2

Esta función también puede reemplzarse con la función sample().


• rhyper()

rhyper(nn, m, n, k)

• rpois(): Generador de muestras de una distribución Poisson.

1.6. Análisis Exploratorio de una Tabla


Mucho del trabajo realizado con datos es de carácter exploratorio. En el
caso de variables continuas el trabajo exploratorio ha sido tecnificado mediante
los trabajos de Chatfield y de Tukey. Para las tablas de contingencia no es tan
obvio qué hacer, pero dependiendo de los datos y del conocimiento del problema
22 CAPÍTULO 1. INTRODUCCIÓN

que originó los datos podemos utilizar funciones de los valores de la tabla que
nos den un mejor entendimiento del problema. Para ilustrar esto consideremos
la tabla que aparece a continuación y que hace referencia a los resultados de
un examen parcial de estadı́stica I. Este examen se realizó bajo la metodologı́a
de selección múltiple. Para controlar el fraude se tenı́an dos temas, los cuales
contenı́an las mismas preguntas pero en orden diferente. Además el examen se
le aplicó simultáneamente a tres grupos diferentes.

Resultado
Ganó Perdió
Grupo Tema A Tema B Tema A Tema B
1 20 15 8 7
2 15 17 5 4
3 16 16 3 4

El análisis de tablas de contingencia pequñas puede realizarse con una cal-


culadora. A continuación presentamos la utilización de R para esta tabla. La
primera parte consiste en la lectura de la tabla mediante la función array(), la
cual nos permite crear el arreglo tridimensional. Es importante tener cuidado
para ver cómo el programa está asignando las celdas del arreglo.

> resultados<-array(c(20,15,8,7,15,17,5,4,16,16,3,4),dim=c(2,2,3))
> resultados
, , 1

[,1] [,2]
[1,] 20 8
[2,] 15 7

, , 2

[,1] [,2]
[1,] 15 5
[2,] 17 4

, , 3

[,1] [,2]
[1,] 16 3
[2,] 16 4

> rownames(resultados)<-c(’Tema A’,’Tema B’)


> colnames(resultados)<-c(’Ganó’,’Perdió’)
> resultados
, , 1
1.6. ANÁLISIS EXPLORATORIO DE UNA TABLA 23

Ganó Perdió
Tema A 20 8
Tema B 15 7

, , 2

Ganó Perdió
Tema A 15 5
Tema B 17 4

, , 3

Ganó Perdió
Tema A 16 3
Tema B 16 4

>

> apply(resultados,3,sum)
[1] 50 41 39

> apply(resultados,c(1,2),sum)
Ganó Perdió
Tema A 51 16
Tema B 48 15

> apply(resultados,c(1),sum)
Tema A Tema B
67 63

> apply(resultados,c(2,3),sum)
[,1] [,2] [,3]
Ganó 35 32 32
Perdió 15 9 7

> apply(resultados,c(2,3),sum)/apply( apply(resultados,c(2,3),sum),2,sum)


[,1] [,2] [,3]
Ganó 0.7000000 0.8205128 0.7804878
Perdió 0.3658537 0.1800000 0.1794872

> t(apply(resultados,c(2,3),sum))/apply( apply(resultados,c(2,3),sum),2,sum)


Ganó Perdió
[1,] 0.7000000 0.3000000
24 CAPÍTULO 1. INTRODUCCIÓN

[2,] 0.7804878 0.2195122


[3,] 0.8205128 0.1794872
>
> apply(resultados,c(1,2),sum)/apply(apply(resultados,c(1,2),sum),1,sum)
Ganó Perdió
Tema A 0.7611940 0.2388060
Tema B 0.7619048 0.2380952

A continuación presentamos una lista con los posibles pasos en un análisis


de un problema que involucre datos categóricos:

1. Entienda el problema:
a) Es la situación observacional?
b) Es experimental?
2. Realice un análisis preliminar de la o las tablas: calcule porcentajes, ra-
zones entre porcentajes, mire cuáles combinaciones de celdas tienen cero
observaciones, etc. Escriba un reporte inicial detallando los resultados de
esta parte y sus sospechas y hallazgos. No omita detalle.
3. Determine cuáles variables son respuesta y cuáles son los factores.
4. Seleccione un modelo preliminar.
5. Estime el modelo.
6. Refine el modelo.
7. Evalúe el modelo.
8. Escriba el reporte definitivo.
Capı́tulo 2

Herramientas Asintóticas

En este capı́tulo presentamos unos elementos muy básicos de asintótica que


permiten mostrar muchos de los resultados posteriores de una manera directa.
Definición 2.1 Convergencia en Distribución Unasucesión de variables
aleatorias {Xn } converge nen distribución
o a una N µ, σ 2 , con σ > 0, si equi-
Xn −µ
valentemente la sucesión σ converge a una N (0, 1).

Definición 2.2 Normalidad Asintótica Una sucesión de variables aleato-


rias {Xn } es asintóticamente normal con “media” µn y varianza σn2 si
σn > 0 para todo n suficientemente grande y

Xn − µn D
→ N (0, 1)
σn

{µn } y σn2 son sucesiones de constantes.
No es necesario que µn y σn2 sean la media y la varianza de Xn , ni aún que
Xn posea tales momentos.
 
Resultado 1 Si Xn es AN µn , σn2 , entonces también Xn es AN µ̃n , σ̃n2 , si
y sólo si
σ̃n2
→ 1y
σn2
µ̃n − µn
→ 0
σn
 
Resultado 2 Si Xn es AN µn , σn2 , entonces también an Xn +bn es AN µn , σn2 ,
si y sólo si
an → 1y
µn (an − 1) − bn
→ 0
σn

25
26 CAPÍTULO 2. HERRAMIENTAS ASINTÓTICAS

n−1 n−1
Ejemplo 2.1 Si Xn es AN (n, 2n) entonces n Xn es AN pero √
n
Xn no lo
es.


Teorema 2.1 Suponga que Xn es AN µ, σn2 con σn → 0. Sea g una fun-
ciónde valor ral diferenciable
 en X = µ con g 0 (µ) =
6 0. Entonces g (Xn ) es
0 2 2
AN g(µ), [g (µ)] σn

0 
Teorema 2.2 Suponga que X n = (Xn1 , Xn2 , · · · , Xnk ) es AN µ, b2n Σ con
0
Σ matriz de covarianzas y bn → 0. Sea g(x) = (g1 (x), g2 (x), · · · , gm (x), ) ,
0
donde x = (x1 , x2 , · · · , xk ) , una función con argumento un vector y donde cada
componente es una función de valor real y tiene un diferencial no cero gi (µ; t),
0
x = (t1 , t2 , · · · , tk ) , en x = µ. Haga
 
∂gi
D= |x=µ
∂xj m×k

Entonces g (X n ) ∼ AN g(µ), b2n DΣD 0




Teorema 2.3 Teorema Central del Lı́mite Multivariable

1. Sean {X i } vectores aleatorios i.i.d. con vector de medias µ y matriz de


covarianzas Σ. Entonces
√ 
n X̄ n − µ → N (0, Σ)

esto es

X̄ n ∼ AN (µ, Σ)

2. Sean {X i } vectores aleatorios independientes con medias {µi } y matrices


de covarianzas {Σi } y funciones de distribución {Fi }. Suponga que

Σ1 + · · · + Σn
→ Σ, n→∞
n
y que

n Z
1X 2
kx − µi k dFi (x) → 0, n → ∞, ∀ > 0
n i=1 kx−µi k>√n

Entonces

n n
!
1X 1X 1
X i ∼ AN µ, Σ
n i=1 n i=1 i n
2.1. EL T.C.L. Y LA DISTRIBUCIÓN MULTINOMIAL 27

2.1. El T.C.L. y la Distribución Multinomial


Sea X1 , X2 , · · · , Xn una muestra aleatoria de una distribución multinomial
con vector de probabilidades
 
π1
 π2 
 
 π3 
 
π=  . 

 . 
 
 . 
πR

Cada vector Xi puede está compuesto de ceros y un uno que nos indica a
cuál categorı́a pertence el iésimo elemento de la muestra. Su matriz de varianzas
y covarianzas es
 
π1 (1 − π1 ) −π1 π2 ··· −π1 πR
 −π1 π2 π2 (1 − π2 ) · · · −π2 πR 
ΣX = 
 
.. .. .. 
 . . . 
−π1 πR −π2 πR · · · πR (1 − πR )

El estimador de máxima verosimilitud en el caso multinomial de π es


 
π̂1
n
X  π̂2 
π̂ = Xi =  . 
 
i=1
 .. 
π̂R

Y la matriz de varianzas y covarianzas del estimador es


 
π1 (1 − π1 ) −π1 π2 ··· −π1 πR
1 −π 1 π 2 π 2 (1 − π 2 ) · · · −π 2 πR

Σπ̂ = 

.. .. ..
n

. . . 
−π1 πR −π2 πR · · · πR (1 − πR )

Este estimador es asintóticamente normal con vector de medias π y matriz


de varianzas y covarianzas Σπ̂ .

2.2. Distribución Asintótica de la Producto Mul-


tinomial
Si X vector aleatorio que sigue una distribución producto multinomial, en-
tonces π̂ se distribuye asintóticamente normal multivariable con vector de me-
dias π y matriz de varianzas y covarianzas dado por
28 CAPÍTULO 2. HERRAMIENTAS ASINTÓTICAS

 
Σ1 0 ··· 0
 0 Σ2 ··· 0 
ΣSR×SR = 
 
.. .. .. .. 
 . . . . 
0 0 · · · ΣS
Capı́tulo 3

Tablas Unidimensionales

Las tablas unidimensionales surgen cuando se analizan variables cualitati-


vas individualmente. Básicamente hay dos modelos de interés: el binomial y el
multinomial.

3.1. Modelo Binomial


Supongamos que x1 , x2 , · · · , xn es una muestra aletoria de tamaño n de una
distribución Bernoulli con parámetro π. La función de verosimilitud para π
está dado por
Yn Pn Pn
L(π) = π xi (1 − π)1−xi = π i=1 xi (1 − π)n− i=1 xi
i=1

El estimador de máxima verosimilitud para π será π̂ tal que

L(π̂) ≥ L(π), con π̂ ∈ Ω


donde Ω = (0, 1) es el espacio parametral.
Para obtener π̂ es preferible trabajar con el logaritmo de L, ya que es más
fácil de manipular a nivel de cálculo, ası́:
n n
!
X X
l(π) = log(L(π)) = log(π) xi + log(1 − π) n − xi
i=1 i=1

Para hallar el máximo derivamos la expresión anterior con respecto a π e


igualamos a cero y procedemos a resolver la ecuación resultante:
Pn Pn
∂l(π) xi n − i=1 xi
l0 (π) = = i=1 −
∂π π 1−π
Resolviendo l0 (π) = 0 obtenemos
n
1X
π̂ = xi = x̄.
n i=1

29
30 CAPÍTULO 3. TABLAS UNIDIMENSIONALES

Hallemos l00 (π) para poder hallar la varianza asintótica del estimador π̂.
Pn Pn
∂ 2 l(π) i=1 xi n − i=1 xi
l00 (π) = = − −
∂π 2 π2 (1 − π)2
La varianza asintótica es −E[(l00 (π))]−1 .
 Pn Pn −1
xi n − i=1 xi π(1 − π)
var(π̂) = −E − i=1 − =
π2 (1 − π)2 n

3.1.1. Pruebas de hipótesis con respecto a π


Asumamos que deseamos verificar Ho : π = πo . La función de verosimilitud
para π está dado por
 
n
L(π) = π x (1 − π)n−x
x
Pn
donde x = i=1 xi .
La razón de verosimilitudes está dada por
 
n
πox (1 − πo )n−x  π x  1 − π n−x
L(ω) x o o
R(π) = =   =
L(Ω) n π 1 − π
π x (1 − π)n−x
x
Tenemos que −2 ln (R(π̂)) ∼ χ2(ν) , con ν = dim(Ω) − dim(ω). Por lo tanto
! !
L(ω̂)  π x  1 − π n−x
o o
−2 ln (R(π̂)) = −2 ln = −2 ln
L(Ω̂) π̂ 1 − π̂

3.1.2. Intervalos de confianza


Esta sección está basada en el artı́culo de Correa y Esperanza (2000). Dado
que la distribución binomial es discreta, no es posible construir intervalos con
cualquier nivel de confianza preespecificado, a no ser que se aleatorice, procedi-
miento que no es aceptado en la práctica, y se trabaja con métodos aproximados,
en especial usando propiedades de muestras grandes.

Método Exacto Basado en la F


Para construir este intervalo con un nivel (1 − α)100 % de confianza para
π debemos determinar los lı́mites inferior, LI y superior, LS , tales que P (Y ≥
y|π = LI ) = α/2 y P (Y ≤ y|π = LS ) = α/2. Leemis y Trivedi (1996) muestran
dos procedimientos mediante los cuales se calculan LI y LS en términos de la
distribución F . El intervalo “exacto” es:
!
1 1
n−y+1 , n−y
1 + yF2y,2(n−y+1),1−α/2 1 + (y+1)F2(y+1),2(n−y),α/2
3.1. MODELO BINOMIAL 31

Métodos Aproximados
Basado en el Teorema Central del Lı́mite Este es el intervalo propuesto
en la mayorı́a de textos básicos en estadı́stica (Canavos, 1988; Wonnacott y
Wonnacott, 1979; Roussas, 1973; Walpole, 1992; Meyer, 1986; Mood et al., 1974)
r r !
π̂(1 − π̂) π̂(1 − π̂)
π̂ − zα/2 , π̂ + zα/2
n n

Se puede considerar la correción por continuidad (Snedecor y Cochran, 1980)


r r !
π̂(1 − π̂) 1 π̂(1 − π̂) 1
π̂ − zα/2 − , π̂ + zα/2 +
n 2n n 2n

Mood et al. (1974, pp. 394-395) y Larson (1983, pp.309-310)presentan un


intervalo de confianza que se halla como solución a una ecuación cuadrática. El
intervalo resultante es LI , LS , donde
2
q 2
zα/2 zα/2 zα/2
π̂ + 2n − √n π̂(1 − π̂) + 4n
LI = z2
1 + α/2
n
y q
2 2
zα/2
zα/2 zα/2
π̂ + 2n + √
n
π̂(1 − π̂) + 4n
LS = 2
zα/2
1+ n

Basado en la Transformación Arcoseno En Hogg y Craig (1978, pp. 217)


encontramos la justificación para que la función arcoseno pueda usarse en la
construcción de intervalos de confianza para π a partir de la desigualdad
√ √ zα/2
|arcsen( π) − arcsen( π̂)| ≤ √
2 n

Basado en la Aproximación Poisson Leemis y Trivedi (1996) apoyados


en que la variable binomial Y con parámetros n y π es asintóticamente Poisson
con parámetro λ = nπ; aproximan
∞ y−1
X λk e−λ X λk e−λ
P (Y ≥ y|π = LI ) ≈ =1− .
k! k!
k=y k=0

Esta expresión es igual a P (χ22y ≤ 2nLI ) = α/2 y se obtiene que LI =


2nχ22y,(1−α/2) . Similarmente se obtiene LS . El intervalo usando este método
es:  
1 2 1 2
χ(2y,1−α/2) , χ(2(y+1),α/2)
2n 2n
Para algunas combinaciones de π y n esta aproximación es muy burda, lo que
hace que este intervalo no siempre sea adecuado.
32 CAPÍTULO 3. TABLAS UNIDIMENSIONALES

Intervalos Máximo Verosı́miles Kalbfleish (1985) presenta la metodologı́a


para construir intervalos de verosimilitud. Si L(θ) es la función de verosimilitud,
se define la función de verosimilitud relativa como

L(θ)
R(θ) =
L(θ̂)

El conjunto de valores de θ para los cuales R(θ) ≥ p es llamado la intervalo de


100 %p de verosimilitud para θ. Los intervalos del 14.7 % y del 3.6 % de verosi-
militud corresponden a intervalos de confianza aproximadamente de niveles del
95 % y del 99 %. Lo que se debe hacer entonces es hallar las raı́ces que nos dan
los lı́mites del intervalo. Para el caso del parámetro de la Bernoulli, π, tenemos
que un intervalo de confianza del 95 % se halla encontrando el par de raı́ces tal
que
L(π) π y (1 − π)n−y
R(π) = = y ≥ 0,147
L(π̂) π̂ (1 − π̂)n−y
Esto se resuelve numéricamente. Una solución se halla a la izquierda de π̂ y la
otra a su derecha.
Las longitudes promedio de los intervalos basados en el Teorema Central del
Lı́mite (Método I) son menores que las de los intervalos construı́dos con los otros
métodos, pero cuando π es pequeño los intervalos no alcanzan, para ningún n,
el nivel de confianza nominal. Solo cuando π se acerca a 0.5 los niveles reales se
aproximan al nominal.
Los intervalos construı́dos con la trasformación arcoseno (Método III) son
inconsistentes: los niveles reales disminuyen dramáticamente cuando n aumenta.
Cuando π y n son muy pequeños los niveles reales son buenos pero las longitudes
promedio son grandes.
Los intervalos construı́dos usando la aproximación Poisson (Método IV) tie-
nen amplitudes grandes cuando n < 100, sin embargo los niveles reales están
muy próximos al nominal cuando π es pequeño, y si π se acerca a 0.5 estos
niveles superan el 95 %.
Los intervalos basados en la F alcanzan, para todos los tamaños, niveles de
confianza reales que superan el nivel nominal. Las longitudes son grandes, pero
disminuyen cuando n aumenta aproximándose a las longitudes de los intervalos
del método I.
Los intervalos construı́dos a partir de la función de verosimilitud (Método V)
presentan niveles reales muy próximos o superiores a los teóricos y longitudes
pequeñas especialmente cuando n no es muy pequeño.
Hay dos procedimientos que dominan: el intervalo basado en la F y el in-
tervalo basado en la función de verosimilitud (Método V). Este último exige
encontrar un par de raı́ces numéricamente, lo cual puede ser molesto si se ha-
ce a mano, pero con la ayuda de un computador es una tarea muy simple. El
primero es directo.
Obviamente ninguno de los otros debe utilizarse y nos parece extraño que
los libros sobre métodos estadı́sticos los presenten como única alternativa.
3.2. MODELO MULTINOMIAL 33

Ejemplo 3.1 ( Estimación del Porcentaje de Niños Zurdos) De la tabla


de niños zurdos del primer capı́tulo, sin considerar sexo, tenemos

Zurdos 136
Diestros 340

Para construir el intervalo de confianza utilizamos el método exacto. A con-


tinuación presentamos el program en R:

Intervalo.proporcion
<-function(exitos,fracasos,nivel=0.95){
alfa<-1-nivel
y<-exitos
n<-exitos+fracasos
LI<-1/(1+(n-y+1)/(y*qf(alfa/2,2*y,2*(n-y+1))))
LS<-1/(1+(n-y)/((y+1)*qf(1-alfa/2,2*(y+1),2*(n-y))))
list(LI=LI,LS=LS)
}
> Intervalo.proporcion(136,340)
$LI
[1] 0.2455206

$LS
[1] 0.3285939

>

Se puede por tanto decir que el porcentaje de niños zurdos está entre el 24.5 %
y el 32.8 %. Este dato puede ser de utilidad para personas que diseñan muebles
o para los encargados de compras de sillas universitarias, ya que de 100 sillas
al menos 24 deben ser para zurdos.

3.2. Modelo Multinomial


El modelo multinomial es uno de los más comunes en el trabajo estadı́stico
aplicado. Surge naturalmente cuando se reponden preguntas de selección múlti-
ple, etc. Siendo tan importante es extraño el poco énfasis al trabajo inferencial
que ralizan los textos básicos sobre él. Una situación especial se presenta cuan-
do las categorı́as tienen una estructura ordinal y se pueden considerar modelos
parsimoniosos (con menos parámetros) que el multinomial correspondiente a la
clasificación nominal que posee un número de parámetros igual al número de
categorı́as menos uno. En casos donde no aparezca un modelo con claridad se
puede aprovechar la ordinalidad para realizar una suavización de tipo nopa-
ramétrica, que en algunos casos puede tomar ventajas de ciertas condiciones
naturales como la monotonicidad.
34 CAPÍTULO 3. TABLAS UNIDIMENSIONALES

3.2.1. Estimación
Asumamos que X1 , X2 , · · · ,P Xn es una muestra aleatoria de una multinomial
k
M (1, (π1 , π2 , · · · , πk )0 ) donde i=1 πi = 1. Cada Xi es un vector con ceros y
con un único uno en la posición correspondiente a la categorı́a que pertenece la
observación.
 
π1
 π2 
 
 . 
E(Xi ) = 
 
 . 

 . 
πk
 
π1 (1 − π1 ) −π1 π2 ··· −π1 πk
 −π2 π1 π2 (1 − π2 ) · · · −π2 π b 
var(Xi ) = Σ = 
 
.. .. .. .. 
 . . . . 
−πk π1 −πk π2 · · · πk (1 − πk )
La función de verosimilitud será:
n!
L(π1 , π2 , · · · , πk ) = π n1 π n2 · · · πknk
n1 !n2 ! · · · nk ! 1 2
donde
Pn i es el número de observaciones que pertenecen a la i-ésima categorı́a y
n
n = i=1 ni .
El log de la verosimilitud será
  X k
n!
l = log(L(π1 , π2 , · · · , πk )) = log + ni log(πi )
n1 !n2 ! · · · nk ! i=1

Para hallar los estimadores de máxima verosimilitud derivamos la función


anterior con respecto a cada uno de los parámetros (aquı́ abusamos tanto de
Pk
notación como de lenguaje) teniendo en cuenta la restricción πi = 1,

Pi=1
k
utilizando el multiplicador de Lagrange, l = l(π1 , π2 , · · · , πk ) − λ( i=1 πi − 1).
Igualamos a cero y resolvemos el sistema de ecuaciones resultante.

∂l∗ n1
= +λ
∂π1 π1
∂l∗ n2
= +λ
∂π2 π2
.. .. ..
. . .
∂l∗ n1
= +λ
∂πk πk
k
∂l∗ X
= πi − 1
∂λ i=1
3.2. MODELO MULTINOMIAL 35

Igualando a cero y resolviendo, obtenemos


ni
π̂i = para todo i = 1, · · · , k.
n

3.2.2. Intervalos de Confianza


Intervalos de Sison y Glaz
Sison y Glaz (1995) proponen dos formas de calcular intervalos de confianza
simultáneos para los parámetros multinomiales.
May y Johnson (2000) proporcionan macros en SAS para calcular estos in-
tervalos. Ellos argumentan que estos intervalos funcionan mejor que los otro
métodos cuando número de categorı́as es grande y el número de observaciones
no lo es tanto y si no existen celdas que polaricen las probabilidades.

Intervalo de Quesenberry y Hurst


Johnson y Kotz (1969) presentan el intervalo propuesto por Quesenberry y
Hurst en 1964. El intervalo para πi está dado por
r  
χ2k−1,1−α + 2ni ± χ2k−1,1−α χ2k−1,1−α + 4 nNi (N − ni )
 
2 N + χ2k−1,1−α

Una mejora se logra si trabaja con 1 − α/k en lugar de 1 − α.

Método basado en el Teorema Central del Lı́mite


Si el tamaño muestral es lo suficientemente grande, podemos aplicar el teore-
ma central del lı́mite multivariable. Si n = (n1 , n2, · · · , nk )T es un vector alea-
torio k-dimensional
P proveniente de una multinomial M PU LT IN OM IAL(π, N ),
donde N = nj es fijo y π = (π1 , π2 , · · · , πk ), con πj = 1. Entonces
1
π̂ = n
N
Este es el intervalo propuesto en la mayorı́a de textos básicos en estadı́stica
(Canavos, 1988; Wonnacott y Wonnacott, 1979; Roussas, 1973; Walpole, 1992;
Meyer, 1986; Mood et al., 1974)
r r !
π̂i (1 − π̂i ) π̂i (1 − π̂i )
π̂i − zα/(2k) , π̂i + zα/(2k)
n n

Se puede considerar la correción por continuidad (Snedecor y Cochran, 1980)


r r !
π̂i (1 − π̂i ) 1 π̂i (1 − π̂i ) 1
π̂i − zα/(2k) − , π̂i + zα/(2k) +
n 2n n 2n
36 CAPÍTULO 3. TABLAS UNIDIMENSIONALES

Intervalos basados en la Razón de Verosimilitud Relativa

Kalbfleish (1985) presenta la metodologı́a para construir intervalos de verosimi-


litud. Si L(θ) es la función de verosimilitud, se define la función de verosimilitud
relativa como
L(θ)
R(θ) =
L(θ̂)
El conjunto de valores de θ para los cuales R(θ) ≥ p es llamado la intervalo de
100 %p de verosimilitud para θ. Los intervalos del 14.7 % y del 3.6 % de verosi-
militud corresponden a intervalos de confianza aproximadamente de niveles del
95 % y del 99 %. Lo que se debe hacer entonces es hallar las raı́ces que nos dan
los lı́mites del intervalo. Para el caso del parámetro de la Bernoulli, π, tenemos
que un intervalo de confianza del 95 % se halla encontrando el par de raı́ces tal
que
L(π1 , π2 , · · · , πk )
R(π1 , π2 , · · · , πk ) = ≥ K(k, α)
L(π̂1 , π̂2 , · · · , π̂k )
Esto se resuelve numéricamente.

Método de Goodman

Bromaghin (1993) presenta el métod propuesto por Goodman en 1963, el


cual calcula los lı́mites para la i-ésima probabilidad a partir de las siguientes
ecuaciones:
q
+ 4ni n−n
2 2

z(α i /2)
+ 2n i − z αi /2 z(α i /2) n
i

LIi = 2
2(n + z(α i /2)
)

y
q
n−ni
2 2

z(αi /2)
+ 2ni + zαi /2 z(αi /2)
+ 4ni n
LSi = 2
2(n + z(αi /2)
)

Método Exacto Basado en la F

Para construir este intervalo con un nivel (1 − α)100 % de confianza para


π debemos determinar los lı́mites inferior, LI y superior, LS , tales que P (Y ≥
y|π = LI ) = α/2 y P (Y ≤ y|π = LS ) = α/2. Leemis y Trivedi (1996) muestran
dos procedimientos mediante los cuales se calculan LI y LS en términos de la
distribución F . El intervalo “exacto” es:
!
1 1
n−y+1 , n−y
1 + yF2y,2(n−y+1),1−α/2 1 + (y+1)F2(y+1),2(n−y),α/2
3.2. MODELO MULTINOMIAL 37

Bootstrap
El método bootstrap proporciona una manera directa y sencilla para hallar
intervalos simultáneos para los parámetros de la distribución multinomial. Para
hallarlos se procede ası́:
1. A partir de la muestra estime los parámetros por máxima verosimilitud.
ni
π̂i = i = 1, 2, · · · , k
n
2. Genere M muestras de tamaño n de una distribución multinomial con
parámetros π̂1 , π̂2 , · · · , π̂k . Para cada muestra estime los parámetros
π1 , π2 , · · · , πk , digamos que para la muestra j los estimadores son π̂1j , π̂2j , · · · , π̂kj
n oM
3. Para cada π̂ij , construya un histograma y calcule los percentiles
j=1
.025/(k-1) y 0.975/(k-1), denotémoslos por π̂i0,025 y π̂i0,975
Ejemplo 3.2 Los tipos de sangre La tabla presenta los datos sobre el tipo de
sangre presentados en el capı́tulo I sobre una muestra de personas de la región
central y oriental de Antioquia

Tipo de Sangre
O A AB B
Frecuencia 474 246 11 59
π̂i 0.60000000 0.31139241 0.01392405 0.07468354
Intervalos simultáneos: TCL
Lim. Inf. 0.556465534 0.270242626 0.003511297 0.051322879
Lim. Sup. 0.64353447 0.35254218 0.02433680 0.09804421
Intervalos simultáneos: Quesenberry y Hurst
Lim. Inf. 0.53763946 0.25675391 0.00505438 0.04795771
Lim. Sup. 0.65927993 0.37184116 0.03776781 0.11451171
Intervalos simultáneos Bootstrap
Lim. Inf. 0.5509415 0.2746835 0.005063291 0.05094146
Lim. Sup. 0.6414636 0.3518987 0.026582278 0.09842563
Intervalos simultáneos: Sison y Glaz
Lim. Inf. 0.5658 0.2772 0.0000 0.0405
Lim. Sup. 0.6363 0.3477 0.0502 0.1109
Intervalos simultáneos: Sison y Glaz II
Lim. Inf. 0.5646 0.2759 -0.0215 0.0392
Lim. Sup. 0.6354 0.3465 0.0494 0.1101

3.2.3. Qué hacer cuando hay celdas con cero observacio-


nes?
Jovanovic y Levy (1997) tratan el caso de intervalos de confianza para el
parámetro de la distrbución binomial cuando se tienen cero eventos utilizando
una sencilla cota
38 CAPÍTULO 3. TABLAS UNIDIMENSIONALES

− ln(α)
n
Dado que estamos bajo el caso multinomial y podemos tener más de una
categorı́a con cero observaciones, esta cota la podemos modificar a

− ln(α/k)
n

3.2.4. Entropı́a como mediada de polarización en la mul-


tinomial
La entropı́a ha sido utizada como una medida de incertidumbre (Burrows,
1989), y para una distribución multinomial con J categorı́as se define como
J
X
H=− πj log(πj ).
j=1

Es bien conocido que la entropı́a es máxima para la distribución uniforme,


H = log(J), y si toda la masa de probabilidad está concentrada en una de las
categorı́as tenemos H = 0 (0 ≤ H ≤ log(J)). Si tenemos una muestra con N
PJ
sujetos y los clasificamos, tenemos n1 , n2 , · · · , nJ frecuencias tal que j=1 nj =
N , entonces el estimador de la entropı́a será
J
X nj n 
j
H=− log .
j=1
N N

3.2.5. Tamaño muestral


Bromaghin (1993) presenta la siguiente fórmula que es útil para calcular los
intervalos de confianza simutáneos en el caso de aplicar el método basado en el
TCL modificado de Goodman, el cual no recomendamos, pero que es útil como
una aproximación. Se calcula
2
z(α
 q 
i /2)
ni = πi (1 − πi ) − 2d2i + πi2 (1 − πi )2 − d2i [4πi (1 − πi ) − 1]
2d2i

donde di hace referencia a la amplitud deseada para la i-ésima probabilidad,


αi es el nivel de cada intervalo y seleccionando n = min{ni , i = 1, 2, · · · , k}.

3.2.6. Pruebas de hipótesis


Asumamo que deseamos verificar la hipótesis Ho : π1 = π1 ∗, · · · , πk = πk∗
contra la alternativa HA : πj 6= πj∗ , para algún πj . La razón de verosimilitud es
3.2. MODELO MULTINOMIAL 39

L(π1∗ , · · · , πk∗ )
n! ∗n1 ∗n2
n1 !n2 !···nk ! π1 π2 · · · πk∗nk
R(π1 , · · · , πk ) = = n! n 1 n2 nk
L(π1 , · · · , πk ) n1 !n2 !···nk ! π1 π2 · · · πk

Lo cual se reduce a
n1  n 2 nk
π1∗ π2∗ πk∗
 
R(π1 , · · · , πk ) = ···
π1 π2 πk

Sabemos que −2 log (R(π̂1 , · · · , π̂k )) ∼ χ2ν , donde ν = dim(Ω) − dim(ω) =


(k − 1) − 0 = k − 1, tenemos entonces que
k
πi∗
X  
−2 log (R(π̂1 , · · · , π̂k )) = −2 ni log ∼ χ2(k−1)
i=1
π̂i

Ejemplo 3.3 (Los tipos de sangre) El periódico El Tiempo (Abril 2 del 2000)
presentó una tabla con los porcentajes de los diferentes tipos de sangre en la po-
blación.

Ho : πO = 0,577, πA = 0,292, πAB = 0,091, πB = 0,021

La siguiente tabla presenta los datos sobre el tipo de sangre en una muestra
de personas de la región central y oriental de Antioquia

Tipo de Sangre
O A AB B
Frecuencia 474 246 11 59
π̂i 0.60000000 0.31139241 0.01392405 0.07468354
La siguiente función en R nos permite realizar los cálculos:

prueba.multinomial
<-function(observado,prob.teoricas){

if(length(observado)!=length(prob.teoricas))stop(’Longitudes diferentes!’)
observado<-ifelse(observado==0,0.5,observado)
G2<--2*sum(observado*log(prob.teoricas/(observado/sum(observado))))
gl<-length(observado)-1
valor.p<-1-pchisq(G2,gl)
list(G2=G2,valor.p=valor.p)
}

> prueba.multinomial(c(474,246,11,59),c(0.577,0.292,0.091,0.021))
$G2
[1] 177.1022
40 CAPÍTULO 3. TABLAS UNIDIMENSIONALES

$valor.p
[1] 0

>
Los resultados anteriores nos llevan a creer que la distribución presentada
en el periódico no es correcta.
Ejemplo 3.4 (Sobre los resultados del juego de dados) En un juego de
parqués se registraron los resultados del lanzamiento de un par de dados 130
veces. A partir de estos resultados quiere uno ver si los dados son conjuntamente
buenos.
Resultado 2 3 4 5 6 7 8 9 10 11 12
Frecuencia 4 8 10 11 22 14 22 18 10 5 6
La hipótesis a verificar es la que la suma de los dos dados tiene una distri-
bución producida por un par de dados justos:
Resultado 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
Probabilidad esperada 36 36 36 36 36 36 36 36 36 36 36

> prueba.multinomial(c(4,8,10,11,22,14,22,18,10,5,6),
+ c(1,2,3,4,5,6,5,4,3,2,1)/36)
$G2
[1] 8.75751

$valor.p
[1] 0.555261

Los resultados no nos permiten rechazar la hipótesis nula sobre la distribu-


ción de la suma de los dos dados.

3.3. Ajustes a la prueba G2


Smith et al. (1981) presentan un análisis detallado de los problemas asintóti-
cos de la prueba G2 . Todas las pruebas que son asintóticas no dejan de presentar
problemas aún con tamaños muestrales muy grandes y en general no se encuen-
tran recomendaciones del todo apropiadas. Ellos hacen correcciones que son
fácilmente implemetables con el software disponible en la actualidad. Recorde-
mos que el estadı́stico de prueba es
K  
2
X ni
G =2 ni log
i=1
N pi

La teorı́a asintótica para


 la prueba de razón
 de verosimilitud nos dice que para
N → ∞, P G2 ≤ x → P χ2K−1 ≤ x . Los autores reconocen las siguientes
deficiencias de esta aproximación:
3.3. AJUSTES A LA PRUEBA G2 41

Ninguno de los momentos de la distribución asintótica concuerda con los


reales.

El estadı́stico G2 tiene un rango [0, −2N log (πmin )] y no [0, ∞).

La media y la varianza de este estadı́stico son

K
!
2
 1 X 1
E G = K −1+ −1
6N π
i=1 i
K
! K
!
1 X 1 1 1 X 1
+ − 2 +O + 3
6N 2 i=1 πi π N i=1 πi3
K
!
2 X 1
V ar G2

= 2(K − 1) + −1
3N i=1 πi
K
! K
!
4 X 1 1 1 X 1
+ − 2 +O + 3
3N 2 i=1 πi π N i=1 πi3

Utilizando estos dos resultados anteriores es posible proponer correcciónes a


los problemas vistos. La más sencilla es

G2
G2M ejorado =
q

donde q ha sido definido de varias formas. Dos soluciones que Smith et al.
exponen son una debida a Williams
K
!
1 X 1
q =1+ −1
6N (K − 1) i=1 πi

y la otra debida Lawley


K K
!!
∗ 1 X 1 1 X 1 1
q =1+ −1+ − 2
6N (K − 1) π
i=1 i
N π
i=1 i
π

Se pueden realizar mejoras si se consideran otro tipo de aproximaciones.


La siguiente utiliza el hecho
 que si una variable aleatoria X tiene soporte en
X
[0, M ], entonces P M ≤ x puede aproximarse por una distribución beta con
parámetros

µ
µ(M − µ) − σ 2

a = 2

a(M − µ)
b =
µ
42 CAPÍTULO 3. TABLAS UNIDIMENSIONALES

donde µ = E(X) y σ 2 = V ar(X). En el caso de la prueba G2 se tiene que

M = −2N log (πmin )

y µ y σ 2 son aproximados por las ecuaciones de la media y la varianza de G2


presentados arriba.
Finalmente ellos presentan las siguientes recomendaciones:

Para K = 2 ningún procedimiento de ajuste parece recomendable.


Para K = 3 el ajuste χ2 es la mejor selección.

Para K ≥ 4 el ajuste de G2 /q ∗ es recomdendo para aproximaciones de la


cola de la G2 con tamaños moderados (N ≥ 25).
El ajuste de Williams no debe ser utilizado, ya que es inexacto para K ≥ 7
nunca es más exacto que G2 /q ∗ .
Capı́tulo 4

Tablas Bidimensionales

4.1. Esquemas de Muestreo


Las tablas bidimensionales son importantes por varios aspectos: Primero,
permiten el cruce de dos variables, lo que es manejable de una forma sencilla
por parte del investigador y usualmente los tamaños muestrales no permiten
elaborar tablas más complejas, ya que las tablas comienzan a presentar muchas
celdas con muy pocas observaciones, esto se puede ver si tenemos 5 variables hay
32 celdas posibles. Segundo, el usuario las entiende y las visualiza sin mayores
dificultades.
Un caso de importancia es el de las Tablas 2 × 2, el cual desarrollaremos
en detalle, ya que permite la introducción de conceptos importantes de una
forma simple. Hay un ejemplo clásico narrado por Fisher (1951) en su libro
“El Planeo de Experimentos” (la traducción es argentina) y que presentamos a
continuación:

“Una dama declara que catando una taza de té con leche, puede
distinguir si la leche o la infusión de té fué vertida primero en la taza.
Consideremos el problema de diseñar un experimento por medio del
cual este aserto puede ser testado. Con este propósito permı́tasenos
primero formular un experimento de forma simple con miras a es-
tudiar sus limitaciones y sus caracterı́sticas: aquellas que aparecen
como fundamentales para el método experimental, cuando está bien
desarrollado y las que no son esenciales sino auxiliares.
Nuestro experimento consiste en mezclar ocho tazas de té cuatro
en una forma y cuatro en la otra, y presentarlas ordenadas al azar al
sujeto que debe juzgarlas. El sujeto ha sido informado de antemano
en qué consistirá el test, a saber: que se le pedirá que cate ocho
tazas, que éstas serán cuatro de cada clase, y que le serán presentadas
ordenadas al azar, que es un orden no determinado arbitrariamente
por elección humana, sino por la manipulación actual de los aparatos
fı́sicos usados en juegos de azar, cartas, dados, ruletas, etc., o, más

43
44 CAPÍTULO 4. TABLAS BIDIMENSIONALES

expeditivamente a partir de una tabla de números para muestras al


azar, destinada a dar el resultado actual de tal manipulación. Su
tarea es separar las ocho tazas en dos grupos de 4, estipulando, si es
posible, los tratamientos recibidos. ”

4.1.1. Esquemas de Muestreo para Tablas 2 × 2


Las tablas 2 × 2 son del estilo de la que aparece a continuación:

Clasificación II
1 2 Total
Clasificación I 1 a b k1 = a + b
2 c d k2 = c + d
Total n1 = a + c n2 = b + d N

Muestreando con ambos conjuntos de marginales fijos


Sean A, B, C y D variables aleatorias con valores observados a, b, c y d.
Bajo este esquema de muestreo sólo una es independiente, digamos A.

Ejemplo 4.1 Prueba Exacta de Fisher Suponga que en un proceso de


selección de personal para cierta labor de promoción se decide entrevistar k1
hombres y k2 mujeres. De antemano se sabe que n1 personas serán seleccionadas.
Una pregunta que podrı́a ser de interés es la siguiente: Exite sesgo a favor de
la selección de mujeres (u hombres)? Si ka1 y kc2 son muy diferentes, uno puede
sospechar un sesgo. La hipótesis nula será en este caso:
Ho : La selección es estrictamente aleatoria.
Bajo la hipótesis nula la distribución de A será :

     
n1 n2 k1 k2
a b a c
PHo (A = a) =   =  
N N
k1 n1

para a = 0, 1, ..., mı́n(k1 , n1 ) y máx(0, k1 + n1 − N ) ≤ a ≤ mı́n(k1 , n1 ).


Es fácil ver que a ≥ 0. Se deja como ejercicio verificar que a ≥ k1 + n1 − N .
n1 n1
E[A] = k1 = k1 p , donde p =
N N
Si el número observado es mucho mayor que el valor esperado, digamos ≥ aα ,
esto indicará un sesgo a favor de los hombres, aqu´ i aα es el entero más pequeño
tal que
P (A ≥ aα ) ≤ α
α es el nivel de significancia deseado para probar Ho , donde la alternativa
serı́a
4.1. ESQUEMAS DE MUESTREO 45

Ha : Sesgo a favor de los hombres


El valor-p se calcula como
  
n1 n2
min(n1 ,k1 ) n1
X X j k1 − j
valor − p = P [A = j] =  
j=a j=a
N
k1

Se rechaza Ho a un nivel α si p ≤ α. Esta prueba es conocida como la prueba


exacta de Fisher-Irwin1 .
La prueba anterior es de una cola. La prueba de dos colas, esto es: Sesgo
hacia alguno de los sexos, puede construirse de muchas formas. Una es: escoja
α1 y α2 tal que α1 + α2 = α con aα1 tal que

P (A ≤ aα1 ) ≤ α1

y a∗α2 tal que.


P (A ≤ a∗α2 ) ≤ α2
Rechace Ho si a ≤ aα1 ó a ≤ a∗α2 .

Prueba exacta de Fisher en R La función fisher.test() permite rea-


lizar la prueba exacta de Irwin-Fisher.

fisher.test(x, y = NULL, workspace = 200000, hybrid = FALSE,


or = 1, alternative = "two.sided", conf.level = 0.95)

x Es una matriz I × J de enteros no negativos o un objeto tipo factor.

y Es un objeto tipo factor y solo es considerardo si el argumento anterior no es


una matriz.

workspace Un entero que especifica el espacio de trabajo en R.

hybrid Un valor lógico que indica si se calculan las probabilidades exactas o


un hı́brido basado en una aproximación chi-cuadrada.

or Valor hipotético de la razón de odds.

alternative Solo se utiliza en matrices 2×2 y debe especificar el tipo de hipóte-


sis a ser verificada: “two-sided”, “greater” o “less”
1 Debemos anotar que varios autores hacen comentarios sobre la falsa idea que produce la

palabra exacta cuando se habla de la Prueba Exacta de Fisher. Como D’Agostino et al. (1988)
notan, esta prueba es muy conservadora y tiene una potencia muy pobre comparada con la
chi-cuadrada.
46 CAPÍTULO 4. TABLAS BIDIMENSIONALES

conf.level Solo se utiliza en matrices 2 × 2 y especifica el nivel de confianza.

Consideremos el famoso ejemplo de la dama que declara que conoce si en


una taza de té con leche fue colocado primero el té o la leche descrito por Fisher.

Decisión
Té Leche
Lo que primero Té 3 1
se colocó Leche 1 3

> data.te <- matrix(c(3,1,1,3),ncol=2,byrow=T)


> fisher.test(data.te)

Fisher’s exact test

data: data.te
p-value = 0.4857
alternative hypothesis: two.sided

Muestrando con un conjunto de marginales fijo


Suponga que una muestra aleatoria de tamaño n1 es sacada de la población
I con probabilidad de éxito π1 y a es el número de éxitos observados. Suponga
también que otra muestra aleatoria de tamaño n2 es sacada de la población II
con probabilidad de éxito π2 y b es el número de éxitos observados. El modelo
de probabilidad postulado se conoce como Producto-Binomial
   
n1 n2
P (A = a, B = b) = π1a (1 − π1 )n1 −a π2b (1 − π2 )n2 −b
a b

Aquı́ el problema de interés será verificar la siguiente hipótesis:

Ho : π1 = π2 = (π)

Bajo Ho tenemos,
  
n1 n2
P (A = a, B = b) = π a+b (1 − π)N −(a+b)
a b

Nota: a + b es un estadı́stico suficiente para el parámetro π (de perturbación


o molestia), bajo Ho , pero por sı́ mismo no proporciona información alguna
acerca de Ho . Bajo Ho tenemos que
 
N
P (A + B = a + b) = π a+b (1 − π)N −a−b
a+b
4.1. ESQUEMAS DE MUESTREO 47

Para probar Ho : π1 = π2 vs. H1 : π1 > π2 rechazamos Ho si a es suficiente-


mente grande con respecto a b, dado a + b. Esto es, rechazamos Ho si a ≥ aα ,
donde aα es el entero más pequeño tal que

P (A ≥ aα | A + B = a + b) ≤ α

Esta es una prueba condicional con nivel α. Coincide con la prueba de una
cola de Fisher-Irwin, tomando a + b = k1 . Tal prueba condicional con nivel α
para todo posible valor de a+b se puede aceptar como una prueba incondicional
de nivel α.

Muestreando sólo con N fijo


El modelo de probabilidad observado es

N!
P (A = a, B = b, C = c) = πa πb πc πd
a!b!c!d! 11 12 21 22
donde d = N − a − b − c y πij es la probabilidad de la (i, j)-ésima celda,
i, j = 1, 2.
La hipótesis de interés corriente es

Ho : Independencia de las dos respuestas o


Ho : πij = πi+ π+j , i, j = 1, 2.

Considere la prueba de una cola

H1 : π11 > π1+ π+1 ,

esto es, asociación positiva.


Bajo Ho el modelo se convierte en

N! c+d a+c b+d


P (A = a, B = b, C = c) = π a+b (1 − π1+ ) π+1 (1 − π+1 )
a!b!c!d! 1+
(a + b, a + c) son estadı́sticos suficientes para los parámetros de molestia
(π1+ , π+1 ). La distribución condicional de A dado a + b = k1 ( y a + c = n1 )
es multinomial bajo Ho . La prueba condicional de Fisher-Irwin rechaza Ho si
a ≥ aα , esta es una prueba unilateral.
Siguiendo los argumentos previos se puede generar una prueba para
H1 : πij 6= πi+ π+j
      
A + C = n1 n1 n2
P A = a, B = b = π1∗a (1−π1∗ )n1 −a π2∗b (1−π2∗ )n2 −b
B + D = n2 a b

donde π1∗ = ππ+1


11
y π2∗ = ππ+2
12
.
Ası́ en el marco condicional a + c = n1 y b + d = n2 reduce el modelo de
probabilidad a la hipótesis nula y a la alternativa del caso anterior.
48 CAPÍTULO 4. TABLAS BIDIMENSIONALES

Muestreo bajo el esquema Poisson


Suponga que A, B, C y D son Poisson independientes con medias λij , i, j =
1, 2.
El modelo de probabilidad es

λa11 λb12 λc21 λd22


P (A = a, B = b, C = c, D = d) = exp(−λ++ )
a!b!c!d!
donde λ++ = λ11 + λ12 + λ21 + λ22 . Como N = A + B + C + D, entonces N ∼
poisson(λ++ ). Si condicionamos en N reducimos este modelo al caso anterior
con
λij
πij = λ++ , i, j = 1, 2.

4.2. La Prueba χ2 de Pearson


Tal vez la prueba para independencia más famosa para tablas de contingencia
sea la prueba de Pearson. En una tabla n × m esta dado por
n X m
X (Oij − Eij )2
χ2 =
i=1 j=1
Eij

n n
donde Oij y Eij = i+N +j son los valores observados y esperados, respec-
tivamente, en la (i,j)-ésima celda, ni+ es el total de la i-ésima fila, n+j es el
total de la j-ésima columna y N es el total. Denotamos f = (n − 1)(m − 1).
En aplicaciones para probar independencia usualmente asumimos que χ2 ∼ χ2f ,
suponiendo que los valores esperados en las celdas no sean muy pequeños. Este
ha sido un tema de discusión y sobre el cual no hay reglas precisas ya que la
prueba es asintótica. Roscoe y Byars (1971) dicen:

“Tı́picamente, los autores de textos indican que una aproxima-


ción satisfactoria se logra cuando las frecuencias esperadas están
restringidas a valores de cinco (algunos autores dicen diez) o más.
Esta restricción parece que es arbitraria y solo basada en la tradición
más que en evidencia matemática o empı́rica.
La restricción tradicional con respecto a las mı́nimas frecuencias
esperadas ha probado ser un serio impedimento, especialmente pa-
ra los investigadores sociales. Algunos han abandonado el uso de
la chi cuadrado, muchos han manipulado sus datos para satisfacer
la restricción, y otros simplemente han ignorado el problema. Oca-
sionalmente, evidencia es presentada la cual sugiere que las reco-
mendaciones con respecto a las mı́nimas frecuencias esperadas son
ultraconservadoras y deben relajarse.”

Ellos mismos plantean la siguiente recomendación basados en la evidencia


obtenida a partir de sus estudios de simulación:
4.2. LA PRUEBA χ2 DE PEARSON 49

“En las pruebas de independencia, las magnitudes de las frecuen-


cias esperadas son usualmente desconocidas hasta que los datos no
han sido obtenidos y ya es demasiado tarde para realizar cambios
objetivos en el análisis. Por esta razón, y debido al trabajo de ciertos
investigadores se sugiere que el caso uniforme (donde Ei = N k ) es un
punto adecuado de referencia, los autores han escogido para hacer
sus recomendaciones en términos de la frecuencia esperada promedio.
Los autores sienten que sus hallazgos los llevan a esta interpretación,
y además es atractiva por su sencillez. El usuario notará que reque-
rir en promedio cinco o más observaciones por celda (por ejemplo)
puede ser mucho menos restrictivo que exigir un mı́nimo esperado
por celda de cinco o más en el caso no uniforme.”

En el caso de grandes tablas de contingencia con muchas celdas con pocas


observaciones esperadas Haberman (1988) recomienda ser muy cuidadosos ya
que la prueba chi-cuadrado de Pearson puede ser asintóticamente inconsistente,
aún en casos donde la distribución chi-cuadrado sea una buena aproximación a
la distribución poblacional. Lewis, T., Saunders, I. W. y Westcott, M. (1984)
dan las siguientes pautas sobre el uso de esta prueba:
i) Si E ≥ 5 utilice la aproximación χ2 .
ii) Si E < 5 calcule la var(χ2 ) como

2N N2
var(χ2 ) = (ν − σ)(µ − τ ) + στ
N −3 N −1
donde
(N − n)(n − 1) (N − m)(m − 1)
ν = ,µ=
N −1 N −1
P  P 
n −1 n2 m −1 m2
i=1 ni+ − N N j=1 n+j − N N
σ = ,τ=
N −2 N −2
si este valor de la varianza es menor que 2f use la aproximación χ2 para
obtener una prueba conservadora.
iii) Si la var(χ2 ) es mayor que 2f o si la prueba conservadora es inadecuada,
utilice una aproximación gamma basada en los dos primeros momentos de la χ2
si α ≤ 0,95 o los tres primeros momentos de la χ2 si α > 0,95.
Como un ejemplo tı́pico del uso de esta prueba tenemos el siguiente: Escudero
(1995) realizó una encuesta para un estudio sobre fármacodependencia entre los
estudiantes de la Universidad Nacional-Sede Medellı́n. De la encuesta puede
obtenerse la siguiente tabla:

Ha usado cocaı́na?
Nunca Sı́ Total
Ha fumado Nunca O11 = 267 O12 = 3 270
marihuana? Sı́ O21 = 49 O22 = 25 74
Total 316 28 344
50 CAPÍTULO 4. TABLAS BIDIMENSIONALES

Una pregunta que podemos plantearnos es: Son el haber usado marihuana
alguna vez y cocaı́na alguna vez independientes? Bajo la hipótesis de indepen-
dencia, la siguiente tabla nos presenta los valores esperados Eij .

Ha usado cocaı́na?
Nunca Sı́ Total
Ha fumado Nunca E11 = 248,02327 E12 = 21,976744 270
marihuana? Sı́ E21 = 67,97675 E22 = 6,023256 74
Total 316 28 344

La prueba χ2 = 82,9236 con 1 grado de libertad. El valor-p nos da practica-


mente cero, por lo tanto rechazamos la independencia entre las variables bajo
estudio. O sea, tenemos una evidencia estadı́stica que el ensayar marihuana y
cocaı́na están asociadas.

4.2.1. la Prueba Chi-cuadrado para Bondad de Ajuste


La prueba χ2 ha sido utilizada ampliamente en pruebas de ajuste de dis-
tribuciones. Como regla general debemos buscar pruebas diseñadas con fines
especı́ficos, por ejemplo, para normalidad la prueba de Shapiro-Wilks.

4.2.2. Limitaciones de la Prueba Chi-cuadrado


Mosteller (1968) escribe:

“Me temo que el primer acto de la mayorı́a de los cientı́ficos


sociales apenas ven una tabla de contingencia es calcularle una chi-
cuadrado. Algunas veces esto ayuda a entender, algunas veces es un
desperdicio, pero otras veces no es lo suficientemente profunda”

La prueba chi-cuadrado tiene varios problemas potenciales:

Su magnitud es proporcional al tamaño muestral.

Si multiplicamos la tabla por una constante, eventualmente rechazaremos


independencia.

La prueba es asintótica.

Debemos calcular medidas de asociación. Aunque obtengamos significan-


cia esta prueba no nos dice la dirección de la asociación.

Existe discusión entre los autores sobre la corrección por continuidad (Ver
D’Agostino et al.,1988).
4.3. TAMAÑOS MUESTRALES 51

4.2.3. La Corrección por Continuidad de Yates


Se hace referencia a Yates (Agresti,1990) como la persona que propuso la
correción por continuidad.
n X m
X (|Oij − Eij | − 0,5)2
χ2c =
i=1 j=1
Eij

4.2.4. Esquemas de Muestreo para Tablas I × J

4.3. Tamaños Muestrales


Para la distribución multinomial se puede determinar el tamaño muestral
utilizando las fórmulas presentadas en Bromaghin (1993).
52 CAPÍTULO 4. TABLAS BIDIMENSIONALES
Capı́tulo 5

Medidas de Asociación

A lo largo de los años muchas medidas de asociación han sido propuestas. La


aparición de los modelos loglineales han relegado estas medidas a un segundo
plano.

5.1. Medidas de Asociación en Tablas 2 × 2


5.1.1. Medidas basadas en la χ2 de Pearson
El estadı́stico chi-cuadrado no es una buena medida del grado de asociación
entre dos variables. Pero el amplio uso de este estadı́stico ha propiciado la crea-
ción de medidas de asociación basadas en él. Cada una de estas medidas intenta
minimizar la influencia del tamaño muestral y de la del número de celdas de la
tabla. Además se pretende establecer lı́mites, usualmente entre cero y uno, a es-
tas medidas para darle comparabilidad a diversas tablas. Aunque pueden estas
medidas ser difı́ciles de interpretar y carecer de interpretación probabilı́stica y
por lo tanto no se recomiendan (Upton). Para una tabla 2 × 2 es fácil verificar
que la chi-cuadrada de Pearson es

N (ad − bc)2
χ2 =
k1 k2 n1 n2

El coeficiente φ

r
χ2
φ=
N

Para aquellas tablas en las cuales una dimensión sea mayor que 2, puede
no estar entre 0 y 1 ya que el valor de la chi-cuadrado puede ser mayor que el
tamaño muestral.

53
54 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN

El Coeficiente de Contingencia

s
χ2
C=
χ2 + N

Esta medida fue sugerida por Pearson. Está confinada al rango 0 y 1, pero
puede no alcanzar el lı́mite superior del intervalo. Por ejemplo, para tablas 4×4,
el máximo valor de es 0.87.

V de Cramér
s
χ2
V =
N (k − 1)

donde k es el mı́nimo entre el número de filas y el de columnas de la tabla.


El estadı́stico V de Cramér puede alcanzar el máximo 1 para cualquier tabla.
Si una de las dimensiones de la tabla es 2, entonces V y φ son idénticas.

El Coeficiente de Tschuprov

s
χ2
T = p
N (I − 1)(J − 1)

5.1.2. El Estadı́stico G2
El estadı́stico G2 está basado en la razón de verosimilitud, y es tal vez la
medida de ajuste que más sirve en el análisis de datos categóricos, dadas sus
propiedades.
XX
G2 = 2 nij [log(nij ) − log(eij )]
i j

Bajo el supuesto de independencia tenemos en una tabla bidimensional 2 × 2


y bajo el esquema de muestreo multinomial πij = πi+ × π+j

P (N11 = n11 , N12 = n12 , N21 = n21 , N22 = n22 ) =

n++ !
π n11 π n12 π n21 π n22
n11 !n12 !n21 !n22 ! 11 12 21 22

El estadı́stico de la razón de verosimilitud es LR = L(ω̂)/L(Ω̂), que en nues-


tro caso y sabiendo que el estimador de πij es π̂ij = nij /n++ en el caso general
y bajo el modelo de independencia es π̂ij = ni+ /n++ × n+j /n++ . Recordemos
5.1. MEDIDAS DE ASOCIACIÓN EN TABLAS 2 × 2 55

que −2 log(LR) se distribuye asintóticamente con grados de libertad datos por


dim(Ω) − dim(ω). Por lo tanto
 n11  n12  n21  n22
n++ ! n1+ n+1 n1+ n+2 n2+ n+1 n2+ n+2
n11 !n12 !n21 !n22 ! n++ n++ n++ n++ n++ n++ n++ n++
LR =  n11  n12  n21  n22
n++ ! n11 n12 n21 n22
n11 !n12 !n21 !n22 ! n++ n++ n++ n++

n n n n
(e11 ) 11 (e12 ) 12 (e21 ) 21 (e22 ) 22
LR = n n n n
(n11 ) 11 (n12 ) 12 (n21 ) 21 (n22 ) 22
n n
donde eij i+
n++
+j
es el valor esperado de la celda i − j. Tomado logaritmo,
tomando el signo negativo y multiplicando por dos tenemos
 
XX eij
G2 = −2 log(LR) = nij log
i j
nij

o también se puede expresar como


 
XX nij
G2 = 2 log(LR) = nij log
i j
eij

5.1.3. El Q de Yule
El Q de Yule es una medida de asocición que ha resistido el paso del tiempo.
Se define como
ab − cd
Q=
ab + cd
Si n++ es razonablemente grande, la distribución de Q es normal, con varianza
1 1 1 1 1
(1 − Q2 )2 ( + + + )
4 a b c d
El rango de Q es (−1, 1), con los puntos extremos corespondiendo a asociación
completa (positiva o negativa) y con 0 como no asociación.
A continuación presentamos una función en R que permite calcular estas
medidas de asociación para una tabla 2 × 2 y la aplicamos al ejemplo del primer
capı́tulo sobre destreza manual y sexo.

medidas.de.asociación.2x2<-function(a,b,c,d){

k1<-a+b
k2<-c+d
n1<-a+c
n2<-b+d
N<-n1+n2
56 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN

chi<-N*(a*d-b*c)^2/(k1*k2*n1*n2)
phi<-sqrt(chi/N)
C<-sqrt(chi/(chi+N))
V<-phi
T<-phi
Q<-(a*b-c*d)/(a*b+c*d)

list(chi2=chi,phi=phi,C=C,V=V,T=T,Q=Q)

> medidas.de.asociación.2x2(79,202,57,138)
$chi2
[1] 0.07036408

$phi
[1] 0.01215828

$C
[1] 0.01215738

$V
[1] 0.01215828

$T
[1] 0.01215828

$Q
[1] 0.3396575

>

5.1.4. Prueba de Simetrı́a de McNemar


La prueba de simetrı́a Chi-cuadrado de McNemar para tablas de contingen-
cia cuadradas. Es apropiada en experimentos con muestras pareadas. Aquı́ se
consideran respuestas de N sujetos en la muestra “antes” y “después” de algún
evento, por ejemplo la aplicación de un tratamiento.
La prueba chi-cuadrada de Pearson es fácil de mostrar está dada por

(b − c)2
χ2 =
b+c

Si pensamos en el problema de las parejas de casados en Medellı́n, tenemos


la tabla siguiente
5.2. LA RAZÓN DE ODDS 57

No se casarı́a Sı́ se casarı́a


No se casarı́a 13 12
Sı́ se casarı́a 25 97

> library(ctest)
> mcnemar.test(matrix(c(13,12,25,97),ncol=2,byrow=T))

McNemar’s Chi-squared test with continuity correction

data: matrix(c(13, 12, 25, 97), ncol = 2, byrow = T)


McNemar’s chi-squared = 3.8919, df = 1, p-value = 0.04852

> mcnemar.test(matrix(c(13,12,25,97),ncol=2,byrow=T),correct=F)

McNemar’s Chi-squared test

data: matrix(c(13, 12, 25, 97), ncol = 2, byrow = T)


McNemar’s chi-squared = 4.5676, df = 1, p-value = 0.03258

La prueba nos indica que no hay simetrı́a en la tabla, esto es, la insatisfacción
de uno de los cónyugues no es la misma si se trata de mujeres o de hombres.

5.2. La Razón de Odds


La siguiente tabla presenta el modelo poblacional para una tabla 2×2, donde
cada celda presenta la probabilidad de ella.

A Ac
B P (A ∩ B) P (Ac ∩ B)
Bc P (A ∩ B c ) P (Ac ∩ B c )

Los odds1 de que el evento B ocurra relativo al evento A se define como la


razón de las probabilidades
P [B | A]
P [B c | A]
La interpretación de la razón anteriror es directa: Asumiendo que el evento A
ha ocurrido, esta razón nos dice cúantas veces ocurre el evento B por cada
aparición del evento B c . Los odds de B relativo a Ac son

P [B | Ac ]
P [B c | Ac ]
1 La palabra odds no tiene una única y precisa traducción, algunos la traducen como dis-

paridad y otros como apuestas.


58 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN

Cornfield (1951) definió la razón de odds como

P [B|A]
P [B c |A]
ψ= P [B|Ac ]
P [B c |Ac ]

El estimador muestral de ψ será


 a 
a+c
a
c
a+c c ad
r=  = b
=
b
b+d d
bc
d
b+d

para lo anterior, se presupone una tabla conteos de como la que aparece a


continuación

A Ac
B a b
Bc c d

Fisher (1962) la llamó Razón del Producto Cruzado.

5.2.1. Problema con celdas con ceros


Un problema con este estimador r es la presencia de ceros en las celdas, ya
que puede convertirse en una forma indeterminada.
Varios estimadores adicionales han sido propuestos para la razón odds y para
el logarı́tmo de la razón de odds. Entre ellos tenemos:

El de Haldane:
(a + 12 )(d + 21 )
ψbH =
(c + 21 )(b + 12 )

El de Jewell:
ad
ψbJ =
(b + 1)(c + 1)

Estimador de máxima verosimilitud condicional: Este estimador es la so-


lución a un polinomio de alto grado de la forma:

δ   
X N1 N2
(a − j)ρj
j k1 − j
j=s

donde s = máx(0, k1 − N2 ) y δ = mı́n(k1 , N1 )


5.2. LA RAZÓN DE ODDS 59

5.2.2. Propiedades de la razón de odds


Algunas propiedades de la razón de odds son las siguientes:

1. Es un número nonegativo.
2. Cuando todas las celdas tienen probabilidades positivas, la independencia
entre las dos variables es equivalente a ψ = 0.
3. Es invariante bajo el intercambio de filas o columnas.
4. Es invariante bajo multiplicaciones de filas y columnas.
5. La interpretación es clara. Valores de ψ que se alejen de 1.0 en una direc-
ción particular representa una asocición fuerte. Dos valores de ψ pueden
representar un mismo nivel de asociación (un valor y su inverso) pero en
direcciones opuestas. Para simetrizar esta medida se trabaja con el log(ψ).
Valores menores que uno indican una asociación negativa, mientras valores
mayores que 1 indican una asociación positiva.
6. Puede usarse en tablas I × J (y tablas multidimensionales) mirando series
de particiones 2 × 2 o mirando subtablas 2 × 2.

5.2.3. Distribución asintótica de la Razón de Odds:


Esquema de muestreo multinomial
Sean (n1 , ..., nN ) ∼ M ultinomial(π, n), π = (π1 , π2 , ..., πN )T , n = n1 + · ·
· + nN ; una estimación para el vector π es el vector π b = (b π1 , π bN )T . La
b2 , ..., π
i-ésima observación es
Yi = (Yi1 , Yi2 , ..., YiN )0
donde 
1 si cae en la celda j
Yij =
0 en otro caso
y además X
Yij = 1
j

Ahora

E[Yi ] = π
cov(Yi ) = Σ i = 1, ..., n
σjj = var(Yij ) = πj (1 − πj )
σjk = cov(Yij , Yik ) = E(Yij Yik ) − E(Yij )E(Yik )
= −πj πk j 6= k
Σ = Diag(π) − ππ T
n
1X
π
b = Yi
n i=1
60 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN

(Diag(π) − ππ T )
cov(b
π) = ¯ → Matriz singular
n
Teorema 5.1 (Teorema central del lı́mite multivariable) Bajo el supues-
to que Yi , i = 1, · · · , n sea una muestra aleatoria de una distribución M ultinomial(π, 1),
entonces √ a
n(bπ − π) → N (0, Diag(π) − ππ T )
cuando n → ∞.
Ahora
g(π) = log(π)
∂g −1
= Diag(π)
∂π
La covarianza de la matriz asintótica de

π ) − log(π)]
n [log(b
es
−1 −1 −1
Diag(π) − ππ T Diag(π) = Diag(π) − 11T
 
Diag(π)
Para una matriz C de constantes
√ a −1
π ) − log(π)] → N (0, CDiag(π) C T − C11T C T
nC [log(b
Con base en el anterior resultado, consideremos el siguiente vector
 
π11
 π12 
 
 π21 
π22
El Odds ratio será π11
π21 π11 π22
OR = π12 =
π22 π12 π21
Ahora
C(log(π)) = [1 − 1 − 1 1]
entonces
−1
CDiag(π)C T − C11T C T
 1
0 0 0
     
π11 1 1 1
 0 1
π12 0 0   −1   1
 [1 1 1 1]  −1 
  
= [1 − 1 − 1 1]  1
  − [1 − 1 − 1 1] 
 0 0 π21 0   −1   1   −1 
1 1 1 1
0 0 0 π
 22 
  1
1 1 1 1  −1 
= − −  
π11 π12 π21 π22  −1 
1
1 1 1 1
= + + +
π11 π12 π21 π22
5.2. LA RAZÓN DE ODDS 61

5.2.4. Intervalo de confianza aproximado para ψ:


Esquema de muestreo Producto Binomial
El intervalo aproximado para el parámetro ψ de nivel (1-α)100 % es (L, U )
donde

L = exp(R − (1,96)b
σR )
U = exp(R + (1,96)b
σR )

donde

ψb = r
R = loge ψb

y el error estándar aproximado de R es


r
1 1 1 1
σ
bR = + + +
a b c d
Probemos esta última afirmación:
 
π1
b    
1−b
π1 π
b1 π
b2
R = ln   = log − log
π2
b 1−πb1 1−πb2
1−b
π2

donde
Xi
π
bi = i = 1, 2
ni
Asumamos que X1 y X2 son variables aleatorias independientes.
     
π
b1 π
b2
var(R) = var log + var log
1−π b1 1−πb2

hagamos !
X  
n X
g(X) = log X
= log
1− n
n−X
derivando
dg(X) 0 n
= g (X) =
dX X(n − X)
Por medio de la formula de Taylor, expandimos g(X) alrededor de un punto
arbitrario ”a” 0
g(X) ≈ g(a) + (X − a)g (a)
0
note que cuando g (X) = 0 entonces
 
g(a)
X =a−
g 0 (a)
62 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN

ya que X es v.a binomial, entonces


E[X] = nπ
var[X] = nπ(1 − π)
Haga
a = E[X]
entonces
0 n 1
g (a) = =
nπ(n − nπ) nπ(1 − π)
entonces

var[g(X)] = E[g 2 (X)] − E 2 [g(X)] pero


0
g(X) ≈ g(a) + (X − a)g (a)
entonces
0
var[g(X)] = var[g(a) + (X − a)g (a)]
0
= var[(X − a)g (a)]
 0 2
= g (a) var[X − E[X]]
 2
1
= nπ(1 − π)
nπ(1 − π)
1
=
nπ(1 − π)
1 1
= +
nπ n(1 − π)
asi
1 1 1 1
var(R) = + + +
c1 π1 c2 (1 − π1 ) c2 π2 c2 (1 − π2 )
por lo tanto
1 1 1 1
var(R) = + + +
a b c d
Un intervalo de confianza de (1 − α)100 % para el log(ψ) será
r r !
  1 1 1 1   1 1 1 1
log ψ̂ − zα/2 + + + ; log ψ̂ + zα/2 + + +
a b c d a b c d
Un problema que se tiene cuando se construye el intervalo para ψ es que
no se puede considerar la transformación inversa y aplicarla directamente a los
lı́mites del intervalo anterior como es el sugerido inicialmente.
 La distribución
asintótica de ψ̂ es N ψ, ψ 2 (1/a + 1/b + 1/c + 1/d) . Por lo tanto, el intevalo
de confianza para ψ será
r r !
1 1 1 1 1 1 1 1
ψ̂ − zα/2 ψ̂ + + + ; ψ̂ + zα/2 ψ̂ + + +
a b c d a b c d
5.2. LA RAZÓN DE ODDS 63

5.2.5. Programa en R para calcular la razón de odds


Intervalo aproximado

> intervalo.razon.odds<-function(Tabla,nivel=0.95,correccion=0.5){
Tabla<-ifelse(Tabla==0,0.5,Tabla)
odds<-Tabla[1,1]*Tabla[2,2]/(Tabla[1,2]*Tabla[2,1])
error<-odds*sqrt(1/Tabla[1,1]+1/Tabla[1,2]+1/Tabla[2,1]+1/Tabla[2,2])
z<-qnorm(0.5+nivel/2)
LI<-odds-z*error
LS<-odds+z*error
list(odds=odds,error=error,LI=LI,LS=LS)
}

>nacimientos.medellin<-matrix(c(4757,430,5148,464),ncol=2,byrow=T)
> nacimientos.medellin
[,1] [,2]
[1,] 4757 430
[2,] 5148 464
> intervalo.razon.odds(nacimientos.medellin)
$odds
[1] 0.9971124

$error
[1] 0.06969253

$LI
[1] 0.8605176

$LS
[1] 1.133707

>

> odds.nacimientos<-intervalo.razon.odds(nacimientos.medellin)
> odds.nacimientos$LI
[1] 0.8605176
> odds.nacimientos$LS
[1] 1.133707
> odds.nacimientos$odds
[1] 0.9971124
>
64 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN

> fisher.test(matrix(c(4757,430,5148,464),ncol=2,byrow=T))

Fisher’s Exact Test for Count Data

data: matrix(c(4757, 430, 5148, 464), ncol = 2, byrow = T)


p-value = 0.9721
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.8674057 1.1463830
sample estimates:
odds ratio
0.9971126

>

Intervalo bootstrap
Mediante el bootstrap es posible construir un intervalo de confianza para la
razón de odds.

Si asumimos un esquema de muestreo hipergeométrico la forma de calcu-


larlo serı́a:

intervalo.bootstrap<-function(a,b,c,d,nivel=0.95){
temp<-matrix(rep(1,1000),ncol=1)
m<-a+b
n<-c+d
k<-a+c
res<-apply(temp,1,rhyper,m,n,k)
or<-res*(n-k+res)/((m-res)*(k-res))
or
}

> res<-intervalo.bootstrap(4757, 430,5148,464)


> quantile(res,probs=c(0.025,0.975))
2.5% 97.5%
0.8697532 1.1381850

Bajo el esquema producto binomial tenemos

intervalo.bootstrap<-function(a,b,c,d,nivel=0.95){
n1<-a+c
n2<-b+d
pi1<-a/n1
pi2<-b/n2
5.2. LA RAZÓN DE ODDS 65

cat(’\n’,’Tama~
no muestral población 1:’,n1,’ Prob. éxito:’,pi1,’\n’)
cat(’\n’,’Tama~
no muestral población 2:’,n2,’ Prob. éxito:’,pi2,’\n’)

res.a<-rbinom(1000,n1,pi1)
res.a<-ifelse(res.a==0,0.5,res.a)
res.c<-n1-res.a
res.b<-rbinom(1000,n2,pi2)
res.b<-ifelse(res.b==0,0.5,res.b)
res.d<-n2-res.b

or<-res.a*res.d/(res.b*res.c)
or
}

res<-intervalo.bootstrap(4757, 5148, 430,464)

Tama~
no muestral población 1: 5187 Prob. éxito: 0.9171004

Tama~
no muestral población 2: 5612 Prob. éxito: 0.91732
> quantile(res,probs=c(0.025,0.975))
2.5% 97.5%
0.866078 1.135535
>

Bajo el esquema multinomial el programa será:

intervalo.bootstrap<-function(a,b,c,d,nivel=0.95){
or<-function(x){
ifelse(x==0,0.5,x)
res<-x[1]*x[4]/(x[2]*x[3])
res
}

n<-a+b+c+d
pi1<-c(a,b,c,d)/n
res<-apply(t(rmultinom(10000,n,pi1)),1,or)
res
}

res<-intervalo.bootstrap(4757, 430, 5148, 464)


quantile(res,probs=c(0.025,0.975))
2.5% 97.5%
0.871892 1.143203
>
66 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN

Si asumimos un modelo Poisson entonces

intervalo.bootstrap<-function(a,b,c,d,nivel=0.95){
temp<-matrix(rep(1,1000),ncol=1)
res.a<-apply(temp,1,rpois,a)
res.b<-apply(temp,1,rpois,b)
res.c<-apply(temp,1,rpois,c)
res.d<-apply(temp,1,rpois,d)

or<-res.a*res.d/(res.b*res.c)
or
}

res<-intervalo.bootstrap(4757, 430, 5148, 464)


quantile(res,probs=c(0.025,0.975))
2.5% 97.5%
0.8723758 1.1480379

5.3. Riesgo Relativo


Una de las medidas más utilizadas como medida del riesgo es la razón de
probabilidades condicionales conocida como riesgo relativo. Si consideramos dos
poblaciones (expuesta y no expuesta a un factor de riesgo) y π1 es la probabilidad
de éxito (dessarrollar un cáncer, por ejemplo)en la primera población y π2 la
probabilidad de éxito en la segunda población entonces podemos considerar la
siguiente razón como una medida de riesgo:
P [A∩B]
π1 P [B | A] P [A]
ρ= = = P [Ac ∩B]
π2 P [B | Ac ]
P [Ac ]

donde el evento A se asume como el evento de estar sometido al factor de riesgo


y Ac no estar sometido a este factor. El evento B denota el evento asociado
con el fenómeno de interés. Por lo tanto la razón puede interpretarse como el
número de ocurrencias de B cuando se está sometido al factor de riesgo por cada
ocurrencia del fenómeno cuando no se está sometido a este factor de riesgo.
Como estimador se tiene, asumiendo la tabla
A Ac
B a b a+b
Bc c d c+d
n1 = a + c n2 = b + d N

a
N a
∗ π̂1 n1
N n1
r = = b = b
π̂2 N
n2 n2
N
5.3. RIESGO RELATIVO 67

La distribución asintótica de r∗ se obtiene fácilmente partiendo del hecho


que

 
π1 (1 − π1 )
π̂1 ∼ AN π1 ,
n1
 
π2 (1 − π2 )
π̂2 ∼ AN π2 ,
n2

El log (r∗ ) se distribuye entonces


     
∗ π̂1 π1 (1 − π1 ) (1 − π2 )
log (r ) = log ∼ AN log , +
π̂2 π2 π1 n 1 π2 n 2
y por lo tanto
 2  !
π̂1
∗ π1 π1 (1 − π1 ) (1 − π2 )
r = ∼ AN , +
π̂2 π2 π2 π1 n 1 π2 n 2

Ejemplo 5.1 En un estudio realizado a 1000 pacientes, 300 eran fumadores


y 700 no lo eran. Entre los fumadores, 10 sufrieron trombosis, y entre los no
fumadores solo 8 fueron afectados (Trombosis es un coágulo de la sangre en una
vena). La información recopilada se registro en la siguiente tabla

Factor de Riesgo
Fumar No fumar Total
Trombosis 10 8 18
Sin trombosis 290 692 982
Total 300 700 1000

Calculemos primero el riesgo relativo


10
r∗ = 300
8 = 2,92,
700

entonces una persona que fuma tiene aproximadamente 3 veces más posibilidades
de sufrir una trombosis que una persona que no fuma.

En R podemos programar una función que nos calcule el intervalo de con-


fianza asintótico de la siguiente forma:

IC.RR<-function(a,n1,b,n2,nivel=0.95){
if(a==0) a<-0.5
if(b==0) b<-0.5
pi1<-a/n1
pi2<-b/n2
RR<-pi1/pi2
68 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN

alfa<-1-nivel
z<-qnorm(nivel+alfa/2)
sd<-RR*sqrt((1-pi1)/(pi1*n1)+(1-pi2)/(pi2*n2))
LI<-RR-z*sd
LS<-RR+z*sd
list(RR=RR,pi1=pi1,pi2=pi2,LI=LI,LS=LS)
}

> IC.RR(10,300,8,700)
$RR
[1] 2.916667

$pi1
[1] 0.03333333

$pi2
[1] 0.01142857

$LI
[1] 0.2339111

$LS
[1] 5.599422

>

Si queremos utilizar la técnica bootstrap para construir un intervalo de con-


fianza procedemos ası́:

IC.RR.boot<-function(c1,n1,c2,n2,nivel=0.95){
temp<-matrix(rep(1,1000),ncol=1)
if(c1>0) p1<-c1/n1
else p1<-0.5/n1
if(c2>0) p2<-c2/n2
else p2<-0.5/n2

res1<-apply(temp,1,rbinom,n1,p1)/n1
res2<-apply(temp,1,rbinom,n2,p2)/n2

RR<-res1/res2
RR
}

> res<-IC.RR.boot(10,300,8,700)
5.3. RIESGO RELATIVO 69

> quantile(res,probs=c(0.025,0.975))
2.5% 97.5%
1.060606 8.560417
>

Calculemos ahora la razón de odds


10
290
r= 8 = 2,98
692

Un intervalo de confianza aproximado del 95 % será

(1,165, 7,634)

5.3.1. Riesgo Atribuı́ble


En casos del estudio de un factor de riesgo (ausente, Ac , o presente, A) para
la aparición de cierto fenómeno (enfermedad, caso), digamos B, es tı́pico que el
fenómeno aparezca en poblaciones no expuestas al factor de riesgo, por lo tanto,
no todos los casos o enfermedades que aparezcan deban ser atribuı́dos al factor
de riesgo y entonces la medición del riesgo del factor puede ser elaborado bajo
esta consideración. Hubert, J (1995) “Basic Enviromental Quantitative Risk
Assessment”.

Factor de Riesgo
Fumador No Fumador
A Ac Total
Cáncer B 40=a 20=b 60=n1
No Cáncer Bc 40=c 100=d 140=no
Total 80=m1 120=mo 200

Calculemos el riesgo relativo


40
r∗ = 80
20 = 3,
120

o sea que hay tres veces más riesgo de desarrollar cáncer si se fuma que si no se
fuma. Ahora, la probabilidad estimada de desarrollar cáncer, sin tener en cuenta
la presencia o ausencia del factor de riesgo es:

n1 60
P̂ [cáncer] = P̂ [B] = = = 0,30
N 200
Ahora
40 20 60 3
P̂ [cáncer] = P̂ [B] = P̂ [AB] + P̂ [Ac B] = + = =
200 200 200 10
70 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN

También P [Cáncer | No fumar] puede estimarse por

b 20
P̂ [B | Ac ] = = = 0,17,
b+d 120
o sea que 17 % de los no fumadores desarrollan cáncer. Ası́, si el fumar no
fuera un factor de riesgo, entonces esperarı́amos que 0.17×80 de los fumadores
desarrollaran cáncer, es decir 13.6.
Ası́

40 − 13,6 = 26,4 → número de personas que desarrollan cáncer que puede atribuirse al fumar
40 − 13,6 26,4
= = 0,44 = 44 %
60 60
o sea que el 44 % de los cánceres observados pudieran haber sido prevenidos si
el factor de riesgo, es decir fumar, fuese eliminado.
Definamos el riesgo atribuible

P [AB] − P [B | Ac ] P [A]
ρA =
P [B]
a b a+c
N − b+d · N ad − bc
rA = a+b
=
N
(a + b)(b + d)

Intervalo de Confianza Aproximado para ρA

(L, U )

donde

L = 1 − exp(L2 )
U = 1 − exp(L1 )

donde

L1 = w − zα/2 σ
bw
L2 = w + zα/2 σ
bw

donde

w = ln(1 − rA ) y
s
c + rA (a + d)
σ
bw =
Nb

En el ejemplo que se tiene el intervalo aproximado del 95 % será (0.24002,


0.59388).
5.3. RIESGO RELATIVO 71

IC.RA.boot<-function(a,b,c,d,nivel=0.95){
temp<-matrix(rep(1,1000),ncol=1)
n1<-a+c
n2<-b+d
if(a>0) p1<-a/n1
else p1<-0.5/n1
if(b>0) p2<-b/n2
else p2<-0.5/n2

res1<-apply(temp,1,rbinom,n1,p1)
res2<-apply(temp,1,rbinom,n2,p2)

RA<-(res1*(n2-res2)-res2*(n1-res1))/((res1+res2)*n2)
RA
}

> mean(res<-IC.RA.boot(40,20,40,100))
[1] 0.4464592
> 4/9
[1] 0.4444444
> hist(res)
> quantile(res,probs=c(0.025,0.975))
2.5% 97.5%
0.2856117 0.6078431
>

Teorema 5.2 Si ρ es el riesgo relativo y ρA es el riesgo atribuı́ble, entonces

P [A](ρ − 1)
ρA =
1 + P [A](ρ − 1)

5.3.2. Método Delta Aplicado al Logit Muestral

Xi ∼ Bin(1, π) i = 1, 2, ..., n independientes


E[Xi ] = π
var[Xi ] = π(1 − π)

Una estimación para π se obtiene de la siguiente forma


n
1X
π
b= Xi
n i=1
72 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN

se tiene que

E[b
π] = π
π(1 − π)
var[b
π] =
n
ademas  
π(1 − π)
b ∼ AN
π π,
n
Considere el Logit muestral
 
π
b
g(b
π ) = log
1−πb

asi
 
y
g(y) = log = log(y) − log(1 − y)
1−y
1 1
g 0 (y) = +
y 1−y
1−y+y
=
y(1 − y)
1
=
y(1 − y)

de donde
1
g 0 (b
π ) |b
π =π
=
π(1 − π)
de donde    
π 1
π ) ∼ AN
g(b log ,
1−π nπ(1 − π)

5.4. Ejemplo usando el PROC FREQ del SAS


Para calcular medidas de asociación se puede utilizar el PROC FREQ del
SAS. Como un ejemplo consideremos la siguiente tabla donde se presenta infor-
mación recogida sobre el resultado de partos de bebés de menos de 2500 gramos
en instituciones públicas y privadas en Medellı́n en 1990.

Resultado
Institución Vivos Muertos
Oficial 4757 430
Privado 5148 464
Fuente: Revista de Planeación Metropolitana,
Medellı́n, Vol. 2, No. 5, pp212, 1992
5.4. EJEMPLO USANDO EL PROC FREQ DEL SAS 73

************************************************************;
* Ejemplo del PROC FREQ en tablas 2x2 *;
************************************************************;
options ps=65 ls=75 nodate nonumber;
data partos;
input institu $ result $ frec;
cards;
oficial vivos 4757
oficial muertos 430
privado vivos 5148
privado muertos 464
;
proc freq data=partos;
weight frec;
tables institu*result/exact;
run;
quit;
74 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN

The SAS System


TABLE OF INSTITU BY RESULT
INSTITU RESULT
Frequency|
Percent |
Row Pct |
Col Pct |muertos |vivos | Total
---------+--------+--------+
oficial | 430 | 4757 | 5187
| 3.98 | 44.05 | 48.03
| 8.29 | 91.71 |
| 48.10 | 48.03 |
---------+--------+--------+
privado | 464 | 5148 | 5612
| 4.30 | 47.67 | 51.97
| 8.27 | 91.73 |
| 51.90 | 51.97 |
---------+--------+--------+
Total 894 9905 10799
8.28 91.72 100.00

STATISTICS FOR TABLE OF INSTITU BY RESULT


Statistic DF Value Prob
------------------------------------------------------
Chi-Square 1 0.002 0.967
Likelihood Ratio Chi-Square 1 0.002 0.967
Continuity Adj. Chi-Square 1 0.000 0.995
Mantel-Haenszel Chi-Square 1 0.002 0.967
Fisher’s Exact Test (Left) 0.531
(Right) 0.497
(2-Tail) 0.972
Phi Coefficient 0.000
Contingency Coefficient 0.000
Cramer’s V 0.000
Sample Size = 10799
5.4. EJEMPLO USANDO EL PROC FREQ DEL SAS 75

De los anteriores resultados se muestra que hay independencia entre el re-


sultado de un nacimiento y el tipo de institución para bebés menores de 2.500
gramos. En general pensamos que las instituciones privadas proporcionan más
seguridad para la sobrevivencia de una criatura, lo que vemos no es válido desde
el punto de vista estadı́stico.

5.4.1. Medidas de Concordancia


Suponga que tenemos dos radiólogos que están calificando placas de ma-
mografı́as y su resultado es “Bien” o “Mal”, las calificaciones son realizadas
independientemente. Luego de clasificar n placas obtenemos una placa como la
siguiente:

Persona 2
Persona 1 Bien Mal Total
Bien n11 n12 n1+
Mal n21 n22 n2+
Total n+1 n+2 n

o en términos de las probabilidades de las celdas

Persona 2
Persona 1 Bien Mal Total
Bien π11 π12 π1+
Mal π21 π22 π2+
Total π+1 π+2 1,0

Utilizando la tabla de frecuencias se pueden definir varias medidas de con-


cordancia entre los evaluadores:

1. Proporción general de concordancia

n11 + n22
C=
n

2. Proporción de concordancia por categorı́a:


2n11
C1 =
2n11 + n12 + n21
2n22
C2 =
2n22 + n12 + n21

Mediada de Cocordancia κ de Cohen


La probabilidad total de concordancia se puede obtener como:
X
θ1 = πii
i
76 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN

Ahora si generamos un proceso de clasificación en el cual se tenga un pro-


cedimiento aleatorio de clasificicación, o sea un modelo de independencia en el
proceso, se presentará una concordancia espúrea, cuya probabilidad se puede
establecer como:
X
θ2 = πi+ π+i
i

El κ de Cohen es definido como

θ1 − θ2
1 − θ2

Una propiedad importante es que 0 ≤ κ ≤ 1. Para tablas 2 × 2 el estimador


será:

θ̂1 − θ̂2 2 (n11 n22 + n12 n21 )


κ̂ = =
1 − θ̂2 n1+ n+2 + n+1 n2+

Para el caso de dos categorı́as, el error estándar está dado por (Le, 1998, pp.
160)
p
2 n1+ n+1 n2+ n+2 /2
σ̂κ =
n2 − (n1+ n+1 + n2+ n+2 )

Le (1998) presenta estas recomendaciones sobre la interpretación de los re-


sultados de κ:

κ > 0,75 Excelente reproducibilidad


0,40 ≤ κ ≤ 0,75 Buena reproducibilidad
0 ≤ κ < 0,40 Pobre reproducibilidad

Ejemplo 5.2 (Le, 1998) La siguiente tabla presenta los resultados de las eva-
luaciones de dos enfermeras sobre el color de la membrana del tı́mpano y el
diagnóstico: Normal (gris) o No normal (blanca, rosada, naranja o roja). Los
datos de 100 evaluaciones se presentan en la siguiente tabla:

Enfermera 2
Enfermera 1 Normal No Normal
Normal 35 10
No Normal 20 35
5.4. EJEMPLO USANDO EL PROC FREQ DEL SAS 77

Programa en R para el cálculo del κ


El código siguiente permite calcular el intervalo asintótico para el κ de Cohen.

IC.kappa.asint<-function(a,b,c,d,nivel=0.95){

N<-a+b+c+d

n.1m<-a+b
n.2m<-c+d
n.m1<-a+c
n.m2<-b+d

k<-2*(a*d-b*c)/(n.1m*n.m2+n.m1*n.2m)

error<-2*sqrt((n.1m*n.m1*n.2m*n.m2)/N)/(N^2-(n.1m*n.m1+n.m2*n.2m))

alfa.medio<-(1-nivel)/2
z<-qnorm(nivel+alfa.medio)
LI<-k-z*error
LS<-k+z*error
list(k=k,LI=LI,LS=LS)
}

> IC.kappa.asint(35,10,20,35)
$k
[1] 0.4059406

$LI
[1] 0.2138253

$LS
[1] 0.5980559

La siguiente función permite calcular el intervalo de confianza bootstrap para


κ.

IC.kappa.boot<-function(a,b,c,d,nivel=0.95){

kappa1<-function(x){
a<-x[1]
b<-x[2]
c<-x[3]
d<-x[4]
78 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN

n.1m<-a+b
n.2m<-c+d
n.m1<-a+c
n.m2<-b+d

k<-2*(a*d-b*c)/(n.1m*n.m2+n.m1*n.2m)
k
}

k<-kappa1(c(a,b,c,d))

N<-a+b+c+d
probs<-c(a,b,c,d)/N

alfa.medio<-(1-nivel)/2
res<-quantile(apply(rmultinom(1000,N,probs),2,kappa1),
probs=c(alfa.medio,(nivel+alfa.medio)))
LI<-res[1]
LS<-res[2]
list(k=k,LI=LI,LS=LS)

> IC.kappa.boot(35,10,20,35)
$k
[1] 0.4059406

$LI
2.5%
0.2412451

$LS
97.5%
0.571183

La librerı́a concord del R contiene la función cohen.kappa() que permite


estimar el coeficiente de concordancia.
Cuando hay más de dos catergorı́as de clasificación entonces el κ de Cohen
es definido como:
P P
− i πi+ π+i
i πii P
κ=
1 − i πi+ π+i

5.4.2. Sensibilidad, Especificidad y Valor Predictivo


En el diseño de pruebas clı́nicas hay necesidad de establecer estadı́sticamente
la calidad de las pruebas y para ello se han creado indicadores tales como la
5.4. EJEMPLO USANDO EL PROC FREQ DEL SAS 79

especificidad y la sensibilidad. La sensibilidad no es más que la probabilidad


de detectar los positivos y la especificidad es la probabilidad de detectar los
negativos.

Verdadero Resultado Resultado Total


Estado Correcto Incorrecto
Enfermo π11 π12 1.0
Sano π21 π22 1.0

La sensibilidad se define como:

Sensibilidad = P (P rueba = + | Enf ermedad = +) = π1(1) = π11

y la especificidad como:

Especif icidad = P (P rueba = − | Enf ermedad = −) = π2(2) = π21

Cuando se realizan las pruebas para estimar los parámetros tenemos una
tabla como la siguiente:

Verdadero Resultado Resultado Total


Estado Correcto Incorrecto
Enfermo n11 n12 N1
Sano n21 n22 N2

Los estimadores serán por lo tanto


n11
Sensibilidad = π̂1(1) = π̂11 =
N1
Un intervalo de confianza aproximado puede hallarse utilizando las fórmulas pa-
ra la proporción en una población Bernoulli que se discutieron anteriormente. El
intervalo clásico no se recomienda ya que usualmente valores para la sensibilidad
están por encima de 0.80 en muchas situaciones.
 −1  −1 !
N1 − n11 + 1 N1 − n11
1+ , 1+
n11 F2n11 ,2(N1 −n11 +1),1−α/2 (n11 + 1)F2(n11 +1),2(N1 −n11 ),α/2

La especificidad como:
n21
Especif icidad = π̂2(2) = π̂21 =
N2
y el intervalo de confianza será:
 −1  −1 !
N2 − n21 + 1 N2 − n21
1+ , 1+
n21 F2n21 ,2(N2 −n21 +1),1−α/2 (n21 + 1)F2(n21 +1),2(N2 −n21 ),α/2

Conceptos asociados son el de Predictibilidad Positiva y Negativa. Una vez


se conoce la sensibilidad y la especificidad de una prueba y un sujeto es sometido
80 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN

a ella y resulte positiva (o negativa), cuál es la probabilidad de que el sujeto real-


mente posea (o no posea) la enfermedad? Esto se conoce como predictibilidad,
y en términos de probabilidades se expresan como:

P P = Predictibilidad Positiva = P (Enf ermedad = + | P rueba = +)

P N = Predictibilidad Negativa = P (Enf ermedad = − | P rueba = −)

La predictibilidad no depende solo de la sensibilidad y la especificidad de


la prueba sino también de la prevalencia de la enfermedad en la población (Le,
1998). El eejmplo siguiente lo muestra:

Población 1
Resultado
Enfermedad + −
+ 45000 5000
− 5000 45000
Población 2
Resultado
Enfermedad + −
+ 9000 1000
− 9000 81000

En las anteriores tablas la sensibilidad y especificidad son del 90 %. Si se


observa en la población 1 la prevalencia (P (D = +)) de la enfermedad es del
50 %. Jugando un poco con probabilidades podemos ver lo siguiente:

PP = P (D = + | T = +)
T
P (D = + T = +)
=
P (T = +)
T
P (D = + T = +) P (D = +)
=
P (T = +) P (D = +)
P (D = +)
= P (T = + | D = +)
P (T = +)
Pero

 \   \ 
P (T = +) = P D =+ T =+ +P D =− T =+
= P (T = + | D = +) P (D = +) + P (T = + | D = −) P (D = −)
= P (T = + | D = +) P (D = +) + (1 − P (T = − | D = −)) (1 − P (D = +))
= P revalencia × Sensibilidad + (1 − P revalencia) × (1 − Especif icidad)

Por lo tanto P P se expresa como:


5.5. MEDIDAS DE ASOCIACIÓN EN TABLAS BIDIMENSIONALES I ×J81

P revalencia × Sensibilidad
PP =
P revalencia × Sensibilidad + (1 − P revalencia) × (1 − Especif icidad)

De forma similar se llega a

(1 − P revalencia) × Especif icidad


PN =
P revalencia × (1 − Sensibilidad) + (1 − P revalencia) × Especif icidad

Los intervalos de confianza para estas cantidades se pueden hallar mediante


el bootstrap.

5.5. Medidas de Asociación en Tablas Bidimen-


sionales I × J
Muchos de los conceptos vistos hasta aquı́ pueden generalizarse fácilmente a
tablas mayores sin mucha dificultad. Aunque surgen problemas que son de im-
portancia, tales como los de simetrı́a, cuasi-simetrı́a. Otro problema importante
se presenta cuando una o las dos variables presentan una estructura ordinal.
Como un ejemplo de estas tablas presentamos la siguiente que hace referencia
al número de goles metidos por el equipo local contra los metidos por el equipo
visitante en 245 partidos de fútbol (Correa y Salazar, 1997),

Goles del Equipo Visitante


0 1 2 3 ó más
Goles 0 28 15 6 2
del 1 28 38 15 7
Equipo 2 17 22 16 4
Local 3 ó más 18 17 9 3

5.5.1. Pruebas de Asociación


Pruebas basadas en la χ2
Todos las medidas basadas en la χ2 se generalizan directamente a tablas
I × J. Para la tabla anterior tenemos χ2 = 12,267 con 9 grados de libertad y un
valor-p de 0.199. Por lo tanto esta prueba nos acepta independencia entre los
goles del local y los del visitante.

1. El coeficiente φ r
χ2
φ=
N
Para aquellas tablas en las cuales una dimensión sea mayor que 2, puede
no estar entre 0 y 1 ya que el valor de la chi-cuadrado puede ser mayor
que el tamaño muestral.
82 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN

2. El Coeficiente de Contingencia
s
χ2
C=
χ2 +N

Esta medida fue sugerida por Pearson. Esta medida está confinada al rango
0 y 1, pero puede no alcanzar el lı́mite superior del intervalo. Por ejemplo,
para tablas 4 × 4, el máximo valor de es 0.87.

3. V de Cramér s
χ2
V =
N (k − 1)

donde es el mı́nimo entre el número de filas y el de columnas de la tabla. El


estadı́stico V de Cramér puede alcanzar el máximo 1 para cualquier tabla.
Si una de las dimensiones de la tabla es 2, entonces V y φ son idénticas.

Ejemplo en SAS de una Tabla I × J

options ps=55 ls=75;

data futbol;
infile ’futbol.dat’;
input plocal pvisi glocal gvisi tiempo $ @@;
gol_loca=glocal;
if glocal ge 3 then gol_loca=3 ;
gol_visi=gvisi;
if gvisi ge 3 then gol_visi=3;

proc freq;
tables gol_loca*gol_visi/all;
title ’Tabla de Goles del Local vs. Goles del Visitante’;
run;

quit;
5.5. MEDIDAS DE ASOCIACIÓN EN TABLAS BIDIMENSIONALES I ×J83

Tabla de Goles del Local vs. Goles del Visitante

TABLE OF GOL_LOCA BY GOL_VISI


GOL_LOCA GOL_VISI

Frequency|
Percent |
Row Pct |
Col Pct | 0| 1| 2| 3| Total
---------+--------+--------+--------+--------+
0 | 28 | 15 | 6 | 2 | 51
| 11.43 | 6.12 | 2.45 | 0.82 | 20.82
| 54.90 | 29.41 | 11.76 | 3.92 |
| 30.77 | 16.30 | 13.04 | 12.50 |
---------+--------+--------+--------+--------+
1 | 28 | 38 | 15 | 7 | 88
| 11.43 | 15.51 | 6.12 | 2.86 | 35.92
| 31.82 | 43.18 | 17.05 | 7.95 |
| 30.77 | 41.30 | 32.61 | 43.75 |
---------+--------+--------+--------+--------+
2 | 17 | 22 | 16 | 4 | 59
| 6.94 | 8.98 | 6.53 | 1.63 | 24.08
| 28.81 | 37.29 | 27.12 | 6.78 |
| 18.68 | 23.91 | 34.78 | 25.00 |
---------+--------+--------+--------+--------+
3 | 18 | 17 | 9 | 3 | 47
| 7.35 | 6.94 | 3.67 | 1.22 | 19.18
| 38.30 | 36.17 | 19.15 | 6.38 |
| 19.78 | 18.48 | 19.57 | 18.75 |
---------+--------+--------+--------+--------+
Total 91 92 46 16 245
37.14 37.55 18.78 6.53 100.00
84 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN

Tabla de Goles del Local vs. Goles del Visitante

STATISTICS FOR TABLE OF GOL_LOCA BY GOL_VISI

Statistic DF Value Prob


------------------------------------------------------
Chi-Square 9 12.267 0.199
Likelihood Ratio Chi-Square 9 11.888 0.220
Mantel-Haenszel Chi-Square 1 2.841 0.092
Phi Coefficient 0.224
Contingency Coefficient 0.218
Cramer’s V 0.129

Statistic Value ASE


------------------------------------------------------
Gamma 0.150 0.077
Kendall’s Tau-b 0.107 0.055
Stuart’s Tau-c 0.101 0.052

Somers’ D C|R 0.103 0.053


Somers’ D R|C 0.111 0.057

Pearson Correlation 0.108 0.063


Spearman Correlation 0.124 0.064

Lambda Asymmetric C|R 0.092 0.055


Lambda Asymmetric R|C 0.006 0.059
Lambda Symmetric 0.048 0.047

Uncertainty Coefficient C|R 0.020 0.012


Uncertainty Coefficient R|C 0.018 0.010
Uncertainty Coefficient Symmetric 0.019 0.011

Sample Size = 245


5.5. MEDIDAS DE ASOCIACIÓN EN TABLAS BIDIMENSIONALES I ×J85

SUMMARY STATISTICS FOR GOL_LOCA BY GOL_VISI


Cochran-Mantel-Haenszel Statistics (Based on Table Scores)

Statistic Alternative Hypothesis DF Value Prob


--------------------------------------------------------------
1 Nonzero Correlation 1 2.841 0.092
2 Row Mean Scores Differ 3 8.157 0.043
3 General Association 9 12.217 0.201

Total Sample Size = 245

La siguiente función calcula el α de Cronbach para confiabilidad:

reliability.alpha<-function(x){

score.total<-0
var.items<-0
var.total<-0
z.x<-0
z.score.total<-0
z.var.items<-0
z.x<-scale(x, center = TRUE, scale = TRUE)
n.items<-length(x)

for (i in 1:n.items) score.total<-score.total + x[,i]


for (i in 1:n.items) var.items<-var.items + var(x[,i])
for (i in 1:n.items) z.score.total<-z.score.total + z.x[,i]
for (i in 1:n.items) z.var.items<-z.var.items + var(z.x[,i])

var.total<-var(score.total)
z.var.total<-var(z.score.total)

cronbachs.alpha<-(n.items/(n.items-1))*((var.total -
var.items)/var.total)
z.cronbachs.alpha<-(n.items/(n.items-1))*((z.var.total -
z.var.items)/z.var.total)

return(cronbachs.alpha, z.cronbachs.alpha)}

Se puede compactar más

score.total <- apply(x,1,sum)


var.items <- sum(apply(x,2,var))
86 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN

z.score.total <- apply(z.score.total,1,sum)


z.var.items <- sum(apply(z.x,1,sum)

You can of course condense things even more, for example

var.total <- var(apply(x,1,sum))


z.var.total <- var(apply(z.score.total,1,sum))

Reducción Proporcional en el Error (PRE)


Existen tres medidas muy similares, λa , λb y λ. El estadı́stico λb involucra
una comparación de las siguientes dos situaciones: un individuo es seleccionado
al azar de una población y se nos pide adivinar a qué categorı́a de B pertenece,
bien sea que (a) no se proporcione más información o (b) que sea dada su
categorı́a en A. Si las respuestas A y B están totalmente incorrelacionadas, en
la segunda situación no podemos tener un mejor pronóstico que en la primera
situación, en otro caso habrá una mejora. La medida λb cuantifica la mejorı́a
como la disminución relativa en la probabilidad de error en la predicción de la
categorı́a de B:
PI
nim − n+m
λb = i=1
n++ − n+m
donde nim es la mayor celda en la ı-ésima fila de la tabla y n+m es la mayor de
los totales marginales de las columnas.
Ejemplo:
B
B1 B2 B3 B4 Total
A1 10 5 18 20 53
A2 8 16 5 13 42
A3 11 7 3 4 25
Total 29 28 26 37 120
Para estos datos, las mayores celdas para las tres filas son 20, 16 y 11,
mientras que el mayor total para las columnas es 37. Ası́
(20 + 16 + 11) − 37
λb = = 0,12.
120 − 37
lambda<-function(Tabla){
N<-sum(Tabla)
max.suma.filas<-max(apply(Tabla,2,sum))
sum.max.filas<-sum(apply(Tabla,1,max))
lambda.b<-(sum.max.filas-max.suma.filas)/(N-max.suma.filas)
lambda.b
}
5.5. MEDIDAS DE ASOCIACIÓN EN TABLAS BIDIMENSIONALES I ×J87

> temp<-matrix(c(10,5,18,20,8,16,5,13,
+ 11,7,3,4),byrow=T,ncol=4)
> lambda(temp)
[1] 0.1204819
>

Equivalentemente definimos λa :
PJ
j=1 nmj − nm+
λa =
n++ − nm+
donde nmj es la mayor celda en la -ésima columna de la tabla y nm+ es la
mayor de los totales marginales de las filas.
El λ de Goodman y Kruskal

P (1) − P (2)
λresultado =
P (1)

donde P (1) es la probabilidad de clasificación incorrecta, definida como 1 menos


la categorı́a modal.
Equivalentemente definimos λ:
P  P
J I
j=1 n mj − n m+ + i=1 nim − n+m )
λ=
2n++ − nm+ − n+m
La siguiente función en R nos permite calcular los diversos valores del lamb-
da:

lambda<-function(Tabla){
N<-sum(Tabla)
max.suma.filas<-max(apply(Tabla,2,sum))
sum.max.filas<-sum(apply(Tabla,1,max))
lambda.b<-(sum.max.filas-max.suma.filas)/(N-max.suma.filas)

max.suma.cols<-max(apply(Tabla,1,sum))
sum.max.cols<-sum(apply(Tabla,2,max))
lambda.a<-(sum.max.cols-max.suma.cols)/(N-max.suma.cols)

lambda<-((sum.max.filas-max.suma.filas)+
(sum.max.cols-max.suma.cols))/(2*N-max.suma.filas-max.suma.cols)

list(lambda.b=lambda.b,lambda.a=lambda.a,lambda=lambda)

> lambda(temp)
88 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN

$lambda.b
[1] 0.1204819

$lambda.a
[1] 0.1791045

$lambda
[1] 0.1466667

Lambda siempre varı́a entre 0 y 1. Un valor de cero indica que la variable


independiente no ayuda a predecir la variable dependiente. Un valor de 1 sig-
nifica que la variable independiente especifica completamente la categorı́a de
la variable dependiente. Cuando las variables son independientes el lambda es
cero. Lo contrario no es cierto.

Razón de Odds
La razón de odds no se generaliza tan directamente a estas tablas y se sugiere
el análisis de las razones de odds para diversas particiones.

Hora Sin Vı́ctimas Con Vı́ctimas razon.prob Razón de Odds


1 0 225 473 2.10 3.95
2 1 212 418 1.97 3.70
3 2 199 334 1.68 3.15
4 3 144 264 1.83 3.44
5 4 131 217 1.66 3.11
6 5 233 274 1.18 2.21
7 6 709 446 0.63 1.18
8 7 1559 634 0.41 0.76
9 8 1600 659 0.41 0.77
10 9 1401 686 0.49 0.92
11 10 1698 876 0.52 0.97
12 11 1884 1021 0.54 1.02
13 12 2036 1084 0.53 1.00
14 13 1854 1051 0.57 1.06
15 14 2163 1105 0.51 0.96
16 15 2236 1127 0.50 0.95
17 16 2111 1182 0.56 1.05
18 17 2046 1330 0.65 1.22
19 18 1869 1297 0.69 1.30
20 19 1315 1178 0.90 1.68
21 20 801 1080 1.35 2.53
22 21 707 947 1.34 2.52
23 22 504 693 1.38 2.58
24 23 316 494 1.56 2.94
5.5. MEDIDAS DE ASOCIACIÓN EN TABLAS BIDIMENSIONALES I ×J89

5.5.2. Prueba de Simetrı́a de McNemar


La prueba de simetrı́a Chi-cuadrado de McNemar para tablas de contingen-
cia cuadradas. Como un ejemplo consideremos la siguiente tabla que presenta
información sobre los registros de pruebas visuales de larga distancia que se rea-
lizaron a 7477 mujeres británicas entre 1943-1946 (Datos referenciados en Poon
y Hung, 1996)
 2
n +n
Xk X k nij − ij 2 ji
χ2 = nij +nji
i=1 j=1 2

k(k−1)
con 2 grados de libertad.

Grado del Ojo Izquierdo


Grado del Ojo Derecho La mayor la segunda la tercera la menor Total
La mayor 1520 266 124 66 1976
la segunda 234 1512 432 78 2256
la tercera 117 362 1772 205 2456
la menor 36 82 179 492 789
Total 1907 2222 2507 841 7477

> McNemar.prueba<-function(tabla){
+ if(nrow(tabla)!=ncol(tabla))stop(’Tabla no es simétrica!!!’)
+ e<-(tabla+t(tabla))/2
+ chi2<-sum((tabla-e)^2/e)
+ gl<-nrow(tabla)*(nrow(tabla)-1)/2
+ valor.p<-1-pchisq(chi2,gl)
+ list(chi2=chi2,gl=gl,valor.p=valor.p)
+ }

> ojos.dat<-matrix(c(1520,266,124,66,234,1512,432,78,
+ 117,362,1772,205,36,82,179,492),ncol=4,byrow=T)

> ojos.dat
[,1] [,2] [,3] [,4]
[1,] 1520 266 124 66
[2,] 234 1512 432 78
[3,] 117 362 1772 205
[4,] 36 82 179 492

> McNemar.prueba(ojos.dat)
$chi2
[1] 19.10655

$gl
[1] 6
90 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN

$valor.p
[1] 0.0039874

>

En R se tiene la función mcnemar.test(), la cual la ejemplificamos con el


caso anterior:

> ojos.dat<-matrix(c(1520,266,124,66,234,1512,432,78,117,362,1772,
+ 205,36,82,179,492),ncol=4,byrow=T)

> mcnemar.test(ojos.dat)

McNemar’s Chi-squared test

data: ojos.dat
McNemar’s chi-squared = 19.1066, df = 6, p-value = 0.003987

5.6. Medidas de Asociacion Ordinales


Cuando al menos una de las variables de la tabla es ordinal es conveniente
diseñar medidas que tomen ventaja de esta nueva información. Consideremos
tablas donde ambas variables son ordinales. Consideremos un par tı́pico de ob-
servaciones, una en la celda (i, j) y la otra en la celda (i0 , j 0 ). Usualmente las
medidas de asociación son funciones simples de las siguientes cantidades:

S = Número total de pares de observaciones para los cuales, a la vez i > i0


y j > j 0 ó i < i0 y j < j 0 .

D = Total de pares para los cuales a la vez i > i0 y j < j 0 ó i < i0 y j > j 0 .

Ta = Total de pares para los cuales i = i0 .

Tb = Total de pares para los cuales j = j 0 .

Cuando hay asociación fuerte entre el par de variables, el número S será gran-
de y D será pequeño.

5.6.1. γ de Goodman y Kruskal


Esta medida está definida como
S−D
γ=
S+D
5.6. MEDIDAS DE ASOCIACION ORDINALES 91

Esta medida tiene interpretación probabilı́stica: Es la diferencia entre las pro-


babilidades de órdenes similares y diferentes para un par de observaciones se-
leccionadas al azar, condicionados en que no tengan rangos empatados. Si las
variables son independientes entonces γ estará cercano a cero, pero si γ = 0 esto
no implica que ambas variables sean independientes. γ es un valor cuyo rango
es [−1, 1].

5.6.2. τ de Kendall

2(S − D)
τ=p
((S + D + Ta )(S + D + Tb ))

5.6.3. d de Somer
Variaciones de los estadı́sticos anteriores que pueden ser más apropiadas
cuando una de las variables puede ser considerada como dependiente de la otra
son las siguientes:
S−D
dba =
S + D + Tb

S−D
dab =
S + D + Ta
Upton recomienda la selección del λ de Goodman y Kruskal para tablas
nominales y el γ de Goodman y Kruskal para tablas ordinales, si las dos variables
tienen igual importancia, y el λb de Goodman y Kruskal o el dab de Somers si
la variable B depende de la variable A.
La siguiente función en R permite el cálculo de estas medidas.

medidas<-function(tabla){

I<-nrow(tabla)
J<-ncol(tabla)

S<-0
D<-0
Ta<-0
Tb<-0

for(i in 1:I){
for(j in 1:J){

if(i<I & j<J){


tabla1<-tabla[(i+1):I,(j+1):J]
S<-S+tabla[i,j]*sum(tabla1)
92 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN

if(i>1 & j<J){


tabla1<-tabla[1:(i-1),(j+1):J]
D<-D+tabla[i,j]*sum(tabla1)
}

if(i<I){
tabla3<-tabla[(i+1):I,j]
Tb<-Tb+tabla[i,j]*sum(tabla3)
}

if(j<J){
tabla4<-tabla[i,(j+1):J]
Ta<-Ta+tabla[i,j]*sum(tabla4)
}

}
}

GK<-(S-D)/(S+D)
d1<-(S-D)/(S+D+Tb)
d2<-(S-D)/(S+D+Ta)
K<-2*(S-D)/sqrt((S+D+Ta)*(S+D+Tb))

list(D=D,S=S,Ta=Ta,Tb=Tb,GoodmanKruskal=GK,
dbaSomers=d1,dabSomers=d2,tauKendall=K)
}

temp<-matrix(c(13,13,12,22,
4,24,28,34,
3,8,15,24),ncol=4,byrow=T)
> medidas(temp)
$D
[1] 3627

$S
[1] 5534

$Ta
[1] 4914
5.7. ELIMINANDO CATEGORÍAS EN UNA VARIABLE 93

$Tb
[1] 3739

$GoodmanKruskal
[1] 0.2081650

$dbaSomers
[1] 0.1478295

$dabSomers
[1] 0.1354885

$tauKendall
[1] 0.283049

>

5.7. Eliminando categorı́as en una variable


La eliminación de categorı́as en una o más variables es práctica corriente en-
tre los investigadores. Everitt (1977) hace las siguientes anotaciones con respecto
a esto:

Se puede perder una cantidad muy significativa de información.

La aleatoriedad de la muestra puede afectarse.

La forma en que se combinen las categorı́as puede influir en las inferencias


que se obtengan.

> genera.tabla<-function(N,prob){
+ p1<-prob[1]
+ p2<-prob[2]
+ p3<-prob[3]
+ if(sum(prob)>1)stop(’Vector de probabilidades incorrecto’)
+ numeros.aleatoris<-runif(N)
+ numeros.aleatorios<-runif(N)
+ numeros.aleatorios<-ifelse(numeros.aleatorios<p1,1,
+ ifelse(numeros.aleatorios<(p1+p2),2,
+ ifelse(numeros.aleatorios<(p1+p2+p3),3,4)))
+ resultado<-tabulate(numeros.aleatorios)
+ tabla<-matrix(resultado,ncol=2,byrow=T)
+ tabla
94 CAPÍTULO 5. MEDIDAS DE ASOCIACIÓN

+ }
> genera.tabla(100,c(0.2,0.4,0.2))
[,1] [,2]
[1,] 15 42
[2,] 24 19
> genera.tabla(1000,c(0.2,0.4,0.05))
[,1] [,2]
[1,] 217 389
[2,] 49 345
> genera.tabla(1000,c(0.2,0.4,0.9))
Error in genera.tabla(1000, c(0.2, 0.4, 0.9)) :
Vector de probabilidades incorrecto

> calcula.odds<-function(N,probs){
+ tabla<-genera.tabla(N,probs)
+ odds<-tabla[1,1]*tabla[2,2]/(tabla[1,2]*tabla[2,1])
+ odds
+ }

> simula.odds<-function(N,prob,Nsim){
resultado<-matrix(rep(N,Nsim),ncol=1)
resultado<-apply(resultado,1,FUN=’calcula.odds’,prob)
resultado
}
>

> temp<-simula.odds(100,c(0.2,0.3,0.4),1000)
> par(mfrow=c(1,2))
> hist(temp,main=’Dist. de la Razón de Odds’,
sub=’N=100, p11=0.2,p12=0.3,p21=0.4’)
> hist(log(temp),main=’Dist. del log de Razón de Odds’,
sub=’N=100, p11=0.2,p12=0.3,p21=0.4’)
Capı́tulo 6

Estimación del Tamaño


Poblacional N

En muchas circunstancias se desea conocer el tamaño de una población, por


ejemplo en biologı́a es de interés saber cuántos animales de cierta especie hay
en una zona determinada o cuántos peces hay en un lago. La policı́a podrı́a
querer saber cuántos raponeros hay en el centro de la ciudad, un epidemiólogo
podrı́esear conocer el número de habitantes que tienen cierta caracterı́stica, etc.
Para la estimación del tamaño de una población se pueden utilizar técnicas
que se conocen como Captura-Recaptura. El proceso más simple consiste en
tomar una muestra y marcar de alguna los sujetos de ella. Se devuelven a la
población y se extrae una segunda muestra. Utilizando la información de ambas
muestras se puede estimar N . Métodos de captura-recaptura pueden hacer uso
de varias muestras para refinar el proceso de estimación o considerar problemas
con la estructura de la población. Aquı́ vamos a presentar la forma más simple
para estimar N .
Segunda Muestra
Sı́ No Total
Primera Sı́ n11 n12 n1+
Muestra No n21 ?
n+1 N
Se supone que la muestra 2 se toma independientemente de la muestra 1.
El esquema probabilı́stico para el número de éxitos de la segunda muestra es
hipergeométrico con probailidad dada por
  
M N −M
y n−y
P (Y = y|M, n, y) =  
N
n
El logaritmo de la función de verosimilitud será

95
96 CAPÍTULO 6. ESTIMACIÓN DEL TAMAÑO POBLACIONAL N

N
X −M
NX
log (L(N )) = log(K) − log(i) + log(i)
i=N −n+1 i=N −M −n+y+1

donde
n!M !
K=
y!(M − y)!(n − y)!
Para hallar el estimador de máxima verosimilitud para N , derivamos la an-
terior función con respecto a N e igualamos a cero
N −M
NX
d log (L(N )) X 1 1
=− + =0
dN i i
i=N −n+1 i=N −M −n+y+1

Lo anterior se resuleve numéricamente y para hallar la varianza asintótica


necesitamos la segunda derivada evaluada en el em.v.
N −M
NX
d2 log (L(N )) X 1 1
= −
d N2 i2 i2
i=N −n+1 i=N −M −n+y+1

Otra alternativa es la siguiente:


Si pensamos que la segunda muestra es tomada con reemplazo, entonces
Y ∼ Binomial(n, π), donde π = M/N , entonces la función de verosimilitud es
  y  n−y
n M M
L(N ) = 1−
y N N

Para hallar el estimador de máxima verosimilitud para N derivamos el loga-


ritmo de L(N ) con respecto a N e igualamos a cero y resolvemos la ecuación:
 
d log(L(N )) y 1 1
= − + (n − y) − =0
dN N N −M N

Resolviendo y despejando para N llegamos al estimador


Mn
N̂ =
y
La varianza asintótica la hallamos primero determinado la segunda derivada
de log(L(N ))

d2 log(L(N ))
 
y 1 1
= 2 − (n − y) − 2
d N2 N (N − M )2 N
Capı́tulo 7

Tablas Multidimensionales

7.1. La Paradoja de Simpson


La paradoja de Simpson ocurre cuando se colapsan tablas de contingencia
descuidadamente. Presentamos de una forma sencilla este fenómeno con el ob-
jeto de prevenir al analista de datos en el manejo de tablas de contingencia.
Las ilusiones estadı́sticas ocurren con frecuencia y en cierto sentido se pare-
cen a las ilusiones ópticas: Solo las reconocemos cuando nos las han mostrado
(Wardrop, 1995). La paradoja de Simpson ocurre frecuentemente cuando ana-
lizamos tablas de contingencia cuando colapsamos las dimensiones de las tablas
indiscriminadamente, esto es, cuando eliminamos una covariable importante.
Puede ocurrir que datos de tablas bidimensionales puedan ser contradichos por
una tabla tridimensional. Ejemplos en diversas áreas aparecen de vez en cuando
en revistas especializadas (Wagner, 1982; Warddrop, 1995), pero lamentable-
mente los textos de clase no hacen énfasis en este problema.

7.1.1. Ejemplo
Consideremos por ejemplo la siguiente tabla

Sexo del Paciente


Hombre Mujer
Resultado Exito Fracaso Exitos Fracaso
Tratamiento 1 80 10 60 120
Tratamiento 2 200 100 10 25

La probabilidad estimada de éxito para el tratamiento 1 en hombres es


80/90=0.89 y la probabilidad estimada de éxito para el tratamiento 2 es 200/300=0.67.
La probabilidad estimada de éxito para el tratamiento 1 en mujeres es 60/180=0.33
y la probabilidad estimada de éxito para el tratamiento 2 es 10/35=0.28. Te-
nemos que tanto para hombres como para mujeres el tratamiento 1 tiene una
mayor probabilidad de éxito.

97
98 CAPÍTULO 7. TABLAS MULTIDIMENSIONALES

Consideremos ahora la siguiente tabla colapasada, que contiene los datos de


la tabla anterior pero en la cual no consideramos la variable sexo.

Resultado
Exito Fracaso
Tratamiento 1 140 130
Tratamiento 2 210 125

De esta tabla obtenemos una probabilidad de éxito del tratamiento 1 de


140/270=0.52, mientras que la probabilidad estimada de éxito para el trata-
miento 2 es 210/335=0.63, lo cual sugiere que el tratamiento 2 es mejor que el
tratamiento 1. Esto obviamente contradice lo que se habı́a establecido.
Esta contradicción puede ocurrir porque se ponderan inapropiadamente am-
bas poblaciones. En el tratamiento 2 tenemos 300 hombres y solo 35 mujeres.
La no inclusión de variables relevantes en tablas de contingencia puede llevar-
nos a conclusiones que pueden ser totalmente equivocadas y aún absurdas. De
lo anterior concluimos que no podemos confiar plenamente en las conclusiones
extraı́das de tablas marginales.

7.2. Prueba de Homogenidad de Simon o de Woolf


Si se tiene una tabla 2 × 2 que es generada para cada estrato (subpoblación)
es de interés verificar si la asociación entre las variables de la tabla permanece
constatnte a través de los diferentes estratos o si hay una interacción con los
mismos. La prueba de Simon (Hubert, 1995). Si tenemos K estratos, cada uno
generando una tabla 2 × 2, la hipótesis a verificar será

H0 : ψ 1 = ψ 2 = · · · = ψ K

El estadı́stico de prueba de Simon es


K
X
ωi Ri − R̄ ∼ χ2(K−1)

Q=
i=1

donde
 
Ri = log Ψ̂i
1 1 1 1 1
ωi = = + + +
var(R
d i) ai bi ci di
K
X ωi
R̄ = PK Ri
i=1 j=1 ωj

En R se puede utilizar una función similar a la siguiente para realizar la


prueba:
7.3. ESTIMADOR Y PRUEBA DE MANTEL-HAENZEL 99

woolf <- function(x) {


x <- x + 1 / 2
k <- dim(x)[3]
or <- apply(x, 3, function(x) (x[1,1]*x[2,2])/(x[1,2]*x[2,1]))
w <- apply(x, 3, function(x) 1 / sum(1 / x))
1 - pchisq(sum(w * (log(or) - weighted.mean(log(or), w)) ^ 2), k - 1)
}

7.3. Estimador y Prueba de Mantel-Haenzel


En muchas investigaciones sociales y médicas no es raro tener series de tablas
2 × 2 que examinan el mismo efecto bajo diferente condiciones (covariable que
hace el papel de un factor). Si tenemos K de tales tablas, estas tablas pueden
combinarse para formar una tabla 2 × 2 × K.
El estimador de la razón de odds corregida de Mantel-Hanzel es
PK ai di
i=1 Ni
ψ̂M H = PK bi ci
i=1 Ni

La varianza asintótica de el logaritmo de este estimador se debe a Robins y


otros (Hubert, 1995) y está dada por

2 T1 T2 + T3 T4
σ̂log (ψ̂ ) = 2R2 + 2RS + 2S 2
MH

donde
(ai + di )
Pi =
Ni
ai di
Ri =
Ni
(bi + ci )
Qi =
Ni
(bi ci )
Si =
Ni
XK
R = Ri
i=1
K
X
S = Si
i=1
K
X
T1 = Pi Ri
i=1
100 CAPÍTULO 7. TABLAS MULTIDIMENSIONALES

K
X
T2 = Pi Si
i=1
K
X
T3 = Qi Ri
i=1
K
X
T4 = Qi Si
i=1

Por lo tanto un intervalo de confianza del 95 % para log (ψM H ) será


   q   q 
2
log ψ̂M H − 1,96 σ̂log ψ̂ 2
, log ψ̂M H + 1,96 σ̂log ψ̂
( MH ) ( MH )
El intervalo para ψM H se calcula exponenciando los lı́mites del anterior intervalo.
La hipótesis nula es que la razón de odds es la misma para cada tabla 2 × 2
e igual a uno, o sea independencia, controlando por la covariable. Esto puede
realizarse mediante el estadı́stico de Mantel-Haenzel
P 2
K
k=1 (n 11k − m11k )
MH = PK
(m11k m22k )
k=1
n++k −1

Este estadı́stico tiene una distribución asintótica χ2(1) bajo el modelo de inde-
pendencia condicional.
La siguiente tabla presenta información sobre partos de más de 20 sema-
nas de embarazo en el Valle del Aburrá (Información obtenida de los Anuarios
estadı́sticos de Antioquia):
Año 1996
Resultado
Peso Vivo Muerto
2500 gr o menos 4337 389
Más de 2500 gr 40716 128
Año 1997
Resultado
Peso Vivo Muerto
2500 gr o menos 4697 373
Más de 2500 gr 55098 137
Año 1998
Resultado
Peso Vivo Muerto
2500 gr o menos 5069 513
Más de 2500 gr 49577 131
En R la librerı́a ctest posee la función mantelhaen.test() que permite
realizar tanto pruebas de hipótesis como estimación de la razón de odds para
tablas estratificadas.
7.3. ESTIMADOR Y PRUEBA DE MANTEL-HAENZEL 101

> partos<-array(c(4737,389,40716,128,
+ 4697,373,55098,137,
+ 5069,513,49577,131),dim=c(2,2,3),list(c(’Vivos’,’Muertos’),
c(’2500gr o menos’,’Más de 2500gr’),c(’1996’,’1997’,’1998’)))
> partos
, , 1996

2500gr o menos Más de 2500gr


Vivos 4737 40716
Muertos 389 128

, , 1997

2500gr o menos Más de 2500gr


Vivos 4697 55098
Muertos 373 137

, , 1998

2500gr o menos Más de 2500gr


Vivos 5069 49577
Muertos 513 131

>

> library(ctest)
> mantelhaen.test(partos)

Mantel-Haenszel chi-squared test with continuity correction

data: partos
Mantel-Haenszel X-squared = 8345.42, df = 1, p-value = < 2.2e-16
alternative hypothesis: true common odds ratio is not equal to 1
95 percent confidence interval:
0.02793310 0.03511536
sample estimates:
common odds ratio
0.03131901

> (4737/389)/(40716/128)
[1] 0.03828236
> (4697/373)/(55098/137)
[1] 0.03131097
> (5069/513)/(49577/131)
102 CAPÍTULO 7. TABLAS MULTIDIMENSIONALES

[1] 0.02610935
>
> apply(partos, 3, function(x) (x[1,1]*x[2,2])/(x[1,2]*x[2,1]))
1996 1997 1998
0.03828236 0.03131097 0.02610935
>

Lo anterior lo podemos corroborar con la Prueba de Simon o Woolf

> woolf(partos)
[1] 0.02749509
>
Parte II

Modelos Loglineales

103
Capı́tulo 8

Modelos Loglineales

En el análisis de tablas de contingencia algunos autores durante los años


60 tomaron una aproximación análoga a los análisis de datos cuantitativos, ta-
les como regresión y el análisis de varianza. Principalmente Goodman, quien
usó estadı́sticos de la razón de verosimilitud y procedimientos stepwise en la
construcción jerárquica de modelos loglineales y el procedimiento similar a mo-
delos lineales propuesto por Grizzle, Starmer y Koch (1969), en los cuales se
puede llegar a solución del modelo sin pasar por la estimación de cada celda.
Una aproximación utilizando el principio de mı́nima información discriminativa
fue propuesto por Ku y Kullback (1974).

8.1. Modelos Loglineales para tablas 2 × 2


Los modelos loglineales han tomado una aceptación entre aquellos que tra-
bajan con datos categóricos debido a su semejanza con los modelos de análisis
de varianza. Consideremos la distribución de probabilidad conjunta para dos
clasificaciones:

Clasificacion II
B1 B2 Total
Clasificacion I A1 π11 π12 π1+
A2 π21 π22 π2+
Total π+1 π+2 π++

Denotemos νij = log(πij ). Expresemos este logaritmo como la suma de cua-


tro componentes, donde una de ellas representa el valor medio para toda la
tabla. Otra componente representa la variación debida a una clasificación y otra
componente a la otra clasificación. El último componente estará asociado con
el efecto adicional de tener presente las dos clasificaciones simultáneamente o
efecto de interacción
νij = µ + λA B AB
i + λj + λij

105
106 CAPÍTULO 8. MODELOS LOGLINEALES

donde X X X X
λA
i = λB
j = λAB
ij = λAB
ij = 0
i j i j

En una tabla 2 × 2 tenemos entonces

λA
2 = −λA
1
λB
2 = −λB
1
λAB
22 = −λAB AB AB
12 = λ11 = −λ21

Si el modelo tiene tantos parámetros como celdas en la tabla entonces lo


llamamos el modelo saturado. Notación
X νij X νij X X νij
νi· = , ν·j = , ν·· =
j
J i
I i j
IJ

Entonces
X X X X X
νij = µ+ λA
i + λB
j + λAB
ij
i i i i i
I × ν·j = I × µ + 0 + I × λB
j +0

Sumando en j tenemos

IJν·· = IJµ + 0 + 0 + 0

Por lo tanto
ν·· = µ
Sustituyendo tenemos

λA
i = νi· − ν··
λB
j = ν·j − ν··
λAB
ij = νij − νi· − ν·j + ν··

Expandiendo esto tenemos


 
ν11 + ν12 − ν21 − ν22 1X π1j
λA
1 = = log
4 4 j π2j
 
ν11 − ν12 + ν21 − ν22 1X πi1
λB
1 = = log
4 4 i πi2
 
ν11 − ν12 − ν21 + ν22 1 π11 π22
λAB
11 = = log
4 4 π12 π21
Asi vemos que el término que representa la interacción es una función del
log de la razón de odds. Vamos a mostrar que en el modelo de independencia
λAB
ij = 0, esto es, que el modelo de independencia puede expresarse como

νij = µ + λA B
i + λj
8.2. AJUSTANDO MODELOS LOGLINEALES 107

Ahora,
πij = exp(νij ) = exp(µ + λA B
i + λj )

π1+ = π11 + π12 = exp(µ + λA B A B


1 + λ1 ) + exp(µ + λ1 + λ2 )
= exp(µ + λ1 ) exp(λ1 ) + exp(−λ1 ) , ya que λ2 = −λB
A B B B

1
π+2 = π12 + π22 = exp(µ + λA B A B
1 + λ2 ) + exp(µ + λ2 + λ2 )
= exp(µ − λB A A B B A A

1 ) exp(λ1 ) + exp(−λ1 ) , ya que λ2 = −λ1 y λ2 = −λ1

También
π++ = π1+ + π2+
= exp(µ) exp(λA A
exp(λB B
 
1 ) + exp(−λ1 ) 1 ) + exp(−λ1 )

de donde obtenemos
π1+ π+2
= exp(µ + λA B
i + λj ) = π12
π++
que corresponde al modelo de independencia.

8.2. Ajustando Modelos Loglineales


Denotemos la tabla de frecuencias observadas por N == {nijk } . Observemos
que estas frecuencias son variables aleatorias. Asumamos que el esquema de
muestreo es Poisson, por lo tanto nuestra matriz de parámetros será, digamos,
M, que contiene los valores esperados : {mijk }
La función densidad de probabilidad conjunta de {nijk } es
Y Y Y exp(−mijk )mnijk
ijk

P (N = n) =
i j
nijk !
k

La función de verosimilitud será:


XXX XXX
L(M) = nijk log(mijk ) − mijk
i j k i j k

Veamos ahora el modelo loglineal para mijk


log(mijk ) = µ + λA B C AB AC BC ABC
i + λj + λk + λij + λik + λjk + λijk

X X X
L(M) = nµ + ni++ λA
i + n+j+ λB
j + n++k λC
k
i j k
XX XX
+ nij+ λAB
ij + ni+k λAC
ik
i j i k
XX XX XXX
+ nij+ λAB
ij + n+jk λBC
jk + nijk λABC
ijk
i j j k i j k
XXX
+ exp(µ + λA
i + λB
j + λC
k + λAB
ij + λAC
ik + λBC ABC
jk + λijk )
i j k
108 CAPÍTULO 8. MODELOS LOGLINEALES

Ya que la distribución de Poisson pertenece a la familia exponencial, los


coeficientes de los parámetros en el log-verosimilitud son estadı́sticos
n suficientes.
o
Para el modelo saturado, las {nijk } son los coeficientes de los λABC ijk .
No hay reducción de los datos.

8.2.1. Notación para Modelos Loglineales


Modelo Notación

log(mijk ) = µ + λA B C AB AC BC ABC
i + λj + λk + λij + λik + λjk + λijk (ABC)

log(mijk ) = µ + λA B C AB AC BC
i + λj + λk + λij + λik + λjk (AB,AC,BC)

log(mijk ) = µ + λA B C AB AC
i + λj + λk + λij + λik (AB,AC)

log(mijk ) = µ + λA B C AB BC
i + λj + λk + λij + λjk (AB,BC)

log(mijk ) = µ + λA B C AC BC
i + λj + λk + λik + λjk (AC,BC)

log(mijk ) = µ + λA B C AB
i + λj + λk + λij (AB,C)

log(mijk ) = µ + λA B C BC
i + λj + λk + λjk (A,BC)

log(mijk ) = µ + λA B C AC
i + λj + λk + λik (AC,B)

log(mijk ) = µ + λA B C
i + λ j + λk (A,B,C)

8.2.2. Ecuaciones de Verosimilitud para Modelos Logli-


neales
Para el modelo (AC,BC)
X X X XX XX
L(M) = nµ + ni++ λA
i + n+j+ λB
j + n++k λC
k + ni+k λAC
ik + n+jk λBC
jk
i j k i k j k
XXX
− exp(µ + λA
i + λB
j + λC
k + λAC
ik + λBC
jk )
i j k
∂L XXX
= n− exp(µ + λA B C AC BC
i + λj + λk + λik + λjk )
∂µ i j k
XXX
= n− mijk
i j k

Haciendo esto igual a cero

m
b +++ = n
8.2. AJUSTANDO MODELOS LOGLINEALES 109

Ahora
∂L XX
= ni++ − mijk
∂λA
i j k
= ni++ − mi++ i = 1, ..., I

igualando a cero
m
b i++ = ni++ i = 1, ..., I
Asi

∂L
= 0⇒m
b +j+ = n+j+ j = 1, ..., J
∂λB
j
∂L
= ni+k − mi+k = 0 ⇒ m
b i+k = ni+k ∀i, k
∂λAC
ik
∂L
= n+jk − m+jk = 0 ⇒ m
b +jk = n+jk ∀j, k
∂λBC
jk

8.2.3. Estimando las Frecuencias Esperadas


Consideremos el modelo (AC,BC)
πi+k π+jk
πijk = ∀i, j, k
π++k
Para un esquema Poisson
mijk mi+k m+jk
πijk = , mijk =
n m++k
Las ecuaciones de verosimilitud producen
m
b i+k m
b +jk ni+k n+jk
m
b ijk = =
mb ++k n++k
Para el modelo
log mijk = µ + λA B C
i + λ j + λk

los estadı́sticos suficientes seran

{ni++ } , {n+j+ } , {n++k }

De esta manera podemos construir la siguiente tabla

Modelo Estadı́stico Suficiente Minimal


(A,B,C) {ni++ } , {n+j+ } , {n++k }
(AB,C) {nij+ } , {n++k }
(AB,BC) {nij+ } , {n+jk }
(AB,BC,AC) {nij+ } , {ni+k } , {n+jk }
110 CAPÍTULO 8. MODELOS LOGLINEALES

8.2.4. Ejemplo: Frecuencias esperadas bajo la hipótesis de


independencia en R
Consideremos el ejemplo de los partos realizados en instituciones privadas y
oficiales. Si asumimos un esquema multinomial, podemos pensar en verificar la
independencia entre el resultado del parto y el tipo de institución. En R es muy
fácil realizar este tipo de prueba con la función loglin():

> partos.dat<-array(c(4757,5148,430,464),c(2,2))
> partos.dat
[,1] [,2]
[1,] 4757 430
[2,] 5148 464

> loglin(partos.dat,list(1,2),fit=T)
2 iterations: deviation 0
$lrt
[1] 0.00171166

$pearson
[1] 0.001711714

$df
[1] 1

$margin
$margin[[1]]
[1] 1

$margin[[2]]
[1] 2

> rownames(partos.dat)<-c(’Oficial’,’Privado’)
> colnames(partos.dat)<-c(’Vivos’,’Muertos’)
> partos.dat
Vivos Muertos
Oficial 4757 430
Privado 5148 464
>
> partos.MInd<-loglin(partos.dat,list(1,2),fit=T,param=T)
2 iterations: deviation 0
> partos.MInd$param
$"(Intercept)"
[1] 7.304328
8.2. AJUSTANDO MODELOS LOGLINEALES 111

$"1"
Oficial Privado
-0.03937583 0.03937583

$"2"
Vivos Muertos
1.202545 -1.202545

>
> partos.MInd$fit
Vivos Muertos
Oficial 4757.592 429.4081
Privado 5147.408 464.5919
>
> residuales<-partos.dat-partos.MInd$fit
> residuales
Vivos Muertos
Oficial -0.5919067 0.5919067
Privado 0.5919067 -0.5919067
> residuales/sqrt(partos.MInd$fit)
Vivos Muertos
Oficial -0.008581429 0.02856394
Privado 0.008250095 -0.02746107
>

Podemos presentar estos resultados en una forma más elegante ası́:


Modelo g.l. G2 χ2
Independencia 1 0.00171166 0.001711714

Tabla Tabla
Observada Esperada
4757 430 4757.592 429.4081
5148 464 5147.408 464.5919

Residuales Residuales
Crudos Estandarizados
-0.5919067 0.5919067 -0.008581429 0.02856394
0.5919067 -0.5919067 0.008250095 -0.02746107

Los resultados anteriores nos muestran que el resultado de un parto (vivo o


muerto) es independiente del tipo de institución (oficial o privada) y el modelo
ajusta muy bien!.
112 CAPÍTULO 8. MODELOS LOGLINEALES

8.2.5. Otros modelos para tablas 2 × 2

Ho : Las categorı́as de B son igualmente posibles (obviamente A y B


independientes)

νij = µ + λA
i

o también

Ho : Las categorı́as de A son igualmente posibles.

νij = µ + λB
j

o también

Ho : todas las categorı́as son igualmente posibles

con lo que νij = µ

Comparación del modelo de independencia con el de no efecto de B

Modelo Parámetros Incluı́dos g.l. G2


Independencia µ, λA B
1 , λ1 1 6.9
A
No Efecto de B µ, λ1 2 41.7
Diferencia λB A
1 , dado que µ y λ1 ya están 1 34.8

La ventaja de trabajar con el estadı́stico G2 de razón de verosimilitud en


lugar del tradicional X 2 de Pearson es que la partición de la tabla anterior es
válida.

8.2.6. Ejemplo: Niños Zurdos

La función loglin asume un esquema de muestreo multinomial. Los siguinetes


comandos en R producen los resultados presentados en la siguiente tabla:

> ninos.dat<-array(c(79,57,202,138),c(2,2))
> loglin(ninos.dat,list(2),fit=T)
> loglin(ninos.dat,list(),fit=T)
> loglin(ninos.dat,list(1,2),fit=T)
> loglin(ninos.dat,list(1:2),fit=T)
8.3. MODELO LOGLINEAL CON TRES FACTORES 113

Modelo g.l. χ2 G2 Tabla Esperada

79 202
Saturado 0 0 0
57 138

80.28 200.71
Independencia 1 0.07036408 0.0702684
55.71 139.28

68 170
No efecto de sexo 2 15.60588 15.69374
68 170

119 119
Uniformidad 3 106.6723 106.0172
119 119

8.3. Modelo Loglineal con Tres Factores


8.3.1. Tablas Tridimensionales
Para tablas tridimensionales hay tres situaciones que debemos distinguir:
i) tres respuestas, ningún factor;
ii) dos respuestas, un factor;
iii) una respuesta, dos factores.
Para la situación i) sólo los esquemas de muestro Poisson o multinomial son
apropiados, mientras que para las situaciones ii) e iii) podemos también usar un
modelo producto-multinomial en el cual los totales marginales fijos corresponden
a las variables explicatorias o factores.
El modelo se define como sigue:

νijk = µ + λA B C AB AC BC ABC
i + λj + λk + λij + λik + λjk + λijk Con restricciones:
X X X X X X X
λAi = B
λj = C
λk = AB
λij = AB
λij = AC
λik = λAC
ik
i j k i j i k
X X X X X
= λBC
jk = λBC
jk = λABC
ijk = λABC
ijk = λABC
ijk =0
j k i j k

X X νijk
νi.. =
j
JK
k
X X νijk
ν.j. =
i
IK
k
114 CAPÍTULO 8. MODELOS LOGLINEALES
X X νijk
ν..k =
i j
IJ
X νijk
νij. =
K
k
X νijk
ν.jk =
i
I
X νijk
νi.k =
j
J

Se tiene que
X
I × ν.jk = νijk
i
= I × µ + I × λB C BC
j + I × λk + I × λjk teniendo en cuenta las restricciones
I × J × K × ν... = I × J × K × µ entonces
ν... = µ

λA
i = νi.. − ν...
B
λj = ν.j. − ν...
λCk = ν..k − ν...
AB
λij = νij. − νi.. − ν.j. + ν...
λAC
ik = νi.k − νi.. − ν..k + ν...
λBC
jk = ν.jk − ν.j. − ν..k + ν...
ABC
λijk = νijk − νij. − νi.k − ν.jk + νi.. + ν.j. + ν..k − ν...

Se tiene entonces que

λABC
111 = ν111 − ν11. − ν1,1 − ν,11 + ν1.. + ν,1. + ν.,1 − ν...
1 1 1
= ν111 − (ν111 + ν112 ) − (ν111 + ν121 ) − (ν111 + ν211 )
2 2 2
1 1
+ (ν111 + ν112 + ν121 + ν122 ) + (ν111 + ν112 + ν211 + ν212 )
4 4
1
+ (ν111 + ν121 + ν211 + ν221 )
4
1
− (ν111 + ν112 + ν121 + ν122 + ν211 + ν212 + ν121 + ν222 )
8
1
= ν111 − (3ν111 + ν112 + ν121 + ν211 )
2
1
+ (3ν111 + 2ν112 + 2ν121 + 2ν211 + ν212 + ν122 + ν221 )
4
8.4. AJUSTE PROPORCIONAL ITERATIVO: IPF 115

1
− (ν111 + ν112 + ν121 + ν122 + ν221 + ν212 + ν221 + ν222 )
8
12ν111 + 4ν112 + 4ν121 + 4ν211 − 6ν111 − 4ν112 − 4ν121 − 4ν211 − 2ν122 − 2ν221 − 2ν212
= ν111 −
8
1
− (ν111 + ν112 + ν121 + ν122 + ν221 + ν212 + ν221 + ν222 )
8
6ν111 − ν122 − ν221 − ν212 + ν112 + ν121 + ν222 + ν211
= ν111 −
8
Se tiene que
ν111 + ν122 + ν221 + ν212 − ν112 − ν121 − ν222 − ν211
λABC
111 =
8
1
= (log(π111 ) + log(π122 ) + log(π221 ) + log(π212 ) − log(π112 )
IJK
− log(π121 ) − log(π212 ) − log(π211 )
 
1 π111 π122 π221 π212
= log
IJK π112 π121 π222 π211

De la última ecuación se tiene que


π111 π122 π221 π212 π111 π221 π112 π222
=1⇔ =
π112 π121 π222 π211 π121 π211 π212 π122

8.4. Ajuste Proporcional Iterativo: IPF


El algoritmo IPF permite estimar por el método de máxima verosimilitud
modelos loglineales de una forma rápida y segura. Este método fue desarrollado
en los años 40 por Deming y Stephan. El procedimiento es iterativo y en cada
iteración hay tantos pasos como conjuntos de estadı́sticos suficientes minimales
o marginales a ajustar tengamos en nuestro modelo. Por ejemplo en el modelo
[AB][C] debemos ajustar las marginales {Nij+ } y {N++k }. En este caso cada
iteración consta de dos etapas, una por cada marginal a ajustar. El IPF será en-
(l,p)
tonces, si denotamos mijk los valores calculados en la l-ésima iteración y en el
p-ésimo paso,
1. Haga
(0,2)
mijk = 1
2. Para cada etapa en la iteración l-ésima
2.1 Ajustar para [AB]

(l,1) nij+ (l−1,2)


mijk = (l−1,2)
mijk
mij+

2.2 Ajuste por [C]


(l,2) n++k (l,1)
mijk = (l,1)
mijk
m++k
116 CAPÍTULO 8. MODELOS LOGLINEALES

(l,2) (l−1,2)
3. Pare cuando la diferencia absoluta entre mijk y mijk sea lo suficien-
temente pequeña.
Note que es posible ajustar primero por [C] y luego por [AB].
Para ilustrar el procedimiento consideremos el siguiente ejemplo:
Cercanı́a de Intensidad de Resultado
la Percepción la Preferencia Votó No votó
Débil 91 39
No Fuerte Mediana 121 49
Fuerte 64 24
Débil 214 87
Muy Fuerte Mediana 284 76
Fuerte 201 25

8.4.1. Modelo [AB] [C]


El conjunto minimal de estadı́sticos suficientes es {nij+ } {n++k }. El IPF
tendrá en cada iteración dos etapas:
(l,1) nij+ (l−1,2)
1) mijk = (l−1,2) mijk
mij+
(l,2) n++k (l,1)
2) mijk = (l,1) mijk
m++k
La tabla original y el conjunto marginal a ser usado es:

91 39 n11+ = 130
121 49 n12+ = 170
64 24 n21+ = 88
214 87 n22+ = 301
284 76 n31+ = 360
201 25 n32+ = 226

n++1 = 975 n++2 = 300

Primera Iteración:
mij+
1 1 2
1 1 2
1 1 2

1 1 2
1 1 2
1 1 2
(1,1) nij+ (0,2)
mijk = (l−1,2) mijk
mij+
(1,1) n11+ (0,2)
m111 = (0,2) m111 = 130
2 1 = 65
m11+
(1,1) n11+ (0,2)
m112 = (0,2) m112 = 130
2 1 = 65
m11+
8.4. AJUSTE PROPORCIONAL ITERATIVO: IPF 117

(1,1) n12+ (0,2) 170


m121 = (0,2) m121 = 2 1 = 85
m12+
(1,1) n12+ (0,2) 170
m122 = (0,2) m122 = 2 1 = 85
m12+
(1,1) n13+ (0,2) 88
m131 = (0,2) m131 = 2 1 = 44
m13+
(1,1) n13+ (0,2) 88
m132 = (0,2) m132 = 2 1 = 44
m13+
(1,1) n21+ (0,2) 301
m211 = (0,2) m111 = 2 1 = 150,5
m21+
(1,1) n21+ (0,2) 301
m212 = (0,2) m112 = 2 1 = 150,5
m21+
(1,1) n22+ (0,2) 360
m221 = (0,2) m121 = 2 1 = 180
m22+
(1,1) n22+ (0,2) 360
m222 = (0,2) m122 = 2 1 = 180
m22+
(1,1) n23+ (0,2) 226
m231 = (0,2) m131 = 2 1 = 113
m23+
(1,1) n23+ (0,2) 226
m232 = (0,2) m132 = 2 1 = 113
m23+

65 65
85 85
44 44
150.5 150.5
180 180
113 113

m++1 = 637,5 m++2 = 637,5

(1,2) n++k (1,1)


mijk = (1,1) mijk
m++k
(1,2) n++1 (1,1) 975
m111 = (1,1) m111 = 637,5 65 = 99,4118
m++1
(1,2) n++2 (1,1) 300
m112 = (1,1) m112 = 637,5 65 = 30,5882
m++2
(1,2) n++1 (1,1) 975
m121 = (1,1) m121 = 637,5 85 = 130,0000
m++1
(1,2) n++2 (1,1) 300
m122 = (1,1) m122 = 637,5 85 = 40,0000
m++2
(1,2) n++1 (1,1) 975
m131 = (1,1) m131 = 637,5 44 = 67,2941
m++1
(1,2) n++2 (1,1) 300
m132 = (1,1) m132 = 637,5 44 = 20,7059
m++2
(1,2) n++1 (1,1) 975
m211 = (1,1) m211 = 637,5 150,5 = 230,1765
m++1
(1,2) n++2 (1,1) 300
m212 = (1,1) m212 = 637,5 150,5 = 70,8235
m++2
(1,2) n++1 (1,1) 975
m221 = (1,1) m221 = 637,5 180 = 275,2941
m++1
(1,2) n++2 (1,1) 300
m222 = (1,1) m222 = 637,5 180 = 84,7059
m++2
118 CAPÍTULO 8. MODELOS LOGLINEALES

(1,2) n++1 (1,1) 975


m231 = (1,1) m231 = 637,5 113 = 172,8235
m++1
(1,2) n++2 (1,1) 300
m232 = (1,1) m232 = 637,5 113 = 53,1765
m++2
Iteración 2:

99.4118 30.5882 m11+ = 130


130.0000 40.0000 m12+ = 170
67.2941 20.7059 m21+ = 88
230.1765 70.8235 m22+ = 301
275.2941 84.7059 m31+ = 360
172.8235 53.1765 m32+ = 226

(2,1) nij+ (1,2)


mijk = (l−1,2) mijk
mij+
(2,1) n11+ (1,2) 130
m111 = (1,2) m111 = 130 99,4118 = 99,4118
m11+
(2,1) n11+ (1,2) 130
m112 = (1,2) m112 = 130 30,5882 = 30,5882
m11+
(2,1) n12+ (1,2) 170
m121 = (1,2) m121 = 170 130,0000 = 130,0000
m12+
(2,1) n12+ (1,2) 170
m122 = (1,2) m122 = 170 40,0000 = 40,0000
m12+
(2,1) n13+ (1,2) 88
m131 = (1,2) m131 = 88 67,2941 = 67,2941
m13+
(2,1) n13+ (1,2) 88
m132 = (1,2) m132 = 88 20,7059 = 20,7059
m13+
(2,1) n21+ (1,2) 301
m211 = (1,2) m111 = 301 230,1765 = 230,1765
m21+
(2,1) n21+ (1,2) 301
m212 = (1,2) m112 = 301 70,8235 = 70,8235
m21+
(2,1) n22+ (1,2) 360
m221 = (1,2) m121 = 360 275,2941 = 275,2941
m22+
(2,1) n22+ (1,2) 360
m222 = (1,2) m122 = 360 84,7059 = 84,7059
m22+
(2,1) n23+ (1,2) 226
m231 = (1,2) m131 = 226 172,8235 = 172,8235
m23+
(2,1) n23+ (1,2) 226
m232 = (1,2) m132 = 226 53,1765 = 53,1765
m23+

99,4118 30,5882
130,000 40,0000
67,2941 20,7059
230,1765 70,8235
275,2941 84,7059
172,8235 53,1765

m++1 = 975 m++2 = 300


8.5. ALGUNOS MODELOS LOGLINEALES Y SUS INTERPRETACIONES119

8.5. Algunos Modelos Loglineales y sus Inter-


pretaciones
Modelo Interpretación
(ABC, ABD) Dados A y B, los factores C y D son
independientes
(ABC, AD, BD) Dados A y B, los factores C y D son
independientes
(ABC, AD) Dado A, el factor D es independiente de
los factores B y C.
(AB, AC, AD, BC) Dado A, el factor D es independiente de
los factores B y C.
(ABC, D) El factor D es independiente de
los factores A, B y C.
(AB, BC, CD, DA) Dados B y D, los factores A y C
son independientes. Dados A y C, los
factores B y D son independientes.
(AB, AC, AD) Dado A, los factores B, C y D son
independientes
(AB, AC, BD) Dado A, el factor C es independiente de
de B y D. Dado B, el factor D es
independiente de A y C.
(AB, CD) Los factores A y B son independientes de C y D.
(AB, AC, D) El factor D es independiente de
los factores A, B y C. Dado A, el factor B
es independiente de C
(AB, C, D) El factor C es independiente de
los factores A, B y D. El factor D
es independiente de A, B y C
(A, B, C, D) Todos los factores son independientes entre sı́.

8.6. Usando el SAS para modelos loglineales

options ls=75 ps=60;

title1;
title2 ’************************************************’;
title3 ’* EJEMPLO DE MODELOS LOGLINEALES EN SAS-CATMOD *’;
title4 ’************************************************’;
title5;

proc format;
value per 1=’No Fuerte’ 2=’Muy Fuerte’;
120 CAPÍTULO 8. MODELOS LOGLINEALES

value int 1=’Debil’ 2=’Media’ 3=’Fuerte’;


value res 1=’Voto’ 2=’No Voto’;
run;

data uno;
do persp=1 to 2;
do inte=1 to 3;
do resu=1 to 2;
input frec @@;
output; end;end;end;
format persp per.
inte int. resu res.;
label persp=’Percepcion’
inte=’Intensidad’
resu=’Resultado’;
cards;
91 39 121 49 64 24 214 87 284 76 201 25
;

proc catmod;
weight frec;
model persp*inte*resu=_response_ /nogls ml pred=freq;
repeated _response_=persp inte resu;
title ’Modelo 1’;
run;

proc catmod;
weight frec;
model persp*inte*resu=_response_ /nogls ml pred=freq;
repeated _response_=persp|inte resu;
title ’Modelo 2’;
run;

proc catmod;
weight frec;
model persp*inte*resu=_response_ /nogls ml pred=freq;
repeated _response_=persp|resu inte;
title ’Modelo 3’;
run;

proc catmod;
weight frec;
model persp*inte*resu=_response_ /nogls ml pred=freq;
repeated _response_=persp inte|resu;
title ’Modelo 4’;
run;
8.6. USANDO EL SAS PARA MODELOS LOGLINEALES 121

proc catmod;
weight frec;
model persp*inte*resu=_response_ /nogls ml pred=freq;
repeated _response_=persp|inte persp|resu;
title ’Modelo 5’;
run;

proc catmod;
weight frec;
model persp*inte*resu=_response_ /nogls ml pred=freq;
repeated _response_=persp|inte inte|resu;
title ’Modelo 6’;
run;

proc catmod;
weight frec;
model persp*inte*resu=_response_ /nogls ml pred=freq;
repeated _response_=persp|resu inte|resu;
title ’Modelo 7’;
run;

proc catmod;
weight frec;
model persp*inte*resu=_response_ /nogls ml pred=freq;
repeated _response_=persp|inte resu|inte persp|resu;
title ’Modelo 8’;
run;

quit;
122 CAPÍTULO 8. MODELOS LOGLINEALES
Capı́tulo 9

Seleccionando un Modelo

Exiten varias formas de seleccionar un modelo:

Selección paso a paso hacia adelante,

Selección paso a paso hacia atrás,

Todos los modelos posibles, y

mezclas.

Christensen dice de la selección hacia adelante:

“La selección hacia adelante es notoriamente un mal método de


selección de variables ya que comienza con un modelo inadecuado y
no existe garantı́a de que llegará a un modelo adecuado.”

En modelos loglineales se recomienda utilizar el proceso de eliminación ha-


cia atrás. Se comienza con un modelo saturado, si se puede, o con un modelo
de alto orden. Siempre se elimina primero los términos de alto orden ya que
debemos tener presente el principio de jerarquı́a. Para ilustrar el procedimiento
de selección utilizamos un ejemplo del libro de Christensen.

9.1. Criterios Para la selección de un Modelo


1. Criterio de Goodman: Bajo la hipótesis nula, o sea, el modelo es correc-
to, G2 /gl tiene una distribución asintótica con media uno cuando n → ∞.
Goodman recomienda que valores pequeños representan un buen ajuste.

2. Criterio de Akaike: AIC=-2(verosimilitud maximizada - # parámetros


en el modelo) Para modelos loglineales es equivalente a usar AIC = G2 −
2(gl).

3. Criterio de Schwarz y Raftery BIC = G2 − (log(n))(gl)

123
124 CAPÍTULO 9. SELECCIONANDO UN MODELO

Ejemplo: Suponga que deseamos construir un modelo a partir de los datos


del ICFES para el departamento de Antioquia. Con una selección hacia atrás
obtenemos los siguientes resultados:

1. A: Sexo

2. B: Clasificación ICFES

3. C: Jornada

4. D: Región

1. Paso 1: Modelo saturado


Como primer paso, aunque trivial tenemos el modelo saturado. Debido
a que el ajuste es perfecto los estadı́sticos de prueba son iguales a cero,
aunque con este modelo no se logra una reducción en la complejidad del
modelo.
M odelo G2 G.L. AIC valorp
(ABCD) 0 0 0 1,000

2. Paso 2: Eliminando la interacción de tercer orden


El primer paso real consiste en la eliminación de la interacción de mayor
orden. Usualmente la interpretación de modelos con interacciones altas es
muy complicado.
M odelo G2 G.L. AIC valorp
(ABC, BCD, ACD, ABD) 11,53387 12 −12,46613 0,4838
Pasamos a realizar la prueba de hipótesis condicional para ver si el término
que queremos eliminar no es significativo para el modelo:
G2(ABC,BCD,ACD,ABD) − G2(ABCD) = 11,53387
gl(ABC,BCD,ACD,ABD) − gl(ABCD) = 12

Del anterior resultado, y observando el valor p, podemos eliminar la inter-


acción mayor y aceptar, al menos por el momento este modelo. Aunque la
idea es llegar a un modelo mucho más simple.

3. Paso 3: Eliminando otro término


El siguiente paso es más complejo que los anteriores, ya que se nos pre-
sentan varios modelos posibles: uno por la eliminación de una interacción
de segundo orden. Los resultados se presentan en la siguiente tabla:
M odelo G2 G.L. AIC valorp
(BCD, ACD, ABD) 23,40567 24 −24,59433 0,4960
(ABC, BCD, ACD) 17,00824 16 −14,99176 0,3851
(ABC, BCD, ABD) 29,29921 18 −6,70079 0,0448
(ABC, ACD, ABD) 30,32354 18 −5,67646 0,0344
9.1. CRITERIOS PARA LA SELECCIÓN DE UN MODELO 125

Del paso anterior podemos descartar de una vez dos modelos: (ABC, BCD, ABD)
y (ABC, ACD, ABD). Sus valores p los rechazan y podemos decir que es-
tos modelos no ajustan con los valores de la tabla. Nos quedan dos modelos
que podemos considerar como plausibles, aunque uno de ellos es clara-
mente mejor que el otro: el que tiene un mayor valor-p, o sea el modelo
(BCD, ACD, ABD) o sea la interacción ABC no es significativa.
G2(BCD,ACD,ABD) − G2(ABC,BCD,ACD,ABD) = 11,87283
gl(BCD,ACD,ABD) − gl(ABC,BCD,ACD,ABD) = 24 − 12 = 12
valor − p = 0,4559462
4. Paso 4: Eliminación de otra interacción
Seguimos buscando la reducción en la complejidad de nuestro modelo.
Procedemos a eliminar una de las mayores interacciones que restan en el
modelo seleccionado en el paso anterior.
M odelo G2 G.L. AIC valorp
(BCD, ACD, AB) 28,79952 28 −27,20048 0,4227
(BCD, ABD, AC) 41,37525 30 −18,62475 0,0809
(ACD, ABD, BC) 35,2374 30 −24,7626 0,2341
G2(BCD,ACD,AB) − G2(BCD,ACD,ABD) = 5,39385
gl(BCD,ACD,AB) − gl(BCD,ACD,ABD) = 28 − 24 = 4
valor − p = 0,2492189
Se logró eliminar otra interacción de segundo orden, aquella que involucra
sexo, resultado del ICFES y región.
5. Paso 5: Podemos simplicar más
M odelo G2 G.L. AIC valorp
(BCD, ABD) 62,53211 32 −1,46789 0,0010
(ACD, AB, BC, BD) 40,44407 34 −27,55593 0,2071
(BCD, AB, AC, AD) 46,27413 34 −21,72587 0,0780
G2(ACD,AB,BC,BD) − G2(BCD,ACD,AB) = 11,64455
gl(ACD,AB,BC,BD) − gl(BCD,ACD,AB) = 34 − 28 = 6
valor − p = 0,07038477
La prueba anterior nos lleva por lo tanto a aceptar el nuevo modelo pro-
puesto. Seguimos un paso más a ver si podemos reducir la complejidad de
nuestro modelo.
6. Paso 6: Otra simplificación
M odelo G2 G.L. AIC valorp
(ACD, AB, CD) 69,30073 36 −2,69927 0,0007
(ACD, AB, BD) 82,48395 40 2,48395 0,0001
(ACD, BC, BD) 80,48046 38 4,48086 0,0001
(AB, BC, BD, AC, AD, CD) 64,52528 40 −15,47472 0,0083
Ninguno de los anteriores modelos fue bueno para reproducir aproximada-
mente los valores de la tabla. El proceso por lo tanto se para con el modelo
obtenido en el paso previo. El modelo final será (ACD, AB, BC, BD).
126 CAPÍTULO 9. SELECCIONANDO UN MODELO

9.2. Analizando los Parámetros Individual-


mente
El SAS permite realizar un análisis individual de los parámetros de un
modelo. Esto es útil ya que nos permite reducir una tabla analizando las
categorı́as de cada variable incluı́da en el modelo. Como un ejemplo consi-
deremos el caso de la clasificación de los colegios de Antioquia presentada
por el ICFES. Suponga que estamos en analizar la probabilidad de ser
clasificado como “BUENO”para los colegios del área metropolitana, uti-
lizando para ello las variables SEXO y JORNADA. Vamos a construir
tanto un modelo saturado como un modelo de independencia entre sexo y
jornada. El programa en SAS es el siguiente:

options ps=55 ls=70 nocenter nodate nonumber;

data icfes;
input area $ jornada $ sexo $ clasif $ frec @@;
cards;
metro man fem alto 19 metro man masc alto 5 metro man mixto alto 10
metro man fem bajo 14 metro man masc bajo 6 metro man mixto bajo 43
metro man fem medio 17 metro man masc medio 4 metro man mixto medio 15
metro uni fem alto 8 metro uni masc alto 5 metro uni mixto alto 9
metro uni fem bajo 5 metro uni masc bajo 0 metro uni mixto bajo 26
metro uni fem medio 2 metro uni masc medio 3 metro uni mixto medio 5
metro tar fem alto 1 metro tar masc alto 2 metro tar mixto alto 4
metro tar fem bajo 9 metro tar masc bajo 5 metro tar mixto bajo 96
metro tar fem medio 4 metro tar masc medio 4 metro tar mixto medio 8
;

proc catmod;
weight frec;
response 1 0 0;
model clasif= jornada|sexo/freq prob predict oneway;
title ’ MODELO SATURADO: Probabilidad de Ser Clasificado
BUENO por el ICFES’;
run;

proc catmod;
weight frec;
response 1 0 0;
model clasif= jornada sexo/freq prob predict oneway;
title ’ MODELO INDEPENDENCIA: Probabilidad de Ser Clasificado
BUENO por el ICFES’;
9.2. ANALIZANDO LOS PARÁMETROS INDIVIDUALMENTE 127

run;

quit;

De la salida del SAS al ejecutar el anterior programa tenemos:

MODELO SATURADO: Probabilidad de Ser Clasificado BUENO por el ICFES

CATMOD PROCEDURE

Response: CLASIF Response Levels (R)= 3


Weight Variable: FREC Populations (S)= 9
Data Set: ICFES Total Frequency (N)= 329
Frequency Missing: 0 Observations (Obs)= 26

ONE-WAY FREQUENCIES
Variable Value Frequency
--------------------------
CLASIF alto 63
bajo 204
medio 62

JORNADA man 133


tar 133
uni 63

SEXO fem 79
masc 34
mixto 216

POPULATION PROFILES
Sample
Sample JORNADA SEXO Size
--------------------------------
1 man fem 50
2 man masc 15
3 man mixto 68
4 tar fem 14
5 tar masc 11
6 tar mixto 108
7 uni fem 15
8 uni masc 8
9 uni mixto 40
128 CAPÍTULO 9. SELECCIONANDO UN MODELO

RESPONSE PROFILES
Response CLASIF
----------------
1 alto
2 bajo
3 medio

MODELO SATURADO: Probabilidad de Ser Clasificado BUENO por el ICFES


RESPONSE FREQUENCIES
Response Number
Sample 1 2 3
---------------------------------
1 19 14 17
2 5 6 4
3 10 43 15
4 1 9 4
5 2 5 4
6 4 96 8
7 8 5 2
8 5 0 3
9 9 26 5

RESPONSE PROBABILITIES
Response Number
Sample 1 2 3
---------------------------------
1 0.38 0.28 0.34
2 0.33333 0.4 0.26667
3 0.14706 0.63235 0.22059
4 0.07143 0.64286 0.28571
5 0.18182 0.45455 0.36364
6 0.03704 0.88889 0.07407
7 0.53333 0.33333 0.13333
8 0.625 0 0.375
9 0.225 0.65 0.125

Response
Sample Function
------------------
1 0.38000
2 0.33333
3 0.14706
4 0.07143
5 0.18182
9.2. ANALIZANDO LOS PARÁMETROS INDIVIDUALMENTE 129

6 0.03704
7 0.53333
8 0.62500
9 0.22500

MODELO SATURADO: Probabilidad de Ser Clasificado BUENO por el ICFES

DESIGN MATRIX
Sample 1 2 3 4 5 6 7 8 9
---------------------------------------------------------------------
1 1 1 0 1 0 1 0 0 0
2 1 1 0 0 1 0 1 0 0
3 1 1 0 -1 -1 -1 -1 0 0
4 1 0 1 1 0 0 0 1 0
5 1 0 1 0 1 0 0 0 1
6 1 0 1 -1 -1 0 0 -1 -1
7 1 -1 -1 1 0 -1 0 -1 0
8 1 -1 -1 0 1 0 -1 0 -1
9 1 -1 -1 -1 -1 1 1 1 1

ANALYSIS-OF-VARIANCE TABLE
Source DF Chi-Square Prob
--------------------------------------------------
INTERCEPT 1 71.18 0.0000
JORNADA 2 19.52 0.0001
SEXO 2 16.20 0.0003
JORNADA*SEXO 4 5.96 0.2021

RESIDUAL 0 . .

ANALYSIS OF WEIGHTED-LEAST-SQUARES ESTIMATES


Standard Chi-
Effect Parameter Estimate Error Square Prob
----------------------------------------------------------------
INTERCEPT 1 0.2816 0.0334 71.18 0.0000
JORNADA 2 0.00524 0.0436 0.01 0.9044
3 -0.1848 0.0425 18.95 0.0000
SEXO 4 0.0467 0.0456 1.05 0.3057
5 0.0985 0.0570 2.99 0.0840
JORNADA*SEXO 6 0.0465 0.0583 0.64 0.4247
7 -0.0520 0.0754 0.47 0.4908
8 -0.0720 0.0574 1.58 0.2094
9 -0.0134 0.0738 0.03 0.8554
130 CAPÍTULO 9. SELECCIONANDO UN MODELO

MODELO SATURADO: Probabilidad de Ser Clasificado BUENO por el ICFES

PREDICTED VALUES FOR RESPONSE FUNCTIONS


-----Observed----- -----Predicted----
Function Standard Standard
Sample Number Function Error Function Error Residual
----------------------------------------------------------------
1 1 0.38 0.068644 0.38 0.068644 0
2 1 0.333333 0.121716 0.333333 0.121716 0
3 1 0.147059 0.042949 0.147059 0.042949 0
4 1 0.071429 0.06883 0.071429 0.06883 0
5 1 0.181818 0.116291 0.181818 0.116291 0
6 1 0.037037 0.018172 0.037037 0.018172 0
7 1 0.533333 0.128812 0.533333 0.128812 0
8 1 0.625 0.171163 0.625 0.171163 0
9 1 0.225 0.066026 0.225 0.066026 0

MODELO INDEPENDENCIA: Probabilidad de Ser Clasificado BUENO por el IC

CATMOD PROCEDURE
Response: CLASIF Response Levels (R)= 3
Weight Variable: FREC Populations (S)= 9
Data Set: ICFES Total Frequency (N)= 329
Frequency Missing: 0 Observations (Obs)= 26

ONE-WAY FREQUENCIES
Variable Value Frequency
--------------------------
CLASIF alto 63
bajo 204
medio 62

JORNADA man 133


tar 133
uni 63

SEXO fem 79
masc 34
mixto 216

POPULATION PROFILES
Sample
Sample JORNADA SEXO Size
--------------------------------
9.2. ANALIZANDO LOS PARÁMETROS INDIVIDUALMENTE 131

1 man fem 50
2 man masc 15
3 man mixto 68
4 tar fem 14
5 tar masc 11
6 tar mixto 108
7 uni fem 15
8 uni masc 8
9 uni mixto 40

RESPONSE PROFILES
Response CLASIF
----------------
1 alto
2 bajo
3 medio

MODELO INDEPENDENCIA: Probabilidad de Ser Clasificado BUENO por el IC


RESPONSE FREQUENCIES
Response Number
Sample 1 2 3
---------------------------------
1 19 14 17
2 5 6 4
3 10 43 15
4 1 9 4
5 2 5 4
6 4 96 8
7 8 5 2
8 5 0 3
9 9 26 5

RESPONSE PROBABILITIES
Response Number
Sample 1 2 3
---------------------------------
1 0.38 0.28 0.34
2 0.33333 0.4 0.26667
3 0.14706 0.63235 0.22059
4 0.07143 0.64286 0.28571
5 0.18182 0.45455 0.36364
6 0.03704 0.88889 0.07407
7 0.53333 0.33333 0.13333
8 0.625 0 0.375
9 0.225 0.65 0.125
132 CAPÍTULO 9. SELECCIONANDO UN MODELO

Response DESIGN MATRIX


Sample Function 1 2 3 4 5
---------------------------------------------------------
1 0.38000 1 1 0 1 0
2 0.33333 1 1 0 0 1
3 0.14706 1 1 0 -1 -1
4 0.07143 1 0 1 1 0
5 0.18182 1 0 1 0 1
6 0.03704 1 0 1 -1 -1
7 0.53333 1 -1 -1 1 0
8 0.62500 1 -1 -1 0 1
9 0.22500 1 -1 -1 -1 -1

MODELO INDEPENDENCIA: Probabilidad de Ser Clasificado BUENO por el IC


ANALYSIS-OF-VARIANCE TABLE
Source DF Chi-Square Prob
--------------------------------------------------
INTERCEPT 1 70.54 0.0000
JORNADA 2 25.57 0.0000
SEXO 2 12.90 0.0016

RESIDUAL 4 5.96 0.2021

ANALYSIS OF WEIGHTED-LEAST-SQUARES ESTIMATES


Standard Chi-
Effect Parameter Estimate Error Square Prob
----------------------------------------------------------------
INTERCEPT 1 0.2712 0.0323 70.54 0.0000
JORNADA 2 0.0109 0.0306 0.13 0.7210
3 -0.1297 0.0257 25.53 0.0000
SEXO 4 0.0302 0.0400 0.57 0.4508
5 0.0823 0.0531 2.41 0.1208

MODELO INDEPENDENCIA: Probabilidad de Ser Clasificado BUENO por el IC


PREDICTED VALUES FOR RESPONSE FUNCTIONS
-----Observed----- -----Predicted----
Function Standard Standard
Sample Number Function Error Function Error Residual
----------------------------------------------------------------
1 1 0.38 0.068644 0.312371 0.050831 0.067629
2 1 0.333333 0.121716 0.364496 0.079713 -0.03116
3 1 0.147059 0.042949 0.169653 0.037995 -0.02259
4 1 0.071429 0.06883 0.171736 0.049829 -0.10031
9.3. ELIMINADO CLASES DE UNA VARIABLE 133

5 1 0.181818 0.116291 0.223861 0.078296 -0.04204


6 1 0.037037 0.018172 0.029018 0.017784 0.008019
7 1 0.533333 0.128812 0.420171 0.06886 0.113162
8 1 0.625 0.171163 0.472296 0.089148 0.152704
9 1 0.225 0.066026 0.277454 0.0571 -0.05245

Del anterior resultado vemos que el modelo de independencia ajusta bien


a la tabla de los resultados del ICFES. De este modelo concluimos que
no existe interacción, pero tanto la variable sexo y la variable jornada son
importantes para la explicación de la probabilibad de ser clasificado como
BUENO por el ICFES.

9.3. Eliminado clases de una variable


Muchas veces deseamos reducir el número de categorı́as de una variable.
Esto puede hacerse fácilmente con el PROC CATMOD del SAS. Como
un ejemplo vamos a utilizar los datos del ICFES. Estamos explicando la
probabilidad de ser catalogado como “BUENO” por el ICFES basado en
los resultados de las pruebas nacionales. La variable SEXO presenta tres
categorı́as: Femenino, Masculino y Mixto.

options ps=55 ls=70 nocenter nodate nonumber;

data icfes;
input area $ jornada $ sexo $ clasif $ frec @@;
cards;
metro man fem alto 27 metro man masc alto 10
metro man mixto alto 19 metro man fem bajo 19
metro man masc bajo 6 metro man mixto bajo 69
metro man fem medio 19 metro man masc medio 7
metro man mixto medio 20 metro tar fem alto 1
metro tar masc alto 2 metro tar mixto alto 4
metro tar fem bajo 9 metro tar masc bajo 5
metro tar mixto bajo 96 metro tar fem medio 4
metro tar masc medio 4 metro tar mixto medio 8
;

proc catmod;
weight frec;
response 1 0 0;
model clasif= jornada sexo/freq prob predict oneway;
population jornada sexo;
134 CAPÍTULO 9. SELECCIONANDO UN MODELO

title ’ MODELO INDEPENDENCIA: Probabilidad de Ser Clasificado’;


title2 ’BUENO por el ICFES’;
run;
quit;

MODELO INDEPENDENCIA: Probabilidad de Ser Clasificado


BUENO por el ICFES

CATMOD PROCEDURE

Response: CLASIF Response Levels (R)= 3


Weight Variable: FREC Populations (S)= 6
Data Set: ICFES Total Frequency (N)= 329
Frequency Missing: 0 Observations (Obs)= 18

ONE-WAY FREQUENCIES

Variable Value Frequency


--------------------------
CLASIF alto 63
bajo 204
medio 62

JORNADA man 196


tar 133

SEXO fem 79
masc 34
mixto 216

POPULATION PROFILES
Sample
Sample JORNADA SEXO Size
--------------------------------
1 man fem 65
2 man masc 23
3 man mixto 108
4 tar fem 14
5 tar masc 11
6 tar mixto 108

RESPONSE PROFILES
9.3. ELIMINADO CLASES DE UNA VARIABLE 135

Response CLASIF
----------------
1 alto
2 bajo
3 medio

MODELO INDEPENDENCIA: Probabilidad de Ser Clasificado


BUENO por el ICFES

RESPONSE FREQUENCIES

Response Number
Sample 1 2 3
---------------------------------
1 27 19 19
2 10 6 7
3 19 69 20
4 1 9 4
5 2 5 4
6 4 96 8

RESPONSE PROBABILITIES

Response Number
Sample 1 2 3
---------------------------------
1 0.41538 0.29231 0.29231
2 0.43478 0.26087 0.30435
3 0.17593 0.63889 0.18519
4 0.07143 0.64286 0.28571
5 0.18182 0.45455 0.36364
6 0.03704 0.88889 0.07407

Response DESIGN MATRIX


Sample Function 1 2 3 4
-------------------------------------------------
1 0.41538 1 1 1 0
2 0.43478 1 1 0 1
3 0.17593 1 1 -1 -1
4 0.07143 1 -1 1 0
136 CAPÍTULO 9. SELECCIONANDO UN MODELO

5 0.18182 1 -1 0 1
6 0.03704 1 -1 -1 -1

ANALYSIS-OF-VARIANCE TABLE

Source DF Chi-Square Prob


--------------------------------------------------
INTERCEPT 1 55.92 0.0000
JORNADA 1 23.74 0.0000
SEXO 2 11.87 0.0026

RESIDUAL 2 4.40 0.1110

MODELO INDEPENDENCIA: Probabilidad de Ser Clasificado


BUENO por el ICFES

ANALYSIS OF WEIGHTED-LEAST-SQUARES ESTIMATES

Standard Chi-
Effect Parameter Estimate Error Square Prob
----------------------------------------------------------------
INTERCEPT 1 0.2280 0.0305 55.92 0.0000
JORNADA 2 0.0885 0.0182 23.74 0.0000
SEXO 3 0.0253 0.0405 0.39 0.5330
4 0.0847 0.0542 2.45 0.1177

MODELO INDEPENDENCIA: Probabilidad de Ser Clasificado


BUENO por el ICFES

PREDICTED VALUES FOR RESPONSE FUNCTIONS

-----Observed----- -----Predicted----
Function Standard Standard
Sample Number Function Error Function Error Residual
----------------------------------------------------------------
1 1 0.415385 0.061123 0.341806 0.048431 0.073578
2 1 0.434783 0.103367 0.401287 0.078906 0.033495
3 1 0.175926 0.036638 0.206571 0.033402 -0.03065
4 1 0.071429 0.06883 0.164733 0.050016 -0.0933
5 1 0.181818 0.116291 0.224214 0.079881 -0.0424
6 1 0.037037 0.018172 0.029498 0.017791 0.007539
9.3. ELIMINADO CLASES DE UNA VARIABLE 137

data icfes;
input area $ jornada $ sexo $ clasif $ frec @@;
cards;
metro man fem alto 27 metro man mascymix alto 29
metro man fem bajo 19 metro man mascymix bajo 77
metro man fem medio 19 metro man mascymix medio 27
metro taryno fem alto 1 metro taryno mascymix alto 6
metro taryno fem bajo 9 metro taryno mascymix bajo 104
metro taryno fem medio 4 metro taryno mascymix medio 12
;

proc catmod;
weight frec;
response 1 0 0;
model clasif= jornada sexo/freq prob predict oneway;
population jornada sexo;
title ’ MODELO INDEPENDENCIA: Probabilidad de Ser Clasificado’;
title2 ’BUENO por el ICFES’;
run;
quit;

MODELO INDEPENDENCIA: Probabilidad de Ser Clasificado

BUENO por el ICFES

CATMOD PROCEDURE

Response: CLASIF Response Levels (R)= 3


Weight Variable: FREC Populations (S)= 4
Data Set: ICFES Total Frequency (N)= 334
Frequency Missing: 0 Observations (Obs)= 12

ONE-WAY FREQUENCIES

Variable Value Frequency


-----------------------------
CLASIF alto 63
bajo 209
medio 62
138 CAPÍTULO 9. SELECCIONANDO UN MODELO

JORNADA man 198


taryno 136

SEXO fem 79
mascymix 255

POPULATION PROFILES
Sample
Sample JORNADA SEXO Size
-----------------------------------
1 man fem 65
2 man mascymix 133
3 taryno fem 14
4 taryno mascymix 122

RESPONSE PROFILES

Response CLASIF
----------------
1 alto
2 bajo
3 medio

MODELO INDEPENDENCIA: Probabilidad de Ser Clasificado


BUENO por el ICFES

RESPONSE FREQUENCIES

Response Number
Sample 1 2 3
---------------------------------
1 27 19 19
2 29 77 27
3 1 9 4
4 6 104 12
9.3. ELIMINADO CLASES DE UNA VARIABLE 139

RESPONSE PROBABILITIES

Response Number
Sample 1 2 3
---------------------------------
1 0.41538 0.29231 0.29231
2 0.21805 0.57895 0.20301
3 0.07143 0.64286 0.28571
4 0.04918 0.85246 0.09836

Response DESIGN MATRIX


Sample Function 1 2 3
-----------------------------------------
1 0.41538 1 1 1
2 0.21805 1 1 -1
3 0.07143 1 -1 1
4 0.04918 1 -1 -1

ANALYSIS-OF-VARIANCE TABLE

Source DF Chi-Square Prob


--------------------------------------------------
INTERCEPT 1 63.29 0.0000
JORNADA 1 28.06 0.0000
SEXO 1 4.83 0.0279

RESIDUAL 1 3.02 0.0821

MODELO INDEPENDENCIA: Probabilidad de Ser Clasificado


BUENO por el ICFES

ANALYSIS OF WEIGHTED-LEAST-SQUARES ESTIMATES

Standard Chi-
Effect Parameter Estimate Error Square Prob
----------------------------------------------------------------
INTERCEPT 1 0.1967 0.0247 63.29 0.0000
140 CAPÍTULO 9. SELECCIONANDO UN MODELO

JORNADA 2 0.0988 0.0187 28.06 0.0000


SEXO 3 0.0553 0.0252 4.83 0.0279

MODELO INDEPENDENCIA: Probabilidad de Ser Clasificado


BUENO por el ICFES

PREDICTED VALUES FOR RESPONSE FUNCTIONS

-----Observed----- -----Predicted----
Function Standard Standard
Sample Number Function Error Function Error Residual
----------------------------------------------------------------
1 1 0.415385 0.061123 0.350866 0.048573 0.064518
2 1 0.218045 0.035805 0.240184 0.033465 -0.02214
3 1 0.071429 0.06883 0.153244 0.050238 -0.08182
4 1 0.04918 0.019578 0.042561 0.019204 0.006619

options ps=55 ls=70 nocenter nodate nonumber;

data icfes;
input area $ jornada $ sexo $ clasif $ frec @@;
cards;
metro man femymas alto 37 metro man mixto alto 19
metro man femymas bajo 25 metro man mixto bajo 69
metro man femymas medio 26 metro man mixto medio 20
metro tar femymas alto 3 metro tar mixto alto 4
metro tar femymas bajo 14 metro tar mixto bajo 96
metro tar femymas medio 8 metro tar mixto medio 8
;

proc catmod;
weight frec;
response 1 0 0;
model clasif= jornada sexo/freq prob predict oneway;
population jornada sexo;
title ’ MODELO INDEPENDENCIA: Probabilidad de Ser Clasificado’;
title2 ’BUENO por el ICFES’;
run;
quit;

MODELO INDEPENDENCIA: Probabilidad de Ser Clasificado


BUENO por el ICFES

CATMOD PROCEDURE
9.3. ELIMINADO CLASES DE UNA VARIABLE 141

Response: CLASIF Response Levels (R)= 3


Weight Variable: FREC Populations (S)= 4
Data Set: ICFES Total Frequency (N)= 329
Frequency Missing: 0 Observations (Obs)= 12

ONE-WAY FREQUENCIES

Variable Value Frequency


----------------------------
CLASIF alto 63
bajo 204
medio 62

JORNADA man 196


tar 133

SEXO femymas 113


mixto 216

POPULATION PROFILES
Sample
Sample JORNADA SEXO Size
----------------------------------
1 man femymas 88
2 man mixto 108
3 tar femymas 25
4 tar mixto 108

RESPONSE PROFILES

Response CLASIF
----------------
1 alto
2 bajo
3 medio
142 CAPÍTULO 9. SELECCIONANDO UN MODELO

MODELO INDEPENDENCIA: Probabilidad de Ser Clasificado


BUENO por el ICFES

RESPONSE FREQUENCIES

Response Number
Sample 1 2 3
---------------------------------
1 37 25 26
2 19 69 20
3 3 14 8
4 4 96 8

RESPONSE PROBABILITIES

Response Number
Sample 1 2 3
---------------------------------
1 0.42045 0.28409 0.29545
2 0.17593 0.63889 0.18519
3 0.12 0.56 0.32
4 0.03704 0.88889 0.07407

Response DESIGN MATRIX


Sample Function 1 2 3
-----------------------------------------
1 0.42045 1 1 1
2 0.17593 1 1 -1
3 0.12000 1 -1 1
4 0.03704 1 -1 -1

ANALYSIS-OF-VARIANCE TABLE

Source DF Chi-Square Prob


--------------------------------------------------
INTERCEPT 1 80.25 0.0000
JORNADA 1 21.43 0.0000
9.3. ELIMINADO CLASES DE UNA VARIABLE 143

SEXO 1 13.04 0.0003

RESIDUAL 1 3.01 0.0826

MODELO INDEPENDENCIA: Probabilidad de Ser Clasificado


BUENO por el ICFES

ANALYSIS OF WEIGHTED-LEAST-SQUARES ESTIMATES

Standard Chi-
Effect Parameter Estimate Error Square Prob
----------------------------------------------------------------
INTERCEPT 1 0.1999 0.0223 80.25 0.0000
JORNADA 2 0.0850 0.0184 21.43 0.0000
SEXO 3 0.0839 0.0232 13.04 0.0003

MODELO INDEPENDENCIA: Probabilidad de Ser Clasificado


BUENO por el ICFES

PREDICTED VALUES FOR RESPONSE FUNCTIONS

-----Observed----- -----Predicted----
Function Standard Standard
Sample Number Function Error Function Error Residual
----------------------------------------------------------------
1 1 0.420455 0.052621 0.368828 0.043407 0.051627
2 1 0.175926 0.036638 0.200954 0.033681 -0.02503
3 1 0.12 0.064992 0.198754 0.04653 -0.07875
4 1 0.037037 0.018172 0.03088 0.017823 0.006157

En el siguiente caso mezclamos las categorı́as “Femenino” y “Mixto”

options ps=55 ls=70 nocenter nodate nonumber;

data icfes;
input area $ jornada $ sexo $ clasif $ frec @@;
cards;
metro man femymix alto 46 metro man masc alto 10
metro man femymix bajo 88 metro man masc bajo 6
metro man femymix medio 39 metro man masc medio 7
metro tar femymix alto 5 metro tar masc alto 2
144 CAPÍTULO 9. SELECCIONANDO UN MODELO

metro tar femymix bajo 105 metro tar masc bajo 5


metro tar femymix medio 12 metro tar masc medio 4
;

proc catmod;
weight frec;
response 1 0 0;
model clasif= jornada sexo/freq prob predict oneway;
population jornada sexo;
title ’ MODELO INDEPENDENCIA: Probabilidad de Ser Clasificado’;
title2 ’BUENO por el ICFES’;
run;
quit;

MODELO INDEPENDENCIA: Probabilidad de Ser Clasificado


BUENO por el ICFES

CATMOD PROCEDURE

Response: CLASIF Response Levels (R)= 3


Weight Variable: FREC Populations (S)= 4
Data Set: ICFES Total Frequency (N)= 329
Frequency Missing: 0 Observations (Obs)= 12

ONE-WAY FREQUENCIES

Variable Value Frequency


----------------------------
CLASIF alto 63
bajo 204
medio 62

JORNADA man 196


tar 133

SEXO femymix 295


masc 34

POPULATION PROFILES
9.3. ELIMINADO CLASES DE UNA VARIABLE 145

Sample
Sample JORNADA SEXO Size
----------------------------------
1 man femymix 173
2 man masc 23
3 tar femymix 122
4 tar masc 11

RESPONSE PROFILES

Response CLASIF
----------------
1 alto
2 bajo
3 medio

MODELO INDEPENDENCIA: Probabilidad de Ser Clasificado


BUENO por el ICFES

RESPONSE FREQUENCIES

Response Number
Sample 1 2 3
---------------------------------
1 46 88 39
2 10 6 7
3 5 105 12
4 2 5 4

RESPONSE PROBABILITIES

Response Number
Sample 1 2 3
---------------------------------
1 0.2659 0.50867 0.22543
2 0.43478 0.26087 0.30435
3 0.04098 0.86066 0.09836
4 0.18182 0.45455 0.36364
146 CAPÍTULO 9. SELECCIONANDO UN MODELO

Response DESIGN MATRIX


Sample Function 1 2 3
-----------------------------------------
1 0.26590 1 1 1
2 0.43478 1 1 -1
3 0.04098 1 -1 1
4 0.18182 1 -1 -1

ANALYSIS-OF-VARIANCE TABLE

Source DF Chi-Square Prob


--------------------------------------------------
INTERCEPT 1 34.21 0.0000
JORNADA 1 37.49 0.0000
SEXO 1 3.82 0.0508

RESIDUAL 1 0.03 0.8610

MODELO INDEPENDENCIA: Probabilidad de Ser Clasificado


BUENO por el ICFES

ANALYSIS OF WEIGHTED-LEAST-SQUARES ESTIMATES

Standard Chi-
Effect Parameter Estimate Error Square Prob
----------------------------------------------------------------
INTERCEPT 1 0.2319 0.0396 34.21 0.0000
JORNADA 2 0.1132 0.0185 37.49 0.0000
SEXO 3 -0.0780 0.0399 3.82 0.0508

MODELO INDEPENDENCIA: Probabilidad de Ser Clasificado


BUENO por el ICFES

PREDICTED VALUES FOR RESPONSE FUNCTIONS

-----Observed----- -----Predicted----
Function Standard Standard
9.4. UN EJEMPLO 147

Sample Number Function Error Function Error Residual


----------------------------------------------------------------
1 1 0.265896 0.03359 0.267129 0.032843 -0.00123
2 1 0.434783 0.103367 0.423101 0.078965 0.011681
3 1 0.040984 0.017949 0.040631 0.017836 0.000352
4 1 0.181818 0.116291 0.196603 0.079974 -0.01479

9.4. Un Ejemplo
En esta sección consideraremos un ejemplo desarrollado por Lee (1978)
que nos ilustra sobre el análisis que se puede realizar en la contrucción de
un modelo que lleva a un mejor entendimiento del problema. Consideremos
la siguiente tabla que contiene la información recogida de 66 adultos saca-
dos al azar y clasificados por sexo (femenino, masculino), opinión acerca
del contenido de una serie de televisión (aprobado o desaprobado), y su
localización demográfica (rural o urbana),
Rural Urbana
Aprueba Desaprueba Aprueba Desaprueba
Femenino 3 7 6 12
Masculino 5 15 17 1
Varios modelos pueden considerarse, por ejemplo el modelo saturado,
S×O
log(mijk ) = µ + λSi + λO L
j + λk + λij + λS×L
ik + λO×L
jk + λS×O×L
ijk

Este modelo ajusta perfectamente a los datos, sus residuales son cero, pero
no hay reducción de la complejidad del problema. Se pueden considerar
muchos modelos que no sean saturados, por ejemplo,
S×O
log(mijk ) = µ + λSi + λO L
j + λk + λij + λS×L
ik + λO×L
jk

el cual es un modelo sin interacción de segundo orden, o

log(mijk ) = µ + λSi + λO L
j + λk

el cual es el modelo de independencia.


El ajuste del modelo de independencia produce G2 = 27,78 con 4 grados
de libertad, un resultado que nos lleva a rechazar este modelo. Usualmen-
te nos quedamos en este paso con el modelo de independencia, pero un
análisis de los residuales estandarizados podemos entender un poco más
1/2
nuestra tabla. Los residuales estandarizados son (nijk − m̂ijk /m̂ijk . La
tabla con estos residuales es
Rural Urbana
Aprueba Desaprueba Aprueba Desaprueba
Femenino -1.22 0.10 -0.44 1.37
Masculino -1.09 1.93 2.33 -3.01
148 CAPÍTULO 9. SELECCIONANDO UN MODELO

La parte correspondiente a la zona rural contiene pequeños residuales es-


tandarizados, mientras la parte correspondiente a la zona urbana tiene
dos valores relativamente grandes. La diferencia entre estas dos subtablas
indica que se puede considerar el modelo de independencia entre sexo y la
opinión condicionados en localización geográfica. El estadı́stico de la razón
de verosimilitud G2 = 16,54 con 2 grados de libertad, que nos rechaza este
modelo. La tabla de residuales estandarizados es
Rural Urbana
Aprueba Desaprueba Aprueba Desaprueba
Femenino 0.20 -0.12 -1.62 2.16
Masculino -0.14 0.09 1.62 -2.16
Ahora los residuales estandarizados de la primera subtabla son casi ceros,
lo cual indica que para la zona rural, la interacción entre sexo y opinión es
insignificante. Si embargo, para el área urbana, la interacción entre sexo y
opinión es altamente significativa. Esto sugiere que particionemos la tabla
en dos subtablas y ajustar diferentes modelos a cada una de ellas.
Capı́tulo 10

Modelos Especiales

10.1. Modelo de Bradley-Terry


Un problema que se presenta a veces es el de la clasificación de I objetos
basados en la comparación de algún atributo no fácilmente cuantificable,
por ejemplo en un reinado de belleza. Para un calificador puede ser difı́cil
calificar los objetos simultáneamente, por ejemplo en una degustación solo
se prueba un producto a la vez. Una solución es realizar una comparación
pareada entre objetos. Sea πij la probabilidad que el objeto i sea preferido
al objeto j. Supongamos además que πij + πji = 1, esto evita la aparición
de empates. El modelo entonces permite expresar esta probabilidades de
la siguiente forma:

ξi
πij =
ξi + ξj

En forma alterna, si hacemos ξi = exp(φi ), se tiene entonces


 
πij
log = φi − φj
πji

πij es una función monótona de φi − φj


πij = 0,5 cuando φi − φj = 0

Sea nij el número de veces que i fue preferido a j y nji lo contrario. Sea
Nij = nij +nji . Si las Nij comparaciones son ralizadas independientements
con la misma probabilidad πij , entonces nij ∼ Binomial (Nij , πij ).

149
150 CAPÍTULO 10. MODELOS ESPECIALES
Parte III

Aproximación GSK

151
Capı́tulo 11

La Aproximación GSK

11.1. Introducción
El análisis de datos cualitativos es un área de importancia en el trabajo
aplicado. El modelo lineal clásico ha sido utilizado extensivamente y con
mucho éxito en múltiples situaciones. En el análisis de regresión estamos
interesados en predecir la media de una variable, llamada la respuesta,
basados en un conjunto de variables, llamadas los predictores. La regresión
clásica asume que la respuesta es continua y distribuı́da normalmente.
Tiene ventajas que lo hacen muy útil para el usuario, entre ellas tenemos:

Interpretabilidad. La interpretación de un modelo lineal es en casi


todas las situaciones fácil y directa. La mayorı́a de los usuarios in-
terpretan los coeficientes de un modelo sin dificultades aún con poco
conocimiento técnico. Tal vez la interpretabilidad del modelo lineal
clásico ha popularizado tanto este modelo, que no es raro ver su ajuste
en situaciones inapropiadas, por ejemplo respuestas que son discretas
o sesgadas; y el desespero por parte de los usuarios por aproximarse a
él, por ejemplo mediante transformaciones sin considerar los cambios
en la estructura del error.
Teóricamente atractivo. Desde el punto de vista teórico el modelo
lineal bajo los supuestos es claro y sus resultados fácilmente obteni-
bles con un conocimiento básico de estadı́stica matemática y álgebra
matricial. Existen adicionalmente una gran cantidad de herramientas
colaterales para validar la calidad del ajuste y de la influencia de cada
observación en el modelo estimado. El tratamiento teórico del modelo
lineal clásico es claro y directo. El supuesto de normalidad conduce
a resultados que permiten realizar un trabajo inferencial directo. El
supuesto de normalidad se puede relajar a distribuciones simétricas
que posean hasta momento de orden cuarto y con tamaños muestra-

153
154 CAPÍTULO 11. LA APROXIMACIÓN GSK

les relativamente grandes se logran resultados aproximados de gran


calidad.
Fácil de estimar. La estimación se realiza por mı́nimos cuadrados,
un área ampliamente desarrollada en matemáticas y en computación.
La solución numérica ha sido estudiada ampliamente por los analis-
tas, y existen variedad de algoritmos que garantizan la estabilidad de
las soluciones ante muy diversas estructuras en los datos.
Poco costoso. Existen gran variedad de programas para compu-
tador, aún para equipos muy simples que trabajan satisfactoriamente
a nivel de resultados y tiempo de ejecución. Por último la invasión de
computadores personales y calculadoras de mano permiten resolver
esta clase de modelos practicamente sin ningún costo.
En 1969 Grizzle, Starmer y Koch presentaron una metodologı́a que es lo
suficientemente flexible y poderosa para aplicarse a multitud de situacio-
nes. Su implementación a nivel computacional no es complicada y existe
la ventaja de que un programa como el SAS tenga el módulo CATMOD
implementado basado en la metodologı́a GSK.

11.2. La Aproximación GSK


El método GSK consiste en varias etapas:
a) Definición de la variable dependiente: La variable dependiente en
el análisis GSK no se refiere a individuos per se sino más bien a
probabilidades o funciones de probabilidades
b) Definición del Modelo
c) Estimación y Validación

11.3. Arreglo de los datos en la aproxima-


ción GSK
Subpoblación 1 2 ... r ...R Total
1 π11 π12 ... π1r ... π1R 1.0
2 π21 π22 ... π2r ... π2R 1.0
. . . . . .
. . . . . .
. . . . . .
s πs1 πs2 ... πsr ... πsR 1.0
. . . . . .
. . . . . .
. . . . . .
S πS1 πS2 ... πSr ... πSR 1.0
11.3. ARREGLO DE LOS DATOS EN LA APROXIMACIÓN GSK 155

La tabla básica se ordena de acuerdo a respuestas y subpoblaciones (o


estratos). Las respuestas son los valores de la variable dependiente (puede
ser multivariable) y las subpoblaciones son combinaciones de categorı́as
de las variables independientes (factores).

πrs : probabilidad de que una observación tomada al azar tenga respuesta


r dado que pertenece a la subpoblación s. Tenemos R categorı́as para la
respuesta y S subpoblaciones. Tenemos las siguientes restricciones:

R
X
πij − 1 = 0, i = 1, 2, · · · , S
j=1

Adicionalmente

R
X
nij = ni , i = 1, 2, · · · , S
j=1

La muestra se puede presentar en una tabla N como sigue

Subpoblación 1 2 ... r ...R Total


1 n11 n12 ... n1r ... n1R n1
2 n21 n22 ... n2r ... n2R n2
. . . . . .
. . . . . .
. . . . . .
s ns1 ns2 ... nsr ... nsR ns
. . . . . .
. . . . . .
. . . . . .
S nS1 nS2 ... nSr ... nSR nS

Finalmente, la probabilidad de la tabla observada de frecuencias es


 
S R
 Q ni !
Y Y
ni j 
P (N = n) = R
πij
i=1 j=1 nij ! j=1

La tabla de probabilidades la vamos a representar en forma de vector ası́:


156 CAPÍTULO 11. LA APROXIMACIÓN GSK

 
π11

 π12 


 . 


 . 


 . 


 π1R 


 π21 

 π22 
π= 

 . 


 . 


 . 


 π2R 


 . 


 . 

 . 
πSR

Las primeras R componentes del anterior vector pertenecen a la prime-


ra subpoblación, las segundas R componentes pertenecen a la segunda
subpoblación, y las últimas R a la última subpoblación. Si tomamos un
elemento al azar de la población podemos expresarlo como un vector de
dimensión SR × 1, compuestos de ceros excepto en una posición, en la
cual aparece un uno y nos indica a cuál subpoblación pertenece y en cuál
categorı́a en esa subpoblación cae.

El análisis de mı́nimos cuadrados ponderados requiere las estimaciones de


las varianzas y las covarianzas de π̂:

πsr (1 − πsr )
var(b
πsr ) =
ns+
πsr πsr0
cov(b bsr0 ) = −
πsr , π 6 r0
,r=
ns+
cov(b bsr0 ) = 0 si s 6= s0 .
πsr , π

ya que la covariación entre filas debe ser cero porque las subpoblaciones
se asumen independientes.

···
 b 
V1 0 0
 0 V2
b ··· 0 
V = .
 
b SR×SR
 .. .. .. .. 
. . . 
0 0 · · · VS
b
11.3. ARREGLO DE LOS DATOS EN LA APROXIMACIÓN GSK 157

donde
 
bs1 (1 − π
π bs1 ) −b πs1 πbs2 ··· −bπs1 π bsR
1  −b πs2 πbs1 bs2 (1 − π
π bs2 ) · · · −bπs2 π bsR 
V =
 
bS
R×R .. .. .. ..
ns+ 
 
. . . . 
−bπsR π bs1 −bπsR π bs2 ··· π bsR (1 − π bsR )

11.3.1. Definición de la variable respuesta


Existen muchas funciones de respuesta pero las más importantes son la li-
neal y la logarı́tmica. Las relaciones lineales surgen cuando el investigador
quiere analizar las probabilidades por si mismas o algunas funciones adi-
tivas de ellas. En general funciones de respuesta lineales pueden obtenerse
del conjunto básico de probabilidades observadas como
f =A×π
donde f es un vector de U componentes, A es una matriz de dimensión
U × SR, y π es un vector con SR componentes.
 
a111 · · · a11R a121 · · · a12R · · · a1S1 · · · a1SR
 a211 · · · a21R a221 · · · a22R · · · a2S1 · · · a2SR 
A= .
 
. .. .. .. .. .. 
 . . . . . . 
aU 11 · · · aU 1R aU 21 · · · aU 2R · · · aU S1 · · · aU SR

En la práctica no se conoce π y lo estimamos por máxima verosimilitud.


En el capı́tulo de resultados asintóticos mostramos que la distribución
asintótica de π̂ es normal multivariable. Lo anterior nos implica que fˆ =
Aπ̂ se distribuye asintóticamente normal con vector de medias f = Aπ y
matriz de varianzas y covarianzas dada por Σfˆ = AΣπ̂ At .
Con esta aproximación queremos modelar la respuesta como
f = Xβ + 
donde X es una matriz de diseño y β es un vector de parámetros. En
la práctica es imposible trabajar directamente con f , ya que está en fun-
ción de probabilidades no observables, entonces trabajamos con una es-
timación, digamos f ∗ , que se calcula a partir del estimador de máxima
verosimilitud de π, digamos π ∗ . En el caso lineal la matriz de covarianzas
estimada de f será
b SR×SR AT
SU ×U = AU ×SR V SR×U

Como alternativa a relaciones lineales uno podrı́a analizar funciones lo-


garı́tmicas, como por ejemplo el log-odds,
 
πs1
φs = log = log(πs1 ) − log(πs2 )
πs2
158 CAPÍTULO 11. LA APROXIMACIÓN GSK

Suponga que tenemos funciones logarı́tmicas de interés. Ellas pueden de-


rivarse de π
b ası́:

fT ×1 = KT ×U {log(AU ×SR π
bSR×1 )}

donde K y A son matrices con constantes adecuadas.


En el caso de función logarı́tmica
donde
aT1 π
 
b 0 ··· 0
 0 aT2 π b ··· 0 
DU ×U =
 
.. .. .. .. 
 . . . . 
0 0 · · · aTU π
b

y aTi es la i-ésima fila de A.

options ps=55 ls=75;

data uno;
input partido $ actitud $ voto $ frecuen @@;
cards;
L L L 620 L L C 80 L N L 367 L N C 64 L C L 116
L C C 63 I L L 89 I L C 40 I N L 151 I N C 150
I C L 69 I C C 153 C L L 13 C L C 55 C N L 52
C N C 200 C C L 50 C C C 511
;

proc catmod;
weight frecuen;
response 1 0;
model voto=partido actitud / freq prob predict oneway;
run;

quit;
11.3. ARREGLO DE LOS DATOS EN LA APROXIMACIÓN GSK 159

The SAS System 1


CATMOD PROCEDURE
Response: VOTO Response Levels (R)= 2
Weight Variable: FRECUEN Populations (S)= 9
Data Set: UNO Total Frequency (N)= 2843
Frequency Missing: 0 Observations (Obs)= 18
ONE-WAY FREQUENCIES
Variable Value Frequency
--------------------------
VOTO C 1316
L 1527
PARTIDO C 881
I 652
L 1310
ACTITUD C 962
L 897
N 984

POPULATION PROFILES
Sample
Sample PARTIDO ACTITUD Size
----------------------------------
1 C C 561
2 C L 68
3 C N 252
4 I C 222
5 I L 129
6 I N 301
7 L C 179
8 L L 700
9 L N 431

RESPONSE PROFILES
Response VOTO
--------------
1 C
2 L
160 CAPÍTULO 11. LA APROXIMACIÓN GSK

RESPONSE FREQUENCIES
Response Number
Sample 1 2
------------------------
1 511 50
2 55 13
3 200 52
4 153 69
5 40 89
6 150 151
7 63 116
8 80 620
9 64 367

RESPONSE PROBABILITIES
Response Number
Sample 1 2
------------------------
1 0.91087 0.08913
2 0.80882 0.19118
3 0.79365 0.20635
4 0.68919 0.31081
5 0.31008 0.68992
6 0.49834 0.50166
7 0.35196 0.64804
8 0.11429 0.88571
9 0.14849 0.85151
11.3. ARREGLO DE LOS DATOS EN LA APROXIMACIÓN GSK 161

Response DESIGN MATRIX


Sample Function 1 2 3 4 5
---------------------------------------------------------
1 0.91087 1 1 0 1 0
2 0.80882 1 1 0 0 1
3 0.79365 1 1 0 -1 -1
4 0.68919 1 0 1 1 0
5 0.31008 1 0 1 0 1
6 0.49834 1 0 1 -1 -1
7 0.35196 1 -1 -1 1 0
8 0.11429 1 -1 -1 0 1
9 0.14849 1 -1 -1 -1 -1

ANALYSIS-OF-VARIANCE TABLE
Source DF Chi-Square Prob
--------------------------------------------------
INTERCEPT 1 4031.22 0.0000
PARTIDO 2 901.17 0.0000
ACTITUD 2 97.39 0.0000

RESIDUAL 4 19.30 0.0007

ANALYSIS OF WEIGHTED-LEAST-SQUARES ESTIMATES


Standard Chi-
Effect Parameter Estimate Error Square Prob
----------------------------------------------------------------
INTERCEPT 1 0.5054 0.00796 4031.22 0.0000
PARTIDO 2 0.2964 0.0123 583.00 0.0000
3 0.0112 0.0135 0.69 0.4078
ACTITUD 4 0.1207 0.0124 94.23 0.0000
5 -0.0878 0.0116 57.72 0.0000
162 CAPÍTULO 11. LA APROXIMACIÓN GSK

PREDICTED VALUES FOR RESPONSE FUNCTIONS


-------Observed------- -------Predicted------
Function Standard Standard
Sample Number Function Error Function Error Residual
--------------------------------------------------------------------------
1 1 0.91087344 0.0120296 0.92245112 0.01138983 -0.0115777
2 1 0.80882353 0.04768586 0.71386577 0.02152352 0.09495776
3 1 0.79365079 0.0254927 0.76879539 0.01880314 0.0248554
4 1 0.68918919 0.03106281 0.63727568 0.02213141 0.05191351
5 1 0.31007752 0.04072306 0.42869033 0.02313426 -0.1186128
6 1 0.49833887 0.02881936 0.48361995 0.02084939 0.01471892
7 1 0.35195531 0.03569601 0.31856689 0.02029509 0.03338841
8 1 0.11428571 0.01202524 0.10998154 0.01146224 0.00430417
9 1 0.14849188 0.01712802 0.16491117 0.01503215 -0.0164193

11.3.2. Ejemplo sobre Accidentalidad Laboral


La siguiente tabla presenta información sobre accidentalidad laboral en
Antioquia. Se presenta el sexo, edad, tiempo en el oficio y parte del cuerpo
afectada (datos proporcionados por Dra. Marı́a Isabel Gallego)
Parte Afectada
Edad Sexo Tiempo en el Oficio M. Inferior M. Superior Otra
Menor de 30 Años Masculino Menos de un año 537 913 860
Uno a 4 año 186 449 338
Cinco o más año 34 69 65
Femenino Menos de un año 43 140 37
Uno a 4 año 22 109 41
Cinco o más año 11 20 8
30 a 39 años Masculino Menos de un año 352 567 544
Uno a 4 año 162 375 278
Cinco o más año 115 226 183
Femenino Menos de un año 28 129 24
Uno a 4 año 34 102 39
Cinco o más año 38 83 32
40 o más años Masculino Menos de un año 179 300 262
Uno a 4 año 76 181 157
Cinco o más año 109 273 199
Femenino Menos de un año 19 51 27
Uno a 4 año 16 64 20
Cinco o más año 56 132 54

*========== Accidentalidad Laboral en Antioquia =============;


11.3. ARREGLO DE LOS DATOS EN LA APROXIMACIÓN GSK 163

options ls=50 ps=75 nocenter nonumber nodate;

PROC FORMAT;
VALUE edadf 1=’< 30 a~
nos’
2=’30-39 a~nos ’
3=’40 y más’;
VALUE experf 1=’Menos de un a~
no’ 2=’Uno a 4 a~
nos’ 3=’Cinco o más a~
nos’;
VALUE partef 1=’Inferior’ 2=’Superior’ 3=’Otra’;
VALUE sexof 1=’Hombres’ 2=’Mujeres’;
RUN;

DATA acciden;

DO edad=1 TO 3;
DO sexo=1 TO 2;
DO exper=1 TO 3;
DO parte=1 TO 3;
INPUT frec @@;OUTPUT;

END;END;END;END;
FORMAT exper experf.;
FORMAT edad edadf.;
FORMAT parte partef.;
FORMAT sexo sexof.;
CARDS;
537 913 860 186 449 338 34 69 65 43 140 37 22 109 41
11 20 8 352 567 544 162 375 278 115 226 183 28 129
24 34 102 39 38 83 32 179 300 262 76 181 157 109 273
199 19 51 27 16 64 20 56 132 54
;

PROC TABULATE DATA=acciden;


TITLE ’Datos sobre Accidentalidad Laboral en Antioquia’;
VAR frec;
CLASS exper parte edad sexo;
TABLE edad*sexo*exper,parte*frec;
RUN;

PROC CATMOD DATA=acciden;


WEIGHT frec;
RESPONSE 1 1 1 -1 -1 -1;
164 CAPÍTULO 11. LA APROXIMACIÓN GSK

MODEL sexo*edad= exper parte/pred=freq;


RUN;

QUIT;

11.3.3. Ejemplo sobre Hemorroides


La siguiente tabla presenta información sobre datos de Kinugasa et al. y
refenciados por Yanagawa et al. (1994)sobre el efecto clı́nico de un suposi-
torio Neriproct (nueva droga, abreviado por droga N abajo) y un suposi-
torio que contiene Tribenisoide (una droga estándar, abreviada por droga
T abajo) en hemorroides internas en un estudio clı́nico comparativo. Se
presenta la historia pasada de la enfermedad, digamos, si nunca se habı́a
sufrido hemorroides internas antes, o si se habı́an tenido varios casos, o si
era una condición crónica.

Historia Drogas Efectiva No Efectiva


de la Enfermedad
Ninguna N 13 10
T 15 14
Varios N 30 20
T 27 18
Crónica N 19 19
T 8 23
Fuente:Yanagawa, T. et al.(1994) On Tests Against One-Sided Hypotheses
in Some Generalized Linear Models. Biometrics, Vol. 50, pp. 853-858
Utilizando la aproximación GSK verifique la hipótesis que las drogas son
igualmente efectivas.

*======= Ajuste de Modelo para Hemorrides ==============;

options PS=55 LS=75 NONUMBER NODATE;

DATA hemorro;
DO historia=1 TO 3;
DO droga=1 TO 2;
DO resulta=1 TO 2;
INPUT frecuen @@;OUTPUT;
END;END;END;
CARDS;
13 10 15 14 30 20 27 18 19 19 8 23
;
11.3. ARREGLO DE LOS DATOS EN LA APROXIMACIÓN GSK 165

PROC CATMOD DATA=hemorro;


WEIGHT frecuen;
RESPONSE 1 0 ;
MODEL resulta=droga historia droga*historia/CORRB COV COVB
PRED=PROB;
RUN;
MODEL resulta=droga historia/CORRB COV COVB
PRED=PROB;
RUN;

QUIT;

The SAS System

CATMOD PROCEDURE

Response: RESULTA Response Levels (R)= 2


Weight Variable: FRECUEN Populations (S)= 6
Data Set: HEMORRO Total Frequency (N)= 216
Frequency Missing: 0 Observations (Obs)= 12

POPULATION PROFILES
Sample
Sample DROGA HISTORIA Size
---------------------------------
1 1 1 23
2 1 2 50
3 1 3 38
4 2 1 29
5 2 2 45
6 2 3 31

RESPONSE PROFILES

Response RESULTA
-----------------
1 1
2 2
166 CAPÍTULO 11. LA APROXIMACIÓN GSK

Response
Sample Function Variance
----------------------------
1 0.5652 0.0107
2 0.6000 0.004800
3 0.5000 0.006579
4 0.5172 0.008610
5 0.6000 0.005333
6 0.2581 0.006176

The SAS System

DESIGN MATRIX
Sample 1 2 3 4 5 6
-----------------------------------------------------
1 1 1 1 0 1 0
2 1 1 0 1 0 1
3 1 1 -1 -1 -1 -1
4 1 -1 1 0 -1 0
5 1 -1 0 1 0 -1
6 1 -1 -1 -1 1 1

ANALYSIS-OF-VARIANCE TABLE

Source DF Chi-Square Prob


--------------------------------------------------
INTERCEPT 1 219.16 0.0000
DROGA 1 1.99 0.1581
HISTORIA 2 8.78 0.0124
DROGA*HISTORIA 2 2.70 0.2596

RESIDUAL 0 . .

ANALYSIS OF WEIGHTED-LEAST-SQUARES ESTIMATES

Standard Chi-
Effect Parameter Estimate Error Square Prob
----------------------------------------------------------------
11.3. ARREGLO DE LOS DATOS EN LA APROXIMACIÓN GSK 167

INTERCEPT 1 0.5068 0.0342 219.16 0.0000


DROGA 2 0.0483 0.0342 1.99 0.1581
HISTORIA 3 0.0345 0.0527 0.43 0.5132
4 0.0932 0.0449 4.31 0.0378
DROGA*HISTORIA 5 -0.0243 0.0527 0.21 0.6445
6 -0.0483 0.0449 1.16 0.2819

COVARIANCE MATRIX OF THE PARAMETER ESTIMATES

1 2 3 4 5 6
---------------------------------------------------------------------------
1 0.00117177 0.00005398 0.00043615 -.00032733 0.00011887 -.00009843
2 0.00005398 0.00117177 0.00011887 -.00009843 0.00043615 -.00032733
3 0.00043615 0.00011887 0.00277969 -.00128060 0.00022683 -.00007442
4 -.00032733 -.00009843 -.00128060 0.00201621 -.00007442 9.540E-06
5 0.00011887 0.00043615 0.00022683 -.00007442 0.00277969 -.00128060
6 -.00009843 -.00032733 -.00007442 9.540E-06 -.00128060 0.00201621

The SAS System

CORRELATION MATRIX OF THE PARAMETER ESTIMATES

1 2 3 4 5 6
---------------------------------------------------------------------------
1 1.0000000 0.0460711 0.2416681 -0.2129562 0.0658620 -0.0640375
2 0.0460711 1.0000000 0.0658620 -0.0640375 0.2416681 -0.2129562
3 0.2416681 0.0658620 1.0000000 -0.5409360 0.0816042 -0.0314360
4 -0.2129562 -0.0640375 -0.5409360 1.0000000 -0.0314360 0.0047318
5 0.0658620 0.2416681 0.0816042 -0.0314360 1.0000000 -0.5409360
6 -0.0640375 -0.2129562 -0.0314360 0.0047318 -0.5409360 1.0000000

The SAS System

PREDICTED VALUES FOR RESPONSE FUNCTIONS


168 CAPÍTULO 11. LA APROXIMACIÓN GSK

-------Observed------- -------Predicted------
Function Standard Standard
Sample Number Function Error Function Error Residual
--------------------------------------------------------------------------
1 1 0.56521739 0.10336653 0.56521739 0.10336653 0
2 1 0.6 0.06928203 0.6 0.06928203 0
3 1 0.5 0.08111071 0.5 0.08111071 0
4 1 0.51724138 0.09279245 0.51724138 0.09279245 0
5 1 0.6 0.07302967 0.6 0.07302967 0
6 1 0.25806452 0.07858983 0.25806452 0.07858983 0

The SAS System

CATMOD PROCEDURE

Response: RESULTA Response Levels (R)= 2


Weight Variable: FRECUEN Populations (S)= 6
Data Set: HEMORRO Total Frequency (N)= 216
Frequency Missing: 0 Observations (Obs)= 12

POPULATION PROFILES
Sample
Sample DROGA HISTORIA Size
---------------------------------
1 1 1 23
2 1 2 50
3 1 3 38
4 2 1 29
5 2 2 45
6 2 3 31

RESPONSE PROFILES

Response RESULTA
-----------------
1 1
2 2
11.3. ARREGLO DE LOS DATOS EN LA APROXIMACIÓN GSK 169

Response
Sample Function Variance
----------------------------
1 0.5652 0.0107
2 0.6000 0.004800
3 0.5000 0.006579
4 0.5172 0.008610
5 0.6000 0.005333
6 0.2581 0.006176

The SAS System

DESIGN MATRIX
Sample 1 2 3 4
-------------------------------------
1 1 1 1 0
2 1 1 0 1
3 1 1 -1 -1
4 1 -1 1 0
5 1 -1 0 1
6 1 -1 -1 -1

ANALYSIS-OF-VARIANCE TABLE

Source DF Chi-Square Prob


--------------------------------------------------
INTERCEPT 1 219.68 0.0000
DROGA 1 2.01 0.1562
HISTORIA 2 8.84 0.0120

RESIDUAL 2 2.70 0.2596

ANALYSIS OF WEIGHTED-LEAST-SQUARES ESTIMATES

Standard Chi-
Effect Parameter Estimate Error Square Prob
----------------------------------------------------------------
INTERCEPT 1 0.5060 0.0341 219.68 0.0000
DROGA 2 0.0469 0.0330 2.01 0.1562
HISTORIA 3 0.0377 0.0525 0.52 0.4728
170 CAPÍTULO 11. LA APROXIMACIÓN GSK

4 0.0916 0.0449 4.16 0.0413

COVARIANCE MATRIX OF THE PARAMETER ESTIMATES

1 2 3 4
-------------------------------------------------------------------
1 0.00116535 0.00003146 0.00042737 -.00032490
2 0.00003146 0.00109213 0.00008594 -.00008894
3 0.00042737 0.00008594 0.00276055 -.00127400
4 -.00032490 -.00008894 -.00127400 0.00201379

The SAS System

CORRELATION MATRIX OF THE PARAMETER ESTIMATES

1 2 3 4
-------------------------------------------------------------------
1 1.0000000 0.0278901 0.2382772 -0.2120876
2 0.0278901 1.0000000 0.0494942 -0.0599758
3 0.2382772 0.0494942 1.0000000 -0.5403377
4 -0.2120876 -0.0599758 -0.5403377 1.0000000

The SAS System

PREDICTED VALUES FOR RESPONSE FUNCTIONS

-------Observed------- -------Predicted------
Function Standard Standard
Sample Number Function Error Function Error Residual
--------------------------------------------------------------------------
1 1 0.56521739 0.10336653 0.59054922 0.07815105 -0.0253318
2 1 0.6 0.06928203 0.64439464 0.05921582 -0.0443946
3 1 0.5 0.08111071 0.4235543 0.06593795 0.0764457
4 1 0.51724138 0.09279245 0.4968272 0.07508645 0.02041418
11.4. APLICACIONES 171

5 1 0.6 0.07302967 0.55067262 0.0611264 0.04932738


6 1 0.25806452 0.07858983 0.32983228 0.06488399 -0.0717678

11.4. Aplicaciones
11.4.1. Modelo de Dos Clasificaciones
Después de una cirugı́a de úlcera duodenal puede quedar una molestia
conocida como el sı́ndrome de descarga. La siguiente tabla presenta la
información correspondiente a varios pacientes sometidos a la cirugı́a.
Hospital Procedimiento Evaluación Clı́nica del Sı́ndrome
Qurirúrgico Ninguno Ligero Moderado Score Promedio
1 A 23 7 2 1.3
B 23 10 5 1.5
C 20 13 5 1.6
D 24 10 6 1.6
2 A 18 6 1 1.3
B 18 6 2 1.4
C 13 13 2 1.6
D 9 15 2 1.7
3 A 8 6 3 1.7
B 12 4 4 1.6
C 11 6 2 1.5
D 7 7 4 1.8
4 A 12 9 1 1.5
B 15 3 2 1.4
C 14 8 3 1.6
D 13 6 4 1.6
donde
A: drenaje y vagotomı́a
B: 25 % antrectomı́a y vagotomı́a
C: 50 % hemigastrectomı́a y vagotomı́a
D: resección
El score medio de cada tratamiento dentro de cada hospital se calculó como

1 × πi1 + 2 × πi2 + 3 × πi3

Entonces
 
1 2 3 0 0 0 0 0 0 ··· 0 0 0
 0 0 0 1 2 3 0 0 0 ··· 0 0 0 
A16×48 = 
 
.. .. .. .. .. .. .. .. .. .. .. .. 
 . . . . . . . . . . . . 
0 0 0 0 0 0 0 0 0 ··· 1 2 3
172 CAPÍTULO 11. LA APROXIMACIÓN GSK

La matriz de diseño es
 
1 1 0 0 1 0 0
 1 1 0 0 0 1 0 
 
 1 1 0 0 0 0 1 
 
 1
 1 0 0 −1 −1 −1 

 1 0 1 0 1 0 0   

 1
 µ
 0 1 0 0 1 0 
  α1 
 1 0 1 0 0 0 1   
   α2 
 1 0 1 0 −1 −1 −1  
 β7×1 =  α3

X16×7 =   1

 0 0 1 1 0 0 


 τ1


 1 0 0 1 0 1 0   
   τ2 
 1 0 0 1 0 0 1 
  τ3
 1
 0 0 1 −1 −1 −1 

 1 −1 −1 −1 1 0 0 
 
 1 −1 −1 −1 0 1 0 
 
 1 −1 −1 −1 0 0 1 
1 −1 −1 −1 −1 −1 −1

donde
µ: efecto promedio general
αi : efecto diferencial del i-ésimo hospital, i = 1, 2, 3
τj : efecto diferencial del j-ésimo tratamiento, j = 1, 2, 3
El parámetro α4 puede calcularse como α4 = −α1 − α2 − α3 y la de τ4
como τ4 = −τ1 − τ2 − τ3 .
Las estimaciones de los parámetros son
µ̂ = 1,54
α̂1 = −0,04 α̂2 = −0,04 α̂3 = 0,11 α̂4 = −0,03
τ̂1 = −0,11 τ̂2 = −0,07 τ̂3 = 0,05 τ̂4 = 0,13
Las siguientes matrices C son utilizadas para calcular las sumas de cuadra-
dos para efectos de tratamientos ajustadas por hospital y para hospitales
ajustadas por tratamientos
 
0 1 0 0 0 0 0
CHospital =  0 0 1 0 0 0 0 
0 0 0 1 0 0 0
y  
0 0 0 0 1 0 0
CT ratamientos = 0 0 0 0 0 1 0 
0 0 0 0 0 0 1
La tabla de análisis de varianza asociada es
Fuente de Variación Suma de Cuadrados Grados de Lbertad
Hospitales 2.33 3
Tratamientos 8.90 3
Error 6.32 9
11.4. APLICACIONES 173

options ls=75 ps=55 nodate nonumber;

DATA dumping;
DO evalua=1 TO 3;
DO proc_qui=1 TO 4;
DO hospital=1 TO 4;
INPUT frecuen @@;OUTPUT;
END;END;END;
CARDS;
23 23 20 24 18 18 13 9 8 12 11 7 12 15 14 13
7 10 13 10 6 6 13 15 6 4 6 7 9 3 8 6
2 5 5 6 1 2 2 2 3 4 2 4 1 2 3 4
;

PROC CATMOD DATA=dumping;


WEIGHT frecuen;
RESPONSE 1 2 3;
MODEL evalua=proc_qui hospital;
RUN;

QUIT;

The SAS System

CATMOD PROCEDURE

Response: EVALUA Response Levels (R)= 3


Weight Variable: FRECUEN Populations (S)= 16
Data Set: DUMPING Total Frequency (N)= 417
Frequency Missing: 0 Observations (Obs)= 48

POPULATION PROFILES
Sample
Sample PROC_QUI HOSPITAL Size
------------------------------------
1 1 1 32
2 1 2 38
3 1 3 38
4 1 4 40
5 2 1 25
6 2 2 26
7 2 3 28
8 2 4 26
174 CAPÍTULO 11. LA APROXIMACIÓN GSK

9 3 1 17
10 3 2 20
11 3 3 19
12 3 4 18
13 4 1 22
14 4 2 20
15 4 3 25
16 4 4 23

RESPONSE PROFILES

Response EVALUA
----------------
1 1
2 2
3 3

The SAS System

Response DESIGN MATRIX


Sample Function 1 2 3 4 5 6 7
-------------------------------------------------------------------------
1 1.34375 1 1 0 0 1 0 0
2 1.52632 1 1 0 0 0 1 0
3 1.60526 1 1 0 0 0 0 1
4 1.55000 1 1 0 0 -1 -1 -1
5 1.32000 1 0 1 0 1 0 0
6 1.38462 1 0 1 0 0 1 0
7 1.60714 1 0 1 0 0 0 1
8 1.73077 1 0 1 0 -1 -1 -1
9 1.70588 1 0 0 1 1 0 0
10 1.60000 1 0 0 1 0 1 0
11 1.52632 1 0 0 1 0 0 1
12 1.83333 1 0 0 1 -1 -1 -1
13 1.50000 1 -1 -1 -1 1 0 0
14 1.35000 1 -1 -1 -1 0 1 0
15 1.56000 1 -1 -1 -1 0 0 1
16 1.60870 1 -1 -1 -1 -1 -1 -1
11.4. APLICACIONES 175

ANALYSIS-OF-VARIANCE TABLE

Source DF Chi-Square Prob


--------------------------------------------------
INTERCEPT 1 1999.88 0.0000
PROC_QUI 3 2.33 0.5065
HOSPITAL 3 8.90 0.0307

RESIDUAL 9 6.33 0.7069

ANALYSIS OF WEIGHTED-LEAST-SQUARES ESTIMATES

Standard Chi-
Effect Parameter Estimate Error Square Prob
----------------------------------------------------------------
INTERCEPT 1 1.5449 0.0345 1999.88 0.0000
PROC_QUI 2 -0.0408 0.0527 0.60 0.4388
3 -0.0356 0.0535 0.44 0.5055
4 0.1061 0.0703 2.28 0.1312
HOSPITAL 5 -0.1105 0.0541 4.17 0.0411
6 -0.0730 0.0579 1.59 0.2073
7 0.0496 0.0560 0.78 0.3757

11.4.2. Prueba para Homogenidad de las Distribucio-


nes Marginales
La siguiente tabla presenta información sobre la agudeza visual de mujeres
entre 30 y 40 años, utilizando la distancia de visión sin ayuda
Ojo Izquierdo
Ojo Derecho Mayor Grado Segundo Grado Tercer Grado Peor Grado
Mayor Grado 1520 266 124 66
Segundo Grado 234 1512 432 78
Tercer Grado 117 362 1722 205
Peor Grado 36 82 179 492
La hipótesis a verificar es

Ho : π1+ = π+1 , π2+ = π+2 , π3+ = π+3 , π4+ = π+4

Lo anterior mostramos se puede reexpresar en forma Ho : Aπ = 0. Note


que π1+ = π+1 implica π12 + π13 + π14 − π21 − π31 − π41 , por lo tanto
176 CAPÍTULO 11. LA APROXIMACIÓN GSK

 
0 1 1 1 −1 0 0 0 −1 0 0 0 −1 0 0 0
 0 −1 0 0 1 0 1 1 0 −1 0 0 0 −1 0 0 
A4×16 = 
 0 0 −1 0 0 0 −1 0 1 1 0 1 0 0 −1 0 
0 0 0 −1 0 0 0 −1 0 0 0 −1 1 1 1 0
 
π11
 π12 
 
 π13 
 
π16×1 =  π14 
 
 π21 
 
 .. 
 . 
π44

La matriz A da la hipótesis correcta pero es singular ya que la suma de


las dos primeras filas es igual al negativo de las últimas dos, entonces
consideramos A∗ que es igual a A pero con una fila menos. Por lo tanto
 −1
χ2 = π̂A∗ T A∗ Σ̂π̂ A∗ T A∗ π̂ = f ∗ T Σ̂f ∗ f ∗

Reemplazando los datos de la tabla tenemos


 
0,00923
f ∗ =  0,00455 
−0,00682

 
0,1507 −0,0894 −0,0430
Σ̂f ∗ = 10−4  0,2601 −0,1420 
0,2538

La χ2 = 11,98 con 3 grados de libertad.

options ps=55 ls=75 nodate nonumber;

DATA ojos;
DO izquier=1 TO 4;
DO derecho=1 TO 4;
INPUT frecu @@;OUTPUT;
END;END;
CARDS;
1520 266 124 66 234 1512 432 78 117 362 1772 205 36 82 179 492
;
11.4. APLICACIONES 177

PROC CATMOD DATA=ojos;


WEIGHT frecu;
RESPONSE MARGINALS;
MODEL izquier*derecho=_RESPONSE_/FREQ;
REPEATED TIME 2;
RUN;

QUIT;

The SAS System

CATMOD PROCEDURE

Response: IZQUIER*DERECHO Response Levels (R)= 16


Weight Variable: FRECU Populations (S)= 1
Data Set: OJOS Total Frequency (N)= 7477
Frequency Missing: 0 Observations (Obs)= 16

Sample
Sample Size
----------------
1 7477

RESPONSE PROFILES

Response IZQUIER DERECHO


--------------------------
1 1 1
2 1 2
3 1 3
4 1 4
5 2 1
6 2 2
7 2 3
8 2 4
9 3 1
10 3 2
11 3 3
12 3 4
13 4 1
178 CAPÍTULO 11. LA APROXIMACIÓN GSK

14 4 2
15 4 3
16 4 4

RESPONSE FREQUENCIES

Response Number
Sample 1 2 3 4 5 6
------------------------------------------------------------
1 1520 266 124 66 234 1512

The SAS System

RESPONSE FREQUENCIES

Response Number
Sample 7 8 9 10 11 12
------------------------------------------------------------
1 432 78 117 362 1772 205

RESPONSE FREQUENCIES

Response Number
Sample 13 14 15 16
------------------------------------------
1 36 82 179 492

Function Response DESIGN MATRIX


Sample Number Function 1 2 3 4 5 6
---------------------------------------------------------------------------
1 1 0.26428 1 0 0 1 0 0
2 0.30173 0 1 0 0 1 0
3 0.32847 0 0 1 0 0 1
4 0.25505 1 0 0 -1 0 0
5 0.29718 0 1 0 0 -1 0
6 0.33529 0 0 1 0 0 -1
11.4. APLICACIONES 179

ANALYSIS-OF-VARIANCE TABLE

Source DF Chi-Square Prob


--------------------------------------------------
INTERCEPT 3 78744.17 0.0000
TIME 3 11.98 0.0075

RESIDUAL 0 . .

ANALYSIS OF WEIGHTED-LEAST-SQUARES ESTIMATES

Standard Chi-
Effect Parameter Estimate Error Square Prob
----------------------------------------------------------------
INTERCEPT 1 0.2597 0.00468 3073.03 0.0000
2 0.2995 0.00464 4160.17 0.0000
3 0.3319 0.00483 4725.25 0.0000
TIME 4 0.00461 0.00194 5.65 0.0174
5 0.00227 0.00255 0.80 0.3726
6 -0.00341 0.00252 1.83 0.1757

11.4.3. Modelos Loglineales y Logit


Agresti (1983) muestra como podemos ajustar modelos con estructura
ordinal utilizando la metodologı́a GSK, o sea, expresados en la forma

K log(Am) = Xβ

11.4.4. Respuesta a Tres Drogas


A B C Número Probilidad Esperada
1 1 1 6 π1
1 1 0 16 π2
1 0 1 2 π3
0 1 1 2 π4
1 0 0 4 π5
0 1 0 4 π6
0 0 1 6 π7
0 0 0 6 π8
T1 = 28 T2 = 28 T3 = 16 46 1
180 CAPÍTULO 11. LA APROXIMACIÓN GSK

La hipótesis a verificar es Ho : Las drogas son igualmente efectivas, o sea


Ho : E(T1 ) = E(T2 ) = E(T3 ).

options ls=75 ps=55 nodate nonumber;

DATA tratam;
DO A=1 TO 2;
DO B=1 TO 2;
DO C=1 TO 2;
INPUT frecu @@;OUTPUT;
END;END;END;
CARDS;
6 16 2 4 2 4 6 6
;

PROC CATMOD;
WEIGHT frecu;
RESPONSE MARGINALS;

MODEL A*B*C=_RESPONSE_;
REPEATED TIME 3/_RESPONSE_=TIME;
RUN;

QUIT;

The SAS System

CATMOD PROCEDURE

Response: A*B*C Response Levels (R)= 8


Weight Variable: FRECU Populations (S)= 1
Data Set: TRATAM Total Frequency (N)= 46
Frequency Missing: 0 Observations (Obs)= 8

Sample
Sample Size

1 46
11.4. APLICACIONES 181

RESPONSE PROFILES

Response A B C

1 1 1 1
2 1 1 2
3 1 2 1
4 1 2 2
5 2 1 1
6 2 1 2
7 2 2 1
8 2 2 2

Function Response DESIGN MATRIX


Sample Number Function 1 2 3

1 1 0.60870 1 1 0
2 0.60870 1 0 1
3 0.34783 1 -1 -1

ANALYSIS-OF-VARIANCE TABLE

Source DF Chi-Square Prob


--------------------------------------------------
INTERCEPT 1 146.84 0.0000
TIME 2 6.58 0.0372

RESIDUAL 0 . .

The SAS System

ANALYSIS OF WEIGHTED-LEAST-SQUARES ESTIMATES

Standard Chi-
Effect Parameter Estimate Error Square Prob
----------------------------------------------------------------
INTERCEPT 1 0.5217 0.0431 146.84 0.0000
182 CAPÍTULO 11. LA APROXIMACIÓN GSK

TIME 2 0.0870 0.0507 2.95 0.0861


3 0.0870 0.0507 2.95 0.0861

11.5. Modelos Loglineales vs. Modelos por


GSK
El investigador puede preguntarse sobre las ventajas de los modelos lo-
glineales sobre el método de mı́nimos cuadrados ponderados utilizando
la aproximación GSK. Básicamente podemos con los modelos loglinea-
les establecer distintos tipos de asociaciones entre las variables. Con estos
modelos es complicado establecer claramente una variable dependiente. La
metodologı́a GSK es más flexible en este aspecto, permitiendo adicional-
mente entrar sobre los resultados obtenidos por categorı́as de las variables.
Para ilustrar esto consideremos el siguiente ejemplo, del cual ya habı́amos
considerado parte cuando se presentaron diversas medidas de asociación
para tablas de contingencia.
La siguiente tabla contiene información sobre el número de nacimientos de
mas de 20 semanas, y viabilidad en las instituciones oficiales y particulares
de Medellı́n en 1990
Institución Con 2500 gramos o menos Con más de 2500 gramos
vivos muertos vivos muertos
Oficial 4757 430 38360 206
Privado 5148 464 42307 210
Fuente: Revista de Planeación Metropolitana, Medellı́n ,
Vol 2, No. 5, 1992, pp. 212

Al observar una tabla como la anterior pueden surgir muchas preguntas,


tales como: 1) Es más probable tener un bebé vivo en una institución
privada o pública? 2) Es más probable tener un bebé vivo si pesa más de
2.500 gramos que si pesa menos?

options ls=65 ps=50 nodate nonumber nocenter;

data nacidos;
input institu $ nacimien $ peso $ frec;
cards;
oficial vivo menos 4757
oficial muerto menos 430
privado vivo menos 5148
privado muerto menos 464
oficial vivo mas 38360
11.5. MODELOS LOGLINEALES VS. MODELOS POR GSK 183

oficial muerto mas 206


privado vivo mas 42307
privado muerto mas 210
;

proc catmod;
weight frec;
response 1 0;
model nacimien=institu peso institu*peso/freq prob predict oneway;
title ’Ilustracion del Metodo GSK’;
title2 ’=========================================’;
run;

quit;

Ilustracion del Metodo GSK


=========================================

CATMOD PROCEDURE

Response: NACIMIEN Response Levels (R)= 2


Weight Variable: FREC Populations (S)= 4
Data Set: NACIDOS Total Frequency (N)= 91882
Frequency Missing: 0 Observations (Obs)= 8

ONE-WAY FREQUENCIES

Variable Value Frequency


----------------------------
NACIMIEN muerto 1310
vivo 90572

INSTITU oficial 43753


privado 48129

PESO mas 81083


menos 10799

POPULATION PROFILES
Sample
Sample INSTITU PESO Size
--------------------------------
1 oficial mas 38566
2 oficial menos 5187
184 CAPÍTULO 11. LA APROXIMACIÓN GSK

3 privado mas 42517


4 privado menos 5612

RESPONSE PROFILES

Response NACIMIEN
------------------
1 muerto
2 vivo

Ilustracion del Metodo GSK


=========================================

RESPONSE FREQUENCIES
Response Number
Sample 1 2
------------------------
1 206 38360
2 430 4757
3 210 42307
4 464 5148

RESPONSE PROBABILITIES
Response Number
Sample 1 2
------------------------
1 0.00534 0.99466
2 0.0829 0.9171
3 0.00494 0.99506
4 0.08268 0.91732

Response DESIGN MATRIX


Sample Function 1 2 3 4
-------------------------------------------------
1 0.00534 1 1 1 1
2 0.08290 1 1 -1 -1
3 0.00494 1 -1 1 -1
4 0.08268 1 -1 -1 1

ANALYSIS-OF-VARIANCE TABLE
Source DF Chi-Square Prob
--------------------------------------------------
INTERCEPT 1 1088.01 0.0000
INSTITU 1 0.01 0.9071
11.5. MODELOS LOGLINEALES VS. MODELOS POR GSK 185

PESO 1 848.46 0.0000


INSTITU*PESO 1 0.00 0.9727

RESIDUAL 0 . .

Ilustracion del Metodo GSK


========================================
ANALYSIS OF WEIGHTED-LEAST-SQUARES ESTIMATES
Standard Chi-
Effect Parameter Estimate Error Square Prob
----------------------------------------------------------------
INTERCEPT 1 0.0440 0.00133 1088.01 0.0000
INSTITU 2 0.000155 0.00133 0.01 0.9071
PESO 3 -0.0388 0.00133 848.46 0.0000
INSTITU*PESO 4 0.000046 0.00133 0.00 0.9727

Ilustracion del Metodo GSK


=========================================
PREDICTED VALUES FOR RESPONSE FUNCTIONS
-----Observed----- -----Predicted----
Function Standard Standard
Sample Number Function Error Function Error Residual
----------------------------------------------------------------
1 1 0.005341 0.000371 0.005341 0.000371 0
2 1 0.0829 0.003828 0.0829 0.003828 0
3 1 0.004939 0.00034 0.004939 0.00034 0
4 1 0.08268 0.003676 0.08268 0.003676 0

Con el anterior ejemplo se modela la probabilidad de nacer muerto con


un modelo que considera tanto el tipo de institución, el peso al nacer y
la posible interacción entre estas dos variables. De la tabla de probabi-
lidades observadas obtenemos la impresión de que es más seguro nacer
en una institución privada pero el modelo nos rechaza esto. Realmente la
probabilidad de nacer muerto está explicada en el modelo por el peso de
la criatura.
186 CAPÍTULO 11. LA APROXIMACIÓN GSK
Parte IV

Datos Ordinales

187
Capı́tulo 12

Modelos para datos


Ordinales

El trabajo con datos categóricos ordinales ha sido descuidado por des-


conocimiento de la existencia de técnicas apropiadas. Agresti (1989) comen-
ta sobre esto:

“Casi todos los textos elementales de estadı́stica introducen


el estadı́stico chi-cuadrado de Pearson para probar independen-
cia de variables categóricas; pocos de esos libros indican que
la prueba de Pearson es generalmente inapropiada cuando al
menos una de las clasificaciones está ordenada”.

Existen muchas ventajas de trabajar datos como ordinales en lugar de tra-


bajarlos nominalmente si hay lugar para ello (Agresti, 1984). Usualmente
los modelos ordinales son más potentes para detectar alternativas impor-
tantes a la hipótesis bajo prueba. Pueden contruirse medidas y modelos
“similares” a aquéllos en regresión y análisis de varianza para variables
continuas. Se puede trabajar con una clase más amplia de modelos y más
interpretables.

Armstrong y Sloan (1989) presentan una introducción a modelos logı́sticos


con respuesta ordinal. En su artı́culo ellos revisan varios de los modelos
que han sido propuestos: El modelo de odds acumulado y el modelo de
razón continuo.

189
190 CAPÍTULO 12. MODELOS PARA DATOS ORDINALES

12.1. Funciones Logit Unidimensionales


Sean π1 , π2 , ..., πI las probabilidades de I eventos mutuamente excluyentes
y exhaustivos, tal que
XI
πi = 1
i=1

Asuma que todas las πi son estrictamente positivas.


Definimos los logits pivotales λ1 , λ2 , ..., λI−1 por
 
πi
λi (π) = ln , i = 1, 2, ..., I − 1
πI

con respecto a la probabilidad pivotal. Note que λI = 0.


0
λ0 = [λ1 , λ2 , ..., λI−1 ] es una función 1-1 de los π∗ = [π1 , π2 , ..., πI−1 ] donde
exp(λi )
πi = PI , i = 1, 2, ..., I − 1
j=1 exp(λi )

Definimos los logits sucesivos por λ∗1 , λ∗2 , ..., λ∗I−1 por
 
∗ πi
λi (π) = ln , i = 1, 2, ..., I − 1
πi+1
0
λ∗ = [λ∗1 , λ∗2 , ..., λ∗I−1 ] es una función 1-1 de los λ. Tenemos que
   
∗ πi πi+1
λi = ln − ln = λi − λi+1 , i = 1, 2, ..., I − 1
πI πI

  I−1
πi πi+1 πI−1 X
λi = ln · ··· = λ∗i , i = 1, ..., I − 1
πi+1 πi+2 πI j=1

Definimos la sucesión acumulada de logits, denotada por Λ1 , Λ2 , ..., ΛI−1


por
   
π1 + ... + πi Fi
Λi (π) = ln = ln , i = 1, 1, ..., I − 1
πi+1 + ... + πI 1 − Fi

con Fi = π1 + ... + πi . Ademas se pueden definir los logits acumulados a


izquierda, ΛiL , y a derecha, ΛiR , de la siguiente forma
   
π1 + ... + πi Fi
ΛiL (π) = ln = ln , i = 1, 2, ..., I − 1
πi+1 + ... + πI 1 − Fi
   
πi πi
ΛiR (π) = ln = ln , i = 1, 2, ..., I − 1
πi+1 + ... + πI 1 − Fi
12.2. MODELOS ORDINALES UNIDIMENSIONALES 191

El vector logit generalizado η = η(A,B) , se define como


 T 
ai π
ηi(A,B) (π) = ln , i = 1, 2, ..., I − 1
bTi π

A = [a1 , a2 , ..., aI−1 ] y B = [b1 , b2 , ..., bI−1 ]. A y B satisfacen las siguien-


tes condiciones:
1) η es una funcion 1-1 de π∗
2) los elementos de A y B son 0 o 1 tal que para I = 2 aT1 = [0, 1] y
bT1 = [0, 1].
Si el vector observado multinomial es nT = [n1 , n2 , n3 , ..., nI ], donde N ∼
PI
M N (n+ , π), n+ = i=1 ni . El estimador sin restricciones de η es ηb dado
por  T 
ai p
ηi(A,B) (p) = ln , i = 1, 2, ..., I − 1,
bTi p
n
donde p = n+

12.2. Modelos Ordinales Unidimensionales


Si las categorı́as tienen alguna estructura ordinal, podemos estar interesa-
dos en considerar modelos logit del tipo

M : λi (π) = λ(i, β), i = 1, 2, ..., I − 1

donde λ es una función conocida con argumentos i y β es un vector con k


(≤ I − 1) parámetros desconocidos. O tambien se puede expresar como

M : Λi (π) = Λ(i, β), i = 1, 2, ..., I − 1

donde Λ es una función conocida.

12.2.1. Modelo Equiprobable

1
M : πi = , para todo i = 1, 2, ..., I
I

o equivalentemente
M : λ = 0 o M : λ∗ = 0

Para probar este modelo usualmente se emplea el estadı́stico de Pearson


I 2
2
X ni − nI+
χ = n+ con g.l. = I − 1
i=1 I
192 CAPÍTULO 12. MODELOS PARA DATOS ORDINALES

También puede emplearse la versión modificada de Neyman


I 2
2
X ni − nI+
y = , con g.l. = I − 1
i=1
ni

el estadı́stico de Wald.

12.2.2. Modelo Loglineal para Tendencia de la Proba-


bilidad

M : λ∗i (π) = β, i = 1, 2, ..., I − 1

o equivalentemente

M : λi (π) = (I − i)β, i = 1, 2, ..., I − 1

o equivalentemente

M : ln(πi ) = (I − i)β + ln(πI ), i = 1, 2, ..., I − 1

El estimador de mı́nimos cuadrados es


PI−1 PI−1 PI−1
nI i=1 (I − i)ni λi − i=1 ni λi i=1 (I − i)ni
βb = PI−1 P 2
I−1
nI i=1 (I − i)2 ni − i=1 (I − i)ni

Para mostrar esto consideremos el modelo

M : λi (π) = (I − i)β, i = 1, ..., I − 1


 
donde λi (π) = ln ππIi . Recordando que el estimador mı́nimo-cuadrático
es

θe = [XT M−1 (z)X]− XT M−1 (z)f (z)


T
M(ζ) = F(ζ)Σ(ζ)F (ζ)
F(ζ) = [∂fi (ζ)∂ζj ]U ×R∗

En nuestro caso tenemos que


   
π1
ln
  πI  
ln ππI2
 
    
πi    
f (z) = λ(π) = [λi (π)] = ln = ln ππI3
 
πI

 
 .. 
.
 
  
πI−1
ln πI
12.2. MODELOS ORDINALES UNIDIMENSIONALES 193

1
0 ··· 0
 
π1
1
 0 π2 ··· 0 
F(ζ) = 
 
.. .. .. .. 
 . . . . 
1
0 0 ··· πI−1

 
π1 (1 − π1 ) −π1 π2 ··· −π1 πI−1
 −π2 π1 π2 (1 − π2 ) −π2 πI−1 
Σ(ζ) = 
 
.. .. .. .. 
 . . . . 
−πI−1 π1 −πI−1 π2 ··· πI (1 − πI−1 )

1−π1
 
π1 −1 ··· −1
 −1 1−π2
π2 ··· −1 
T  
M(ζ) = F(ζ)Σ(ζ)F (ζ) = 
 .. .. .. .. 
 . . . .


1−πI−1
−1 −1 πI−1
−1
= (Diag(π)) − 11T

Considere la siguiente tabla que presenta el número de goles marcados en


un partido de fútbol en 340 partidos de fútbol en Holanda (Rider et al,
1994).

Intervalo de Número de
Tiempo (min.) Goles
00-15 128
16-30 140
31-45 147
46-60 169
61-75 170
76-90 198
194 CAPÍTULO 12. MODELOS PARA DATOS ORDINALES

*******************************************;
* Programa en SAS-IML para ajustar un *;
* modelo para tendencia de probabilidad *;
*******************************************;

options ps=55 ls=75 nocenter nonumber nodate;

proc iml;

******** ENTRADA DE DATOS ***********;


periodo={1,2,3,4,5,6};
goles={128,140,147,169,170,198};

******** MATRIZ DE DISENO ***********;


X={5,4,3,2,1};

******** CALCULO DE LOGITS **********;


lambda=log(goles/goles[6]);
lambda=lambda[1:5];
print lambda;

********* ESTIMACION DE LOS PARAMETROS *********;


uno={1,1,1,1,1};
pi=goles[1:5]/sum(goles);
print pi;
M=inv(diag(pi))-uno*t(uno);
print M;
M1=inv(M);
theta=inv(t(X)*M1*X)*t(X)*M1*lambda;
print theta;

********* LOGITS ESTIMADOS **************;


logits=X*theta;
print ’Logits estimados ’ logits;

********* CALCULO DE RESIDUALES *********;


resid=lambda-logits;
print ’Residuales ’ resid;

mserr=ssq(resid)/(5-1);
var_cov=inv(t(X)*M1*X)*mserr;
print ’MSE=’ mserr;
print ’Matriz de Varianzas y Covarianzas de los estimadores’;
print var_cov;

********* PROBABILIDADES ESTIMADAS *******;


12.2. MODELOS ORDINALES UNIDIMENSIONALES 195

pi_est=exp(logits)/(1+sum(exp(logits)));
temp=1-sum(pi_est);

pi_est=pi_est//temp;
print ’Probabilidades estimadas’ pi_est;

goles_est=sum(goles)*pi_est;
print goles_est;
quit;

A continuación presentamos los resultados obtenidos del anterior progra-


ma.

The SAS System

LAMBDA
-0.436237
-0.346625
-0.297834
-0.158368
-0.152469

PI
0.1344538
0.1470588
0.1544118
0.177521
0.1785714

M
6.4375 -1 -1 -1 -1
-1 5.8 -1 -1 -1
-1 -1 5.4761905 -1 -1
-1 -1 -1 4.6331361 -1
-1 -1 -1 -1 4.6

THETA
-0.092581

LOGITS
196 CAPÍTULO 12. MODELOS PARA DATOS ORDINALES

Logits estimados -0.462904


-0.370323
-0.277742
-0.185162
-0.092581

RESID
Residuales 0.0266672
0.0236985
-0.020092
0.0267933
-0.059888

MSERR
MSE= 0.0014952

Matriz de Varianzas y Covarianzas de los estimadores

VAR_COV
0.000046

PI_EST
Probabilidades estimadas 0.1305919
0.1432595
0.1571559
0.1724004
0.1891235
0.2074688

GOLES_ES
124.32347
136.38307
149.61246
164.12514
180.04556
197.5103
12.3. MODELOS ORDINALES BIDIMENSIONALES 197

12.3. Modelos Ordinales Bidimensionales

B
B1 B2 ··· BJ Total
A1 n11 n12 ··· n1J n1+
A2 n21 n22 ··· n2J n2+
.. .. .. .. .. ..
. . . . . .
AI nI1 nI2 ··· nIJ nI+
Total n+1 n+2 ··· n+J n++

Si esta tabla tuviera una estructura doblemente ordinal, esto es tanto en A


como en B, se puede considerar modelos de dependencia menos complejos
que el que se utiliza si no se tiene esta estructura, el cual es el moodelo
saturado que nos deja sin grados de libertad.

log(mij ) = µ + λA B AB
i + λj + λij

12.3.1. Modelo de Asociación Uniforme


Si se considera una estructura ordinal en ambas variables, pudiéramos
considerar tipos de dependencia más especı́ficos como el siguiente:
log(mij ) = µ + λA B
i + λj + β(ui − ū)(vj − v̄)

donde u1 , u2 , · · · , uI y v1 , v2 , · · · , vJ son scores asignados a las categorı́as


de la tabla. Este modelo se conoce como modelo de dependencia uniforme.
Si consideramos el log de la razón de odds para cualquier subtabla 2 × 2,
digamos m 
ij
log(φ) = log
El algoritmo para estimar los valores ajustados estilo IPF es
Paso 1: !
(t+1) ni+ (t)
mij = (t)
mij
mi+
Paso 2: !
(t+2) n+j (t+1)
mij = (t+1)
mij
m+j
Paso 3:
!u∗i vj∗ !1−u∗i vj∗
u∗a vb∗ nab (1 − u∗a vb∗ ) nab
P P P P
(t+3) a b a b (t+2)
mij = mij
∗ ∗ (t+2) (t+2)
u∗a vb∗ ) mab
P P P P
a b ua vb mab a b (1 −
donde los u∗i y los vj∗ son los scores luego de un re-escalamiento de tal
forma que 0 ≤ u∗i ≤ 1 y 0 ≤ vj∗ ≤ 1.
198 CAPÍTULO 12. MODELOS PARA DATOS ORDINALES

12.3.2. Programa para Ajustar asociación Uniforme


El siguiente programa en SAS-IML se ajusta un modelo de asociación
uniforme.

options ps=55 ls=75;

proc iml;

cota=0.0001;
difmax=10000;

datos={61 28 7,
68 23 13,
58 40 12,
53 38 16};

u={1,2,3,4};

v={1,2,3};

u=u/sqrt(t(u)*u);
v=v/sqrt(t(v)*v);

uivj=u*t(v);

unouivj=j(nrow(datos),ncol(datos),1)-uivj;

nimas=datos[,+];
nmasj=datos[+,];
m=j(nrow(datos),ncol(datos),1);
mviejo=m;
ss1=t(u)*datos*v;
ss2=sum(datos)-ss1;

do while(difmax>cota);

mimas=m[,+];
m=hdir((nimas/mimas),m);

mmasj=m[+,];
m=hdir(t(nmasj/mmasj),t(m));
m=t(m);
12.3. MODELOS ORDINALES BIDIMENSIONALES 199

ss3=t(u)*m*v;
ss4=sum(m)-ss3;
t1=ss1/ss3;
t2=ss2/ss4;
temp11=j(nrow(datos),ncol(datos),t1);
temp12=j(nrow(datos),ncol(datos),t2);
temp1=(temp11)##uivj;
temp2=(temp12)##unouivj;
m=m#temp1#temp2;

difmax=max(abs(m-mviejo));

mviejo=m;

end;

g2=2*sum(datos#log(datos/m));
gl=(nrow(datos)-1)*(ncol(datos)-1)-1;

print ’Valores estimados para la tabla bajo ASOCIACION UNIFORME’;


print g2 gl m;

quit;

12.3.3. Modelo de Efecto de Fila para Tablas Ordinal-


Nominal

log(mij ) = µ + λA B
i + λj + τi (vj − v̄)

X X X
λA
i = λB
j = τi = 0

donde v1 , v2 , · · · , vJ son scores asignados a la variable ordinal. Los τi son


parámetros que nos representan los efectos de la variable nominal, la cual
asumimos está en las filas. Para este modelo los grados de libertad se
calculan como gl = rc − [1 + (r − 1) + (c − 1) + (r − 1)] = (r − 1)(c − 2).
El modelo de independencia es un caso especial cuando todos los τi = 0.
Los τi pueden interpretarse a través de la razón de odds,
 
mac mbd
log = (τb − τa )(vd − vc )
mad mbc

Por lo tanto el log de la razón de odds es proporcional a la distancia entre


las columnas y será positiva si τb > τa .
El algoritmo para estimar los valores ajustados estilo IPF es
200 CAPÍTULO 12. MODELOS PARA DATOS ORDINALES

Paso 1: !
(t+1) ni+ (t)
mij = (t)
mij
mi+
Paso 2: !
(t+2) n+j (t+1)
mij = (t+1)
mij
m+j
Paso 3:
!vj∗ !1−vj∗
∗ ∗
P P
(t+3) b vb nib b (1 − vb ) nib (t+2)
mij = (t+2) (t+2)
mij
∗ ∗
P P
b vb mib b (1 − vb ) mib

donde los los vj∗ son los scores luego de un re-escalamiento de tal forma
que 0 ≤ vj∗ ≤ 1.

options ps=55 ls=75 nodate nonumber;

DATA dumping;
DO severida=1 TO 3;
DO hospital=1 TO 4;
DO operacio=1 TO 4;
INPUT frecuen @@;OUTPUT;
END;END;END;

CARDS;
23 23 20 24 18 18 13 9 8 12 11 7 12 15 14 13
7 10 13 10 6 6 13 15 6 4 6 7 9 3 8 6
2 5 5 6 1 2 2 2 3 4 2 4 1 2 3 4
;

PROC CATMOD DATA=dumping;


WEIGHT frecuen;
RESPONSE CLOGITS;
MODEL severida=operacio hospital/PRED=FREQ;
TITLE ’Modelo Para El Problema de Descarga’;
TITLE2 ’Modelo con respuesta ordinal’;
RUN;

PROC CATMOD DATA=dumping;


WEIGHT frecuen;
DIRECT operacio;
RESPONSE CLOGITS;
MODEL severida=operacio hospital/PRED=FREQ;
TITLE ’Modelo Para El Problema de Descarga’;
TITLE2 ’Modelo con respuesta ordinal y operacion ordinal’;
12.3. MODELOS ORDINALES BIDIMENSIONALES 201

RUN;
QUIT;

Modelo Para El Problema de Descarga


Modelo con respuesta ordinal

CATMOD PROCEDURE

Response: SEVERIDA Response Levels (R)= 3


Weight Variable: FRECUEN Populations (S)= 16
Data Set: DUMPING Total Frequency (N)= 417
Frequency Missing: 0 Observations (Obs)= 48

POPULATION PROFILES
Sample
Sample OPERACIO HOSPITAL Size
------------------------------------
1 1 1 32
2 1 2 25
3 1 3 17
4 1 4 22
5 2 1 38
6 2 2 26
7 2 3 20
8 2 4 20
9 3 1 38
10 3 2 28
11 3 3 19
12 3 4 25
13 4 1 40
14 4 2 26
15 4 3 18
16 4 4 23

RESPONSE PROFILES

Response SEVERIDA
------------------
1 1
2 2
202 CAPÍTULO 12. MODELOS PARA DATOS ORDINALES

3 3

Modelo Para El Problema de Descarga


Modelo con respuesta ordinal

Response Functions DESIGN MATRIX


Sample 1 2 1 2 3 4 5 6 7
-------------------------------------------------------------------------
1 -0.93827 -2.70805 1 1 0 0 1 0 0
2 -0.94446 -3.17805 1 1 0 0 0 1 0
3 0.11778 -1.54045 1 1 0 0 0 0 1
4 -0.18232 -3.04452 1 1 0 0 -1 -1 -1
5 -0.42744 -1.88707 1 0 1 0 1 0 0
6 -0.81093 -2.48491 1 0 1 0 0 1 0
7 -0.40547 -1.38629 1 0 1 0 0 0 1
8 -1.09861 -2.19722 1 0 1 0 -1 -1 -1
9 -0.10536 -1.88707 1 0 0 1 1 0 0
10 0.14310 -2.56495 1 0 0 1 0 1 0
11 -0.31845 -2.14007 1 0 0 1 0 0 1
12 -0.24116 -1.99243 1 0 0 1 -1 -1 -1
13 -0.40547 -1.73460 1 -1 -1 -1 1 0 0
14 0.63599 -2.48491 1 -1 -1 -1 0 1 0
15 0.45199 -1.25276 1 -1 -1 -1 0 0 1
16 -0.26236 -1.55814 1 -1 -1 -1 -1 -1 -1

ANALYSIS-OF-VARIANCE TABLE

Source DF Chi-Square Prob


--------------------------------------------------
INTERCEPT 2 153.36 0.0000
OPERACIO 6 10.06 0.1223
HOSPITAL 6 6.84 0.3359

RESIDUAL 18 11.88 0.8533

ANALYSIS OF WEIGHTED-LEAST-SQUARES ESTIMATES

Standard Chi-
Effect Parameter Estimate Error Square Prob
----------------------------------------------------------------
12.3. MODELOS ORDINALES BIDIMENSIONALES 203

INTERCEPT 1 -0.2903 0.1047 7.68 0.0056


2 -2.0469 0.1683 147.97 0.0000
OPERACIO 3 -0.2231 0.1846 1.46 0.2267
4 -0.4444 0.3248 1.87 0.1713
5 -0.3136 0.1793 3.06 0.0802
6 0.0915 0.2640 0.12 0.7288
7 0.2132 0.1695 1.58 0.2086
8 -0.0238 0.2713 0.01 0.9300
HOSPITAL 9 -0.1614 0.1595 1.02 0.3114
10 0.0234 0.2411 0.01 0.9226
11 0.0616 0.1791 0.12 0.7308
12 -0.5768 0.3201 3.25 0.0715
13 0.2342 0.1965 1.42 0.2333
14 0.4966 0.2730 3.31 0.0689

Modelo Para El Problema de Descarga


Modelo con respuesta ordinal

PREDICTED VALUES FOR RESPONSE FUNCTIONS

-------Observed------- -------Predicted------
Function Standard Standard
Sample Number Function Error Function Error Residual
--------------------------------------------------------------------------
1 1 -0.9382696 0.39317855 -0.6748231 0.61012479 -0.2634466
2 -2.7080502 0.73029674 -2.4678746 0.61012479 -0.2401756

2 1 -0.9444616 0.4454354 -0.4517753 0.68663282 -0.4926863


2 -3.1780538 1.02062073 -3.0681455 0.68663282 -0.1099083

3 1 0.11778304 0.48591266 -0.2791532 0.63913656 0.39693622


2 -1.540445 0.63620901 -1.9946921 0.63913656 0.45424706

4 1 -0.1823216 0.42817442 -0.6478336 0.66672284 0.465512


2 -3.0445224 1.02353263 -2.4345104 0.66672284 -0.6100121

5 1 -0.427444 0.33188089 -0.7653586 0.52108017 0.33791456


2 -1.8870696 0.47989898 -1.9319709 0.52108017 0.04490124

6 1 -0.8109302 0.42491829 -0.5423108 0.62839627 -0.2686194


2 -2.4849066 0.73598007 -2.5322418 0.62839627 0.04733512

7 1 -0.4054651 0.45643546 -0.3696887 0.59896625 -0.0357764


2 -1.3862944 0.55901699 -1.4587883 0.59896625 0.07249399

8 1 -1.0986123 0.51639778 -0.7383691 0.63256578 -0.3602432


204 CAPÍTULO 12. MODELOS PARA DATOS ORDINALES

2 -2.1972246 0.74535599 -1.8986066 0.63256578 -0.298618

9 1 -0.1053605 0.32489314 -0.2385226 0.50578067 0.13316208


2 -1.8870696 0.47989898 -2.047336 0.50578067 0.1602663

10 1 0.14310084 0.37893237 -0.0154748 0.60218221 0.15857563


2 -2.5649494 0.73379939 -2.6476068 0.60218221 0.08265747

11 1 -0.3184537 0.46466019 0.15714729 0.60915493 -0.475601


2 -2.1400662 0.747545 -1.5741534 0.60915493 -0.5659128

12 1 -0.2411621 0.40291148 -0.2115331 0.58615098 -0.029629


2 -1.9924302 0.61545745 -2.0139717 0.58615098 0.0215415

13 1 -0.4054651 0.32274861 -0.128134 0.49512459 -0.2773311


2 -1.7346011 0.44280744 -1.6468373 0.49512459 -0.0877637

14 1 0.63598877 0.41223129 0.09491378 0.59885038 0.54107498


2 -2.4849066 0.73598007 -2.2471082 0.59885038 -0.2377985

15 1 0.45198512 0.48349378 0.26753586 0.58111082 0.18444927


2 -1.252763 0.56694671 -1.1736548 0.58111082 -0.0791082

Modelo Para El Problema de Descarga


Modelo con respuesta ordinal

PREDICTED VALUES FOR RESPONSE FUNCTIONS

-------Observed------- -------Predicted------
Function Standard Standard
Sample Number Function Error Function Error Residual
--------------------------------------------------------------------------
16 1 -0.2623643 0.42062225 -0.1011445 0.57631128 -0.1612198
2 -1.5581446 0.5501196 -1.613473 0.57631128 0.0553284

Modelo Para El Problema de Descarga


Modelo con respuesta ordinal y operacion ordinal

CATMOD PROCEDURE

Response: SEVERIDA Response Levels (R)= 3


Weight Variable: FRECUEN Populations (S)= 16
Data Set: DUMPING Total Frequency (N)= 417
Frequency Missing: 0 Observations (Obs)= 48
12.3. MODELOS ORDINALES BIDIMENSIONALES 205

POPULATION PROFILES
Sample
Sample HOSPITAL OPERACIO Size
------------------------------------
1 1 1 32
2 1 2 38
3 1 3 38
4 1 4 40
5 2 1 25
6 2 2 26
7 2 3 28
8 2 4 26
9 3 1 17
10 3 2 20
11 3 3 19
12 3 4 18
13 4 1 22
14 4 2 20
15 4 3 25
16 4 4 23

RESPONSE PROFILES

Response SEVERIDA
------------------
1 1
2 2
3 3

Modelo Para El Problema de Descarga


Modelo con respuesta ordinal y operacion ordinal

Response Functions DESIGN MATRIX


Sample 1 2 1 2 3 4 5
---------------------------------------------------------------------
1 -0.93827 -2.70805 1 1 1 0 0
206 CAPÍTULO 12. MODELOS PARA DATOS ORDINALES

2 -0.42744 -1.88707 1 2 1 0 0
3 -0.10536 -1.88707 1 3 1 0 0
4 -0.40547 -1.73460 1 4 1 0 0
5 -0.94446 -3.17805 1 1 0 1 0
6 -0.81093 -2.48491 1 2 0 1 0
7 0.14310 -2.56495 1 3 0 1 0
8 0.63599 -2.48491 1 4 0 1 0
9 0.11778 -1.54045 1 1 0 0 1
10 -0.40547 -1.38629 1 2 0 0 1
11 -0.31845 -2.14007 1 3 0 0 1
12 0.45199 -1.25276 1 4 0 0 1
13 -0.18232 -3.04452 1 1 -1 -1 -1
14 -1.09861 -2.19722 1 2 -1 -1 -1
15 -0.24116 -1.99243 1 3 -1 -1 -1
16 -0.26236 -1.55814 1 4 -1 -1 -1

ANALYSIS-OF-VARIANCE TABLE

Source DF Chi-Square Prob


--------------------------------------------------
INTERCEPT 2 34.95 0.0000
OPERACIO 2 5.99 0.0500
HOSPITAL 6 6.97 0.3235

RESIDUAL 22 15.95 0.8185

ANALYSIS OF WEIGHTED-LEAST-SQUARES ESTIMATES

Standard Chi-
Effect Parameter Estimate Error Square Prob
----------------------------------------------------------------
INTERCEPT 1 -0.8499 0.2599 10.70 0.0011
2 -2.4991 0.4284 34.03 0.0000
OPERACIO 3 0.2224 0.0924 5.79 0.0161
4 0.2015 0.1448 1.93 0.1643
HOSPITAL 5 -0.1672 0.1592 1.10 0.2934
6 0.0137 0.2407 0.00 0.9547
7 0.0651 0.1790 0.13 0.7161
8 -0.5813 0.3198 3.30 0.0691
9 0.2224 0.1963 1.28 0.2573
10 0.5085 0.2714 3.51 0.0609
12.3. MODELOS ORDINALES BIDIMENSIONALES 207

Modelo Para El Problema de Descarga


Modelo con respuesta ordinal y operacion ordinal

PREDICTED VALUES FOR RESPONSE FUNCTIONS

-------Observed------- -------Predicted------
Function Standard Standard
Sample Number Function Error Function Error Residual
--------------------------------------------------------------------------
1 1 -0.9382696 0.39317855 -0.7946677 0.5037383 -0.1436019
2 -2.7080502 0.73029674 -2.2839877 0.5037383 -0.4240625

2 1 -0.427444 0.33188089 -0.5722488 0.39227818 0.14480476


2 -1.8870696 0.47989898 -2.0825242 0.39227818 0.19545457

3 1 -0.1053605 0.32489314 -0.3498298 0.36730915 0.2444693


2 -1.8870696 0.47989898 -1.8810608 0.36730915 -0.0060089

4 1 -0.4054651 0.32274861 -0.1274109 0.44368211 -0.2780542


2 -1.7346011 0.44280744 -1.6795973 0.44368211 -0.0550037

5 1 -0.9444616 0.4454354 -0.5623433 0.6012272 -0.3821183


2 -3.1780538 1.02062073 -2.8789956 0.6012272 -0.2990582

6 1 -0.8109302 0.42491829 -0.3399243 0.51361057 -0.4710059


2 -2.4849066 0.73598007 -2.6775322 0.51361057 0.19262552

7 1 0.14310084 0.37893237 -0.1175053 0.49701252 0.26060619


2 -2.5649494 0.73379939 -2.4760687 0.49701252 -0.0888806

8 1 0.63598877 0.41223129 0.10491361 0.55780913 0.53107516


2 -2.4849066 0.73598007 -2.2746053 0.55780913 -0.2103014

9 1 0.11778304 0.48591266 -0.4050236 0.55957108 0.52280664


2 -1.540445 0.63620901 -1.7891197 0.55957108 0.24867468

10 1 -0.4054651 0.45643546 -0.1826046 0.47868773 -0.2228605


2 -1.3862944 0.55901699 -1.5876563 0.47868773 0.20136192

11 1 -0.3184537 0.46466019 0.03981431 0.47546612 -0.358268


2 -2.1400662 0.747545 -1.3861928 0.47546612 -0.7538733

12 1 0.45198512 0.48349378 0.26223326 0.55126952 0.18975186


2 -1.252763 0.56694671 -1.1847294 0.55126952 -0.0680336
208 CAPÍTULO 12. MODELOS PARA DATOS ORDINALES

13 1 -0.1823216 0.42817442 -0.7477501 0.59129788 0.56542853


2 -3.0445224 1.02353263 -2.2385532 0.59129788 -0.8059692

14 1 -1.0986123 0.51639778 -0.5253311 0.49837429 -0.5732812


2 -2.1972246 0.74535599 -2.0370898 0.49837429 -0.1601348

15 1 -0.2411621 0.40291148 -0.3029122 0.47751925 0.06175012


2 -1.9924302 0.61545745 -1.8356263 0.47751925 -0.1568038

Modelo Para El Problema de Descarga


Modelo con respuesta ordinal y operacion ordinal

PREDICTED VALUES FOR RESPONSE FUNCTIONS

-------Observed------- -------Predicted------
Function Standard Standard
Sample Number Function Error Function Error Residual
--------------------------------------------------------------------------
16 1 -0.2623643 0.42062225 -0.0804932 0.53719297 -0.181871
2 -1.5581446 0.5501196 -1.6341629 0.53719297 0.07601828

prop.trend.test <-
function (x, n, score = 1:length(x))
{
method <- "Chi Square Test for Trend in Proportions"
dname <- paste(deparse(substitute(x)), "out of", deparse(substitute(n)))
dname <- paste(dname, ",\n using scores:", paste(score, collapse = " "))
freq <- x/n
p <- sum(x)/sum(n)
freq <- x/n
p <- sum(x)/sum(n)
w <- n/p/(1 - p)
a <- anova(lm(freq ~ score, weight = w))
chisq <- a["score", "Sum Sq"]
names(chisq) <- "X-squared"
df <- 1
names(df) <- "df"
pval <- 1 - pchisq(chisq, 1)
rval <- list(statistic = chisq, parameter = df, p.value = pval,
method = method, data.name = dname)
class(rval) <- "htest"
return(rval)
12.3. MODELOS ORDINALES BIDIMENSIONALES 209

}
210 CAPÍTULO 12. MODELOS PARA DATOS ORDINALES
Parte V

Regresión Logı́stica para


Tablas

211
Capı́tulo 13

Regresión Logı́stica y
Modelo Logit

En el análisis de regresión estamos interesados en predecir la media de


una variable, llamada la respuesta, basados en un conjunto de variables,
llamadas los predictores. El análisis de regresión clásico es un área muy
bien desarrollada en estadı́stica, tanto desde el punto de vista teórico,
computacional y aplicado. Prácticamente todo curso de estadı́stica básica
cubre regresión en alguna extensión. Muchas extensiones de los análisis que
se realizan en regresión se han llevado a otras áreas de la estadı́stica, por
ejemplo aproximaciones a la modelación, análisis de outliers, diagnósticos,
etc.
El análisis de tablas de contingencia mediante modelos loglineales puede
llegar a a ser bastante insatisfactorio, como Allison (1991) comenta:
“Cuando comencé mis estudios de posgrado en la Universi-
dad de Wisconsin en 1970, el análisis de datos categóricos con-
sistı́a en pruebas chi-cuadrado de tablas de contingencia, una
técnica introducida a comienzos del siglo por Karl Pearson. Es-
ta metodologı́a era vista con desprecio por la mayorı́a de colegas
orientados cuantitativamente. Era la provincia de los anticuados
que no se preocuparon por aprender Análisis de Regresión, la
nueva herramienta universal para el análisis de datos de las cien-
cias sociales. También nos dimos cuenta de otra revolución que
se estaba desarrollando bajo nuestras narices. En la época que
terminé en Wisconsin en 1975, la nueva cosa insanamente gran-
de era el Análisis Loglineal, que habı́a hecho posible analizar
tablas de contingencia complicadas en formas en que Karl Pear-
son nunca soñó. Pero el análisis loglineal un animal más bien
diferente de la regresión lineal y yo nunca me sentı́ completa-
mente a gusto trabajando de la manera loglineal.”

213
214 CAPÍTULO 13. REGRESIÓN LOGÍSTICA Y MODELO LOGIT

La regresión clásica asume que la respuesta es continua. La regresión


logı́stica trata con el caso de una respuesta categórica. El caso más común
es aquél en que la respuesta es binaria, e.g. la respuesta toma valores 0
ó 1. Esto es similar al caso binomial donde la respuesta puede considerarse
como “éxito” o “fracaso”. Lo más importante es que el modelo logı́stico es
un modelo de regresión y las variables explicativas pueden ser categóricas
expresadas mediante variables “dummy”. Por lo tanto es perfectamente
factible construir una regresión logı́stica para una tabla que tenga como
variable de interés un atributo dicótomo.
El modelo logit lineal expresa una variable cualitativa dependiente dicóto-
ma como función de varias variables independientes. Recordemos que en
el problema clásico de regresión tenemos
yi = α + βxi + i

donde i ∼ N (0, σ 2 ), cov(i , j ) = 0, para todo i 6= j. En este caso


E(yi |xi ) = α + βxi . Ahora asuma que la variable dependiente Yi toma
solo los valores de 0 o 1 con probabilidades
P (Y = 1|X = xi ) = P (Yi = 1) = πi
P (Y = 0|X = xi ) = P (Yi = 0) = 1 − πi

Bajo el supuesto de que E(i ) = 0 tenemos que πi = α + βxi , llamado el


modelo lineal de probabilidad. Además si
Yi = 1 ⇒ i = 1 − E(Yi ) = 1 − (α + βxi ) = 1 − πi
Yi = 0 ⇒ i = 0 − E(Yi ) = 0 − (α + βxi ) = −πi

por lo tanto
var(i ) = πi (1 − πi )2 + (1 − πi )(−πi )2 = πi (1 − πi )

Transformaciones en π
πi = P (α + βxi )

donde P es una función de distribución acumulada. Si P es la F.D.A de


la distribución uniforme entonces

 0 si α + βxi < 0
πi = α + βxi si 0 ≤ α + βxi ≤ 1
1 si α + βxi > 1

Usualmente preferimos P suave y correspondiente a una p.d.f simétrica


con valores asintóticos de π = 0 y π = 1. Si P es estrictamente crecien-
te entonces la transformación será 1 a 1 y podremos calcular la función
inversa de la PDF P
P −1 (πi ) = α + βxi
13.1. ESTIMACIÓN DEL MODELO LOGÍSTICO POR MÁXIMA VEROSIMILITUD215

Usualmente se toma P = Φ o P = Λ, donde


Z z
 2
1 z
Φ(z) = √ exp − dz
2π −∞ 2
1
Λ(z) =
1 + exp(−z)

Entonces tenemos
πi = Φ(α + βxi ) ←−conocido como modelo lineal probit y
1
πi = Λ(α + βxi ) = 1+exp{−(α+βxi )} ←−conocido como modelo lineal
logı́stico o logit.
Es un poco más ventajoso trabajar con el modelo logit por cuestiones de
interpretación. Haciendo

1
= 1 + exp {−(α + βxi )}
πi
1
− 1 = exp {−(α + βxi )}
πi
πi
= exp(α + βxi )
1 − πi
 
πi
log = α + βxi
1 − πi
 
−1 πi
Λ (πi ) = log
1 − πi

13.1. Estimación del Modelo Logı́stico por


Máxima Verosimilitud
Si Xn×k es la matriz de diseño, de rango columna completo entonces

1
πi = Λ(xTi β) =
1 + exp(−xTi β)
 
πi
Λ−1 (πi ) = log = xTi β
1 − πi

La función densidad de probabilidad conjunta de y1 , y2 , ..., yn está dada


por
n n  y i
Y Y πi
p(y1 , y2 , ..., yn ) = πiyi (1 − πi ) 1−yi
= (1 − πi )
i=1 i=1
1 − πi
216 CAPÍTULO 13. REGRESIÓN LOGÍSTICA Y MODELO LOGIT

Asumiendo un modelo logit tenemos que


πi
= exp(xTi β) y que
1 − πi
1
1 − πi =
1 + exp(xTi β)

entonces la función de verosimilitud esta dada por


n  
Y y  1
L(β|X, y1 , y2 , ..., yn ) = exp(xTi β) i
i=1
1 + exp(xTi β)

Pn Pn 
log (L(β)) = i=1 yi xTi β − i=1 log 1 + exp(xTi β)

n n
∂ log L(β) X X exp(xTi β)
= yi xi − xi
∂β i=1 i=1
1 + exp(xTi β)

n n
∂ log L(β) X X 1
= yi xi − xi
∂β i=1 i=1
1 + exp(−xTi β)

Haciendo esto igual a cero, los estimadores de máxima verosimilitud son


las souciones a
n n
X 1 X
xi = yi xi
i=1
1 + exp(−xTi β) i=1

En forma matricial es
XT p = XT y
donde p = (p1 , p2 , ..., pn )T . La matriz de información es
 2 
∂ log L(β)
I(β) = −E
∂β∂β T

Para hallar el estimador de máxima verosimilitud para β debemos derivar


la ecuación anterior con respecto a β e igualar a 0.

13.1.1. Regresión logı́stica y tablas


Para tablas de contingencia los coeficientes de la regresión están asociados
con el odds como podemos ver en una tabla 2 × 2. En este caso la variable
explicativa X toma dos niveles, digamos 0 y 1. El modelo logı́stico será:
13.1. ESTIMACIÓN DEL MODELO LOGÍSTICO POR MÁXIMA VEROSIMILITUD217

 
πx
log = α + βx
1 − πx
Cuando x = 0 entonces el modelo será:
 
π0
log =α
1 − π0
y cuando x = 1 el modelo será
 
π1
log =α+β
1 − π1
Por lo tanto
 
    π1
π1 π0 1−π1
β = log − log = log     = log (ψ)
1 − π1 1 − π0 π0
1−π0

Por lo tanto eβ corresponde a la razón de odds. Si hay más covariables, la


interpretación será la misma asumiendo que las otras variables se mantie-
nen iguales.
Un problema surge cuando la variable explicativa categórica tiene más de
dos clases, ya que en este caso hay una clase de referencia y contra ella
se hace la comparación en la interpretación de los coeficientes de los otros
modelos.

13.1.2. Estimación del Modelo Logı́stico en R y SAS


El ejemplo que presentamos utiliza la información sobre la viabilidad en
los partos de mujeres con menos de 20 semanas en hospitales oficiales y
privados.
En R el mismo ejemplo anterior será:

resultado<-matrix(c(4757,430,5148,464),ncol=2,byrow=T)
tipo<-c(’Oficial’,’Privado’)
res<-glm(resultado~as.factor(tipo),family=binomial)
summary(res)

Call:
glm(formula = resultado ~ as.factor(tipo), family = binomial)

Deviance Residuals:
[1] 0 0
218 CAPÍTULO 13. REGRESIÓN LOGÍSTICA Y MODELO LOGIT

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 2.403587 0.050357 47.731 <2e-16 ***
as.factor(tipo)Privado 0.002892 0.069894 0.041 0.967
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 1.7117e-03 on 1 degrees of freedom


Residual deviance: 1.5143e-12 on 0 degrees of freedom
AIC: 19.707

Number of Fisher Scoring iterations: 2

> res$fitted.values
[1] 0.9171004 0.9173200
>

>
> 4757/(4757+430)
[1] 0.9171004
>
> 5148/(5148+464)
[1] 0.91732
>

> 4757*464/(5148*430)
[1] 0.9971124
> log(4757*464/(5148*430))
[1] -0.002891729
>

Vemos que la variable independiente tipo de hospital no es significativa


para explicar los odds entre nacer vivo y nacer muerto dado si el hospital es
oficial o privado. O sea no hay diferencias entre las proporciones de niños
que nacen muertos entre hospitales oficiales y privados. La razón de odds
se puede estimar como e0,002892 = 1,002896. Un intervalo de confianza
asintótico del 95 % para el logaritmo de la razón de odds se halla como

(0,002892 − 1,96 · 0,069894; 0,002892 + 1,96 · 0,069894)


13.1. ESTIMACIÓN DEL MODELO LOGÍSTICO POR MÁXIMA VEROSIMILITUD219

Ejemplo 13.1 La siguiente tabla presenta información extractada del


Anuario Estadı́stico de Antioquia 2000 sobre muertes accidentales y muer-
tes violentas (incluyen suicidios) por región del departamento. Se quiere
modelar la probabilidad de una muerte accidental por región.

Accidental Violenta
1 1336 6062
2 97 244
3 45 171
4 85 390
5 97 433
6 51 424
7 267 951
8 150 766
9 161 644

muerte<-matrix(c(
1336,6062,97,244,45,171,85,390,
97,433,51,424,267,951,150,766,
161,644),ncol=2,byrow=T)

region<-c(’Valle de Aburrá’,
’Bajo Cauca’,
’Magd. Medio’,
’Nordeste’,
’Norte’,
’Occidente’,
’Oriente’,
’Suroeste’,
’Urabá’)

res<-glm(muerte~as.factor(region),family=binomial)

summary(res)

Call:
glm(formula = muerte ~ as.factor(region), family = binomial)

Deviance Residuals:
[1] 0 0 0 0 0 0 0 0 0

Coefficients:
Estimate Std. Error z value Pr(>|z|)
220 CAPÍTULO 13. REGRESIÓN LOGÍSTICA Y MODELO LOGIT

(Intercept) -0.9225 0.1200 -7.685 1.53e-14 ***


as.factor(region)Magd. Medio -0.4125 0.2061 -2.002 0.045322 *
as.factor(region)Nordeste -0.6010 0.1695 -3.546 0.000392 ***
as.factor(region)Norte -0.5736 0.1644 -3.489 0.000485 ***
as.factor(region)Occidente -1.1955 0.1907 -6.268 3.65e-10 ***
as.factor(region)Oriente -0.3478 0.1386 -2.510 0.012080 *
as.factor(region)Suroeste -0.7081 0.1496 -4.733 2.21e-06 ***
as.factor(region)Urabá -0.4638 0.1489 -3.115 0.001839 **
as.factor(region)Valle de Aburrá -0.5899 0.1238 -4.766 1.88e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 5.6509e+01 on 8 degrees of freedom


Residual deviance: 1.4211e-14 on 0 degrees of freedom
AIC: 76.834

Number of Fisher Scoring iterations: 3

Si recodificamos podemos establecer nosostros mismos la región de com-


paración. En este caso asignamos 1 al Valle de Aburrá, 2 al Bajo Cauca,
etc. La base de comparación será por lo tanto el Valle de Aburrá.

> res<-glm(muerte~as.factor(1:nrow(muerte)),family=binomial)
> summary(res)

Call:
glm(formula = muerte ~ as.factor(1:nrow(muerte)), family = binomial)

Deviance Residuals:
[1] 0 0 0 0 0 0 0 0 0

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.51236 0.03022 -50.039 < 2e-16 ***
as.factor(1:nrow(muerte))2 0.58990 0.12378 4.766 1.88e-06 ***
as.factor(1:nrow(muerte))3 0.17736 0.17025 1.042 0.29751
as.factor(1:nrow(muerte))4 -0.01114 0.12346 -0.090 0.92813
as.factor(1:nrow(muerte))5 0.01633 0.11633 0.140 0.88834
as.factor(1:nrow(muerte))6 -0.60555 0.15126 -4.003 6.25e-05 ***
as.factor(1:nrow(muerte))7 0.24209 0.07557 3.204 0.00136 **
as.factor(1:nrow(muerte))8 -0.11819 0.09426 -1.254 0.20992
as.factor(1:nrow(muerte))9 0.12607 0.09315 1.353 0.17595
---
13.1. ESTIMACIÓN DEL MODELO LOGÍSTICO POR MÁXIMA VEROSIMILITUD221

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 5.6509e+01 on 8 degrees of freedom


Residual deviance: 5.1270e-13 on 0 degrees of freedom
AIC: 76.834

Number of Fisher Scoring iterations: 3

> res$fitted.values
[1] 0.1805893 0.2844575 0.2083333 0.1789474 0.1830189 0.1073684 0.2192118
[8] 0.1637555 0.2000000

> region<-as.factor(c(1,2,1,1,1,6,7,1,1))
> res2<-glm(muerte~region,family=binomial)
> summary(res2)

Call:
glm(formula = muerte ~ region, family = binomial)

Deviance Residuals:
[1] -1.449e-01 2.075e-07 1.015e+00 -1.298e-01 1.063e-01 0.000e+00
[7] -4.944e-07 -1.392e+00 1.364e+00

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.50798 0.02553 -59.069 < 2e-16 ***
region2 0.58553 0.12272 4.771 1.83e-06 ***
region6 -0.60992 0.15039 -4.056 5.00e-05 ***
region7 0.23772 0.07381 3.220 0.00128 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 56.5086 on 8 degrees of freedom


Residual deviance: 4.8768 on 5 degrees of freedom
AIC: 71.711

Number of Fisher Scoring iterations: 3

> res2$fitted.values
[1] 0.1812379 0.2844575 0.1812379 0.1812379 0.1812379 0.1073684 0.2192118
[8] 0.1812379 0.1812379
>
222 CAPÍTULO 13. REGRESIÓN LOGÍSTICA Y MODELO LOGIT

Si queremos estimar un modelo logit en SAS utilizamos el PROC CAT-


MOD con la opción DIRECT para indicar que variables no se toman
como categóricas sino como numéricas, o el PROC LOGISTIC o el PROC
GENMOD.

data uno;
input x y frec;
cards;
0 0 4757
0 1 430
1 0 5148
1 1 464 ;

proc catmod;
direct x;
model y=x;
weight frec;
run;

El listado de los resultados presentados por el SAS se presentan a conti-


nuacion

The SAS System 1


CATMOD PROCEDURE
Response: Y Response Levels (R)= 2
Weight Variable: FREC Populations (S)= 2
Data Set: UNO Total Frequency (N)= 10799
Frequency Missing: 0 Observations(Obs)= 4

POPULATION PROFILES
Sample
Sample X Size
1 0 5187
2 1 5612

RESPONSE PROFILES
Response Y
1 0
2 1
13.1. ESTIMACIÓN DEL MODELO LOGÍSTICO POR MÁXIMA VEROSIMILITUD223

MAXIMUM-LIKELIHOOD ANALYSIS
Sub -2 Log Convergence Parameter Estimates
Iteration Iteration Likelihood Criterion 1 2
0 0 14970.593 1.0000 0 0
1 0 6713.0314 0.5516 1.6684 0.000878
2 0 6190.9811 0.0778 2.2358 0.001986
3 0 6166.7645 0.003912 2.3926 0.002771
4 0 6166.6642 0.0000163 2.4035 0.002891
5 0 6166.6642 3.407E-10 2.4036 0.002892

MAXIMUM-LIKELIHOOD ANALYSIS-OF-VARIANCE TABLE


Source DF Chi-Square Prob
INTERCEPT 1 2278.36 0.0000
X 1 0.00 0.9670

LIKELIHOOD RATIO 0 . .

ANALYSIS OF MAXIMUM-LIKELIHOOD ESTIMATES


Standard Chi-
Effect Parameter Estimate Error Square Prob
INTERCEPT 1 2.4036 0.0504 2278.36 0.0000
X 2 0.00289 0.0699 0.00 0.9670

Como un segundo ejemplo para ilustrar el PROC LOGISTIC consi-


deremos un ejemplo de Neter y Wasserman (1974). En un estudio para
comprobar la efectividad de cupones que ofrecen una reducción del pre-
cio en un producto determinado, 1000 hogares fueron seleccionados y un
cupón y material publicitario fueron enviados por correo a cada uno. Los
cupones ofrecı́an diferentes reducciones en el precio (200 cupones de 5, 10,
15, 20 y 30 centavos de dólar para un total de 1000), y los hogares fueron
seleccionados al azar para cada tipo de cupón. La variable independiente
es la cantidad de descuento en el precio y la variable dependiente es una
variable binaria que nos dice si un cupón fue usado en los siguientes seis
meses. En SAS el PROC LOGISTIC genera a veces confusión entre los
usuarios debido a la codificación interna que maneja, con lo que hay que
ser cuidadosos. Por ejemplo si nosotros codificamos: 1 para éxito y 0 para
un fracaso, el SAS codificara internamente 1 para éxito y 2 para fracaso,
con lo que, si somos poco cuidadosos obtendremos resultados opuestos a
los deseados (Scheuchenpflug y Blettner, 1996). El programa en SAS es el
siguiente:
224 CAPÍTULO 13. REGRESIÓN LOGÍSTICA Y MODELO LOGIT

options ls=70;

data uno;
input rebaja nhogares ncupones;
cards;
5 200 32
10 200 51
15 200 70
20 200 103
30 200 148
;

proc logist data=uno;


model ncupones/nhogares=rebaja;
run;

The SAS System 1


The LOGISTIC Procedure

Data Set: WORK.UNO


Response Variable (Events): NCUPONES
Response Variable (Trials): NHOGARES
Number of Observations: 5
Link Function: Logit

Response Profile
Ordered Binary
Value Outcome Count
1 EVENT 404
2 NO EVENT 596

The SAS System


The LOGISTIC Procedure
Criteria for Assessing Model Fit
Intercept
Intercept and
Criterion Only Covariates Chi-Square for Covariates

AIC 1351.200 1172.763 .


SC 1356.108 1182.579 .
-2 LOG L 1349.200 1168.763 180.437 with 1 DF (p=0.0001)
Score . . 173.057 with 1 DF (p=0.0001)
13.1. ESTIMACIÓN DEL MODELO LOGÍSTICO POR MÁXIMA VEROSIMILITUD225

The SAS System


The LOGISTIC Procedure
Analysis of Maximum Likelihood Estimates
Parameter Standard Wald Pr > Standardized
Variable DF Estimate Error Chi-Square Chi-Square Estimate
INTERCPT 1 -2.1855 0.1647 176.1542 0.0001 .
REBAJA 1 0.1087 0.00884 151.1552 0.0001 0.515881

Analysis of
Maximum
Likelihood
Estimates

Odds
Variable Ratio

INTERCPT 0.112
REBAJA 1.115

The SAS System


The LOGISTIC Procedure
Association of Predicted Probabilities and Observed Responses

Concordant = 65.3 % Somers’ D = 0.472


Discordant = 18.2 % Gamma = 0.565
Tied = 16.5 % Tau-a = 0.227
(240784 pairs) c = 0.736

Otro ejemplo que podemos mirar es el de la predicción del sexo de una


persona a partir de su longitud del pie y de la longitud de la mano. En
una muestra de adultos colombianos para generar una base de datos para
estudios ergonómicos se midieron las variables de interés. El programa en
SAS para correr la regresión logı́stica es:

*************************************************;
* Ejemplo en SAS de Regresion Logistica con *;
* datos ergonomicos. *;
* Var. Dependiente: SEXO 1:Hombre 5:Mujer *;
* Var. Indep. p27: Longitud del pie (cms) *;
* p29: Longitud de la mano (cms) *;
*************************************************;

options ps=65 ls=75 nodate nonumber;


226 CAPÍTULO 13. REGRESIÓN LOGÍSTICA Y MODELO LOGIT

libname chucho ’c:\base’;

data temp;
set chucho.nuevo;

proc logistic;
model sexo=p27 p29/covb;
title ’Regresion Logistica para Predecir el Sexo a’;
title2 ’partir de las longitudes del pie y la mano’;
run;

quit;

Regresion Logistica para Predecir el Sexo a


partir de las longitudes del pie y la mano

The LOGISTIC Procedure

Data Set: WORK.TEMP


Response Variable: SEXO
Response Levels: 2
Number of Observations: 2100
Link Function: Logit

Response Profile

Ordered
Value SEXO Count

1 1 1315
2 5 785

Criteria for Assessing Model Fit

Intercept
Intercept and
Criterion Only Covariates Chi-Square for Covariates

AIC 2777.999 1412.000 .


13.2. CONSTRUYENDO UN MODELO LOGÍSTICO 227

SC 2783.648 1428.949 .
-2 LOG L 2775.999 1406.000 1369.999 with 2 DF (p=0.0001)
Score . . 1022.656 with 2 DF (p=0.0001)

Analysis of Maximum Likelihood Estimates

Parameter Standard Wald Pr > Standardized Odds


Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio

INTERCPT 1 -42.9325 1.8606 532.4306 0.0001 . 0.000


P27 1 1.0552 0.0943 125.1893 0.0001 0.934352 2.872
P29 1 1.0343 0.1211 72.9687 0.0001 0.690528 2.813

Association of Predicted Probabilities and Observed Responses

Concordant = 92.4% Somers’ D = 0.851


Discordant = 7.3% Gamma = 0.853
Tied = 0.2% Tau-a = 0.399
(1032275 pairs) c = 0.926

Estimated Covariance Matrix

Variable INTERCPT P27 P29

INTERCPT 3.46185847 -0.086078605 -0.080576161


P27 -0.086078605 0.0088937661 -0.007283033
P29 -0.080576161 -0.007283033 0.0146602587

13.2. Construyendo un Modelo Logı́stico


Cuando tenemos muchas variables explicativas y necesitamos construir un
modelo podemos, recurriendo a técnicas similares a la regresión clásica
tales como regresión hacia atrás, hacia adelante y stepwise (paso a paso).
En general la modelación realizada por estas formas es débil y altamente
dependiente de los datos, esto significa que si tenemos acceso a una base
de datos con la misma estructura, el modelo ajustado no tenga un poder
predictivo tan bueno como se tenı́a en la base original. Además, variables
que en la nueva base pueden ser importantes en la primera haber sido
rechazadas por el procedimiento automatizado.
Un problema grande que se presenta cuando se ajustan modelos de esta
228 CAPÍTULO 13. REGRESIÓN LOGÍSTICA Y MODELO LOGIT

clase a tablas de gran dimensión, es decir con muchas variables, es la


presencia de numerosas celdas con ceros o con grandes desbalances o pocas
observaciones por celda, esto debilita cualquier resultado inferencial, ya
que en general estos resultados son asintóticos. Aquı́ cabe el dicho “Quien
mucho abarca, poco aprieta”.
Como un ejemplo consideremos la construcción de un modelo para predecir
el sexo de un estudiante a partir de las notas obtenidas en las pruebas del
ICFES. Para esto utilizamos el PROC LOGISTIC del SAS, utilizando
la opción selection. Es posible que utilizando los diferentes métodos no
obtengamos el mismo resultado final. En este caso se recomienda evaluar
cada uno de los modelos a los cuales se arrivó por cada procedimeiento y
tener en cuenta la complejidad de los modelos.

options ps=55 ls=70 nodate nonumber nocenter;

data icfes;
infile ’c:\datos\icfes.dat’;
input sexo $ ano biologia quimica
fisica sociales apt_verb espanol
apt_mate con_mate electiva opcion $;

proc logistic;
model sexo= biologia quimica
fisica sociales apt_verb espanol
apt_mate con_mate electiva/selection=b;
title ’Seleccion del Modelo HACIA ATRAS’;
run;

proc logistic;
model sexo= biologia quimica
fisica sociales apt_verb espanol
apt_mate con_mate electiva/selection=f;
title ’Seleccion del Modelo HACIA ADELANTE’;
run;

proc logistic;
model sexo= biologia quimica
fisica sociales apt_verb espanol
apt_mate con_mate electiva/selection=s;
title ’Construccion del Modelo STEPWISE’;
run;

quit;
13.2. CONSTRUYENDO UN MODELO LOGÍSTICO 229

Seleccion del Modelo HACIA ATRAS

The LOGISTIC Procedure

Data Set: WORK.ICFES


Response Variable: SEXO
Response Levels: 2
Number of Observations: 132
Link Function: Logit

Response Profile
Ordered
Value SEXO Count

1 F 74
2 M 58

Backward Elimination Procedure

Step 0. The following variables were entered:

INTERCPT BIOLOGIA QUIMICA FISICA SOCIALES APT_VERB


ESPANOL APT_MATE CON_MATE ELECTIVA

Criteria for Assessing Model Fit


Intercept
Intercept and
Criterion Only Covariates Chi-Square for Covariates
AIC 183.047 123.984 .
SC 185.929 152.812 .
-2 LOG L 181.047 103.984 77.062 with 9 DF (p=0.0001)
Score . . 61.015 with 9 DF (p=0.0001)

Step 1. Variable QUIMICA is removed:

Seleccion del Modelo HACIA ATRAS


230 CAPÍTULO 13. REGRESIÓN LOGÍSTICA Y MODELO LOGIT

The LOGISTIC Procedure

Criteria for Assessing Model Fit


Intercept
Intercept and
Criterion Only Covariates Chi-Square for Covariates
AIC 183.047 122.043 .
SC 185.929 147.988 .
-2 LOG L 181.047 104.043 77.004 with 8 DF (p=0.0001)
Score . . 61.004 with 8 DF (p=0.0001)

Residual Chi-Square = 0.0587 with 1 DF (p=0.8086)

Step 2. Variable CON_MATE is removed:

Criteria for Assessing Model Fit


Intercept
Intercept and
Criterion Only Covariates Chi-Square for Covariates
AIC 183.047 120.286 .
SC 185.929 143.348 .
-2 LOG L 181.047 104.286 76.761 with 7 DF (p=0.0001)
Score . . 60.703 with 7 DF (p=0.0001)

Residual Chi-Square = 0.3018 with 2 DF (p=0.8599)

Step 3. Variable APT_VERB is removed:

Criteria for Assessing Model Fit


Intercept
Intercept and
Criterion Only Covariates Chi-Square for Covariates
AIC 183.047 118.533 .
SC 185.929 138.713 .
-2 LOG L 181.047 104.533 76.513 with 6 DF (p=0.0001)
Score . . 59.783 with 6 DF (p=0.0001)

Residual Chi-Square = 0.5439 with 3 DF (p=0.9091)


Seleccion del Modelo HACIA ATRAS
13.2. CONSTRUYENDO UN MODELO LOGÍSTICO 231

The LOGISTIC Procedure

Step 4. Variable BIOLOGIA is removed:

Criteria for Assessing Model Fit


Intercept
Intercept and
Criterion Only Covariates Chi-Square for Covariates
AIC 183.047 117.067 .
SC 185.929 134.363 .
-2 LOG L 181.047 105.067 75.980 with 5 DF (p=0.0001)
Score . . 59.428 with 5 DF (p=0.0001)

Residual Chi-Square = 1.0685 with 4 DF (p=0.8992)

Step 5. Variable APT_MATE is removed:

Criteria for Assessing Model Fit


Intercept
Intercept and
Criterion Only Covariates Chi-Square for Covariates

AIC 183.047 117.287 .


SC 185.929 131.701 .
-2 LOG L 181.047 107.287 73.760 with 4 DF (p=0.0001)
Score . . 57.673 with 4 DF (p=0.0001)

Residual Chi-Square = 3.1561 with 5 DF (p=0.6759)

Step 6. Variable ELECTIVA is removed:

Seleccion del Modelo HACIA ATRAS

The LOGISTIC Procedure

Criteria for Assessing Model Fit


Intercept
Intercept and
Criterion Only Covariates Chi-Square for Covariates
232 CAPÍTULO 13. REGRESIÓN LOGÍSTICA Y MODELO LOGIT

AIC 183.047 118.081 .


SC 185.929 129.612 .
-2 LOG L 181.047 110.081 70.966 with 3 DF (p=0.0001)
Score . . 55.870 with 3 DF (p=0.0001)

Residual Chi-Square = 6.0331 with 6 DF (p=0.4195)

NOTE: No (additional) variables met the 0.05 significance level for


removal from the model.

Summary of Backward Elimination Procedure


Variable Number Wald Pr >
Step Removed In Chi-Square Chi-Square
1 QUIMICA 8 0.0587 0.8086
2 CON_MATE 7 0.2416 0.6231
3 APT_VERB 6 0.2461 0.6199
4 BIOLOGIA 5 0.5264 0.4681
5 APT_MATE 4 2.0697 0.1502
6 ELECTIVA 3 2.6971 0.1005

Analysis of Maximum Likelihood Estimates


Parameter Standard Wald Pr > Standardized
Variable DF Estimate Error Chi-Square Chi-Square Estimate
INTERCPT 1 9.7258 1.9849 24.0093 0.0001 .
FISICA 1 -0.2605 0.0545 22.8237 0.0001 -1.298781
SOCIALES 1 -0.1118 0.0417 7.1746 0.0074 -0.574723
ESPANOL 1 0.1815 0.0475 14.6058 0.0001 0.916826

Seleccion del Modelo HACIA ATRAS

The LOGISTIC Procedure


Analysis of
Maximum
Likelihood
Estimates

Odds
Variable Ratio
INTERCPT 999.000
FISICA 0.771
SOCIALES 0.894
ESPANOL 1.199
13.2. CONSTRUYENDO UN MODELO LOGÍSTICO 233

Association of Predicted Probabilities and Observed Responses


Concordant = 88.8% Somers’ D = 0.777
Discordant = 11.1% Gamma = 0.778
Tied = 0.1% Tau-a = 0.386
(4292 pairs) c = 0.889

Seleccion del Modelo HACIA ADELANTE

The LOGISTIC Procedure

Data Set: WORK.ICFES


Response Variable: SEXO
Response Levels: 2
Number of Observations: 132
Link Function: Logit

Response Profile
Ordered
Value SEXO Count

1 F 74
2 M 58

Forward Selection Procedure

Step 0. Intercept entered:

Residual Chi-Square = 61.0148 with 9 DF (p=0.0001)

Step 1. Variable FISICA entered:

Criteria for Assessing Model Fit


Intercept
Intercept and
Criterion Only Covariates Chi-Square for Covariates
AIC 183.047 134.861 .
SC 185.929 140.626 .
234 CAPÍTULO 13. REGRESIÓN LOGÍSTICA Y MODELO LOGIT

-2 LOG L 181.047 130.861 50.186 with 1 DF (p=0.0001)


Score . . 41.953 with 1 DF (p=0.0001)

Residual Chi-Square = 23.7000 with 8 DF (p=0.0026)

Step 2. Variable ESPANOL entered:

Seleccion del Modelo HACIA ADELANTE

The LOGISTIC Procedure

Criteria for Assessing Model Fit


Intercept
Intercept and
Criterion Only Covariates Chi-Square for Covariates
AIC 183.047 124.054 .
SC 185.929 132.703 .
-2 LOG L 181.047 118.054 62.992 with 2 DF (p=0.0001)
Score . . 50.823 with 2 DF (p=0.0001)

Residual Chi-Square = 13.4773 with 7 DF (p=0.0613)

Step 3. Variable SOCIALES entered:

Criteria for Assessing Model Fit


Intercept
Intercept and
Criterion Only Covariates Chi-Square for Covariates
AIC 183.047 118.081 .
SC 185.929 129.612 .
-2 LOG L 181.047 110.081 70.966 with 3 DF (p=0.0001)
Score . . 55.870 with 3 DF (p=0.0001)

Residual Chi-Square = 6.0331 with 6 DF (p=0.4195)

NOTE: No (additional) variables met the 0.05 significance level for


13.2. CONSTRUYENDO UN MODELO LOGÍSTICO 235

entry into the model.

Seleccion del Modelo HACIA ADELANTE

The LOGISTIC Procedure

Summary of Forward Selection Procedure


Variable Number Score Pr >
Step Entered In Chi-Square Chi-Square
1 FISICA 1 41.9532 0.0001
2 ESPANOL 2 11.8346 0.0006
3 SOCIALES 3 7.7683 0.0053

Analysis of Maximum Likelihood Estimates


Parameter Standard Wald Pr > Standardized
Variable DF Estimate Error Chi-Square Chi-Square Estimate
INTERCPT 1 9.7258 1.9849 24.0093 0.0001 .
FISICA 1 -0.2605 0.0545 22.8237 0.0001 -1.298781
SOCIALES 1 -0.1118 0.0417 7.1746 0.0074 -0.574723
ESPANOL 1 0.1815 0.0475 14.6058 0.0001 0.916826

Analysis of
Maximum
Likelihood
Estimates
Odds
Variable Ratio

INTERCPT 999.000
FISICA 0.771
SOCIALES 0.894
ESPANOL 1.199

Association of Predicted Probabilities and Observed Responses


Concordant = 88.8% Somers’ D = 0.777
Discordant = 11.1% Gamma = 0.778
Tied = 0.1% Tau-a = 0.386
(4292 pairs) c = 0.889

Construccion del Modelo STEPWISE

The LOGISTIC Procedure


236 CAPÍTULO 13. REGRESIÓN LOGÍSTICA Y MODELO LOGIT

Data Set: WORK.ICFES


Response Variable: SEXO
Response Levels: 2
Number of Observations: 132
Link Function: Logit

Response Profile
Ordered
Value SEXO Count

1 F 74
2 M 58

Stepwise Selection Procedure

Step 0. Intercept entered:

Residual Chi-Square = 61.0148 with 9 DF (p=0.0001)

Step 1. Variable FISICA entered:

Criteria for Assessing Model Fit


Intercept
Intercept and
Criterion Only Covariates Chi-Square for Covariates
AIC 183.047 134.861 .
SC 185.929 140.626 .
-2 LOG L 181.047 130.861 50.186 with 1 DF (p=0.0001)
Score . . 41.953 with 1 DF (p=0.0001)

Residual Chi-Square = 23.7000 with 8 DF (p=0.0026)

Step 2. Variable ESPANOL entered:

Construccion del Modelo STEPWISE


13.2. CONSTRUYENDO UN MODELO LOGÍSTICO 237

The LOGISTIC Procedure

Criteria for Assessing Model Fit


Intercept
Intercept and
Criterion Only Covariates Chi-Square for Covariates
AIC 183.047 124.054 .
SC 185.929 132.703 .
-2 LOG L 181.047 118.054 62.992 with 2 DF (p=0.0001)
Score . . 50.823 with 2 DF (p=0.0001)

Residual Chi-Square = 13.4773 with 7 DF (p=0.0613)

Step 3. Variable SOCIALES entered:

Criteria for Assessing Model Fit

Intercept
Intercept and
Criterion Only Covariates Chi-Square for Covariates

AIC 183.047 118.081 .


SC 185.929 129.612 .
-2 LOG L 181.047 110.081 70.966 with 3 DF (p=0.0001)
Score . . 55.870 with 3 DF (p=0.0001)

Residual Chi-Square = 6.0331 with 6 DF (p=0.4195)

NOTE: No (additional) variables met the 0.05 significance level for


entry into the model.

Construccion del Modelo STEPWISE

The LOGISTIC Procedure

Summary of Stepwise Procedure


Variable Number Score Wald Pr >
Step Entered Removed In Chi-Square Chi-Square Chi-Square
238 CAPÍTULO 13. REGRESIÓN LOGÍSTICA Y MODELO LOGIT

1 FISICA 1 41.9532 . 0.0001


2 ESPANOL 2 11.8346 . 0.0006
3 SOCIALES 3 7.7683 . 0.0053

Analysis of Maximum Likelihood Estimates


Parameter Standard Wald Pr > Standardized
Variable DF Estimate Error Chi-Square Chi-Square Estimate
INTERCPT 1 9.7258 1.9849 24.0093 0.0001 .
FISICA 1 -0.2605 0.0545 22.8237 0.0001 -1.298781
SOCIALES 1 -0.1118 0.0417 7.1746 0.0074 -0.574723
ESPANOL 1 0.1815 0.0475 14.6058 0.0001 0.916826

Analysis of
Maximum
Likelihood
Estimates
Odds
Variable Ratio
INTERCPT 999.000
FISICA 0.771
SOCIALES 0.894
ESPANOL 1.199

Association of Predicted Probabilities and Observed Responses


Concordant = 88.8% Somers’ D = 0.777
Discordant = 11.1% Gamma = 0.778
Tied = 0.1% Tau-a = 0.386
(4292 pairs) c = 0.889

13.3. Diagnósticos para Regresión Logı́stica


Pregibon (1981) desarrolla técnicas similares a las propuestas por Belsley
et al. (1980) para realizar diagnósticos en modelos de regresión logı́stica.

β `+1 = β ` + (XT VX)−1 XT s

b ) y V y s evaluados en β `
donde s = (y − y
Los valores ajustados ni π
bi = ybi
bi (1 − π
La varianza estimada de yi es νii = ni π bi )
13.3. DIAGNÓSTICOS PARA REGRESIÓN LOGÍSTICA 239

Los resultados estándar de un programa de computador que haga regresión


logı́stica son:
a) βb
b) s.e.(βbj ) : errores estándar individuales de los coeficientes
−1
c) D(β) = XT VX
db

d) El estadı́stico de bondad de ajuste


N
X s2i
χ2 =
ν
i=1 ii

e) Componentes individuales de χ2 , digamos

si (yi − ni πbi )
χi = √ =p
νii bi (1 − π
ni π bi )

f) La deviance h    i
D = −2 ` X β;
b y − ` θ;
by

 
donde ` θ;
b y : Máximo de la función log-verosimilitud basada en ajustar
 
cada punto exactamente. θi = log nyii .
Para la regresión logı́stica los elementos fundamentales para la detección
de puntos outliers e influenciales son un vector de residuales y una matriz
de proyección X
D= d2i

donde
√ n    o 1
b yi 2
di = ± 2 ` θbi ; yi − ` xi T β;

lo anterior es positivo si θbi > xT Tb


i β y es negativo si θi < xi β
b b
Una análoga de la matriz de proyección es
1 1
M = I − H = I − V 2 X(X T V X)−1 X T V 2
240 CAPÍTULO 13. REGRESIÓN LOGÍSTICA Y MODELO LOGIT

********************************************************;
* Ejemplo en SAS de DIAGNOSTICOS en regresion logistica*;
* Variable Dependiente: Accidentado (1=Si, 0=No) *;
* Variable Independiente: Velocidad (Km/Hora) *;
********************************************************;

options ps=50 ls=65 nonumber nodate nocenter;

data uno;
input veloc acciden @@;
cards;
55 1 36 0 45 0 60 1 65 1 55 0 48 1 47 0 53 0
;

proc logistic;
model acciden=veloc/influence iplots;
run;

quit;

The SAS System

The LOGISTIC Procedure

Data Set: WORK.UNO


Response Variable: ACCIDEN
Response Levels: 2
Number of Observations: 9
Link Function: Logit

Response Profile

Ordered
Value ACCIDEN Count

1 0 5
2 1 4

Criteria for Assessing Model Fit

Intercept
Intercept and
Criterion Only Covariates Chi-Square for Covariates
13.3. DIAGNÓSTICOS PARA REGRESIÓN LOGÍSTICA 241

AIC 14.365 12.376 .


SC 14.563 12.771 .
-2 LOG L 12.365 8.376 3.989 with 1 DF (p=0.0458)
Score . . 3.222 with 1 DF (p=0.0727)

Analysis of Maximum Likelihood Estimates

Parameter Standard Wald Pr > Standardized


Variable DF Estimate Error Chi-Square Chi-Square Estimate

INTERCPT 1 12.5802 8.5803 2.1497 0.1426 .


VELOC 1 -0.2361 0.1617 2.1300 0.1444 -1.123563
242 CAPÍTULO 13. REGRESIÓN LOGÍSTICA Y MODELO LOGIT

The SAS System

The LOGISTIC Procedure

Analysis of
Maximum
Likelihood
Estimates

Odds
Variable Ratio

INTERCPT 999.000
VELOC 0.790

Association of Predicted Probabilities and Observed Responses

Concordant = 85.0% Somers’ D = 0.750


Discordant = 10.0% Gamma = 0.789
Tied = 5.0% Tau-a = 0.417
(20 pairs) c = 0.875

The SAS System


The LOGISTIC Procedure
Regression Diagnostics
Pearson Residual
Covariates
Case (1 unit = 0.23)
Number VELOC Value -8 -4 0 2 4 6 8

1 55.0000 -0.8174 | * | |
2 36.0000 0.1299 | |* |
3 45.0000 0.3758 | | * |
4 60.0000 -0.4530 | * | |
5 65.0000 -0.2511 | *| |
6 55.0000 1.2234 | | * |
7 48.0000 -1.8675 |* | |
8 47.0000 0.4759 | | * |
9 53.0000 0.9662 | | * |
13.3. DIAGNÓSTICOS PARA REGRESIÓN LOGÍSTICA 243

Regression Diagnostics
Deviance Residual
Case (1 unit = 0.22)
Number Value -8 -4 0 2 4 6 8

1 -1.0116 | * | |
2 0.1829 | |* |
3 0.5140 | | * |
4 -0.6110 | * | |
5 -0.3497 | * | |
6 1.3528 | | * |
7 -1.7328 |* | |
8 0.6389 | | * |
9 1.1483 | | * |
Regression Diagnostics
Hat Matrix Diagonal
Case (1 unit = 0.02)
Number Value 0 2 4 6 8 12 16

1 0.2054 | * |
2 0.1322 | * |
3 0.2508 | * |
4 0.2951 | *|
5 0.2583 | * |
6 0.2054 | * |
7 0.2297 | * |
8 0.2413 | * |
9 0.1818 | * |
244 CAPÍTULO 13. REGRESIÓN LOGÍSTICA Y MODELO LOGIT

Regression Diagnostics
INTERCPT Dfbeta

Case (1 unit = 0.11)


Number Value -8 -4 0 2 4 6 8

1 0.1370 | |* |
2 0.0533 | * |
3 0.2210 | | * |
4 0.2600 | | * |
5 0.1504 | |* |
6 -0.2050 | * | |
7 -0.8625 |* | |
8 0.2472 | | * |
9 0.0296 | * |
Regression Diagnostics
VELOC Dfbeta
Case (1 unit = 0.1)
Number Value -8 -4 0 2 4 6 8

1 -0.1806 | * | |
2 -0.0519 | *| |
3 -0.2080 | * | |
4 -0.2819 | * | |
5 -0.1580 | * | |
6 0.2702 | | * |
7 0.7808 | | *|
8 -0.2277 | * | |
9 0.0205 | * |
13.3. DIAGNÓSTICOS PARA REGRESIÓN LOGÍSTICA 245

Regression Diagnostics
C
Case (1 unit = 0.08)
Number Value 0 2 4 6 8 12 16

1 0.2173 | * |
2 0.00296 |* |
3 0.0631 | * |
4 0.1219 | * |
5 0.0296 |* |
6 0.4868 | * |
7 1.3496 | *|
8 0.0949 | * |
9 0.2536 | * |

Regression Diagnostics
CBAR
Case (1 unit = 0.06)
Number Value 0 2 4 6 8 12 16

1 0.1727 | * |
2 0.00257 |* |
3 0.0473 | * |
4 0.0859 | * |
5 0.0220 |* |
6 0.3868 | * |
7 1.0397 | *|
8 0.0720 | * |
9 0.2075 | * |
246 CAPÍTULO 13. REGRESIÓN LOGÍSTICA Y MODELO LOGIT

The SAS System


The LOGISTIC Procedure
Regression Diagnostics
DIFDEV
Case (1 unit = 0.25)
Number Value 0 2 4 6 8 12 16

1 1.1961 | * |
2 0.0360 |* |
3 0.3115 | * |
4 0.4593 | * |
5 0.1442 | * |
6 2.2168 | * |
7 4.0422 | *|
8 0.4803 | * |
9 1.5261 | * |

Regression Diagnostics
DIFCHISQ
Case (1 unit = 0.28)
Number Value 0 2 4 6 8 12 16

1 0.8408 | * |
2 0.0194 |* |
3 0.1885 | * |
4 0.2912 | * |
5 0.0850 |* |
6 1.8836 | * |
7 4.5270 | *|
8 0.2985 | * |
9 1.1409 | * |
13.3. DIAGNÓSTICOS PARA REGRESIÓN LOGÍSTICA 247

-+------------------------+------------------------+--
P RESCHI | |
e | |
a 2 + +
r | |
s | . |
o 1 + . +
n | |
| . . |
R 0 + . +
e | . . |
s | . |
i -1 + +
d | |
u | |
a -2 + . +
l | |
-+------------------------+------------------------+--
0 5 10
Case Number INDEX

-+------------------------+------------------------+--
D RESDEV | |
e | |
v 2 + +
i | |
a | . |
n 1 + . +
c | . . |
e | . |
0 + +
R | . |
e | . |
s -1 + . +
i | |
d | . |
u -2 + +
a | |
l -+------------------------+------------------------+--
0 5 10
Case Number INDEX
248 CAPÍTULO 13. REGRESIÓN LOGÍSTICA Y MODELO LOGIT

-+------------------------+------------------------+--
H | |
0.3 + . +
H | |
a | |
t | . . |
| . |
D | . |
i | |
a 0.2 + . . +
g | . |
o | |
n | |
a | |
l | . |
| |
0.1 + +
-+------------------------+------------------------+--
0 5 10
Case Number INDEX

--+------------------------+------------------------+--
I 0.5 + +
N | |
T | . |
E | . . . |
R | . . |
C 0.0 + . +
P | |
T DFBETA0 | . |
| |
D | |
f -0.5 + +
b | |
e | |
t | |
a | . |
-1.0 + +
--+------------------------+------------------------+--
0 5 10
Case Number INDEX
13.3. DIAGNÓSTICOS PARA REGRESIÓN LOGÍSTICA 249

--+------------------------+------------------------+--
V 1.0 + +
E | |
L | . |
O | |
C | |
0.5 + +
| |
DFBETA1 | . |
| |
D | |
f 0.0 + . +
b | . |
e | . . . . |
t | . |
a | |
-0.5 + +
--+------------------------+------------------------+--
0 5 10
Case Number INDEX

-+------------------------+------------------------+--
C 1.5 + +
I | |
| . |
D | |
i | |
s 1.0 + +
p | |
l C | |
a | |
c | |
e 0.5 + . +
m | |
e | . |
n | . |
t | . . . |
0.0 + . . +
-+------------------------+------------------------+--
0 5 10
Case Number INDEX
250 CAPÍTULO 13. REGRESIÓN LOGÍSTICA Y MODELO LOGIT

-+------------------------+------------------------+--
C 1.5 + +
I | |
| |
D | |
i | |
s 1.0 + . +
p | |
l CBAR | |
a | |
c | |
e 0.5 + +
m | . |
e | |
n | . . |
t | . . |
0.0 + . . . +
-+------------------------+------------------------+--
0 5 10
Case Number INDEX

-+------------------------+------------------------+--
DIFDEV | |
D 4 + . +
e | |
l | |
t | |
a | |
| |
D | . |
e 2 + +
v | |
i | . |
a | . |
n | |
c | . . |
e | . . |
0 + . +
-+------------------------+------------------------+--
0 5 10
Case Number INDEX
13.3. DIAGNÓSTICOS PARA REGRESIÓN LOGÍSTICA 251

-+------------------------+------------------------+--
D 6 + +
e | |
l | |
t | |
a | . |
4 + +
C | |
h DIFCHISQ | |
i | |
S | |
q 2 + . +
u | |
a | . |
r | . |
e | . . |
0 + . . . +
-+------------------------+------------------------+--
0 5 10
Case Number INDEX
252 CAPÍTULO 13. REGRESIÓN LOGÍSTICA Y MODELO LOGIT
Capı́tulo 14

Regresión Logı́stica
Multinomial

14.1. Extensión del Modelo Lineal Logit a


datos Policótomos
Suponiendo que la respuesta tiene m categorias denotemos por πij la pro-
babilidad de que la i-ésima observacion caiga en la j-ésima categoria de
la respuesta, esto es,
πij = P (Yi = jXi )

la función logı́stica multivariada

exp(xTi γj )
πij = Pm T
l=1 exp(xi γl )

donde xi es un vector de regresores para la i-ésima observación


γj es un vector de parámetros para la j-ésima categoria de la variable
dependiente.
Pm
Ya que j=1 πij = 1 necesitamos imponer restricciones en los γj para
Pm
definirlos de manera única, por ejemplo, j=1 γj = 0.
Para ajustar el modelo podemos usar el método de máxima verosimilitud.
Notemos que cada Yi toma valores posibles de 1, 2, ..., m con probabilidades
πi1 , πi2 , ..., πim . Defina las variables indicadoras Wi1 , Wi2 , ..., Wim tal que

1 si Yi = j
Wij =
0 si Yi 6= j

253
254 CAPÍTULO 14. REGRESIÓN LOGÍSTICA MULTINOMIAL

Asi
m
w
Y
p(yi ) = πijij
j=1

Si las observaciones muestreadas son independientes, entonces la f.d.p.


conjunta esta dada por
n Y
m
w
Y
p(y1 , y2 , ..., yn ) = πijij
i=1 j=1

Usando el modelo
n Y
m  wij
Y exp(xTi γj )
p (y1 , y2 , ..., yn X) = Pm T
i=1 j=1 l=1 exp(xi γl )

y
n X
m
( m
!)
X X
log (L(γ1 , γ2 , ..., γm )) = Wij xTi γj − log exp(xTi γl )
i=1 j=1 l=1
n X
m n m
!
X X X
= Wij xTi γj − log exp(xTi γl )
i=1 j=1 i=1 l=1

Diferenciando con respecto a los parámetros, y haciendo las derivadas


parciales iguales a cero, produce las ecuaciones estimadoras no lineales
m n 
exp(xTi cj )
X X 
Wij xi = Pm T
xi , j = 1, ..., m
i=1 i=1 l=1 exp(xi cl )

Estas
Pecuaciones pueden resolverse numéricamente sujetas a las restriccio-
m
nes j=1 cj = 0.

Ejemplo 14.1 Escolaridad de la mujer en matrimonios Para estu-


diar la relación entre la escolaridad de la mujer asociado con la escolaridad
del hombre y el proveedor del hogar consideremos la siguiente tabla:

Nivel Educativo
Hombre
Mujer 1 2 3
1 17 5 0
2 8 32 24
3 3 15 45

La librerı́a nnet nos permite estimar un modelo multinomial utilizando


redes neuronales.
14.2. MODELO DE ODDS PROPORCIONALES 255

parejas<-read.table(’c:/parejas.txt’,header=T)
escolmuj<-parejas[,9]
escolhom<-parejas[,4]

library(nnet)
> summary(multinom(escolmuj~escolhom))
# weights: 9 (4 variable)
initial value 163.693231
iter 10 value 116.717807
final value 116.716096
converged
Call:
multinom(formula = escolmuj ~ escolhom)

Coefficients:
(Intercept) escolhom
2 -3.223631 2.568471
3 -5.963363 3.668512

Std. Errors:
(Intercept) escolhom
2 0.8547668 0.5587736
3 1.0983385 0.6229113

Residual Deviance: 233.4322


AIC: 241.4322

Correlation of Coefficients:
2:(Intercept) 2:escolhom 3:(Intercept)
2:escolhom -0.9306203
3:(Intercept) 0.6798904 -0.6883345
3:escolhom -0.7642459 0.8631553 -0.9268761
>

14.2. Modelo de Odds Proporcionales


En muchos casos la variable respuesta multinomial presenta una estructu-
ra ordinal. Asumiendo que una variable explicativa está relacionada linea-
mente con con el log de los odds de algún evento, entonces la ordinalidad
de la respuesta implca que los eventos de interés tienen una estructura
ordinal. Si para los diferentes valores o niveles de la variable explicativa
las probabilidades estimadas de eventos adyacentes no son muy diferentes,
entonces esto nos indica que estos eventos se deben combinar para formar
256 CAPÍTULO 14. REGRESIÓN LOGÍSTICA MULTINOMIAL

uno solo (Harrel,Jr., 2001).


El modelo multinomial de odds proporcionales (OP) para una respuesta
con niveles 0, 1, 2, · · · , k (0 es la categorı́a de referencia) es

1
P (Y ≤ j | X) =
1 + exp [− (αj + Xβ)]

donde j = 1, 2, · · · , k. Hay k interceptos.

Ejemplo 14.2 Escolaridad de la mujer en matrimonios Para estu-


diar la relación entre la escolaridad de la mujer asociado con la escolaridad
del hombre y el proveedor del hogar consideremos la siguiente tabla:

Escolaridad Escolaridad Ingreso


Mujer Hombre Mujer Hombre
1 1 1 4 13
2 1 2 0 5
3 1 3 0 0
4 2 1 0 8
5 2 2 2 30
6 2 3 0 24
7 3 1 0 3
8 3 2 1 14
9 3 3 1 44

> parejas<-read.table(’c:/parejas.txt’,header=T)
> library(MASS)
> escolmuj<-parejas[,9]
> escolhom<-parejas[,4]
>inghom<-parejas[,5]
> summary(polr(as.factor(escolmuj)~as.factor(escolhom)+as.factor(inghom)))

Re-fitting to get Hessian

Call:
polr(formula = as.factor(escolmuj) ~ as.factor(escolhom) + as.factor(inghom))

Coefficients:
Value Std. Error t value
as.factor(escolhom)2 2.4188099 0.5493499 4.4030410
as.factor(escolhom)3 3.9357571 0.5867226 6.7080375
as.factor(inghom)1 0.5897497 0.7702928 0.7656176

Intercepts:
14.2. MODELO DE ODDS PROPORCIONALES 257

Value Std. Error t value


1|2 0.8077 0.7754 1.0416
2|3 3.8512 0.8660 4.4472

Residual Deviance: 238.0343


AIC: 248.0343

> summary(polr(as.factor(escolmuj)~as.factor(escolhom)))

Re-fitting to get Hessian

Call:
polr(formula = as.factor(escolmuj) ~ as.factor(escolhom))

Coefficients:
Value Std. Error t value
as.factor(escolhom)2 2.463945 0.5468318 4.505854
as.factor(escolhom)3 4.005384 0.5814585 6.888512

Intercepts:
Value Std. Error t value
1|2 0.3025 0.3936 0.7686
2|3 3.3397 0.5341 6.2526

Residual Deviance: 238.638


AIC: 246.638
>

> summary(polr(as.factor(escolmuj)~as.factor(inghom)))

Re-fitting to get Hessian

Call:
polr(formula = as.factor(escolmuj) ~ as.factor(inghom))

Coefficients:
Value Std. Error t value
as.factor(inghom)1 1.567863 0.7447047 2.105349

Intercepts:
Value Std. Error t value
1|2 -0.2983 0.7192 -0.4147
2|3 1.8223 0.7392 2.4650

Residual Deviance: 296.3358


258 CAPÍTULO 14. REGRESIÓN LOGÍSTICA MULTINOMIAL

AIC: 302.3358
>
Parte VI

Anexos

259
Capı́tulo 15

Resultados Asintóticos

15.1. Distribuciones Muestrales de los MLE


Asumamos que la función de log-verosimilitud tiene un único máximo en
βb y que este estimador esta cercano al verdadero β.
La aproximación de Taylor de primer orden del vector Score U (β) alre-
dedor del punto β =βb es
    
U (β) ' U βb +H βb β−βb

 
donde H βb es la matriz de segundas derivadas de la función log-verosimilitud
evaluada en β =β. b Asintóticamente H es igual al valor esperado que
está relacionado con la matriz de información
h i
J = E UUT = E [−H]

para muestras grandes


   
U (β) ' U βb − J β−βb

pero  
U βb = 0

esto ya que βb es el punto en el cual la función de log-verosimilitud es


máximo y sus derivadas son cero. Por lo tanto, aproximadamente
 
βb − β ≈ J −1 U

261
262 CAPÍTULO 15. RESULTADOS ASINTÓTICOS

asumiendo que la inversa exista.


Si J se asume como constante, entonces
 
E βb − β ≈ J −1 E (U) = 0

asi  
E βb = β

(lo anterior se cunple asintóticamente).


La dispersión de βb
  T  h i
E βb − β βb − β ≈ J −1 E UUT J −1 = J −1

ya que h i
J = E UUT

y
T
J −1 = J −1

ya que J es simétrica.
Asi, para muestras grandes
 T  
βb − β J βb − β ∼ χ2p

Este último es llama el Estadı́stico de WALD. Equivalentemente


 
βb − β N 0, J −1


cuando n → ∞.

15.2. Modelos Loglineales


Para la distribución de Poisson con frecuencias de celda y1 , ..., yN y para-
metros λ1 , ..., λN la esperanza por celda E[yi ] = λi .
Para la distribución multinomial las frecuencias de celda y1 , ..., yN , con
probabilidades θ1 , ..., θN con
N
X
θi = 1
i=1

y frecuencia total
N
X
yi = n
i=1
15.2. MODELOS LOGLINEALES 263

valor esperado
E[yi ] = nθi i = 1, ..., N

Para la distribución producto multinomial las frecuencias esperadas son

E[yjk ] = yj. θjk

Para tablas de contingencia bidimensionales, una hipótesis es que las filas


y las columnas son independientes, es decir

θjk = θj. θ.k

entonces
E[yjk ] = nθj. θ.k (∗)

Para tablas con total de fila fijo yj.

θjk = θ.k ∀j

para la anterior expresión las probabilidades de celda son iguales en todas


las celdas(hipótesis de homogeneidad).
Los valores esperados son

E[yjk ] = yj. θ.k

esto sugiere que para los GLM el logaritmo es la función link natural entre
E[yi ] y una combinación lineal de parámetros

yi = log E[yi ] = XTi β i = 1, ..., N

de esta expresión se intuye el porque del nombre de log-lineal.


(*) se puede expresar como

yij = log E[yjk ] = µ + αj + βk

y el correspondiente modelo maximal E[yjk ] = nθjk puede escribirse como

yjk = log E[yjk ] = µ + αj + βk + (αβ)jk

La hipótesis de independencia es equivalente a la hipótesis de no interac-


ción, es decir
θjk = θj. θ.k ∀jk ≡ (αβ)jk = 0 ∀jk

Existen (J − 1)(K − 1) parámetros independientes.


264 CAPÍTULO 15. RESULTADOS ASINTÓTICOS

15.3. Modelos de Independencia para tablas


Bidimensionales
Estos modelos se pueden resumir con la siguiente tabla

Modelos loglineales para tablas de


contingencia bidimensionales
Modelo Dist. Dist. Dist. producto
Log-lineal Poisson multinom. multinom. con yj. fijo
Mod. maximal E[yjk ] = λjk E[y
P jkP] = nθjk con E[y
P jk ] = yj. θjk con
µ + αj + βk + (αβ)jk j k θjk = 1 k θjk = 1 j = 1, .., J
µ + αj + βk con Hipótesis Hipótesis Hipótesis de
J +K =1 Independ. Independ. Homogeneidad
parámetros indep. E[yjk ] = λj λk E[y
P jk ] = nθ Pj. θ.k con E[y
P jk ] = yj. θ.k con
j θ j. = k θ.k = 1 k θ.k = 1
Términos que deben µ + αj
incluirse en cualquier µ ya que n es fijo ya que
modelo log-lineal yj. es fijo

Ejemplo

: Asociación entre el tumor y el lugar.

Ho : E[yjk ] = nθj. θ.k


X
θj. = 1
j
X
θ.k = 1
k

el correspondiente modelo loglineal es

ηjk = log E[yjk ] = µ + αj + βk

sujeto a X X
αj = βk = 1
j k

o
α1 = 0 y β1 = 0

Hay J = 4 tumores y K = 3 lugares, ademas hay

1 + (J − 1) + (K − 1) = J + K − 1 = 6
15.4. TABLAS DE CONTINGENCIA Y MODELOS LOGLINEALES 265

pendientes a ser estimadas.


este modelo es comparado (implicitamente) al modelo maximal

ηjk = µ + αj + βk + (αβ)jk

el modelo maximal tiene p = 12 parámetros, ası́ que

ηbjk = log yjk

y
D=0

si Ho es correcto, se tiene que

D ∼ χ2N −p

con N = 12 y p = 6.
Para este problema
X σ
D=2 σ log = 51,795
e
y como
P χ26 > 50 < 0,001


por lo tanto rechazamos Ho .

15.4. Tablas de Contingencia y Modelos Lo-


glineales
La variable respuesta y las explicativas son de tipo categórico. Las obser-
vaciones consisten de conteos de frecuencias. Una tabla de contingencia es
la tabla que se forma al cruzar las diversas variables.

Ejemplo

: Muestra de gente con cancer en la piel


SITIO
TIPO DE TUMOR cabeza y nuca Tronco Extremidades TOTAL
Tipo melomático de Hutkinson 22 2 10 34
Superficial 16 54 115 185
Nodular 19 33 73 125
Indeterminado 11 17 28 56
TOTAL 68 106 226 400
266 CAPÍTULO 15. RESULTADOS ASINTÓTICOS

Ejemplo

: Ensayos de vacunas para la gripa.


RESPUESTA
TIPO DE TUMOR Leve Moderada Grande TOTAL
Placebo 25 8 5 38
Vacuna 6 18 11 35
TOTAL 31 26 16 73
Respuesta : Niveles de HIA (Anticuerpo inhibidor hemoglutinin)

Ejemplo

: Relación entre uso de aspirina y úlcera


USO DE ASPIRINA
TIPO DE ULCERA No usa Usa TOTAL
GASTRICA
Casos 39 25 64
Controles 62 6 68
DUODENAL
Casos 49 8 57
Controles 53 8 61
TOTAL 203 47 250

NOTACION PARA TABLAS BIDIMENSIONALES

B1 ··· BK TOTAL
A1 y11 ··· y1k y1.
A2 y21 ··· y2k y2.
.. .. .. ..
. . . .
AJ yj1 ··· yj1 yj.
TOTAL y,1 ··· y.j n = y..

Si las yjk son Poisson con λjk ≥ 0 e independientes

J Y
k y
Y λjkjk e−λjk
f (y; λ) =
j=1 k=1
yjk !

Si hay restricción en los yjk ’s, por ejemplo, n fijo, de la propiedad aditiva

n ∼ P oisson(λ..)
XX
λ.. = λjk
15.4. TABLAS DE CONTINGENCIA Y MODELOS LOGLINEALES 267

J Y
K y
Y λjkjk e−λjk
f (Y | n) = λn −λ..
.. e
j=1 k=1 n!
 
J Y
K y
Y θjkjk λjk
= n  donde θjk = (∗)
j=1 k=1
yjk ! λ..

QJ QK QJ QK
ya que λn.. = j=1 k=1 λy..jk y e−λ = j=1 k=1 e−λjk . A (∗) la llama-
remos Distribución multinomial.
Otra forma de restricción es para tablas en las cuales los totales de fila
o de columna, en lugar del total, son fijos. En esta caso la distribución
de probabilidades para cada fila (o columna) es multinomial; por ejemplo,
para la j − ésima fila con total de fila fijo yj. la distribución es

k y
Y θjkjk
f (yj1 , ..., yjk | yj. ) = yj. !
yjk !
k=1

donde X
θjk = 1
k

las filas se asumen independientes

J k y
Y Y θjkjk
f (y | yj. , j = 1, ..., J) = yj. (∗∗)
j=1
yjk !
k=1

donde X
θjk = 1 ∀j
k

A (∗∗) la llamaremos Distribución Producto Multinomial

Ejemplo

: Para la normal con varianza σ 2 , los estadı́sticos de razón de verosimi-


litud dependen de σ 2 y no pueden calcularse directamente de los valores
ajustados. Esta dificultad se evita procediendo de la manera siguiente :
Sea

µ
bi (0) valores ajustados bajo Ho
µ
bi (1) valores ajustados bajo H1
268 CAPÍTULO 15. RESULTADOS ASINTÓTICOS

1 X 2
Do = [yi − µ
bi (0)]
σ2 i
1 X 2
D1 = [yi − µ
bi (1)]
σ2 i

si Ho es correcto
D1 ∼ χ2n−p
si H1 es correcto
Do ∼ χ2n−q

∆D = Do − D1 ∼ χ2p−q

si Ho no es cierto ∆D se distribuira como una χ2 no central. Para estimar


a σ 2 usamos
Do −D1
p−q
F = D1
∼ Fp−q,n−p
n−p

Distribución muestral para el estadı́stico de log-verosimilitud

b y) ≈ `(β;
`(β; b y) + (β − β) b + 1 (β − β)
b T U (β) b T H(β)(β
b − β)
b (∗)
2
donde
∂`
U (β)
b : Vector de Scores, que se obtiene de evaluada en ∼β
c
∂βj
∂2`
H(β)
b : Matriz de segundas derivadas evaluada en βb
∂βj ∂βk

De la definición de βb se tiene que U (β)


b =0
También para muestras grandes H(β) b puede aproximarse por medio de la
matriz de información J = E[−H].
Ası́(∗) puede reordenarse para obtener
T
b y = 1 β − βb J(β)
      
` β;b y − ` β; b β − βb
2
como tenemos que
 T  
b β − βb ∼a χ2
β − βb J(β) p

entonces h    i
b y ∼a χ2
b y − ` β;
2 ` β; p
15.4. TABLAS DE CONTINGENCIA Y MODELOS LOGLINEALES 269

15.4.1. Estadı́stico de la razón de verosimilitud (De-


viance)
.
Este estadı́stico se define como
h    i
D = 2 log λ = 2 ` βbmáx ; y − ` β; by
nh   i h   i o
D = 2 ` βbmáx ; y − ` (β; y) − ` β; b y − ` (β; y) + [` (βmáx ; y) − ` (β; y)]

en la parte derecha de la anterior igualdad el primer término se distribuye


como una χ2n , el segundo término como una χ2p y el tercer término es muy
cercano a cero si el modelo es muy bueno; entonces podemos decir que

D ∼ χ2n−p (si las 2 primeras componentes son independientes y la tercera es cero) (∗∗)

15.4.2. El método de Newton-Raphson


a) Comience con un valor inicial bo (usualmente bo = 0)
b) En cada iteración ` + 1 calcule los nuevos estimadores

b`+1 = b` + (X T V` X)−1 X T (y − p` )

donde
1
p` =
1 + exp(−XT
i bi )
y
p` i
V` = diag
1 − p` i

c) Continue las iteraciones hasta que b`+1 ≈ b`.


Note que la convergencia tiene lugar cuando

(X T V` X)−1 X T (y − p` ) ≈ 0

y asi
XT y = XT p

que llamaremos ecuaciónes estimadoras son aproximadamente satis-


fechas.

El trabajo con datos categóricos está sustentado en gran parte por resul-
tados asintóticos a pesar de que en los últimos tiempos se ha logrado un
gran avance en métodos exactos.
de Inferencia
270 CAPÍTULO 15. RESULTADOS ASINTÓTICOS

Para tablas de contingencia el proceso de estimación de modelos loglineales


opera ası́(realmente opera para otro tipo de modelos también): Se asume
un modelo teórico válido, por ejemplo el modelo de independencia, y bajo
este modelo se trata de encontrar un conjunto de valores, estimadores,
que reproduzcan la tabla lo más cercano posible a la observada. Entre los
métodos más utilizados tenemos:

Estimación de máxima verosimilitud MLE.


Mı́nimo χ2 MCE.
Mı́nimo χ2 modificado MMCE.
Estimación por mı́nimos cuadrados ponderados WLSE.
Estimación por mı́nima discrimación por información MDIE.
Estimación Bayesiana.

15.5. Elementos Básicos de Inferencia


15.5.1. Teorema de Rao-Blackwell
Sea X1 , ..., Xn con función densidad de probabilidad conjunta f (x1 , ..., xn | θ) ,
y sea S = (s1 , ..., sk ) un vector de estadı́sticos conjuntamente suficientes
para θ. Si T es cualquier estimador insesgado de J (θ) , y si T ∗ = E [T | S],
entonces
1) T ∗ es un estimador insesgado de J (θ)
2) T ∗ es una función de S y
3) var (T ∗ ) ≤ var (T ) para todo θ, y var (T ∗ ) < var (T ) para algún θ a
menos P (T = T ∗ ) = 1.
prueba
Por suficiencia fT /S (t) no involucra a θ, asi

t∗ (S) = E (T | S)

no depende de θ. Asi

T ∗ = t∗ (S) = E (T | S)

es un estimador que es una función de S, y además,

E [T ∗ ] = ES [T ∗ ]
= ES [E (T | S)]
= E [T ]
= J (θ)
15.5. ELEMENTOS BÁSICOS DE INFERENCIA 271

para lo anterior recuerde que

E [E (Y | X)] = E (Y )

ahora

var (T ) = var [E (T | S)] + E [var (T | S)]


≥ var [E (T | S)]
= var (T ∗ )

para lo anterior recuerde que

var (Y ) = EX [var (Y | X)] + varX [E (Y | X)]

Se tiene la igualdad
var (T ) = var (T ∗ )

si y solo si
E [var (T | S)] = 0

que ocurre si y solo si


var (T | S) = 0

con probabilidad uno, o si

T = E [T | S] = T ∗

Definicion
Una familia de funciones densidad de probabilidad

{fT (t; θ) : θ ∈ Θ}

se dice completa si E [µ (T )] = 0 para todo θ ∈ Θ entonces µ (t) = 0 con


probabilidad uno para todo θ ∈ Θ.

15.5.2. Teorema de Lehmann-Scheffé


Sea X1 , ..., Xn con función densidad de probabilidad conjunta f (x1 , ..., xn ; θ)
y sea S un vector de estadı́sticos suficiente y completo para θ. Si T ∗ =
t∗ (S) es un estadı́stico insesgado para J (θ) y una función de S, entonces
T ∗ es un estimador uniformemente insesgado de varianza mı́nima de J (θ)
(UMVUE).
Prueba
Por completez de cualquier estadı́stico que sea función de S y un estimador
insesgado de J (θ) debe ser igual a T ∗ con probabilidad 1.
272 CAPÍTULO 15. RESULTADOS ASINTÓTICOS

Si T es cualquier otro estadı́stico que es insesgado para J (θ) entonces por


Rao-Blackwell
E [T | S]

tambien es insesgado para J (θ) y una función de S, asi por unicidad

T ∗ = E [T | S]

con probabilidad uno. Además

var (T ∗ ) ≤ var (T ) ∀θ

asi T ∗ es un UMVUE de J (θ) .


Definición, Clase exponencial
Una función se dice que es un miembro de la clase exponencial regular
(CER) si puede expresarse de la forma
( P 
k
c (θ) h (x) exp q
j=1 j (θ) t j (x) x∈A
f (x; θ) =
0 enotrocaso

donde θ = (θ1 , ..., θk ) es un vector de parámetros desconocidos. Si el espacio


paramétrico tiene la forma

Θ = {θ : ai ≤ bi i = 1, ..., k}

(en el anterior conjunto ai = −∞ y bi = ∞ son valores paramétricos) y si


se satisfacen las siguientes condiciones de regularidad:
1) El conjunto
A = {x : f (x; θ) > 0}

no depende de θ.
2) Las funciones qj (θ) son no triviales, funcionalmente independientes y
continuas de las θi .
0
3) a) Para una variable aleatoria continua, las derivadas tj (x) son funcio-
nes de x continuas linealmente independientes en A.
b) Para una variable aleatoria discreta, las tj (x) son funciones no triviales
de x en A, y ningunas son funciones lineales de las otras.
TEOREMA
Si X1 , ..., Xn es una m.a de un miembro de una CER, entonces los es-
tadı́sticos
n
X n
X
S1 = t1 (xi ) , ..., Sk = tk (xi )
i=1 i=1

son un conjunto minimal de estadı́sticos suficientes y completos para θ1 , ..., θk .


15.5. ELEMENTOS BÁSICOS DE INFERENCIA 273

Ejemplo
Sea X ∼ binomial (1, p)

1−x
f (x, p) = px (1 − p)
  
p
= (1 − p) exp x ln x ∈ A = {0, 1}
1−p

que es con
p
q1 (p) =
1−p
t1 (x) = x

si tenemos una muestra aleatoria X1 , ..., Xn

t (xi ) = xi
Xn
S = xi
i=1

S es un estadı́stico suficiente y completo para p. Si deseamos un UMVUE


de var (x) = p (1 − p) podemos tratar X 1 − X
    h 2i
E X 1−X = E X −E X
= p − p2 + var X
 

p (1 − p)
= p − p2 −
 n 
1
= p (1 − p) 1 −
n

asi   
n 
E X 1−X = p (1 − p)
n−1

y este es el UMVUE de p (1 − p) .

15.5.3. Pruebas de Hipótesis


Sean X1 , ..., Xn con f.dpc y sea C la region crı́tica; la función de potencia
que corresponde a C es

πC (θ) = P [(x1 , ..., xn ) ∈ C | θ]

Definición
274 CAPÍTULO 15. RESULTADOS ASINTÓTICOS

Una prueba Ho : θ = θo vs Ha : θ = θ1 basada en la región crı́tica C ∗ se


dice que es una prueba mas poderosa de tamaño α si
1) πC ∗ (θo ) = α y
b) πC ∗ (θ1 ) ≥ πC (θ1 ) para cualquier otra región critica de tamaño α

15.5.4. Lema de Neyman-Pearson


f (x1 ,...,xn ;θo )
Sea X1 , ..., Xn con f (x1 , ..., xn ; θ) . Sea λ (x1 , ..., xn ; θo , θ1 ) = f (x1 ,...,xn ;θ1 )
y sea
C ∗ = {(x1 , ..., xn ) : λ (x1 , ..., xn ; θo , θ1 ) ≤ k}

donde k es una constante tal que

P [(x1 , ..., xn ) ∈ C ∗ | θo ] = α

entonces C ∗ es la región critica de tamaño α mas potente para probar


Ho : θ = θo vs Ha : θ = θ1 .
Ejemplo
H o : π = πo
H a : π = π1 > π o
S ∼ binomial (n, π)

n−s
nsπoS (1 − πo )
λ= n−s ≤k
nsπ1S (1 − π1 )

S
{}πo (1 − π1 )π1 (1 − πo ) ≤ k1

o
S ln{}πo (1 − π1 )π1 (1 − πo ) ≤ ln k1

rechace Ho si s ≥ k2

P [S ≥ i | π = πo ] = 1 − B (i − 1; n, πo ) = αi

asi para enteros i = 1, ..., n pruebas exactas mas poderosas se logran para
rechazar Ho si s ≥ i.
Definición
Sea X1 , ..., Xn con fdpc f (x1 , ..., xn ; θ) para θ ∈ Θ, y considere hipotesis
de la forma

Ho : θ ∈ Θo
Ha : θ ∈ Θ − Θo
15.5. ELEMENTOS BÁSICOS DE INFERENCIA 275

donde Θo ⊂ Θ. Una región critica C ∗ y la prueba asociada, se dice que


son uniformemente mas potentes de tamaño α (UMP) si

máx πC ∗ (θ) = α
θ∈Θo

y
πC ∗ (θ) ≥ πC (θ)

para todo θ ∈ Θ − Θo y todas las regiones criticas C de tamaño α.


Teorema
Sea X1 , ..., Xn tiene fdpc de la forma

f (x; θ) = C (θ) h (x) exp (q (θ) t (x))

donde q (θ) es una función creciente de θ


1) Una prueba UMP de tamaño α para

Ho : θ ≤ θo
Ha : θ > θo

se rechaza Ho si t (x) ≥ k, donde P [t (x) ≥ k | θo ] = α


2) Una prueba UMP de tamaño α para Ho : θ ≥ θo vs H1 : θ < θo es
rechazar Ho si
t (x) ≤ k

donde
P [t (x) ≤ k | θo ] = α

15.5.5. Pruebas Condicionales


Algunas veces es posible eliminar parámetros ”nuisance” y obtener pruebas
exactas de tamaño α considerando test basados en variables condicionales.

θ : parametronuisance
S : estadı́sticosuf icienteparaθ

la distribución de X | S no depende de θ.
Ejemplo

X ∼ binomial (n1 , π1 )
Y ∼ binomial (n2 , π2 )
276 CAPÍTULO 15. RESULTADOS ASINTÓTICOS

donde X y Y son independientes.

Ho : π1 = π2 = π
Ha : π1 < π2

bajo Ho , la fdpc es X y Y es
n1 +n2 −(x+y)
f (x, y) = n1 xn2 yπ x+y (1 − π)

es claro que S = X + Y es suficiente para π.


Una prueba basada en (X, Y ) dado S = s ya que Y = S − X, es suficiente
una prueba basada en Y | S = s. Bajo Ho
S ∼ binomial (n1 + n2 , π)

fS,y (S, y)
fY /S (y) =
fS (S)
fX,Y (S − y, y)
=
fS (S)
n1 +n2 −S
n1 S − yn2 yπ S (1 − π)
= n1 +n2 −S
n1 + n2 Sπ S (1 − π)
n2 yn1 S − y
=
n1 + n2 S
donde
y = 0, ..., S
S = 0, ..., n1 + n2

observe que fY /S (y) es igual a una hipergeometrica que no involucra π.


Para Ha : π1 < π2 rechace Ho si y ≥ k (S) , o para una de tamaño α
rechace Ho si
s
X n2 in1 s − i
≤α
i=y
n1 + n 2 s

15.6. Estimación por el Método de Máxima


Verosimilitud
El método de estimación de máxima verosimilitud fue desarrollado por
Fisher y ha llegado a ser el más popular método de estimación, ya que po-
see ventajas teóricas y prácticas que lo aventajan sobre los otros métodos1
1 En el Apéndice B mostramos una de las propiedades más importantes de los estimadores

de máxima verosimilitud como es la normalidad asintótica


15.6. ESTIMACIÓN POR EL MÉTODO DE MÁXIMA VEROSIMILITUD277

(Serfling, 1980). Supongamos que p(y; θ) es la ley de probabilidad de Y,


y θ ∈ Θ. La función de verosimilitud de θ dado y es L(θ; y) ∝ p(y; θ). Un
estimador de máxima verosimilitud, si existe, esta definido por la relación

L(θ;
b y) = sup L(θ, y).
θ∈Θ

Si p(y; θ) es diferenciable y Θ es un conjunto abierto, entonces θb es una


solución a las ecuaciones
∂L
=0
∂θ
o equivalentemente a las ecuaciones de verosimilitud

∂ log L
=0
∂θ
asumiendo θ que caiga en Θ.
Si YT es una muestra (XT1 , XT2 , ..., XTN ) de tamaño N, donde las XT1 0 s son
i.i.d. con ley f (x; θ) entonces
N
Y
p(y; θ) = f (xl ; θ)
l=1

Si θbN es el EMV se puede mostrar bajo algunas condiciones de regularidad


que
√ L
N (θbN −θ) → Nm 0, I−1 (θ)

, cuando N → ∞,

donde m es la dimensión de Θ y I(θ) = (ijk (θ)) es la matriz de información


de Fisher, esto es,

∂ 2 log f (X; θ)
 
ijk (θ) = −E
∂θj ∂θk

Más generalmente, supongamos que YT contiene muestras aleatorias (XT1j , XT2j , ..., XTnj j )
de tamaño nj , donde los XTlj0 s, l = 1, ..., nj son i.i.d., con densidad fj (x; θ),
j = 1, 2, ..., s. Entonces
nj
s Y
Y
p(y; θ) = f (xlj ; θ),
j=1 l=1
s
X nj
N = nj y → λj > 0 cuando N → ∞
j=1
N

I(θ) = (ikk0 (θ))


278 CAPÍTULO 15. RESULTADOS ASINTÓTICOS

Con
s
∂ 2 log f (X; θ)
X  
ikk0 (θ) = − λj E
j=1
∂θk ∂θk0

Ası́
s
X
I(θ) = λj Ij (θ)
j=1

donde Ij (θ) es la matriz de información de la j-ésima población.

15.6.1. Distribución Multinomial MN(N, π)


Definición: Decimos que un modelo es un modelo no restringido si no se
imponen restricciones adicionales sobre π, más allá de la restricción básica
R
X
πi = 1
i=1

Considere

R∗ = R−1
 
π1
 π2 
π∗ =  .
 
 ..


πR−1

Entonces π̂i = nNi = pi , i = 1, 2, · · · , R−1 son los EMV de πi. Tenemos


entonces que π̂∗ es el EMV de π∗ . Haciendo
R−1
X nR
π̂ = 1 − π̂i = = pR
i=1
N

π̂ es el EMV sin restricción de π.


( R−1
)
X
Π∗ = Θ∗ = π∗ : 0 < πi < 1, i = 1, 2, · · · , R − 1, πi < 1
i=1
( R
)
X
Θ = π: 0 < πi < 1, i = 1, 2, · · · , R, πi = 1
i=1

El modelo, digamos M, puede ser restringido en el sentido que algunas res-


tricciones adicionales se impongan a π. Supongamos que se ha especificado
15.6. ESTIMACIÓN POR EL MÉTODO DE MÁXIMA VEROSIMILITUD279

a πi como una función conocida del parámetro desconocido β,

πi = πi (β), i = 1, 2, · · · , R

π = π(β)

Estas relaciones se asumen consistentes,


R
X
πi (β) = 1
i=1

Ası́, la ley de probabilidad de la tabla es


N!
P [N = n; β] = π1 (β)n1 π2 (β)n2 · · · πR (β)nR
n1 !n2 ! · · · nR !

Si β̂ es el EMV de β entonces π̂M = π(β̂) es el EMV de π bajo M.


El modelo restringido M puede expresarse alternamente en términos de
ecuaciones restringidas de las π, digamos

f (π) = 0

de tal forma que se puede eliminar β.


Si el número de β’s independientes es m, entonces el número de parámetros
independientes, digamos u, está dado por

u = (R − 1) − m = R∗ − m

π̂M puede obtenerse directamente, sin obtener β̂, maximizando la función


log-verosimilitud sujeto a las restricciones, con multiplicadores de Lagran-
ge.

M : π= π(β), ecuaciones libres de especificaciones


M : f (π) = 0, ecuaciones con especificaciones

Ejemplo

πij = πi+ π+j o


X X
πij = ξi ηj ξi = ηj = 1
i j

estas son ecuaciones libres de especificación


 
πij πrc
ln = 0 → ecuación con especificación de restricción
πic πrj
280 CAPÍTULO 15. RESULTADOS ASINTÓTICOS

πij = πi+ π+j ⇔ πij − πi+ π+j = 0 i = 1, ..., r − 1, j = 1, ..., c − 1

tenemos

R = rc
M = (r − 1) + (c − 1)
µ = (R − 1) − M = (r − 1)(c − 1)

P (y; θ) : ley de probabilidad de y, θ ∈ Θ

La función de verosimilitud de θ dado y es

L(θ; y)αP (y; θ)

Una estimada de MV, si existe, esta definida por la relación

L(θ;
b y) = sup L(θ; y)
mathbf θ∈Θ

Si P (y; θ) es diferenciable en θ, y Θ es un conjunto abierto, entonces θb es


una estimación a las ecuaciones
∂L
=0
∂θ

O equivalentemente a las ecuaciones de verosimilitud

∂ ln L(θ; y)
=0
∂θ

asumiendo que θb caiga en Θ.


Si Y0 es una muestra (X01 , X02 , ..., X0N ) de tamaño N , donde los X0` son
i.i.d con ley f (X; θ) entonces
N
Y
P (y; θ) = f (X` ; θ)
`=1

si θbN es el EMV se puede demostrar bajo algunas condiciones de regula-


ridad que
√  
N θbN − θ aNm 0, I−1 (θ) cuando N → ∞, m : dimensión de Θ

15.6. ESTIMACIÓN POR EL MÉTODO DE MÁXIMA VEROSIMILITUD281

I(θ) = [ijk (θ)] →matriz de información de Fisher

∂ 2 ln f (X; θ)
 
ijk (θ) = −E
∂θj ∂θk

Mas generalmente, supongamos que Y0 contiene muestras aleatorias (X01j , X02j , ..., X0nj j )
de tamaño nj donde los X0`j ` = 1, ..., nj son i.i.d, con densidad fj (X; θ)
j = 1, 2, ..., s, entonces
nj
s Y
Y
P (y; θ) = fj (X`j ; θ)
j=1 `=1

s
X
N = nj (15.1)
j=1
nj
→ λj cuando N → ∞ (15.2)
N

I(θ) = [ikk0 (θ)]

s
∂ 2 ln fj (X; θ)
X  
ikk0 (θ) = − λj E
j=1
∂θk ∂θk0

asi
s
X
I(θ) = λj Ij (θ)
j=1

donde
Ij : matriz de información para la j-ésima población

15.6.2. Distribución Producto Multinomial P M (n+ , π)

s
X
R= rj
j=1

donde rj : número de celdas de la j-ésima distribución multinomial y


282 CAPÍTULO 15. RESULTADOS ASINTÓTICOS

R−s : número de parámetros independientes πij en el modelo sin restringir


con las restricciones básicas
rj
X
πij = 1 ∀ j = 1, ..., s
i=1
0
Si m es el número de β s independientes, entonces el número de restric-
ciones independientes f , digamos µ, está dado por
µ = r−s−m
= R∗ − m

Para el modelo de homogeneidad


πij − πic = 0 j = 1, ..., c − 1, i = 1, ..., r − 1 → ecuación de restricción

πij = θi j = 1, ..., c, i = 1, ..., r − 1


R = rc
s = c
m = r−1
µ = (R − s) − m
= (r − 1)(c − 1)

15.6.3. Distribución Producto Poisson P P (µ)

Ni ∼ P oisson(µi ) i = 1, ..., R Independientes

M :µ = µ(β) →Ecuaciones libres


f (µ) = 0 →Restricciones

Si βb es el EMV, entonces µ b es el EMV bajo M.


bM = µ(β)
m : número de variables independientes.
µ : número de restricciones independientes.
X X
λij = λξi ηj , ξi = ηj = 1
i j
m = 1 + (r − 1) + (c − 1)
 
λij λrc
log = 0
λic λrj
µ = R−m
= rc − m
= (r − 1)(c − 1)
15.7. APÉNDICE A: EJERCICIOS 283

15.7. Apéndice A: Ejercicios


Pregunta 1
Asumiendo una tabla I × J × K encuentre las condiciones de máxima
verosimilitud bajo el esquema multinomial para el siguiente modelo:

υijk = µ + λA B C AC
i + λj + λk + λik

Pregunta 2
Considere la siguiente tabla de frecuencias en una investigación sobre el
aborto. Las variables son: Sexo, Opinion y Edad.

SEXO OPINION EDAD


18-25 26-35 36+
Mujer A favor 140 130 45
No a favor 43 23 26
Hombre A favor 130 180 38
No a favor 13 35 30

Describa el algoritmo IPF para hallar los estimadores de máxima verosi-


militud para el modelo en el que no se considera interacción de segundo
orden. Encuentre los valores estimados para la tabla por el IPF y además
calcule el estadistico G2 para verificar si este modelo es adecuado.
Pregunta 1
a) ¿ Cuáles son las componentes básicas de un modelo lineal generalizado?
b) Describa el proceso de estimación de un modelo lineal generalizado por
máxima verosimilitud.
c) Pruebe que el valor esperado del score es 0.
Pregunta 2
(En esta pregunta ud. utiliza el SAS, recuerde que sólo tiene 10 minutos)
Se preguntó a 1000 conductores de ambos sexos, 500 mujeres y 500 hom-
bres, si alguna vez habian conducido embriagados. 420 respondieron afir-
mativamente, de las cuales 100 eran mujeres.
a) Estime un modelo logit para determinar si el sexo es una variable sig-
nificativa para explicar el comportamiento en el manejo de un carro bajo
influencia alcohólica.
b) Interprete los coeficientes del modelo.
c) Suponga que ud. hubiera obtenido de los resultados del computador
que ninguno de los coeficientes es significativo, ¿ qué estarı́a pasando?
Pregunta 3
284 CAPÍTULO 15. RESULTADOS ASINTÓTICOS

Describa el procedimiento para estimar un modelo logit.¿ Cómo verificarı́a


la significancia de los coeficientes?
Pregunta 4

La distancia recorrida entre la aparición de una señal (por ejemplo encen-


der una luz, observar un triángulo de estacionamiento en una carretera) y
parar un automóvil a tiempo puede prestarse a colisión si el conductor va
rápido. Suponga que se observa la velocidad de 4 R-4 que transitan sobre
el sitio del experimento. Se ha colocado una valla de espuma y una luz
indicadora de peligro a 60 metros de la valla. Se obtuvieron los siguientes
resultados:
Auto # 1 2 3 4
Velocidad 45 55 60 30
Colisión Si No Si No

Aplique un modelo logit para estimar el cambio en los odds debido a la


velocidad. Solo calcule un paso en el proceso iterativo. Observe que
el intercepto puede no ser necesario, ¿ por qué ? Interprete el coeficiente
estimado.

15.8. Apéndice B: Datos

15.8.1. Datos sobre rendimiento académico

Las siguientes tablas provienen del estudio de Cabarcas y Sierra (1996)


sobre factores que afectan el rendimiento académico a los estudiantes de
la Universidad Nacional-Sede Medellı́n. Una de las limitantes en muchos
estudios es el tamano muestral. Usualmente es muy pequeno cuando se
quieren cruzar a la vez muchas variables de tipo categórico. Las variables
son

a) Rendimiento: El rendimiento se mide como el porcentaje de mate-


rias aprobadas con relación al número de materias registradas.
b) Sexo
c) Estrato : Hace referencia al estrato social de pertenencia del indivi-
duo.
d ) Trabaja : Esta variable nos indica si un estudiante trabaja o no.
e) Facultad : Facultad a la cual pertenece el estudiante
f ) Uso de la Biblioteca
15.8. APÉNDICE B: DATOS 285

TABLA 1
Estrato x Trabaja x Rendimiento
Estrato
1y2 3 4 5y 6
Trabaja ? No Si No Si No Si No Si
Rendi- Alto 5 1 18 14 16 13 6 3
mien- Medio 9 5 32 31 21 11 56 4
to Bajo 4 6 14 9 4 7 1 3

TABLA 2
Estrato x Facultad x Rendimiento
Estrato
1y2 3
Facultad Agro. Arq. Min. Agro. Arq. Min.
Rendi- Alto 0 2 4 9 9 14
mien- Medio 3 1 10 13 8 44
to Bajo 2 0 8 5 1 17
4 5y6
Facultad Agro. Arq. Min. Agro. Arq. Min.
Rendi- Alto 0 9 20 1 5 3
mien- Medio 1 6 25 2 0 8
to Bajo 2 0 9 0 0 4

TABLA 3
Trabaja x Uso de Biblioteca x Sexo x Rendimiento
No Usa la Usa la
Biblioteca Biblioteca
Hombre Mujer Hombre Mujer
No Rendi- Alto 4 2 23 16
Trabaja mien- Medio 1 4 33 30
to Bajo 2 1 10 10
Rendi- Alto 1 0 23 7
Trabaja mien- Medio 5 0 32 14
to Bajo 2 3 17 3

TABLA 4
Edad x Sexo x Rendimiento
Edad 1 2
Sexo Hombre Mujer Hombre Mujer
Rendi- Alto 4 2 23 16
mien- Medio 1 4 33 30
to Bajo 2 1 10 10
Edad 3 4
Rendi- Alto 1 0 23 7
mien- Medio 5 0 32 14
to Bajo 2 3 17 3
286 CAPÍTULO 15. RESULTADOS ASINTÓTICOS

15.8.2. Datos sobre mortalidad en Antioquia


Los siguientes datos fueron tomados del Anuario Estadı́stico de An-
tioquia, 1994, Vol. I. Hacen referencia a muertes en el departamento
claificadas por EDAD, SEXO, REGION GEOGRAFICA y ZONA
(Urbana o rural).
15.8. APÉNDICE B: DATOS 287

TABLA 5
Sexo
Hombres Mujeres
Zona Cabecera Area Cabecera Area
Municipa Rural Municipa Rural
REGION EDAD
Valle de Aburra ¡1 año 349 12 285 12
de Aburrá 1-4 87 7 83 5
5-9 46 5 48 3
10-14 151 3 64 2
15-19 1496 31 154 2
20-24 1750 52 135 8
25-29 1381 30 148 8
30-34 1052 35 181 10
35-39 827 19 169 7
40-44 558 20 170 6
45-49 404 16 195 8
50-54 402 19 255 3
55-59 473 19 367 14
60-64 633 18 526 17
65 y más 2807 113 3375 85
Bajo Cauca ¡1 año 28 13 32 13
1-4 10 14 15 11
5-9 5 3 7 2
10-14 5 4 2 5
15-19 15 16 3 6
20-24 24 31 7 7
25-29 20 8 4 3
30-34 20 15 7 7
35-39 16 16 8 2
40-44 5 12 7 0
45-49 10 3 8 3
50-54 15 6 8 3
55-59 14 5 8 4
60-64 20 6 13 5
65 y más 65 39 64 19
288 CAPÍTULO 15. RESULTADOS ASINTÓTICOS

Continuación TABLA 5
Sexo
Hombres Mujeres
Zona Cabecera Area Cabecera Area
Municipa Rural Municipa Rural
REGION EDAD
Magdalena Medio ¡1 año 11 7 14 4
1-4 2 2 1 3
5-9 2 3 3 1
10-14 2 3 1 0
15-19 7 3 1 0
20-24 11 10 4 1
25-29 11 13 1 3
30-34 8 3 3 0
35-39 11 12 1 1
40-44 7 6 3 2
45-49 10 6 6 2
50-54 7 8 8 4
55-59 6 5 8 1
60-64 8 6 11 1
65 y más 66 20 52 15
Nordeste ¡1 año 17 19 17 21
1-4 5 15 11 14
5-9 1 9 1 3
10-14 4 6 2 4
15-19 27 16 2 2
20-24 46 40 5 3
25-29 32 27 3 6
30-34 32 19 6 6
35-39 22 14 6 4
40-44 13 10 6 3
45-49 15 10 5 6
50-54 20 8 8 10
55-59 10 9 9 4
60-64 35 16 19 7
65 y más 127 80 120 59
15.8. APÉNDICE B: DATOS 289

Continuación TABLA 5
Sexo
Hombres Mujeres
Zona Cabecera Area Cabecera Area
Municipa Rural Municipa Rural
REGION EDAD
Norte ¡1 año 27 38 10 23
1-4 4 22 4 13
5-9 0 8 2 2
10-14 6 9 2 4
15-19 15 25 4 5
20-24 38 51 4 5
25-29 25 37 6 11
30-34 20 24 5 6
35-39 16 15 9 5
40-44 17 10 4 6
45-49 9 16 8 15
50-54 15 17 10 9
55-59 16 12 16 17
60-64 26 23 29 18
65 y más 145 127 152 104
Occidente ¡1 año 9 31 16 10
1-4 4 5 7 12
5-9 7 2 2 2
10-14 6 2 2 2
15-19 10 15 6 5
20-24 25 26 3 0
25-29 13 17 1 3
30-34 10 19 9 6
35-39 9 12 4 5
40-44 10 17 4 5
45-49 9 20 3 5
50-54 9 13 2 7
55-59 7 13 10 8
60-64 11 15 11 7
65 y más 91 105 99 80
290 CAPÍTULO 15. RESULTADOS ASINTÓTICOS

Continuación TABLA 5
Sexo
Hombres Mujeres
Zona Cabecera Area Cabecera Area
Municipa Rural Municipa Rural
REGION EDAD
Oriente ¡1 año 40 51 28 43
1-4 14 24 13 20
5-9 6 12 8 8
10-14 8 9 2 5
15-19 64 35 11 10
20-24 74 60 9 11
25-29 66 50 16 7
30-34 58 55 18 9
35-39 48 44 10 7
40-44 38 34 13 10
45-49 32 42 14 12
50-54 35 26 18 19
55-59 34 37 37 15
60-64 50 47 64 34
65 y más 365 220 398 186
Suroeste ¡1 año 33 32 26 33
1-4 10 19 7 22
5-9 5 10 3 7
10-14 6 14 1 7
15-19 35 42 4 4
20-24 50 47 6 11
25-29 38 56 7 5
30-34 33 44 6 17
35-39 33 42 5 13
40-44 22 33 16 11
45-49 29 29 16 20
50-54 17 31 24 16
55-59 28 31 28 24
60-64 45 46 35 37
65 y más 253 191 282 179
15.8. APÉNDICE B: DATOS 291

Continuación TABLA 5
Sexo
Hombres Mujeres
Zona Cabecera Area Cabecera Area
Municipa Rural Municipa Rural
REGION EDAD
Urabá ¡1 año 33 18 25 17
1-4 19 10 21 9
5-9 8 4 3 3
10-14 11 6 7 0
15-19 49 21 11 6
20-24 97 35 8 9
25-29 69 45 20 4
30-34 57 35 6 5
35-39 48 21 10 6
40-44 38 12 9 3
45-49 24 11 11 3
50-54 27 6 9 5
55-59 30 5 12 3
60-64 16 7 27 4
65 y más 98 37 66 23

15.8.3. Datos sobre las Elecciones de 1994

La siguiente tabla contiene la información aparecida en la revista


SEMANA de Junio 21, 1994, referente a los resultados electorales.
Las columnas corresponden a la siguiente información:

Columna 1: Departamento

Columna 2: Votacion por Pastrana en la vuelta 1

Columna 3: Votacion por Pastrana en la vuelta 2

Columna 4: Votacion por Samper en la vuelta 1

Columna 5: Votacion por Samper en la vuelta 2


292 CAPÍTULO 15. RESULTADOS ASINTÓTICOS

Depto pastra1 pastra2 samper1 samper2


Bolivar 86622 119688 105765 154809
Sucre 48015 62462 71624 103262
Cordova 82964 107464 110336 150430
Antioquia 330056 471026 265900 367473
Choco 14479 14732 22806 24377
Caldas 121466 163767 94610 116313
Risaralda 71833 100269 60227 81547
Quindio 39879 53062 45341 54361
Valle 259855 361912 281145 387250
Cauca 54433 74218 47334 101895
Narino 102447 149368 81329 113255
Tolima 89610 123704 94133 144627
Putumayo 12918 17180 11360 15951
Huila 82336 111097 53783 80042
Caqueta 14752 21620 13329 22024
Amazonas 2609 3336 2995 4014
Bogota 383535 495498 419859 570209
Cundinamarca 142201 200386 134030 198230
San Andres 4078 5643 3827 6048
Atlantico 91898 133692 129838 192046
Magdalena 58336 84404 72092 107770
Guajira 23188 31531 24982 38534
Cesar 40239 59841 43511 70776
N. Santander 102276 135217 71744 98992
Santander 157154 207107 159312 226201
Boyaca 125593 166191 87411 131284
Arauca 6057 8132 10737 15377
Casanare 4411 5929 14926 23121
Vichada 1006 1282 2406 2936
Meta 35020 50066 39115 57093
Guainia 1085 1242 1488 1985
Guaviare 2436 3250 2839 3534
Vaupes 1043 1077 1726 2619

15.8.4. REGRESION POISSON

µy e−µ
Py (y; µ) = y = 0, 1, 2, ...
y!

considere x1 , ..., xk
Para el subgrupo i, i = 1, 2, ..., n sea yi : número observado de eventos
y sean
`i tiempo total para el grupo i.
15.9. APÉNDICE C: ESTIMACIÓN POR MÁXIMA VEROSIMILITUD 293
 Pk 
βo + βj xij
λ (Xi , β) : función de Xi y β e j=1 , donde β es la tasa
de falla del grupo i.
xi = (xi1 , ..., xi1 ) → grupo i
β = (β1 , ..., βk )
E [yi ] = µi = `i λ (xi , β) i = 1, ..., n
Yi es P oisson note que λ (xi , β) > 0
µy e−µi
Pyi (yi ; µi ) = i
yi ! i = 1, ..., n
[`i λ(Xi ,β)]yi e−`i λ(Xi ,β )
Pyi (yi ; µi ) = P1 (Yi = yi ; β) = yi ! yi = 0, 1, ...;
i = 1, 2, ..., n

n
Y
L (Y; β) = Pyi (yi ; β)
i=1
n  y
[`i λ (Xi , β)] i e−`i λ(Xi ,β)
Y 
=
i=1
yi !
Pn
{ i=1 [`i λ (Xi , β)] i } e− i=1 `i λ(Xi ,β)
Qn y
= Qn
i=1 yi !

donde

E[yi ] = µi = `i λ (Xi , β) i = 1, ..., n


∂ ln L (Y; β)
= 0 j = 0, 1, ..., k
∂βj
Xn Xn n
X
ln L (Y; β) = yi ln (`i λ (Xi , β)) − `ii λ (Xi , β) − ln yi !
i=1 i=1 i=1

15.9. Apéndice C: Estimación por Máxi-


ma Verosimilitud
Teorema: Sean X1 , X2 , ..., Xn una muestra aleatoria de tamaño n de
una población con función densidad de probabilidad fX (xθ), θ ∈ Ω.
Supongamos que las siguientes condiciones son satisfechas:
(i) El parámetro θ es un punto interior de algún intervalo no degene-
rado I ⊂ Ω.
∂ ∂2 ∂3
(ii) Las derivadas parciales ∂θ log fX (xθ), ∂θ 2 log fX (xθ), ∂θ 3 log fX (xθ)

existen para todo θ ∈ I y casi todo x.


(iii) Para todo θ ∈ I, tenemos


log fX (xθ) < H1 (x)
∂θ
294 CAPÍTULO 15. RESULTADOS ASINTÓTICOS
2

log fX (xθ) < H2 (x)
∂θ
3

log fX (xθ) < H3 (x)
∂θ

donde H1 , H2 son funciones integrables sobre el eje real (−∞, ∞) y


H3 satisface
Z ∞
H3 (x)fX (xθ) dx < M, donde M es independiente de θ
−∞

(iv) Para cada θ ∈ I


Z ∞ 2

0< log fX (xθ) fX (xθ) dx < ∞
−∞ ∂θ

Entonces la ecuación
n
X ∂
log fXi (xi θ) = 0
i=1
∂θ

tiene una solución θbn (X1 , X2 , ...,


 Xn ) que converge en probabilidad a

θ cuando n → ∞ y n θbn − θ es asintóticamente normal con media
0 y varianza
1
2 , cuando n → ∞

E ∂θ log fX (xθ)

Prueba:
Sea x1 , x2 , ..., xn la realización de X1 , X2 , ..., Xn . Sea
n
X
L(θ) = log fX (xi θ)
i=1

Sea θ ∈ I el verdadero valor del parámetro desconocido θ. Ya que


log fX (xθ) tiene tres derivadas, expandiendo log fX (xθ) por medio
de series de Taylor en una vecindad de θo ∈ I tenemos,
∂ ∂ ∂2 (θ − θo )2 ∂ 3
log fX (xθ) = log fX (xθ) |θ=θo +(θ − θo ) 2 log fX (xθ) |θ=θo + lo
∂θ ∂θ ∂θ 2 ∂θ3
2 2
∂ ∂ (θ − θo )
= log fX (xθ) |θ=θo +(θ − θo ) 2 log fX (xθ) |θ=θo + νH3 (x
∂θ ∂θ 2
donde 0 < ξ < 1, |ν| < 1. Re-escribiendo
n
1X ∂
Bo = log fX (xθ) |θ=θo
n i=1 ∂θ
15.9. APÉNDICE C: ESTIMACIÓN POR MÁXIMA VEROSIMILITUD 295

n
1 X ∂2
B1 = log fX (xθ) |θ=θo (3.47)
n i=1 ∂θ2
n
1X
B2 = H3 (xi ) (3.48)
n i=1

De (3.46) y (3.47), la ecuación de verosimilitud puede escribirse como


n
1 X
nBo +nB1 (θ−θo )+ (θ−θo )2 νi H3 (xi ) = 0 donde |νi | < 1, i = 1, 2, ..., n (3.49)
2 i=1

Ya que |νi | < 1, tenemos


n
X
−nB2 ≤ νi H3 (xi ) ≤ nB2
i=1

Asi podemos escribir


n
X
νi H3 (xi ) = νnB2 , |ν| < 1
i=1

De la ecuación (3.49) tenemos


1
nBo +nB1 (θ−θo )+ (θ−θo )2 νnB2 = 0 (3.50)
2
Para probar la primera parte del teorema debemos establecer que la
ecuación (3.50) tiene una raiz entre (θo − δ, θo + δ) con probabili-
dad uno cuando n → ∞, sin importar que tan pequeno sea δ. Por
supuestos (ii) e (iii) tenemos
  Z ∞ 
∂ ∂
E log fX (xθ) = fX (xθ) dx = 0
∂θ −∞ ∂θ
 2  Z ∞ ( ∂2 ∂
2 )
∂ ∂θ 2 fX (xθ) ∂θ fX (xθ)
E log fX (xθ) = − 2 fX (xθ) dx
∂θ2 −∞ fX (xθ) (fX (xθ))
 2

= −E log fX (xθ)
∂θ
= −k 2 (θ)

donde k 2 (θ) es una designación arbitraria. Por la ley débil de los


grandes números tenemos
1. Bo P Eθo (Bo ) cuando n → ∞;
2. B1 P − k 2 (θ) cuando n → ∞;
3. B2 P Eθo (H3 (x)) ≤ M para todo θo cuando n → ∞.
296 CAPÍTULO 15. RESULTADOS ASINTÓTICOS

Se sigue entonces que para δ > 0 y  > 0 dados existe No (, δ) tal
que, para n ≥ No ,
1
P |Bo | ≥ δ 2

≤ t
  3
1 1
P B1 ≥ − k 2 (θo ) ≤ t
2 3
1
P {|B2 | ≥ 2M } ≤ t
3

Defina el evento S de la siguiente forma


 
1
S = |Bo | < δ 2 ∩ B1 < − k 2 (θo ) − P {|B2 | < 2M }

2

Claramente, para todo n ≥ No tenemos


 
 2
1 2
P (S) ≥ 1−P |Bo | ≥ δ −P B1 ≥ − k (θo ) −P {|B2 | ≥ 2M } ≥ 1−t
2

k2 (θo )
Sea δ = θ − θo . Asuma que S ha ocurrido y que |δ| < 2(M +1) .
Si δ > 0, la parte izquierda de la ecuación (3.50) es menor que
 
δ 1
δ 2 − k 2 (θo ) + M δ 2 = δ (M + 1)δ − k 2 (θo ) < 0
2 2

Si δ < 0, la parte izquierda de la ecuación (3.50) es mayor que


 
2 1 2 2 1 2
−δ + |δ| k (θo ) − M δ = − |δ| (M + 1) |δ| − k (θo ) > 0
2 2
Pn ∂
Asi si S ocurre, i=1 ∂θ log fXi (xi θ), una función continua de θ, es
positiva cuando θ = θo − δ y es negativa cuando θ = θo + δ. Luego si
S ocurre, existe una raiz θ(x
b 1 , ..., xn ) de la ecuación de verosimilitud

n
X ∂
log fXi (xi θ) = 0, en el intervalo (θo − δ, θo + δ)
i=1
∂θ

2
Escogiendo δ muy pequeno sujeto a |δ| < 2(Mk +1) , podemos hacer
P (S) cada vez mayor. Luego existe un estimador de máxima vero-
similitud consistente. Esto completa la prueba de la primera parte.
Sea θ(x
b 1 , ..., xn ) una raiz de la ecuación de verosimilitud

n
X ∂
log fXi (xi θ) = 0
i=1
∂θ
15.10. MÉTODOS DE ESTIMACIÓN 297

la existencia de la cual hemos establecido. De las ecuaciones (3.48) y


(3.50) obtenemos

√ − nBo
n(θ − θo ) =
B1 + 21 B2 (θ − θo )

Además, B1 + 12 B2 (θ−θo ) converge en probabilidad a −k 2 (θo ) cuando


n → ∞. Ahora
n
√ −1 X ∂
− nBo = √ log fXi (xi θ) |θ=θo
n i=1 ∂θ

Por
√ las ecuaciones (3.51) y (3.52) y el teorema Linderberg-Lévy,
− nBo está distribuido asintóticamente
√ normal con media 0 y va-
rianza k 2 (θo ) cuando n → ∞. Luego n(θ − θo ) está distribuida
−1
asintóticamente normal con media 0 y varianza k 2 (θo ) cuando
n → ∞.

15.10. Métodos de Estimación

15.11. Estimación por Mı́nimos Cuadra-


dos ponderados (WLSE)
Ejemplo:

(N, π)
z =bπ∗
 = π∗
Σ∗ (b
π∗ ) = Diag(b π∗ ) − πb∗ πb∗T
R∗ = R − 1
M∗ (b
π∗ ) = f∗ (b
π∗ )Σ∗ (bπ∗ )f∗T (b
π∗ )

Alternativamente podemos trabajar con π b y π completos, es decir


con dimensión R teniendo en cuenta la restricción básica
R
X
πi = 1
i=1

Además
 
f (π)
rank = µ + 1 ∀π ∈ Π
1T (µ+1)×R

1T = [1, 1, ..., 1]
298 CAPÍTULO 15. RESULTADOS ASINTÓTICOS
 
∂fi (π)
f (π) =
∂πj µ×R
T
Σ(π) = Diag(π) − ππ
T T
f (π)Σ(π)f (π) = f ∗ (π ∗ )Σ∗ (π ∗ )f ∗ (π ∗ ) ∀π
T
S 2 (β,b
π) π ) − X(β)] M−1 (b
= N [f (b π ) − X(β)]
π ) [f (b

Sea βe el estimador WLSE bajo el modelo M: f (π) = X(β)


βe minimiza S 2 (β,b
π)
S 2 (b
π ) = S 2 (β,b
M
e π)

Bajo Ho se puede probar que esto es una prueba χ2 asintótica con


µ − m grados de libertad, donde m : número de parámetros libres.

15.12. Estimación Mı́nimo χ2 (MCE)


Supongamos que Z es un vector R-dimensional de estadı́sticos sufi-
cientes para los datos y con ley p(y; ).
Supongamos que

N (ZN − )aNR∗ (0, Σ∗ ()) N → ∞, Σ∗ () > 0 ∀

Modelo M :  = (θ) donde (θ) : funciones conocidas y θ ∈Θ paráme-


tro desconocido.
La función chi-cuadrado de θ, dado Z = z es
T
χ2 (θ; z) = N (z − (θ)) Σ−1
∗ ((θ)) (z − (θ))

El EMC θ∗ , si existe esta definido por

χ2 (θ∗ ; z) = ı́nf χ2 (θ; z)


θ∈Θ

Si Σ∗ (θ) tiene elementos que son funciones diferenciables de θ, θ∗ ∈


Θ, entonces θ∗ satisface las ecuaciones minimo χ2

∂χ2 (θ; z)
=0
∂θ

15.13. Estimación Mı́nimo χ2 Modificada


DE θ DADO Z (MMCE)

T
Y 2 (θ; z) = N (z − (θ)) Σ−1
∗ (z) (z − (θ))
15.13. ESTIMACIÓN MÍNIMO χ2 MODIFICADA DE θ DADO Z (MMCE)299

El estimador mı́nimo chi-cuadrado modificado MMCE, si existe, está de-


finido
Y 2 (θ;
e z) = ı́nf Y 2 (θ; z)
θ∈Θ

Si θe ∈ Θ, él satisface las ecuaciones en términos de Y 2 en lugar de


χ2 .

15.13.1. Distribución Multinomial M N (N, π)

χ2 (π∗ , p∗ ) = N (p∗ − π∗ )T Σ−1


∗ (π∗ )(p∗ − π∗ )
−1 −1 −1
Σ∗ (π∗ ) = ∆ (π∗ ) + πR 11T

Resultado:

Σ∗ (π∗ ) = ∆(π∗ ) − π∗ π∗T


(A + µν T )−1 = A−1 − A−1 µν T A−1 (1 + ν T A−1 µ)−1 (Seber pag. 520)
1
χ2 (π∗ , p∗ ) = N (p∗ − π∗ )T ∆−1 (π∗ )(p∗ − π∗ ) + N (p∗ − π∗ )T 11T (π∗ )(p∗ − π∗ )
πR
R−1
X (pi − πi )2 (pR − πR )2
= N +N
i=1
πi πR

ya que

1T (p∗ − π∗ ) = (1 − pR ) − (1 − πR ) = πR − pR

asi
R n
X (pi − πi )2 X (ni − N πi )2
χ2 = N =
i=1
πi i=1
N πi

15.13.2. Distribución Producto Multinomial

s X rj
X (nij − nj πij )2
χ2 (π, p) =
j=1 i=1
nj πij

15.13.3. Distribución Poisson P P (µ)

R
X (ni − µi )2
χ2 (µ, n) =
i=1
µi
300 CAPÍTULO 15. RESULTADOS ASINTÓTICOS

15.14. Pruebas Asintóticas de Bondad de


Ajuste
15.14.1. Prueba χ2 de la razón de verosimilitud

L(θ; y) : función de verosimilitud del parametro θ dada y, θ ∈ Θ, y Θ abierto

Supongamos que θb es el estimador de máxima verosimilitud MLE sin


restricciones.Considere el modelo M, que restringe θ al subespacio
ΘM ⊂ Θ

θbM : estimador de máxima verosimilitud restringido


L(θbM ; y) = sup L(θ; y)
θ∈Θ

Hipotesis nula

Ho : θ ∈ ΘM
L(θbM ; y)
ΛM (y) = 0 ≤ ΛM ≤ 1
L(θ;
b y)

La prueba de la razón de verosimilitud (PRV) rechaza Ho si ΛM (y)


es pequeño

ΛM (y) ≤ λα
P (ΛM (y) ≤ λα | Ho) ≤ α

Bajo ciertas condiciones de regularidad

G2M (y) → χ2µ cuando N → ∞(indice adecuado relacionado conel tamaño muestral

Bajo Ho
G2M (y) = −2 ln ΛM
Los grados de libertad para ladistribución limite son

µ = Dim(Θ) − Dim(ΘM )

Rechace Ho si
G2M ≥ χ2µ,α
Esta prueba se conoce como prueba de bondad de ajuste del modelo
M.
El modelo M usualmente se especifica bien como

ecuaciones libres θ = θ(β) β ∈ ß parámetros libres


15.14. PRUEBAS ASINTÓTICAS DE BONDAD DE AJUSTE 301

ecuaciones con restricciones f (θ) = 0 (se obtiene eliminando los β 0 s)

µ : número de restricciones independientes impuestas en θ por M

Suponga que M es aceptado por una prueba. Sea ΘM1 ⊂ ΘM ⊂ Θ

θbM1 : MLE bajo el modelo M1

L(b
θM1 ;y)
L(θbM1 ; y) L(b
θ ;y) ΛM1 (y)
ΛM1 |M (y) = = =
L(θbM ; y) L(b
θM ;y) ΛM (y)
L(b
θ ;y)

Lo anterior se denomina Criterio de la razón de verosimilitud para


probar la sub-hipotesis

H1 : θ ∈ΘM1 dado que θ ∈ΘM

G2M1 |M (y) = −2 ln ΛM1 |M (y)


= G2M1 (y) − G2M (y)

G2M1 (y) : es la χ2 de razón de verosimilitud para probar la bondad


del ajuste de M1 directamente sin referencia del modelo intermedio
M, sino con relación al espacio original Θ.
Los grados de libertad para la prueba χ2 usando G2M1 |M (y) son

ν = Dim(ΘM ) − Dim(ΘM1 )

mientras que para la prueba basada en G2M1 (y) son µ + ν.


M1 es un modelo encajado dentrode M. Puede expresarse como

β = β(γ) ecuaciones libres o como


g(θ) =0 ecuaciones de restricción

ν : número de restricciones independientes adicionales impuestas


sobre θ, mas alla de las impuestas por M.
302 CAPÍTULO 15. RESULTADOS ASINTÓTICOS
Capı́tulo 16

Referencias

Agresti, A. (1990) Categorical Data Analysis. New York: John


Wiley
Agresti, A. (1989) Tutorial on Modeling Ordered Categorical
Response Data. Psycological Bulletin. 105, 2, 290-301.
Agresti, A. (1984) Analysis of Ordinal Categorical Data. New
York: John Wiley
Armstrong, B. G. y Sloan, M. (1989) Ordinal Regression Models
for Epidemiologic Data. American Journal of Epidemiology. Vol
129, No. 1, 191-204.
Belsley, D. A., Kuh, E. y Welsch, R. E. (1980) Regression Diag-
nostics: Identifying Influential Data and Sources of Collinearity.
New York: John Wiley & Sons
Bhapkar, V. P. (1988) Lecture Notes in Categorical Data Analy-
sis. Dept. of Statistics. University of Kentucky.
Bishop, Y. M. M., Fienberg, S. E, y Holland, P. W. (1975) Discre-
te Multivariate Analysis: Theory and Practice. Cambridge: The
MIT Press
Bromaghin, J. F. (1993) Sample size Determination for Interval
Estimation of Multinomial Probabilities. The American Statisti-
cian. Vol. 47, No. 3, pp. 203-206.
Christensen, R. (1990) Log-Linear Models. New York: Springer-
Verlag
Cody, R. P. y Smith, J. K. (1991) Applied Statistics and the
SAS Programming Language. Tercera Edicio n. Prentice Hall,
Englewood Cliffs.
D’Agostino, R. B., Chase, W. y Belanger, A. (1988) The Appro-
piateness of Some Common Procedures for Testing the Equality
of Two Independent Binomial Populations. The American Sta-
tistician. Vol. 42, No. 3, pp. 198-202

303
304 CAPÍTULO 16. REFERENCIAS

DiIorio, F. C. (1991) SAS Applications Programming: A Gentle


Introduction. Duxbury Press, Belmont.
Fowlkes, E. B. (1986) Some Diagnostics for Binary Logistic Re-
gression Via Smoothing. Proceedings of the Statitical Computing
Section: ASA.
Greenland, S. (1991) On the Logical Justification of Conditional
Tests for Two-by-Two Contingency Tables.The American Statis-
tician. 45, No. 3, 248-251.
Grizzle, J. E., Starmer, C. F. y Koch, G. G. (1969). Analysis of
Categorical Data by Linear Models Biometrics. 25, 489-504.
Haberman, S. H. (1988) A Warning on the Use of Chi-Squared
Statistics With Frequency Tables With Small Expected Cell Counts.
JASA. Vol. 83, No. 402, 555-560.
Lewis, T., Saunders, I. W. y Westcott, M. (1984) The Moments
of the Pearson Chi-Squared Statistic and the Minimum Expected
Value in Two-Way Table.Biometrika. 71, No. 3, 515-522.
McCullagh, P. and Nelder, J.A. (1989) Generalized Linear Mo-
dels. 2nd Edition. London: Chapman and Hall.
Mosteller (1900)
Poon, W.Y. y Hung, H.Y. (1996) Analysis of square tables with
ordered categories. Computational & Data Analysis. Vol. 22, No.
3, pp.303-322
Pregibon (1981) Logistic Regression Diagnostics.The Annals of
Statistics, Vol. 9, No. 4, 705-724.
Reynolds, H. T. (1977) The Analysis of Cross-Classifications.
New York: The Free Press.
Ridder, G., Cramer, J. S. y Hopstaken, P. (1994) Down to Ten:
Estimating the Effect of a Red Card in Soccer. JASA. Vol. 89,
No. 427, 1124-1127.
Roscoe, J. T. y Byars, J. A. (1971) An Investigation of the Res-
traints with Respect to Sample Size Commonly Imposed on the
Use of the Chi-Square Statistic. JASA. Vol. 66, No. 336, 755-759.
Santner, T. J. y Duffy, D. E. (1989) The Statistical Analysis of
Discrete Data. New York: Spriger-Verlag.
Institute Inc. (1990) SAS Technical Report P-200, SAS/STAT
Software: CALIS and LOGISTIC Procedures, Release 6.04, Cary,
NC: SAS Institute Inc.
SAS/IML Software: Usage and Reference. Version 6, First Edi-
tion. SAS Institute Inc. 1990, Cary, NC.
SAS User’s Guide: Statistics. Version 5 Edition. SAS Institute
Inc. 1985, Cary, NC.
Scheuchenpflug, T. y Blettner (1996) Coding Confusion using
PROC LOGISTIC in SAS Computational Statistics & Data
Analysis , Vol. 21 No. 1, 111-115
305

Statistical Sciences (1994) S-PLUS for Windows Version 3.2


Supplement Statsci, a division of MathSoft, Inc.:Seattle
Smith, P. J. et al. (1981) Approximating the Moments and Dis-
tribution of the Likelihood ratio Statistics for Multinomial Good-
ness of Fit. Journal of the American Statistical Association, Vol.
76, No. 375, pp. 737-740
UNTCC: Introduction to SAS. Academic Computing Services.
University of North Texas Computing Center.
Thompson, S. K. (1987) Sample Size for Estimating Multinomial
Proportions. The American statistician, Vol. 41, No. 1, pp. 42-46
Upton, G. J. G. (1978) The Analysis of Cross-Tabulated Data.
Chichster: John Wiley & Sons.
Walter, S. D. y Cook, R. J. (1991) A comparison of Several Points
Estimators in a Single 2 × 2 Contingency Table. , 47, 795-811.
Yule, G. U. y Kendall, M. G. (1967) Introduccion a la Estadistica
Matema tica. 5 Edición. Madrid: Aguilar.
Canavos, G. (1988).Probabilidad y Estadı́stica: Aplicaciones y
Métodos. McGraw Hill: Madrid
Hogg, R.V. y Craig, A.T. (1978). Introduction to Mathematical
Statistics. Cuarta Edición. Collier MacMillan International:New
York
Kalbfleish, J.G. (1985). Probability and Statistical Inference. Vol.
2. Segunda edición. Springer-Verlag: New York
Larson, H.J. (1983). Introducción a la Teorı́a de Probabilidades
e Inferencia Estadı́stica. Editorial Limusa: México
Leemis, L.M. y Trivedi, K.S. (1996) A Comparison of Approxi-
mate Interval Estimators for the Binomial Parameter. The Ame-
rican Statistician. Vol. 50, No. 1, pp. 63-68
Meyer, P.L. (1986). Probabilidad y aplicaciones estadı́sticas. Se-
gunda Edición. Addison Wesley Iberoamericana: México.
Mood , A.M, Graybill, F.A. y Boes, D.C. (1974). Introduction to
the Theory of Statistics. Third Edition. McGraw-Hill Kogasakua,
Ltd: Tokyo.
Roussas, G.G. (1973). A First Course in Mathematical Statistics.
Addison-Wesley Publishing Company: Reading, Massachusetts
Schader, M. y Schmid, F. (1989). Two Rules of Thumb for the
Approximation of the Binomial Distribution by the Normal Dis-
tribution. The American Statistician. Vol. 43, No. 1, pp. 23-24
Snedecor, G.W. y Cochran, W.G. (1980). Statistical Methods.
Séptima Edición. The Iowa State University Press:Ames
Walpole, R.E. y Myers, R.H. (1992). Probabilidad y Estadı́stica.
Cuarta Edición. MaGraw Hill: México
306 CAPÍTULO 16. REFERENCIAS

Wardell, D.G. (1997) Small-Sample Interval Estimation of Ber-


noulli and Poisson Parameters. The American Statistician. Vol.
51, No. 4, pp. 321-325
Wonnacott, T.H. y Wonnacott, R.J. (1979). Fundamentos de
Estadı́stica para Administración y Economı́a. Editorial Limusa:
México
Bromaghin, J.F. (1993) Sample Size Determination for Interval
Estimation of Multinomial Probabilities. The American Statisti-
cian, Vol. 47, No. 3, pp. 203-206
Johnson, N.L. y Kotz, S. (1969) Discrete Distributions. John
Wiley & Sons: New York
Jovanovic, B.D. y Levy, P.S. (1997) A Look at the Rule of Three.
The American Statistician. Vol. 51, No. 2, pp. 137-139
May, W.L. y Johnson, W.D. (2000) Constructing Two-Sided Si-
multaneous Confidence Intervals for Multinomial Proportions for
Small Counts in a Large Number of Cells. Journal of Statistical
Software, Vol. 5
Sison, C.P. y Glaz, J. (1995) Simultaneous Confidence Inter-
vals and sample Size Determination for Multinomial Proportions.
Journal of the American Statistical Association, Vol. 90, No. 429,
pp. 366-369
Kalbfleish, J.G. (1985). Probability and Statistical Inference. Vol.
2. Segunda edición. Springer-Verlag: New York
Leemis, L.M. y Trivedi, K.S. (1996) A Comparison of Approxi-
mate Interval Estimators for the Binomial Parameter. The Ame-
rican Statistician. Vol. 50, No. 1, pp. 63-68
Schader, M. y Schmid, F. (1989). Two Rules of Thumb for the
Approximation of the Binomial Distribution by the Normal Dis-
tribution. The American Statistician. Vol. 43, No. 1, pp. 23-24
Wardell, D.G. (1997) Small-Sample Interval Estimation of Ber-
noulli and Poisson Parameters. The American Statistician. Vol.
51, No. 4, pp. 321-325
Canavos, G. (1988).Probabilidad y Estadı́stica: Aplicaciones y
Métodos. McGraw Hill: Madrid
Hogg, R.V. y Craig, A.T. (1978). Introduction to Mathematical
Statistics. Cuarta Edición. Collier MacMillan International:New
York
Kalbfleish, J.G. (1985). Probability and Statistical Inference. Vol.
2. Segunda edición. Springer-Verlag: New York
Larson, H.J. (1983). Introducción a la Teorı́a de Probabilidades
e Inferencia Estadı́stica. Editorial Limusa: México
Leemis, L.M. y Trivedi, K.S. (1996) A Comparison of Approxi-
mate Interval Estimators for the Binomial Parameter. The Ame-
rican Statistician. Vol. 50, No. 1, pp. 63-68
307

Meyer, P.L. (1986). Probabilidad y aplicaciones estadı́sticas. Se-


gunda Edición. Addison Wesley Iberoamericana: México.
Mood , A.M, Graybill, F.A. y Boes, D.C. (1974). Introduction to
the Theory of Statistics. Third Edition. McGraw-Hill Kogasakua,
Ltd: Tokyo.
Roussas, G.G. (1973). A First Course in Mathematical Statistics.
Addison-Wesley Publishing Company: Reading, Massachusetts
Schader, M. y Schmid, F. (1989). Two Rules of Thumb for the
Approximation of the Binomial Distribution by the Normal Dis-
tribution. The American Statistician. Vol. 43, No. 1, pp. 23-24
Snedecor, G.W. y Cochran, W.G. (1980). Statistical Methods.
Séptima Edición. The Iowa State University Press:Ames
Walpole, R.E. y Myers, R.H. (1992). Probabilidad y Estadı́stica.
Cuarta Edición. MaGraw Hill: México
Wardell, D.G. (1997) Small-Sample Interval Estimation of Ber-
noulli and Poisson Parameters. The American Statistician. Vol.
51, No. 4, pp. 321-325
Wonnacott, T.H. y Wonnacott, R.J. (1979). Fundamentos de
Estadı́stica para Administración y Economı́a. Editorial Limusa:
México
Appleton, D. R., French, J.M. y Vanderpump, M.P.J. (1996)
Ignoring a Covariate: An Example of Simpson’s Paradox. The
American Statistician. Vol. 50, No. 4, pp. 340-341
Goddard, M. J. (1991) Constructing Some Categorical Anoma-
lies. The American Statistician. Vol. 45, No. 2, pp. 129-133
Mittal, Y. (1991) Homogeneity of Subpopulations and Simpson’s
Paradox. Journal of American Statistical Association. Vol. 86,
No. 413, pp. 167-172
Shapiro, S. H. (1982) Collapsing Contingency Tables-A Geome-
tric Approach. The American Statistician. Vol. 36, No. 1, pp.
43-46
Wagner, C. H. (1982) Simpson’s Paradox in Real Life. The Ame-
rican Statistician. Vol. 36, No. 1, pp. 46-48
Warddrop, R. L. (1995) Simpson’s Paradox and the Hot Hand in
Basketball. The American Statistician. Vol. 49, No. 1, pp. 24-28

También podría gustarte