Prueba J Davidson

PRUEBA DE HIPÓTESIS
ANIDADAS Y NO ANIDADAS
Y MÉTODOS DE
DISCRIMINACIÓN PARA
MODELOS NO LINEALES
T E S I S
Que para obtener el grado de
Maestría en Ciencias
con Orientación en
Probabilidad y Estadística
P r e s e n t a
Roxana Góngora Hernández
Director de Tesis:
Dr. Jorge Domínguez y Domínguez
Guanajuato, Gto.. Julio de 2011

Pruebas de Hipótesis No Anidadas y Métodos de
Discriminación para Modelos No Lineales.
por
Roxana Góngora Hernández.
Director de Tesina:
Jorge Domı́nguez Domı́nguez
para obtener el grado de
Maestrı́a en Ciencias con Especialidad en Probabilidad y Estadı́stica
Centro de Investigación en Matemáticas, A.C.

Guanajuato, Gto., México.
May 15, 2012

ii
iii
Dedicatoria
A mis padres Mario Jesús Góngora Alonzo y Sandra Hernández Perrusquia, por su apoyo,
confianza y animo en cada paso de mi vida.
“Aunque esto pueda parecer una paradoja, toda ciencia exacta está dominada por la idea de la
aproximación ” – Bertrand Russell.
iv
v
Agradecimientos
Agradezco de manera especial a mis padres, Mario Jesús Góngora Alonzo y Sandra Hernández
Perrusquia, por su apoyo incondicional en los momentos difı́ciles de mi vida, por el amor que me
han demostrado, pero sobretodo por ser el ser humano que hoy soy gracias a ellos. Gracias a mis
hermanos, Luis Manuel y Mayra Jacqueline por sus comentarios retadores para poder terminar la
maestrı́a. Gracias a mi mejor amigo y novio Alejandro Téllez Quiñones, por su amor, animo y
apoyo en todo momento de mi maestrı́a y por ser el motivo de mi esfuerzo de ser mejor cada dı́a.
Agradezco con profunda sinceridad a mi asesor de tesis, Dr. Jorge Domı́nguez Domı́nguez, por su
apoyo para poder graduarme y disposición a ayudarme en momentos difı́ciles de mi maestrı́a, por su
paciencia para que este trabajo se realizará y sus consejos tanto del trabajo como de la vida. Gracias
a mis sinodales, Enrique Villa y Rogelio Ramos Quiroga, por la paciencia en revisar mi tesis y sus
comentarios de provecho en ella, que me ayudaron a comprender mejor mi trabajo. Quiero agradecer
también a cada uno de los investigadores del área de Probabilidad y Estadı́stica de CIMAT, quienes
con sus enseñanzas, son una parte muy importante en mi formación académica. Y como olvidar
a mis compañeros de maestrı́a, quienes hicieron de mi estancia en Guanajuato agradable, llena
de apoyo, paciencia y amor, sobre todo a Carolina Quintanilla, Leticia Escobar, Selomit Uribe,
Carlos Campos, Luis castillo, Alfhonse, Joel Iglesias, Pedro Salazar, Gustavo Cano, gracias por
su ayuda y amistad. También expreso mi agradecimiento a todas las personas e instituciones que
hicieron posible la persona que hoy soy académicamente. Agradezco al CONACYT, por la beca
que me fue concedida (con número de registro 234019) para llevar a cabo mis estudios de maestrı́a.
Gracias a CIMAT, A. C. por haberme brindado los recursos humanos, tecnológicos y económicos
para la realización de mis estudios y tesis de maestrı́a. Finalmente, agradezco a Dios, por darme
la oportunidad de haber progresado en este mundo y ser feliz estos años en Guanajuato, pero en
especial por las experiencias que vivı́ y que me ayudaron a valorar a mi familia, mi pareja y mis
amigos.
vi
Resumen
En la últimas décadas la aplicación de regresión lineal a muchas situaciones de la realidad se

ha incrementado vertiginosamente donde el objetivo es poder conocer el comportamiento de un
fenómeno, con el fin de poder describir su comportamiento y manipularlo. El análisis de regresión
es una de las herramientas estadı́sticas más ampliamente utilizadas, ya que proporciona métodos
sencillos para el establecimiento de una relación funcional entre las variables (variables explicativas)
que afectan el fenómeno y la variable respuesta del fenómeno. Generalmente cuando se trata
de modelar el comportamiento del fenómeno existen varios modelos alternativos, por lo que el
problema de cuál modelo seleccionar del conjunto que se tenga. Actualmente existen métodos de
discriminación y pruebas de hipótesis que ayudan a seleccionar el modelo más adecuado para el
comportamiento del fenómeno. A menudo esta relación funcional entre las variables (variables
explicativas) que afectan el fenómeno y la variable respuesta del fenómeno es una relación no lineal
en los parámetros. En tal caso, las técnicas de regresión lineal no pueden ser aplicadas tal cual y
por tanto deben ser ampliadas, lo que introduce una complejidad considerable.
Este trabajo ofrece una recopilación de información necesaria para poder elegir un modelo no
lineal de una colección de modelos construidos los cuales son modelos competitivos para describir
el comportamiento del fenómeno de interés que se ha publicado en la literatura de investigación,
esto se realizará a través de dos conjuntos de datos en los cuales existen modelos no lineales que
modelan su comportamiento.
Contenido
1 Introducción. 1
1.1 Planteamiento del problema. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 Antecedentes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.2 Limitaciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Objetivos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Metodologı́a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Estructura del trabajo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5 Resultados relevantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2 Modelos de Regresión No Lineales. 7

2.1 Estimación por mı́nimos cuadrados. . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Estimación por máxima verosimilitud. . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3 Inferencia Estadı́stica en regresión no lineal. . . . . . . . . . . . . . . . . . . . . . . . 9
2.4 Curvas de crecimiento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4.1 Modelo Gompertz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4.2 Modelo Logı́stico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3 Problemas de Estudio. 13
3.1 Datos Médicos (Datos Observables). . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2 Datos Experimentales en Bioquı́mica. . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4 Pruebas de Hipótesis y Métodos de Discriminación para Modelos de Regresión

No Lineal. 17
4.1 Prueba de Hipótesis para Modelos Anidados. . . . . . . . . . . . . . . . . . . . . . . 17
4.2 Pruebas de Hipótesis para los Modelos No Anidados. . . . . . . . . . . . . . . . . . 19
4.2.1 Prueba de Davidson y Mackinnon. . . . . . . . . . . . . . . . . . . . . . . . . 19
4.2.2 Selección de Modelos Basado en Métodos de Discriminación. . . . . . . . . . 23
4.2.3 Selección de Modelos basado en Criterios de Información. . . . . . . . . . . . 36
5 Análisis Estadı́stico de los Datos. 39

5.1 Datos Experimentales en bioquı́mica. . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.2 Datos Médicos (Mediciones en Fetos). . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.2.1 Análisis descriptivo de las variables. . . . . . . . . . . . . . . . . . . . . . . . 42
5.2.2 Análisis de Correlación de las variables. . . . . . . . . . . . . . . . . . . . . . 44
5.2.3 Ajuste de modelos para la relación Gest vs DBP. . . . . . . . . . . . . . . . . 53
vii
viii CONTENIDO
5.2.4 Predicción del peso de nacimiento de los fetos. . . . . . . . . . . . . . . . . . 60

5.3 Realización de las pruebas de hipótesis y métodos de discriminación. . . . . . . . . . 67
5.3.1 Aplicación del Método Secuencial 1 (SM 1) . . . . . . . . . . . . . . . . . . . . 68
5.3.2 Aplicación del Método LSE. . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6 Conclusiones y Comentarios. 73
A Método de Gauss-Newton. 77
B Gráficas de Datos Experimentales. 79

B.1 Gráficas del Ajuste del modelo Gompertz. . . . . . . . . . . . . . . . . . . . . . . . . 79
B.2 Gráficas de Ajuste del Modelo Logı́stico. . . . . . . . . . . . . . . . . . . . . . . . . . 79
C Teorema de Frisch-Waugh-Lovell. 85
D Programas en R. 87
D.1 Ajuste de los modelos propuestos para los datos Médicos. . . . . . . . . . . . . . . . 88
D.2 Programa para el Criterio de Información de Akaike para Datos Médicos. . . . . . . 89
D.2.1 Calculo del estadı́stico de Akaike. . . . . . . . . . . . . . . . . . . . . . . . . . 89
D.2.2 Cálculo del estadı́stico de Akaike Bayesiano. . . . . . . . . . . . . . . . . . . . 89
D.3 Programa para la Prueba tilde de Atkinson. . . . . . . . . . . . . . . . . . . . . . . . 89
D.4 Programa de la Prueba de Willians. . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
D.5 Calculo de la falta de ajuste. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
D.6 Ranqueo de los modelos con P(CS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
D.7 Método Secuencial 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
D.7.1 Paso 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
D.7.2 Paso 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
D.8 Programa para el Método LSE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
D.9 Ajuste de los modelos propuestos para los datos de bioquı́mica. . . . . . . . . . . . . 95
D.9.1 Modelo Gompertz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
D.9.2 Modelo Logı́stico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
D.10 Programa del Criterio de Información de Akaike (Datos bioquı́mica). . . . . . . . . . 97
D.11 Programa de las pruebas de hipótesis de Davidson y MacKinnon. . . . . . . . . . . . 97
Lista de Figuras
2.1 Gráfico de un Modelo Senoidal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.2 Gráfico del Modelo Gompertz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Gráfico de un Modelo Logı́stico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3.1 Medición del diámetro biparietal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.2 Medición de la Longitud del Femur. . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.3 Medición de la Circunferencia Cefalica. . . . . . . . . . . . . . . . . . . . . . . . . . 15
5.1 Modelos Estimados para el Crecimiento de Nisina. . . . . . . . . . . . . . . . . . . . 41

5.2 Caja y Bigotes para DBP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.3 Caja y Bigotes para CIRCEF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.4 Caja y Bigotes para CIRABD. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.5 Caja y Bigotes para LFemur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.6 Caja y Bigotes para Peso de Nacimiento. . . . . . . . . . . . . . . . . . . . . . . . . 45
5.7 Gráfico de DBP vs CIRCEF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.8 Ajuste del Modelo Lineal para DBP vs CIRCEF . . . . . . . . . . . . . . . . . . . 47
5.9 Gráfico de DBP vs CIRABD. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.10 Ajuste del Modelo Lineal DBP vs CIRABD. . . . . . . . . . . . . . . . . . . . . . . 50
5.11 Gráfico de DBP vs LFemur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.12 Ajuste Lineal de DBP vs LFemur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.13 Gráfico de DBP vs gest. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.14 Ajuste del Modelo Lineal de DBP vs gest. . . . . . . . . . . . . . . . . . . . . . . . 53
5.15 Ajuste del Modelo ax2 + bx + c . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.16 Ajuste Cúbico ax3 + bx2 + cx + d . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.17 Ajuste Cúbico ax3 + cx + d. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.18 Ajuste Cúbico ax3 + bx2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.19 Ajuste Cúbico ax3 + bx2 + d. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.20 Ajuste del Modelo Gompertz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.21 Ajuste del Modelo Logı́stico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.22 Gráfico del Peso de Nacimiento vs DBP. . . . . . . . . . . . . . . . . . . . . . . . . 63
5.23 Gráfico del Peso de Nacimiento vs CIRCEF. . . . . . . . . . . . . . . . . . . . . . 63
5.24 Gráfico del Peso de Nacimiento vs CIRABD. . . . . . . . . . . . . . . . . . . . . . 64
5.25 Gráfico del Peso de Nacimiento vs LF emur. . . . . . . . . . . . . . . . . . . . . . . 64
B.1 Gráficos del Modelo Gompertz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
ix
x LISTA DE FIGURAS
B.2 Gráficos del Modelo Gompertz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

B.3 Gráficos del Modelo Logı́stico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
B.4 Gráficos del Modelo Logı́stico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
Lista de Tablas
3.1 Diseño Experimental para los Datos de Bioquı́mica. . . . . . . . . . . . . . . . . . . 16
5.1 Estimaciones de los parámetros del modelo de crecimiento Gompertz para los tratamien-
tos del crecimiento ln(N/No). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.2 El criterio de Akaike para Datos de Bioquı́mica . . . . . . . . . . . . . . . . . . . . 41
5.3 P − valores de las pruebas no anidadas para los modelos Gompertz y Logı́stico. . . 42
5.4 Correlaciones entre las variables fetales. . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.5 Resumen del Ajuste del modelo y = ax + b para DBP vs CIRCEF. . . . . . . . . . 46
5.6 Análisis de Varianza del modelo y = ax + b para DBP vs CIRCEF. . . . . . . . . 47
5.7 Residuales Atipicos para el ajuste Lineal para BDP vs CIRCEF. . . . . . . . . . . . 47
5.8 Prueba de Falta de Ajuste del Modelo Lineal para BDP vs CIRCEF. . . . . . . . 48
5.9 Resumen del ajuste lineal para DBP vs CIRABD. . . . . . . . . . . . . . . . . . . . 48
5.10 Resumen del Análisis de Varianza del Modelo Lineal para DBP vs CIRABD. . . . . 49
5.11 Resumen de la prueba de falta de Ajuste del Modelo Lineal para DBP vs CIRABD. 49
5.12 Residuales Atipicos del Modelo Lineal para DBP vs CIRABD. . . . . . . . . . . . . 49
5.13 Resumen del ajuste lineal para DBP vs LFemur. . . . . . . . . . . . . . . . . . . . . 51
5.14 Análisis de Varianza del Modelo Lineal para DBP vs LFemur. . . . . . . . . . . . . . 51
5.15 Prueba de falta de Ajuste para el Modelon Lineal para DBP vs LFemur. . . . . . . . 52
5.16 Residuales Atı́picos del Modelo Lineal para LFemur y DBP. . . . . . . . . . . . . . . 52
5.17 Estimación de Parámetros para el Modelo Lineal de DBP vs gest. . . . . . . . . . . 54
5.18 Análisis de Varianza del Modelo Lineal para DBP vs Gest. . . . . . . . . . . . . . . 54
5.19 Prueba de falta de Ajuste del Modelo Lineal para DBP vs Gest. . . . . . . . . . . . 54
5.20 Estimación de Parámetros para el Modelo Cuadrático de DBP vs gest. . . . . . . . 55
5.21 Análisis de Varianza para el Modelo Cuadrático DBP vs gest. . . . . . . . . . . . . 55
5.22 Intervalos de confianza Ası́ntoticos del 95% de confianza del Modelo Lineal para
DBP vs Gest. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.23 Análisis de Varianza del Modelo Cúbico y = ax3 + bx2 + cx + d. . . . . . . . . . . . 56
5.24 Resumen de la Estimación de Parámetros para el Modelo ax3 + bx2 + cx + d. . . . . 56
5.25 Análisis de Varianza para el modelo ax3 + bx2 . . . . . . . . . . . . . . . . . . . . . . 56
5.26 Resultados de la Estimación de Parámetros para el modelo ax3 + bx2 . . . . . . . . . 56
5.27 Análisis de Varianza del Modelo ax3 + bx2 + d. . . . . . . . . . . . . . . . . . . . . . 57
5.28 Estimación de Parámetros para el Modelo ax3 + bx2 + d. . . . . . . . . . . . . . . . . 57
5.29 Análisis de Varianza del Modelo ax3 + cx + d. . . . . . . . . . . . . . . . . . . . . . . 58
5.30 Estimación de parámetros para el Modelo ax3 + cx + d. . . . . . . . . . . . . . . . . 58
5.31 Criterio de Información de Akaike y Bayesiano para Modelos Cúbicos. . . . . . . . . 58
xi
xii LISTA DE TABLAS
5.32 Resumen de la Estimación de Parámetros para el modelo Gompertz. . . . . . . . . . 59

5.33 Análisis de Varianza para el modelo Gompertz. . . . . . . . . . . . . . . . . . . . . . 59
5.34 Intervalos de confianza del 95% para el modelo Gompertz. . . . . . . . . . . . . . . . 59
5.35 Resumen de la Estimación de Parámetros para el modelo Logistico. . . . . . . . . . . 59
5.36 Análisis de Varianza para el modelo Logistico. . . . . . . . . . . . . . . . . . . . . . . 60
5.37 Intervalos de Confianza del 95% para los Parámetros del Modelo Logı́stico. . . . . . 61
5.38 Análisis de Varianza para el Modelo de Regresión Múltiple ax1 + bx2 + cx3 + dx4 + e. 64
5.39 Estimación de Parámetros para el Modelo de Regresión Múltiple ax1 + bx2 + cx3 +
dx4 + e. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.40 Análisis de Varianza el Modelo de Regresión Múltiple cx3 + dx4 + e. . . . . . . . . . 65
5.41 Estimación de Parámetros para el Modelo de Regresión Múltiple cx3 + dx4 + e. . . . 65
5.42 Estimación de Parámetros del Modelo a0 + a1 x1 + a2 x2 + a3 x3 + a4 x4 + a5 x1 x2 +
a6 x2 x3 + a7 x3 x4 + a8 x4 x1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.43 Estimación de Parámetros para el Modelo a0 + a1 x1 + a2 x2 + a3 x3 + a4 x4 + a5 x1 x2 +
a6 x2 x3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.44 Estimación de Parámetros para el Modelo a0 + a4 x4 + a6 x2 x3 . . . . . . . . . . . . . 66
5.45 Criterio de Akaike y Bayesiano para los Modelos del Datos Médicos. . . . . . . . . . 67
5.46 Limites de probabilidades Modelo Seleccionado. . . . . . . . . . . . . . . . . . . . . . 68
5.47 Falta de ajuste para los Modelos de Datos Médicos. . . . . . . . . . . . . . . . . . . . 68
5.48 Procedimiento SM 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.49 P (CS) de las Secuencias para el Método 1. . . . . . . . . . . . . . . . . . . . . . . . 70
5.50 Método LSE para el modelo 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.53 Método LSE para el modelo 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
Capı́tulo 1
Introducción.
El objetivo de la tesis es utilizar pruebas de hipótesis no anidadas y métodos de discriminación

en modelos de regresión no lineal, de los cuales se tienen dos tipos de modelos: los modelos de
regresión no lineal anidados y los modelos de regresión no lineal no anidados.
El trabajo para poder lograr el objetivo de la tesis fue el de considerar un artı́culo y material
de información que nos indicará el procedimiento para construir los estadı́sticos de prueba para
los dos tipos de modelos posibles en regresión no lineal. El primer artı́culo que se considero fue el
artı́culo de Jerzy Szroeter (1999), Testing Non-Nested Econometric Models. El cual nos proporciona
un análisis del desarrollo de métodos estadı́sticos para las pruebas de modelos no anidados, que
incluye regresiones, ecuaciones simultáneas, condiciones de Euler y de momentos, paramétricos y
semi-paramétricos. De este artı́culo se tomó la prueba de hipótesis de Davidson y MacKinnon
llamada la prueba P, la cual es una prueba de hipótesis para modelos de regresión no lineal no
anidados, para la exploración de esta prueba se revisó el siguiente artı́culo, Davidson, R., and J. G.
MacKinnon (1981). ”Several tests for model specification in the presence of alternative hypotheses”,
Econometrica, 49, 781-793, en el cual presenta la prueba para dos modelos no anidados y mencionan
una extensión de esta prueba cuando se tiene un conjunto de modelos competitivos. Se tomó como
referencia el libro Econometric Theory and Methods de Davidson, R., and J. G. MacKinnon. Para
completar estas ideas también se revisó los Capı́tulos 1 y 2 del libro Model Discrimination for
Nonlinear Regression Models de Borowiak Dale S. (1989). En el cual se presentan otras pruebas
basadas en métodos de discriminación de modelos con el objetivo de seleccionar un modelo de un
conjunto de modelos competitivos. Además se realizó una revisión de la prueba del criterio de
información de Akaike dado que es una prueba muy utilizada para la selección de un modelo dentro
de un conjunto de modelos competitivos. Todo esto fue escrito en el Capı́tulo 4 de la tesis.
Para lograr escribir y entender estas pruebas primero se trabajo con la teorı́a de modelos de
regresión no lineal para la cual se estudió los libros de Ratkowsky David A (1983) y Davidson y
MacKinnon (2003), y se consultó con cierto detalle los libros de Bates D.M. and Watts D.G (1988),
Gallant A. Ronald (1987), Greene William H, (2003), Seber George Arthur Frederck and Wild C.J
(2003).
Para poder ilustrar el ajuste de modelos no lineales y la aplicación de las pruebas revisadas de la
literatura de pruebas de hipótesis para modelos de regresión no lineal se utilizaron dos conjuntos de
datos reales, estos dos conjuntos de datos son: Datos Médicos (Datos Observables), en especı́fico
datos de mediciones realizados a fetos en desarrollo y el segundo conjunto de datos son Datos
Experimentales en Bioquı́mica, donde se midió la producción de Nisina en un cultivo de Leche.
1
2 CAPÍTULO 1. INTRODUCCIÓN.
Para el primer conjunto de datos se revisó los siguientes trabajos [6] , [11] y [12] y para el segundo
conjunto de datos se usó el siguiente trabajo [5]
1.1 Planteamiento del problema.

1.1.1 Antecedentes.
En muchas situaciones de la realidad se está interesado en saber el comportamiento de un fenómeno,
para poder describir y conocer el impacto de esté; por tanto la construcción de modelos estadı́sticos
surge con la finalidad de explicar y predecir el comportamiento de estos fenómenos reales que
dependen de distintas variables, para ello, en general se busca establecer la relación funcional entre
las variables (variables explicativas) que afectan el fenómeno y la variable respuesta del fenómeno,
de la siguiente forma, dado un conjunto de variables explicativas x1 , x2 , ..., xn y una variable de
respuesta que es la variable de interés y, se intenta determinar la relación que existe entre ellas a
través de la forma funcional
y = f (x1 , ..., xn ) ;
Una forma funcional de interés es la forma funcional no lineal debido al avance tecnológico de
las computadoras. Los modelos no lineales han sido objeto de atención creciente en los últimos
años. Se ha encontrado que los modelos no lineales son más frecuentes de lo que se pensaba, dado
que cada dı́a más áreas de investigación requieren la utilización de los modelos de regresión no
lineal. Algunas aplicaciones se han dado en Medicina, Finanzas, Medio ambiente, redes neuronales,
meteorológica, etc. Entenderemos por Modelo de Regresión no lineal por un modelo de la forma
yi = f (xi , θ) + εi , i = 1, ..., n. (1.1)
donde θ es el parámetro de interés que aparece de forma no lineal. Por otro lado, cuando se trata
de modelar el comportamiento de un fenómeno existen varios modelos alternativos, entonces surge
el problema de seleccionar el modelo más adecuado del conjunto que se tenga. La selección de
un mejor modelo de la colección de modelos construidos o existentes, a menudo es una elección
entre teorı́as en competencia o la elección se basa en resultados empı́ricos obtenidos a partir de
datos de la muestra. Por tanto la discriminación de modelos se aplicará la teorı́a de la selección
de modelos rivales entre los modelos basados en la información de la muestra para encontrar un
modelo adecuado del conjunto dado. Dentro de la teorı́a de selección de modelos hay dos tipos
de modelos, los cuales son: modelos anidados y modelos no anidados. Por Modelos anidados
entenderemos aquellos en los que se puede establecer una jerarquı́a, de tal manera que uno de
ellos es el denominado modelo general y el o los otros, llamados modelos restringidos, los cuales
se pueden obtener mediante la imposición de restricciones, lineales o no lineales, sobre el modelo
general, y los Modelos no anidados, son aquellos que no pueden ser jerarquizados en un modelo
general o modelos restringidos no pueden obtenerse de un modelo general a través de la imposición
de restricciones.
Como se mencionó existen varios modelos alternativos que podrı́an modelar un cierto problema,
supongamos entonces que existen dos modelos f y g que podrı́an describir el problema, entonces
surge dos situaciones naturales, las cuales son, los dos modelos de regresión no lineales pueden ser
1.1. PLANTEAMIENTO DEL PROBLEMA. 3
anidados o no anidados, supongamos que tenemos las siguientes hipótesis
H0 : yi = f (xi , θ) + εi , i = 1, ..., n (1.2)

H1 : yi = g (xi , θ) + εi , i = 1, ..., n (1.3)
donde f y g son de la forma (1.1), cuando se tiene la hipótesis donde los modelos de regresión
no lineal son anidados por lo general podemos usar la prueba de razón de verosimilitud para
compararlos y cuando los dos modelos de regresión no lineal sean no anidados, existen una gran
variedad de pruebas, pero en el trabajo nos enfocaremos a trabajar con la prueba P de Davidson
y MacKinnon para modelos de regresión no lineales. Por tanto podemos decir que el problema
sustancial del trabajo se puede definir de la siguiente manera:
La prueba de hipótesis implica generalmente modelos anidados, en la cual el modelo que rep-
resenta la hipótesis nula es un caso especial de un modelo más general que representa la hipótesis
alternativa. Para este modelo, siempre se puede probar la hipótesis nula mediante pruebas de las
restricciones que se imponen a la alternativa. Pero a menudo surgen modelos los cuales no están
anidados. Esto significa que ninguno de los modelos puede ser escrito como un caso especial del otro
sin imposición de restricciones en ambos modelos. En tal caso, no podemos simplemente probar
uno de los modelos contra el otro, al imponer restricciones en uno de ellos.
Existe una extensa literatura sobre las pruebas de hipótesis no anidadas. Esta proporciona
un gran número de maneras de probar la especificación de los modelos estadı́sticos cuando una o
más alternativas no anidadas existen. En este trabajo se presentará un de estos caminos el cual es
ampliamente utilizado para pruebas de hipótesis no anidadas, principalmente en el contexto de los
modelos de regresión.
Si lo que se desea es seleccionar el ”mejor” modelo de un conjunto de modelos competitivos,
entonces se debe usar un enfoque diferente a las pruebas de hipótesis, basado en métodos de
discriminación y criterios de información. En los métodos de discriminación se sugiere tres hipótesis
de las cuales se construye la metodologı́a de estos métodos, estas cuestiones fueron presentas por
Atkinson (1969) , las cuales son:
A1 Bajo el supuesto que un modelo particular es el verdadero, ¿hay evidencia de que de los otros
modelos, ajusten mejor a los datos?
A2 Bajo el supuesto que el modelo se ajusta adecuadamente a los datos, ¿hay evidencia estadı́stica
de lo contrario?
A3 Si se asume que uno de los modelos es el verdadero, ¿hay suficiente evidencia para hacer una
selección?
La eficacia de estas cuestiones está basada en la evaluación del ajuste y la estabilidad de los
modelos.
1.1.2 Limitaciones.
Como se señaló, en la literatura estadı́stica existe una gran variedad de publicaciones sobre las
pruebas de hipótesis no anidadas y métodos de discriminación, por lo cual podemos encontrar una
gran variedad de maneras de probar la especificación de los modelos estadı́sticos cuando una o
más alternativas no anidadas existen. Si se desea conocer algunas de estas pruebas, se recomienda
recurrir al artı́culo de Jerzy Szroeter [9] . En este trabajo sólo se presentará algunos de estos caminos,
los cuales fueron de interés, además que son ampliamente utilizados en la selección de un modelo de
un conjunto de modelos competitivos, principalmente en el contexto de los modelos de regresión.
Por tanto, se realizará una revisión de los estadı́sticos de prueba para modelos de regresión anidados
y no anidados propuestos por Davidson y MacKinnon, es decir, la prueba de razón de verosimilitud
y la prueba P de Davidson y MacKinnon, también se revisará la teorı́a de modelos de discriminación
en el libro de Borowiak Dale S y el criterio de Información de Akaike que como se ha mencionado
es uno de los métodos más utilizados en todos los ámbitos.
En el contexto en el que se desarrolla este trabajo, no se discutirá acerca de los problemas que
surgen en el ámbito computacional cuando se lleva a cabo el método de mı́nimos cuadrados. Ası́
como tampoco se realizará una verificación de las potencias de las pruebas que podrı́a considerarse
como una extensión de la tesis.
1.2 Objetivos.
La realización de este trabajo pretende los siguientes objetivos:
• Conocer, aplicar y ajustar un modelo de regresión no lineal adecuado al comportamiento de

los datos del fenómeno en estudio.
• Conocer si el modelo seleccionado es el mejor modelo o existe otro modelo competitivo.
• Plantear, discutir y aplicar las estadı́sticas de prueba para realizar la prueba de hipótesis no
anidadas sobre los modelos de regresión no anidados.
• Plantear, discutir y aplicar los métodos de discriminación en la selección del mejor modelo
de un conjunto de modelos competitivos.
Debido a que la motivación del presente trabajo nació del deseo de resolver los dos problemas
reales anteriormente mencionados, surgió ası́ el hecho de utilizar modelos no lineales, dada la
naturaleza propia de los problemas a tratar, dando lugar a los siguientes objetivos especı́ficos.
Para el problema con el conjunto de datos médicos los objetivos a perseguir durante el trabajo
son
• Se ajustará modelos no lineales a la relación funcional entre las variables medidas a lo fetos
los datos para tratar de encontrar un modelo que pueda ser usado para poder saber todas las
mediciones ecográficas del feto con sólo saber la edad gestional.
• Se realizará un análisis estadı́stico para tratar de encontrar un modelo que pueda predecir el
peso de nacimiento de un feto dado que se midieron 4 variables durante su gestación.
Para el segundo problema de la producción de nisina los objetivos a seguir en el trayecto del
trabajo son:
• Describir el crecimiento y la producción de nisina por la bacteria Lactococcus lactis subsp

en leche en polvo light reconstituida, la cual es usada para preservar alimentos perecederos
como leche y quesos, a través de un modelo de regresión no lineal.
1.3. METODOLOGÍA. 5
• Encontrar el mejor tratamiento para la producción de nisina A.
• Ajustar modelos no lineales a cada una de las cinéticas realizadas.
• Encontrar un modelo general y compararlo con los modelos de regresión no lineal ajustado
para cada cinética.
1.3 Metodologı́a.
Con el objetivo de poder alcanzar los objetivos planteados, fue necesario realizar una investigación
amplia de distintos libros y artı́culos donde se considero que se presentaba de manera clara las
pruebas de hipótesis no anidadas para modelos no anidados y los métodos de discriminación.
Debido a que en este trabajo se utilizaron datos reales se realizó una limpieza de los datos,
ası́ como un análisis de cada una de las variables, los cuales se presentan en el Capı́tulo 5. En el
trabajo se consideran dos conjuntos de datos, a cada uno de los cuales les fue ajustado modelos no
lineales, entre los que se encuentran los modelos de crecimiento.
Ası́ como también debido a que los paquetes estadı́sticos carecen de las pruebas de hipótesis
anidadas y no anidadas, y para los métodos de discriminación, fue necesario realizar la programación
de estas pruebas en R, versión 2.6.1 (2007-11-26) debido a que es un lenguaje de programación
gratuito, de fácil manejo y es utilizado en muchos campos entre los cuales se encuentra el campo
estadı́stico.
Para el ajuste de los modelos no lineales a los datos se uso el paquete de Statgraphics Plus
versión 5.1 (1994 − 2000) dado que es paquete comercial muy fácil de usar, aunque también se
realizaron el ajuste en el programa R. El siguiente paso fue utilizar estos modelos ajustados para
las pruebas de hipótesis y los métodos de discriminación, para encontrar el mejor modelo para el
comportamiento de los datos. Para lograr el objetivo de predicción del peso de nacimiento del bebe
se realizó un análisis de entrada y salida de variables.
1.4 Estructura del trabajo.

En la realización del trabajo planteado, fue necesario obtener conocimientos acerca de modelos
de regresión no lineal, pruebas de hipótesis anidadas y no anidadas, métodos de discriminación y
criterios de información, ası́ como también conocimientos básicos de los campos de los problemas
utilizados en la tesis, esto definió la estructura que tendrá el trabajo, la cual es presentada a
continuación.
En el Capı́tulo 2 se presenta un resumen de Modelos de Regresión No Lineales, en el cual se
abordo como se puede realizar la estimación de los parámetros por estimación de mı́nimos cuadrados
o por estimación por máxima verosimilitud, luego se abordo la inferencia estadı́stica en regresión
no lineal, es decir, como realizar pruebas de hipótesis sobre los parámetros y la construcción de
intervalos de confianza, por último se presenta modelos de regresión no lineal muy conocidos, los
cuales son las curvas de crecimiento, los cuales son utilizados en el trabajo dado el comportamiento
que presentaron las relaciones funcionales entre la variable de respuesta y las variables de predicción,
principalmente en los datos experimentales.
Los dos conjuntos de datos analizados durante el trabajo son presentados en el Capı́tulo 3. En
este capı́tulo se realiza una breve descripción de cada uno de los conjuntos de datos.
En el Capı́tulo 4 se presenta la teorı́a central del trabajo, las pruebas de hipótesis no anidadas
propuestas por Davidson y MacKinnon en su artı́culo de 1891 y la teorı́a discriminación de modelos
presentada en el libro de Borowiak Dale S. y el criterio de información de Akaike y Bayesiano.
En el Capı́tulo 5 se presenta el análisis estadı́stico de los datos. A continuación se hace una
discusión de los métodos utilizados para elegir un modelo de un conjunto de modelos competitivos
para describir el comportamiento de los problemas abordados en el trabajo.
En el último Capı́tulo se presentan las conclusiones y comentarios del trabajo realizado.
1.5 Resultados relevantes.

En este trabajo se presenta métodos para poder elegir el modelo más adecuado al comportamiento
de los datos de los modelos propuestos. Uno de los resultados de interés fue el descubrir que las
variables utilizadas para tratar de pronosticar el peso de nacimiento de los fetos están altamente
correlacionadas y por tanto fue suficiente utilizar una sola variable para poder describir la relación
que hay entre las variables ultrasonograficas y la edad gestional, es decir, que basta con conocer
una sola de estas variables y se sabe la edad gestional del feto, ası́ como cuales son las medidas de
las demás variables. Al tratar de predecir el peso de nacimiento, se encontró que las variables que
aparecieron en todas las ecuaciones que fueron relevantes son el diámetro abdominal y la longitud
del fémur, además se obtuvo que si el objetivo es predecir el peso de nacimiento con estas variables
es necesario tener información del feto. Esto debe suceder por la misma cuestión que sucede cuando
se trata predecir el peso de una persona con las medidas de su cuerpo, no siempre coincide su peso
con sus medidas corporales, sino hay que tener más información de la persona.
Cuando se aplicaron los criterios de discriminación para seleccionar el modelo más competente
del conjunto de modelos propuestos se encontró que el modelo más adecuado para modelar la
relación funcional entre el diámetro biparietal y la edad gestional es el modelo logı́stico, el cual
también resultó seleccionado por el criterio de Información Bayesiano, debido a que el tamaño de
muestra es grande, aunque se observó que la probabilidad de seleccionar este modelo es de 0.301456,
lo cual es muy bajo, esto se debió a que existe una variabilidad en los datos y se concluye que todos
los modelos parecen ser bastante adecuados para describir el comportamiento.
También se encontró con respecto a los datos en bioquı́mica que el tratamiento más eficiente
para producir nisina es el tratamiento 16 aunque no hay que descartar los tratamientos 8, 9,
11, 14 y 18, aunque en esta tesis no se tiene conocimiento completo del experimento, se puede
recomendar usar el tratamiento que sea más económico debido a que no habrá mucha diferencia en
la producción de nisina entre estos tratamientos, como se observa en el gráfico XXX . Se encontró
que el modelo más adecuado para modelar el crecimiento de la nisina fue el modelo gompertz debido
a que el criterio de Akaike nos dice que el 77% de los tratamientos son adecuadamente modelos
por el modelo Gompertz, aunque las pruebas de hipótesis de Davidson y M acKinnon nos dice que
ambos modelos considerados para modelar la producción de nisina son adecuados para describir el
comportamiento.
Capı́tulo 2
Modelos de Regresión No Lineales.
Un modelo de regresión no lineal puede escribirse de la siguiente forma
yi = f (xi , θ) + εi , i = 1, ..., n (2.1)
donde f es la función esperada, xi es una variable regresora o variables independientes para las
n observaciones, θ es vector de parámetros a estimar, donde θb es el estimador correspondiente y
εi representa el error aleatorio. En este trabajo los errores se asumen normales independientes
e idénticamente distribuidos con media cero y varianza desconocida σ 2 . Entenderemos por un
modelo de regresión no lineal un modelo donde la función esperada es una función no lineal en los
parámetros, por ejemplo
yi = xθi + εi
El conjunto de variables {xi } es considerado como un conjunto de variables fijas y no variables
aleatorias. Los supuestos para la regresión no lineal son: homogeneidad de varianzas, los valores
de xi son fijos, los valores de la muestra son tomados sin error.
2.1 Estimación por mı́nimos cuadrados.

Los modelos no lineales pueden ser divididos en dos grupos, en los modelos intrı́nsecamente no
lineales y los no intrı́nsecamente lineales. Estos últimos surgen cuando a los modelos no lineales
se les puede aplicar alguna transformación de tal manera que el modelo se convierte en lineal.
Cuando dicha transformación no existe estamos ante la presencia de un modelo intrı́nsecamente
no lineal. Cuando los modelos son modelos de regresión no lineales son intrı́nsecamente no lineales
suelen presentar problemas de resolución dado que en ocasiones no existe una manera algebraica
de resolverlos, por tanto se usan métodos numéricos que faciliten la resolución de estos. Hay una
gran riqueza de literatura sobre la forma de determinar los estimadores de mı́nimos cuadrados de
los parámetros una vez que un modelo no lineal ha sido especificado y un conjunto de datos a sido
obtenido. Esta combinación de tener un conjunto de datos y un modelo especificado determinan
de manera única los estimadores de mı́nimos cuadrados, excepto para casos patológicos, algunos
esfuerzos computacionales considerables podrı́an ser requeridos para llegar a las estimaciones. Entre
los métodos o algoritmos que existen podemos enunciar el método de Gauss-Newton y el de Newton-
Raphson entre otros.
7
8 CAPÍTULO 2. MODELOS DE REGRESIÓN NO LINEALES.
En forma similar a los modelos lineales, uno puede usar mı́nimos cuadrados para estimar los
parámetros de un modelo no lineal. El método o algoritmo que usaremos en la tesis es el de Gauss-
Newton, dado que es uno de los más usado en regresión no lineal. Este se basa en una aproximación
lineal de la función f (xi , θ) cuando ésta es derivable, es decir, en la minimización de la función de
suma de cuadrados de los residuales.
Se considera el modelo no lineal de la forma (2.1). En forma matricial se expresa por:
Y = f (X, θ) + ε (2.2)
T T
Donde Y = [y1 , ..., yn ] , X = [x1 , ..., xn ] , ε = [ε1 , ..., εn ] y θ es el vector de parámetros de
dimensión 1 ∗ p. El objetivo es minimizar la suma de cuadrados de los residuales para encontrar
los estimadores:
S (θ) = [Y − f (X, θ)]T [Y − f (X, θ)] (2.3)
El algoritmo de Gauss-Newton es un procedimiento iterativo. Esto significa que debemos propor-
cionar una estimación inicial del vector de parámetros θ1 . Entonces para la estimación m + 1 de θ
se puede expresar como:
h i−1 0
θm+1 = θm + F (θm )T F (θn ) F (θm ) [Y − f (X, θm )] (2.4)
Donde F (θn ) = ∂f (X,θ)

∂θ |n . La descripción del método se presenta en el apéndice A. En el modelo
(2.2) se asume que ε es independiente e idénticamente distribuido con media cero y varianza Iσ 2 .
SSE (θb)
Tenemos que bajo ciertos supuestos de regularidad, θb y s2 = (n−p) son estimadores consistentes
de θ y σ2
respectivamente. Con más condiciones de regularidad, θb tiene una distribución normal
h i−1
multivariada p− dimensional con media θ y matriz de varianza-covarianzas σ 2 F (θn )T F (θn ) ,
es decir: h i−1
θb ∼ Np θ, σ 2 F (θn )T F (θn )
(n−p)s2
y σ2
tiene distribución chi − cuadrada con n − p grados de libertad
(n − p) s2
∼ χ2(n−p)
σ2
también se tiene que s2 y θb son independientes. Además bajo el supuesto de que los errores son
normalmente distribuidos, entonces θb es también el estimador de máxima verosimilitud.
2.2 Estimación por máxima verosimilitud.

Si conocemos la distribución del error entonces podemos usar el método de máxima verosimilitud
para estimar los parámetros del modelo. Si los errores son normales e idénticamente distribuidos
con varianza constante, el método de máxima verosimilitud y el método de mı́nimos cuadrados
coinciden en la estimación de θ.
Consideremos el modelo (2.1), donde los errores son normales e idénticamente distribuidos con
media cero y varianza desconocida σ 2 , entonces la función de verosimilitud es
n
" #
1 1 X 2
L θ, σ 2 =

n exp − [yi − f (xi , θ)] (2.5)
(2πσ 2 ) 2 2σ 2
i=1
2.3. INFERENCIA ESTADÍSTICA EN REGRESIÓN NO LINEAL. 9
Debido a que la maximización de la función de verosimilitud es equivalente a la maximización de

la log-verosimilitud, procederemos a aplicar ln a (2.5) obtenemos:
n
n 1 X
ln L θ, σ 2 = − ln 2πσ 2 − 2 [yi − f (xi , θ)]2

2 2σ
i=1
al derivar con respecto a β e igualando a cero la derivada tenemos

n
1 X ∂f (xi , θ)
[yi − f (xi , θ)] =0
σ2 ∂βj θ=b
i=1
de aquı́ vemos que la elección del vector de parámetros b que maximiza la log-verosimilitud es
equivalente a maximizar la suma de cuadrados de los residuales. Por tanto en el caso de los errores
se distribuyan normal, los estimadores de mı́nimos cuadrados en regresión no lineal son los mismos
que los estimadores de máxima verosimilitud.
2.3 Inferencia Estadı́stica en regresión no lineal.

En modelos de regresión lineal, cuando los errores son normales e independientes, las pruebas
estadı́sticas exactas y los intervalos de confianza basados en las distribuciones F y t son viables, y
la estimación de mı́nimos cuadrados para los parámetros (equivalente a la estimación de máxima
verosimilitud) tiene suficientes y atractivas propiedades. Sin embargo, este no es el caso en regresión
no lineal, incluso cuando los errores son normalmente e independientemente distribuidos. Esto es,
en regresión no lineal la estimación por mı́nimos cuadrados (o por máxima verosimilitud) de los
parámetros no disfrutan de ninguna de las atractivas propiedades como se tiene en modelos lineales,
tales como insesgadez, mı́nima varianza o normalidad. La inferencia estadı́stica en regresión no
lineal depende de muestras grandes o resultados asintóticos, en otras palabras, las propiedades son
propiedades asintóticas. Esto es la insesgadez y la mı́nima varianza son propiedades que se alcanzan
cuando el tamaño de muestra tiende a ser grande. Como resultado, para un modelo y un tamaño
de muestra especı́ficos, nada verdaderamente se puede afirmar en relación con las propiedades de
los estimadores. Hay resultados asintóticos de varianza-covarianza que se pueden usar para obtener
intervalos de confianza aproximados y para construir estadı́sticos t para los parámetros.
La clave de los resultados asintóticos puede ser brevemente resumida como sigue. En general
cuando el tamaño de muestra n es grande, el valor esperado de θb es aproximadamente igual a
θ, el vector verdadero de los valores de los parámetros. Además la distribución muestral de θb es
aproximadamente normal. La covarianza asintótica de θb es la inversa de la matriz de información.
La matriz de información es la negativa de la matriz Hessiana, a cual es justamente la matriz de las
segundas derivadas de la función de log-verosimilitud. Para la respuesta con distribución normal,
T
la Hessina es − Zσ2Z , donde Z es la matriz de las derivadas parciales del modelo evaluadas en la
última iteración de la estimación de mı́nimos cuadrados de θ.b Por tanto la matriz de covarianzas
asintótica de θb es −1
var θb = σ 2 Z T Z
Consecuentemente la inferencia estadı́stica para regresión no lineal cuando el tamaño de muestra

es grande es muy semejante a la que se sigue en regresión lineal. Por ejemplo, para la prueba de
hipótesis que un coeficiente de regresión individual, o
H0 : θ = 0 vs H1 : θ 6= 0
usamos una razón similar a la prueba t dada por
θb
t0 =
se θb

donde se θb es el error estándar de θb el cual puede ser obtenido como un elemento de var θb =
−1
σ2 Z T Z . La distribución asintótica de t0 es N (0, 1) cuando la hipótesis nula es verdadera.
Rechazamos H0 si |t0 | > t1− α2 ;n−p . Un intervalo de confianza de Wald de 100 (1 − α) % para el
parámetro θ es
θb − z α2 se θb ≤ θ ≤ θb + z α2 se θb
2.4 Curvas de crecimiento.

Las curvas de crecimiento son usadas para describir como una respuesta crece con cambios en la
variable independiente, tales curvas inician en algún punto fijo y aumentar su tasa de crecimiento
monótonamente para llegar a un punto de inflexión; después esta tasa de crecimiento disminuye
para aproximarse asintóticamente a algún punto final. Las curvas de crecimiento tienen formas
senoidales como se observa en la figura (2.1), la cual es un ejemplo del crecimiento de raı́ces de
frijoles vs contenido de agua. En este gráfico se observa el patrón tı́pico de una curva de crecimiento
descrita anteriormente, inicia en un punto y crece rápidamente de manera monótona hasta llegar
al punto de inflexión y luego el crecimiento disminuye hasta llegar a un punto en el cual no crece
más, en la práctica se sabe que esto sucede ya sea por el agotamiento de los nutrientes del medio
ambiente en el que se encuentra o debido a que ha llegado al final de su desarrollo o tiempo de
vida. Los procesos de producción senoidal o curvas de crecimiento S-modelar son muy difundidos
en biologı́a, agricultura, ingenierı́a, economı́a y medicina.
Figura 2.1: Gráfico de un Modelo Senoidal.
Numerosas funciones matemáticas se han propuesto para modelar las curvas de crecimiento,
algunas de las cuales se tienen cierta base teórica subyacente. Entre ellas están la Gompertz, la
2.4. CURVAS DE CRECIMIENTO. 11
Logı́stica, la Richards (1959), la M organ − M ercer − F lodin (1975), y un modelo derivado de

la distribución Weibull (1951), esta es designada como un modelo tipo − W eibull. Para el trabajo
sólo se utilizarán los modelos Gompertz y Logı́stico, debido a que estos modelos son usados para
el estudio del crecimiento de poblaciones o animales. A continuación presentaremos una breve
explicación de estas curvas de crecimiento.
2.4.1 Modelo Gompertz.

El modelo de Gompertz se debe a Benjamin Gompertz que lo propuso en 1825 en su trabajo, ”On
the nature of the function expressive of the Law of human mortality”. Ha sido un modelo muy
utilizado dado que describe relativamente bien la mortalidad humana en edades adultas, poblaciones
de tumores, ası́ como también es frecuentemente usado para el estudio de poblaciones y animales en
crecimiento en situaciones donde éste no es simétrico alrededor del punto de inflexión. El modelo
funcional considerado es
Y = α exp (− exp (β − γX)) (2.6)
Observar que la forma del modelo Gompertz (2.6) es una doble exponencial, además que es una
función no lineal en los parámetros, los cuales tienen los siguientes significados:
Figura 2.2: Gráfico del Modelo Gompertz
1. El parámetro de α es el lı́mite superior de la curva como se observa en el gráfico , es decir la

fase estacionaria.
2. El parámetro β es el tiempo de adaptación antes de iniciar la fase exponencial o de crecimiento

exponencial.
3. El parámetro γ es la tasa de crecimiento.
2.4.2 Modelo Logı́stico.

La curva logı́stica o curva en forma de S es una función matemática que aparece en diversos modelos
de crecimiento de poblaciones, propagación de enfermedades epidémicas y difusión en redes sociales.
En este modelo como modelos de crecimiento, las poblaciones inicialmente crecen rápido en una
fuente de presión constante, esto debido a que generalmente el medio para la población es óptimo,
por tanto se vuelven tan numerosos los individuos de dicha población que pierden su capacidad
de crecer debido a interacciones entre los miembros de la población, por lo que resulta un estado
de equilibrio. Este tipo de crecimiento se llama crecimiento logı́stico. El crecimiento logı́stico
es el balance entre producción en proporción a la población, y a las pérdidas en proporción a la
oportunidad de interacciones individuales. Un ejemplo es el crecimiento de levadura en el fermento
del pan. Primeramente, el crecimiento de la población es casi exponencial. La disponibilidad de
alimento es constante y como la población crece esto implica comer más y más. Sin embargo,
las células de levaduras se vuelven tan numerosas que sus productos comienzan a interferir con el
propio crecimiento. Por lo que resulta un estado de equilibrio entre producción y pérdida de células.
El modelo logı́stico está dado por:
α
Y =
1 + exp (β − γX)
Donde los parámetros tienen los siguientes significados:
1. El parámetro de α es el lı́mite superior de la curva como se observa en el siguiente gáfico.
2. El parámetro β falta su interpretación pero lo observado en los gráficos es el tiempo de

adaptación antes de iniciar la fase exponencial.
3. El parámetro γ es la tasa de crecimiento.
Figura 2.3: Gráfico de un Modelo Logı́stico

Capı́tulo 3
Problemas de Estudio.
3.1 Datos Médicos (Datos Observables).

La evaluación del crecimiento fetal es importante para predecir la posibilidad de padecimientos del
neonato, estimar su pronóstico a largo plazo y juzgar el resultado de la atención de mujeres con
embarazo de alto riesgo. La evaluación tradicional consiste en ubicar al recién nacido en una curva
patrón de crecimiento intrauterino, de acuerdo con el peso y la edad gestacional.
El ultrasonido ofrece la oportunidad de poder evaluar el crecimiento fetal debido a que se pueden
medir variables que permiten estimar la edad gestacional y evaluar el crecimiento fetal. En general
después de la semana 12 se utilizan las siguientes medidas o variables: diámetro biparietal (DBP),
circunferencia de la cabeza o cefálica, circunferencia abdominal, longitud de la diáfisis del fémur,
entre otras para determinar la edad del feto y analizar su desarrollo. Una descripción rápida de
estas variables es proporcionada a continuación:
Diámetro biparietal. Es uno de los parámetros más usados para la estimación de la edad
gestacional y, además, permite predecir el patrón de crecimiento del cráneo. Se mide entre dos
marcas: una situada en el margen externo del hueso parietal más próximo y la otra en el margen
ecogénuco esterno del hueso parietal distal o dependiente como se observa en la figura . La medida
es transversal y unidimensional, es decir la medida se hace a ambos extremos de la cabeza y se
utiliza para calcular la edad gestacional, con un rango de error de más o menos 1 semana entre las
semanas 12 y 20, y de más o menos 3 semanas, después de la semana 30. Las medidas obtenidas
son llevadas a Tablas especiales, para obtener un estimado de la edad gestacional. La mayorı́a de
los equipos de ultrasonido vienen con programas para hacer el cálculo de la edad gestacional, en
base a la medida del DBP.
Circunferencia cefálica. La medida de la circunferencia cefálica (CIRCEF) ha sido com-
parada con el DBP, ya que ambos son similares en el rango de seguridad. Sin embargo, la CC
tiene mayor valor cuando se encuentran formas inusuales en la forma del cráneo, ocasionadas por
la posición del feto en el útero. La medida de la CC se realiza en el mismo plano que la del DBP
y es como si le pusiéramos una bandana al bebé. Ambas medidas son útiles para el estudio del
crecimiento y nutrición del feto, un gráfico de la medición de la circunferencia cefálica es la figura .
Longitud del fémur. Al igual que el DBP, la medición de la longitud del fémur (LFemur) es
uno de los parámetros más utilizados para estimar el crecimiento y la edad gestacional. El fémur
se identifica por su forma en “palo de golf”, como se observa en la figura y es una de las medidas
más precisas de edad gestacional al final del embarazo.
13
14 CAPÍTULO 3. PROBLEMAS DE ESTUDIO.
Circunferencia abdominal: es la medición de la distancia alrededor del abdomen en un punto

especı́fico (usualmente al nivel del ombligo), para medir la circunferencia abdominal (CIRABD), se
debe hacer un corte transversal del abdomen fetal donde se visualice la vena umbilical, la columna
vertebral y el estómago. Es como si le pusiéramos un cinturón al bebé. La medición se debe hacer
en la periferia del abdomen fetal, de la misma manera como se realiza la medida de la circunferencia
cefálica.
Actualmente existen muchos equipos de ultrasonidos vienen programados para hacer una esti-
mación del peso fetal, los cuales utilizan combinaciones de las medidas antes mencionadas y otra
información proporcionada por la madre.
Figura 3.1: Medición del diámetro biparietal.
Figura 3.2: Medición de la Longitud del Femur.

3.2. DATOS EXPERIMENTALES EN BIOQUÍMICA. 15
Figura 3.3: Medición de la Circunferencia Cefalica.
Los datos a usar en la tesis fueron proporcionados por seguro social de León, Guanajuato,
consisten de 48 fetos a los cuales se les midió las siguientes variables: diámetro biparietal (DBP ),
circunferencia de la cabeza o cefálica (CIRCEF ), circunferencia abdominal (CIRABD), longitud
de la diáfisis del fémur (Lf emur), peso del recién nacido (P eso). Las mediciones seriales fueron de
la semana 15 a la semana 39, dándose un caso de 41 semanas de gestación.
3.2 Datos Experimentales en Bioquı́mica.

La conservación de alimentos ha evolucionado con el transcurso de los años, debido a que los
consumidores demandan alimentos menos procesados y sin la presencia de aditivos quı́micos, dada
esta necesidad se han seleccionado un gran número de métodos de conservación que permiten
mantener las caracterı́sticas de frescura e inocuidad de los alimentos. Algunos de los métodos de
conservación que han sido utilizados son los siguientes: manejo de temperatura, pH, actividad
acuosa, atmósferas controladas, agentes quı́micos, irradiación, empaques, etc. la utilización de más
de uno de estos sistemas de conservación evita la proliferación de microorganismos en los alimentos.
A diferencia de las sustancias quı́micas adicionadas intencionalmente a los alimentos, las sustan-
cias naturales suelen implicar menores riesgos a la salud, ya que la mayorı́a de ellas, son generadas
por algún material biológico como método de conservación; algunos de estos compuestos han sido
usados durante mucho tiempo, sin que hayan presentado ningún efecto adverso a la salud. Es
por ello que el interés por el uso de nuevos métodos de conservación biológico ha aumentado la
utilización de las bacterias ácido lácticas, debido a que pueden ser aplicadas como conservadores
naturales para controlar el crecimiento de bacterias patógenas o deterioradoras de los alimentos de-
bido al efecto antagónico de estos microorganismos de los metabolitos antimicrobianos. El término
bioconservador ha sido usado para incluir los compuestos antimicrobianos de plantas, animales y
compuestos de origen bacteriano, el uso de estos compuestos alarga la vida de anaquel de alimento
(Schillinger y col., 1996).
Debido a que el Lactococcus lactis U Q − 2 es una bacteria nativa de un queso mexicano que
16 CAPÍTULO 3. PROBLEMAS DE ESTUDIO.
Tabla 3.1: Diseño Experimental para los Datos de Bioquı́mica.

Factores Niveles de Factores Variable/Respuesta
Conc. 0 (n/nisina) Microbiológicas
Conc. 1 (nisina 0.05 ug/l) Cuenta de
Concentración Conc. 2 (nisina 0.65 ug/l) Lactococcus lactis UQ-3
de Nisina Conc. 3 (nisina 1.25 ug/l) Actividad de
Conc. 4 (nisina 1.87 ug/l) nisina (Difisión en Agar)
Conc. 5 (nisina 2.5 ug/l) Fı́sicas y quı́micas
Concentración Mezcla 0 (Sin sales) pH
de mezcla Mezcla 1 (Mg(0.5) y Mn(0.1)) Consumo de lactosa
de sales (Mg y Mn) Mezcla 2 (Mg(0.2) y Mn(0.04))
produce antimicrobianos naturales entre ellos la nisina A. Y debido a que la nisina es un péptido
antimicrobiano capaz de inhibir bacterias Gram positivas, usada como un conservador clasificado
como GRAS (generalmente reconocida como segura) y dado que ingerida es destruida rápidamente
durante la digestión, por lo que carece de toxicidad para el ser humano, además que el uso de
la nisina esta comercialmente disponible en más de 50 paı́ses alrededor del mundo. Se realizó un
experimento con el objetivo crecer Lactococcus lactis U Q − 2 en leche e incrementar la producción
de nisina A, se modificó las condiciones del medio donde se desarrolla, de manera que pueda ser
útil para la bioconservación de productos lácteos.
Los objetivo a perseguir en la tesis para este problema son:

1. Describir el crecimiento ln NN0 y la producción de nisina por la bacteria Lactococcus lactis
subsp en leche en polvo light reconstituida, la cual es usada para preservar alimentos pere-
cederos como leche y quesos, a través de un modelo de regresión no lineal, es decir, ajustar
modelos no lineales a cada una de las cinéticas realizadas.
2. Encontrar el mejor tratamiento para la producción de nisina A.
3. Encontrar un modelo general y compararlo con los modelos de regresión no lineal ajustado
para cada cinética.
En el experimento se evaluó el efecto que tienen la agregación de nisina externa y sales (Mg y
Mn en dos concentraciones diferentes), en el medio de cultivo (leche), sobre la producción de nisina
del Lactococcus lactis U Q − 2. Se usó un diseño multifactorial con un nivel de significancia de
α = 0.05. Todas las muestras experimentales se realizaron por duplicado. La Tabla (3.1) muestra
el diseño utilizado para obtener los datos del experimento.
Capı́tulo 4
Pruebas de Hipótesis y Métodos de

Discriminación para Modelos de
Regresión No Lineal.
Dentro de la teorı́a de selección de modelos hay dos tipos de modelos, los cuales son: modelos
anidados y modelos no anidados. Por Modelos anidados entenderemos aquellos en los que se puede
establecer una jerarquı́a, de tal manera que uno de ellos es el denominado modelo general y el o
los otros, llamados modelos restringidos, los cuales pueden ser obtenidos mediante la imposición de
restricciones, lineales o no lineales, sobre el modelo general, y los Modelos no anidados, son aquellos
que no pueden ser jerarquizados en un modelo general y un o unos modelos restringidos no pueden
obtenerse de un modelo general a través de la imposición de restricciones.
4.1 Prueba de Hipótesis para Modelos Anidados.

La modelación de un fenómeno natural o fı́sico a menudo inicia con un modelo básico, la complejidad
junto con un creciente número de parámetros desconocidos, se añade continuamente, formándose
una sucesión de modelos propuestos. Con esta creciente complejidad los modelos llegan a ser más
precisos en su ajuste para las respuestas, pero su inestabilidad crece. En este sentido un sistema
natural jerárquico de los modelos es construido, este encajamiento de las funciones modelo es
llamado sistema anidado. De aquı́ podemos observar que un modelo de este conjunto de modelos
anidados es adecuado para el comportamiento de los datos.
Supongamos que tenemos las siguientes hipótesis:
H0 : yi = f (xi , β) + εi0 , i = 1, ..., n y β ∈ Rm1
H1 : yi = g (xi , γ) + εi1 , i = 1, ..., n y γ ∈ Rm2
Para comparar dos modelos usaremos la prueba de razón de verosimilitud. Supondremos de
inicio que f ⊂ g, entonces se prueba
H0 : Y = f (X, β) + ε0 (4.1)
en contra de
H1 : Y = g (X, γ) + ε1 (4.2)
17
18CAPÍTULO 4. PRUEBAS DE HIPÓTESIS Y MÉTODOS DE DISCRIMINACIÓN PARA MODELOS DE R
Donde X = [x1 , ..., xn ], Y = [y1 , ..., yn ] y εj para j = 0, 1, es el vector de errores. Observemos

que en esta hipótesis se prueba cual de los dos modelos anidados ajusta
mejor a los datos. Bajo
2
el modelo correcto, los errores se distribuyen normal εj ∼ N 0, σj I j = 0, 1 para H0 y H1 . Para
poder realizar la prueba de razón de verosimilitud primero encontraremos λ.
supσ02 ,β∈Θ0 L σ02 , β

λ =
supσ12 ,γ∈Θ1 L σ12 , γ

" #
− 12 [Y −f (X,β)]2
P
n
−
sup 2πσ02 2 e 2σ1

= " #
1
[Y −g(X,γ)]2
P
n −
sup 2πσ1 2 − 2
e 2σ12

1 2
[Y −f (X,βb)]
P
n −
2πb
σ0 2 − 2
e 2b
σ12
=
1
γ )]2
P
n − [Y −g(X,b
2πb 2 −
σ1 2 e 2b
σ12

h i2 − n2 − P n 2
P
[ Y −f (X, b)]2
β
2π
e 2 [Y −f (X,βb)]
P
n Y − f X, βb
= − n n o
n
γ )]2
P
− [Y −g(X,b

2π P 2 2
γ )]2
[Y − g (X, γ
b)] e
P
2 [Y −g(X,b
n
n
h i2 − 2

e{− 2 }
P n
Y − f X, βb
= P − n
e{− 2 }
n
b)]2
2
[Y − g (X, γ
 Ph i2 − n2
Y − f X, β
b
=  P
 
b)]2

[Y − g (X, γ
 n
2
P 2
[Y − g (X, γ
b)] 
= P h

i2 
Y − f X, βb
Entonces el estadı́stico de la prueba de hipótesis es:

 n
2
P 2
[Y − g (X, γ
b)] 
λ = P h (4.3)

i2 
Y − f X, βb
donde observamos que λ es el cociente de la suma de cuadrados de los errores. Entonces bajo
condiciones de regularidad generales, sabemos que −2 ln (λ) ∼ χ2 con grados de libertad m2 − m1 ,
4.2. PRUEBAS DE HIPÓTESIS PARA LOS MODELOS NO ANIDADOS. 19

γ )]2
P
[Y −g(X,b
y por tanto una región rechazo para un nivel de significancia de α es −n ln 2 < χ2(1−α) .
[Y −f (X,βb)]
P
Ası́ si el p−valor es menor que el nivel de significancia, concluimos que el modelo alternativo ajusta
a los datos significativamente mejor que el modelo de hipótesis nula. De lo contrario, la conclusión
es que no hay evidencia convincentes de apoyar el modelo alternativo, por lo que aceptar el modelo
de la hipótesis nula.
Observaciones:
• Esta prueba es referida como la prueba de razón de verosimilitud generalizada (GLRT ) para
modelos anidados.
• La prueba es apropiada para modelos lineales y no lineales.
• Tenga en cuenta que la prueba realmente no nos ayuda a decidir qué modelo es el correcto.
Lo que hace es ayudar a decidir si se tiene evidencias suficientes para rechazar el modelo más
simple de la hipótesis nula.
• Esta prueba solo es válida para comparar modelos anidados. Esta no puede ser usada para
modelos no anidados. En este último caso, se tendrá que utilizar un método alternativo
basado en la teorı́a de la información o en métodos de discriminación.
4.2 Pruebas de Hipótesis para los Modelos No Anidados.

Las pruebas de Hipótesis generalmente implican modelos anidados, en los cuales el modelo que
representa la hipótesis nula es un caso especial de un modelo más general que representa la hipótesis
alternativa. Para este modelo, siempre se puede probar la hipótesis nula mediante las pruebas
de las restricciones que este impone en la alternativa. Pero a menudo se da en algunos casos
donde los modelos son no anidados y por tanto no se puede aplicar los procedimientos de las
pruebas de modelos anidados. Esto significa que ninguno de los dos modelos se puede escribir como
caso especial del otro sin restricciones imponentes en ambos modelos. En tal caso, no podemos
simplemente probar uno de los modelos contra del otro, menos condicionar sobre uno de ellos. Existe
una amplia literatura sobre las pruebas de hipótesis no anidadas, la cual ofrece varias maneras de
probar la especificación de los modelos estadı́sticos cuando una o más alternativas no anidadas
existen. Ahora cuando se tiene k modelos y se realizar k (k − 1) pruebas pareadas, no podemos
razonablemente esperar que uno y solo uno de los modelos sea no rechazado. Por lo tanto, si nuestro
objetivo es elegir el mejor modelo de los k modelos competitivos, y no importa si incluso el mejor
modelo es falso, no debemos utilizar las pruebas de hipótesis no anidadas. Estos procedimientos
generalmente implican el cálculo de algún tipo de función de criterio para cada uno de los modelos
y escoger el modelo para el cual esa función sea maximizada o minimizada. Otro método es el
método de discriminación en el cual se busca minimizar la probabilidad de elegir un modelo fj
cuando el modelo correcto es el modelo fq , es decir, se busca minimizar P [IS (fj | fq )] y maximizar
la probabilidad de elegir el modelo fj cuando el modelo correcto es fj .
4.2.1 Prueba de Davidson y Mackinnon.

En los años de 1980, varios procedimientos se propusieron para mostrar la especificación de un
modelo de regresión no lineal en contra de la evidencia presentada por una hipótesis alternativa
no anidada. Una de las primeras de tales pruebas fue presentada por P esaran(1974) y P esaran
y Deaton(1978) y se basaron explı́citamente en el trabajo clásico de Cox(1961, 1962). En el año
de 1981 Davidson y M acKinnon propusieron un procedimiento mucho más simple basado en un
modelo de regresión artificial y mostraron que las pruebas resultantes son asintóticamente equiva-
lentes a las pruebas de Cox. Además que W hite(1982) mostró que si se implementa la prueba de
Cox uno de los procedimientos de Davidson y MacKinnon es obtenido directamente.
La prueba J propuesta en su paper de (1981) para modelos de regresión lineal puede ser ampliada
para modelos de regresión no lineal. Supongamos que hay dos modelos no lineales
M odelo 1 : Y = f (X, β) + ε1 (4.4)

M odelo 2 : Y = g (X, γ) + ε2 (4.5)
donde X representa las observaciones en una matriz de variables exógenas, β y γ son respecti-
vamente vectores de parámetros a ser estimados y εi se asume como i.i.d N 0, σi2 , entonces las
hipótesis estarán dadas por:
H1 : Y = f (X, β) + ε1
H2 : Y = g (X, γ) + ε2
Cuando decimos que los dos modelos son no anidados, queremos decir que hay valores de β
(usualmente una infinidad de valores de β) para los cuales no hay valores de γ admisibles tal
que f (X, β) = g (X, γ) y viceversa. En otras palabras, ningún modelo es un caso especial del otro
a menos que se impongan restricciones sobre ambos modelos. El modelo artificial análogo al modelo
artificial para modelos de regresión lineal es
y = (1 − α) f (X, β) + αg (X, γ) + ε (4.6)
Por si sólo, este modelo no es muy útil dado que α, β y γ generalmente no son identificables. Por
tanto en el paper de Davidson y MacKinnon sugirieron que γ sea reemplazado por γ b el cual es el
estimador de mı́nimos cuadrados, entonces (4.6) se convierte en:
y = (1 − α) f (X, β) + αg (X, γ
b) + ε (4.7)
Debido a que algunos de los parámetros de la regresión no lineal (4.7) no pueden ser identificados
adecuadamente, el estadı́stico J puede ser difı́cil de calcular. Esta dificultad puede ser evitada al
realizar una linealización del en una forma usual, esto es, realizar un GN R (regresión de Gauss-
Newton) es decir, sólo se necesita linealizar la ecuación (4.7) alrededor de β = β. b Esta GN R
es
h i
y − f X, βb = Fbb + α g (X, γ b) − f X, βb (4.8)
donde Fb es la matriz de derivadas de f (X, β) con respecto a β evaluada en el estimador de

mı́nimos cuadrados β. b El estadı́stico t (ordinario) para α = 0 en la regresión (4.8) es llamado el
estadı́stico P. Davidson y M acKinnon (1981) sugieren que para el caso de modelos de regresión no
lineal la prueba de hipótesis más adecuada es la prueba P sobre la prueba J, además que mostraron
que el estadı́stico t en α
b es asintóticamente N (0, 1) cuando H0 es verdadero bajo condiciones de
regularidad.
Numerosas pruebas no anidadas están disponibles para los modelos de regresión no lineal.
Entre ellas está la prueba PA la cual está relacionada con la prueba P precisamente como la prueba
JA está relacionada a la prueba J en el caso de modelos lineales. Al igual que la prueba JA
tiene mejores propiedades para muestras finitas bajo la hipótesis nula que la prueba P ordinaria.
Lamentablemente, el excelente desempeño de la prueba PA bajo la hipótesis nula no va acompañada
de un buen desempeño bajo la hipótesis alternativa. En consecuencia γ e puede diferir grandemente
de γb cuando H1 es falsa, y la evidencia que el modelo H1 es incorrecta puede ser suprimida.
Cabe mencionar que γ e se puede obtener al realizar una regresión de PX y en X. Simulación de
experimentos han mostrado que la prueba PA puede ser menos potente que la prueba P, para ello
véase Davidson y MacKinnon (1982) . Por tanto un rechazo de la prueba PA debe ser tomada muy
seriamente pero si no hay un rechazo está puede proporcionar muy poca información. Entonces
la prueba PA , puede sufrir de una seria falta de poder. En contraste una versión Bootstrap de la
prueba P es razonablemente confiable y altamente potente. Por tanto es recomendable usar esta
prueba en vez de la prueba PA , si el tiempo de la computadora no es una restricción.
El estadı́stico t de α
b de (4.8) esta dado por:
T
y − fb M c0 gb − fb
t = r T (4.9)
σ
b gb − fb M c0 gb − fb
h i
donde y = [y1 , ..., yn ], fb = fb1 , ..., fbn y gb = [b
g1 , ..., gbn ] , σ
b es el estimador del error estándar de (4.8)
y
−1
c0 = I − Fb FbT Fb
M FbT
donde Fb es la matriz cuya n − ésima fila es Fbn .

Demostración.
Para demostrar que (4.9) es el estadı́stico t de α
b de (4.8) usaremos el Teorema de Frisch-Waugh-
Lovell el cual se presenta en el Apéndice C, por tanto tendremos el siguiente modelo:

MFb y − fb = αMFb gb − fb + residuales (4.10)
recordemos que el estimador de mı́nimos cuadrados de (4.10) es idéntico al estimador de mı́nimos

cuadrados de (4.8) por tanto tenemos que

T −1 T
α
b = MFb gb − f
b MFb gb − f
b MFb gb − fb y − fb
T
MFb gb − fb y − fb
= T
MFb gb − fb MFb gb − fb
T
gb − fb M Tb y − fb
F
= T
gb − fb M T M b gb − fb F
Fb
T
gb − fb MFb y − fb
= T
gb − fb MFb gb − fb
y la varianza de α
b está dada por
T −1
2
V ar (b
α) = σ
b MFb gb − fb MFb gb − fb
b2
σ
= T
gb − fb MFb gb − fb
por tanto el estadı́stico t de α

b es
α
b
t = p
V ar (b
α)
T
(gb−fb) MFb (y−fb)
T
(gb−fb) MFb (gb−fb)
= r
b2
σ
T
(gb−f ) MFb (gb−fb)
b
T
(gb−fb) MFb (y−fb)
T
(gb−fb) MFb (gb−fb)
= σ
b
q
T
(gb−f ) MFb (gb−fb)
b
r T T
gb − f MFb gb − f
b b gb − f MFb y − f
b b
= T
b gb − fb MFb gb − fb
σ
T
gb − fb MFb y − fb
= r T
σ
b gb − fb MFb gb − fb
Bajo los supuestos de Davidson y M acKinnon se puede mostrar que bajo H0 (4.9) tiende en
probabilidad a
εT M (g − f )
q 0 0 (4.11)
T
σ0 (g − f ) M0 (g − f )
donde las cantidades sin sombrero son evaluadas en β0 el verdadero valor de β o en γ0 el plim de γ b
bajo H1 . Debido al papel desempeñado por la matriz de proyección M0 en (4.9) se puede observar
que (4.11) es N (0, 1). Davidson y M acKinnon llamaron a esta prueba basada en (4.8) la prueba
P.
Una extensión de esta prueba es mencionada en el paper de Davidson y M acKinnon, la cual
puede ser utilizada para probar la veracidad de una hipótesis contra varias alternativas a la vez, es
decir, para probar H0 contra m modelos alternativos gj (Zji , γj ) para la prueba se debe estimar
m
X
yi − fbi = αj gbji − fbi + Fbi b + εi
j=1
y realizar una prueba de razón de verosimilitud de la restricción de que todos los αj s son cero.
Aunque cabe mencionar que en su libro Econometric Theory and Methods, no mencionan esta
extensión de la prueba P , sino que sugieren que no se debe usar pruebas de hipótesis para seleccionar
un modelo de un conjunto de modelos competitivos, y mencionan que hay que usar criterios de
información para estos casos, es decir, dado que las pruebas de hipótesis no anidadas están diseñadas
como pruebas especificas, en lugar de procedimientos para elegir entre los distintos modelos no es
sorprendente que a veces no nos lleven a elegir un modelo sobre el otro. Si nosotros simplemente
queremos elegir el ”mejor” modelo de algún conjunto de modelos competentes o si alguno de ellos es
satisfactorio, debemos utilizar un enfoque muy diferente, basándose en un criterio de información.
Interpretación de las Pruebas No Anidadas.

Si rechazamos H0 la hipótesis nula, no hay implicación de que la hipótesis H1 es verdadera. Para
decir cualquier cosa acerca de la validez del modelo (4.4), hay que probarlo. Esto puede ser hecho
al intercambiar los roles de los dos modelos.
Al Probar H0 y H1 uno en contra del otro, pueden ocurrir cuatro posibles resultados: H0 es
rechazado pero no rechazamos H1 , H1 es rechazado pero no rechazamos H0 , ambos son rechazados
o ninguno de los dos modelos son rechazados. Dado que los dos primeros resultados nos llevan a
preferir uno de los dos modelos, se tiene el deseo de ver estos resultados como naturales y deseables.
Sin embargo los dos últimos resultados que no son pocos frecuentes en la práctica, pueden también
ser muy informativos. Si ambos modelos son rechazados, entonces hay que buscar otro modelo que
mejore el ajuste y si ambos modelos no son rechazados, entonces hemos aprendido que los datos
parecen ser compatibles con ambas hipótesis.
4.2.2 Selección de Modelos Basado en Métodos de Discriminación.

Método de Discriminación propuesto por Atkinson.
La construcción de modelos estadı́sticos surge de la necesidad de explicar y predecir un fenómeno
real que dependen de variables. Generalmente cuando se trata de modelar este comportamiento
existen variosmodelos alternativos, surge el problema de cuál modelo seleccionar del conjunto que
se tenga, dado ası́ modelos competitivos que pueden surgir de una teorı́a o un conjunto de teorı́as.
La selección de un mejor modelo de la colección de modelos construidos a menudo es una elección
entre teorı́as en competencia, y se basa en resultados empı́ricos obtenidos a partir de datos de
la muestra. Por tanto modelos de discriminación es la teorı́a de la selección de modelos rivales
basados en información de la muestra.
Podemos decir que dos propiedades caracterizan una propuesta de un modelo de utilidad en el
análisis de los datos. Primero es el modelo ajustado adecuado a los datos empı́ricos. En segundo
lugar, en el caso de los modelos que contengan parámetros desconocidos a ser estimados, es la
dependencia del modelo ajustado, o estimación de parámetros, en particular del conjunto de datos
observados. Esta segunda propiedad se llama estabilidad del modelo. En la construcción de los
procedimientos de selección de modelos y pruebas, estos dos rasgos de modelado deben tenerse en
cuenta.
Basados en el ajuste de los modelos rivales, Atkinson (1969) sugiere tres puntos de vista
hipotéticos para pruebas estadı́sticas en discriminación de modelos. Estas son resumidas en las
siguientes preguntas:
A1 Bajo el supuesto que un modelo particular es el verdadero, ¿hay evidencia de que de los otros
modelos, ajusten mejor a los datos?
A2 Bajo el supuesto que el modelo se ajusta adecuadamente a los datos, ¿hay evidencia estadı́stica
de lo contrario?
A3 Al asumir que uno de los modelos es el verdadero, ¿hay suficiente evidencia para hacer una
selección?
El mérito de estas preguntas básicas se sostiene con la evaluación de la estabilidad del modelo
y su ajuste. Estos puntos básicos son puntos de partida para el modelo de discriminación. Si
cualquiera de las cuestiones A1 o A3 es considerada, entonces asumimos que F contiene un modelo
verdadero único. En este caso, las ideas de seleccionar correcta e incorrecta un modelo junto con sus
probabilidades correspondientes pueden ser exploradas. Si la pregunta A2 es presentada, entonces
no tenemos que definir un verdadero modelo, si no las caracterı́sticas del modelo son contrastadas.
En el libro de Borowiak Dale S, se realiza exploraciones de estos métodos de discriminación.
En esta sección se usará una nueva notación para la cual se presentará a continuación. En
general en los problemas de discriminación del modelo el investigador se enfrenta con k modelos,
los cuales pueden ser adecuados para el comportamiento observado en el fenómeno, denotados por
fj para j = 1, ..., k. El conjunto de modelos rivales se define como F.
F = {fj | fj es un modelo competitivo con j = 1, ..., k} .
Para un modelo fj ∈ F, el modelo de regresión es dado por
yi = fj (xi ) + εi (fj ) (4.12)
Donde εi (fj ) es el término asociado al error de la xi asociado a la forma funcional fj tal que
E (εi (fj )) = 0 para todo i = 1, ..., n.
Como se mencionó los métodos de discriminación consiste en seleccionar el mejor modelo de un
conjunto de k modelos competitivos, por tanto se construyen funciones o estadı́sticos usados para
seleccionar el mejor o el verdadero modelo, los cuales son usados para eliminar los modelos menos
probables, o designar cuando los modelos son similares a los modelos verdaderos o falsos. Estas
funciones son referidas como funciones de discriminación, denotadas como DF s. Bajo A1 o A3 , un
método de discriminación, denotado como DM , selecciona el mejor modelo de F y puede ser usar
una DF o una serie de DF s. La elección de un DM a utilizar dependerá de las circunstancias
particulares del problema.
Comúnmente, las DF s se basan en los errores observados o los residuales de los modelos rivales.
Una DF que está basada en una función cuadrática de residuales es llamado una función de
discriminación cuadrática or QDF. Para un modelo fj ∈ F, una QDF toma la forma
Qj = RjT Sj Rj + Cj (4.13)
donde, Sj es una matriz positiva semidefinida de nxn, Cj es una constante y Rj = Y − fj .
Observemos los siguientes dos puntos.
1. Si tomamos Sj = I y definimos Cj = 0, entonces (4.13) se convierte en la suma de cuadrados

de residuales de fj , denotado por RSS.
2. La principal tarea en la construcción de un DM consiste en definir una o más DFs que
nos permita realizar pruebas o procedimientos en el enfoque de las cuestiones de Atkinson
(A1 , A2 o A3 ) . No solo las DFs evalúan los ajustes como los residuales, sino también en el
caso de estimación de modelos, las medidas de estabilidad son empleadas.
Al considerar la discriminación de modelos desde el punto de vista de las cuestiones A1 o A3 ,

donde se asume que F contiene un modelo verdadero. El método de discriminación simple selecciona
de F, el modelo con el menor QDF. Este procedimiento es referido como el método de mı́nimos
cuadrados o LQM. La discriminación del mı́nimo error cuadrático es un LQM donde Sj = I y
Cj = 0 para todo j = 1, .., k. Este DM selecciona el modelo con menor RSS y es referido como
LSE.
Al igual que en libro de Borowiak Dale S, se asumirá que F contiene el modelo verdadero y
un DM es empleado. Este DM selecciona con probabilidad 1, un único mejor modelo. En este
panorama, las selecciones correctas y incorrectas, junto con sus respectivas probabilidades, son la
herramienta básica en la construcción y evaluación de un DM eficiente. Hay dos decisiones inher-
entes en un método de discriminación. Si fj ∈ F es el verdadero modelo y este es seleccionado, una
selección correcta a ocurrido la cual denotaremos por CS (fj ). Por otro lado, si fj es seleccionado
mientras fq es el modelo correcto, una selección incorrecta a ocurrido, la cual denotaremos por
IS (fj | fq ) . Al tomar en cuenta todos los modelos que están contenidos en F, tenemos
IS (fj | fq ) = ∩ {seleccionar fi sobre fm | fq es verdadero}
y
CS (fj ) = ∩ {seleccionar fj sobre fm | fj es verdadero}
donde las intersecciones son sobre fm ∈ F y m 6= i. Cuando sea posible en conjunción con un
método de discriminación, la elección del mejor modelo es evaluada por las probabilidades de los
dos eventos anteriores. Bajo el modelo menos favorable, la probabilidad de una elección incorrecta,
cuando se seleccionó fj es denotado por IS (fj ) . Por tanto
P (IS (fj )) = max P (IS (fj | fq ))
fq ∈F
De forma análoga, la probabilidad una elección correcta, cuando fj es seleccionado es denotado

por P (CS (fj )) . Si todas las elecciones de un modelo verdadero hipotético son consideradas, las
probabilidades que son independientes del modelo seleccionado se pueden construir
P (IS) = max P (∪i6=m IS (fj | fm ))

1≤m≤k
Equivalentemente, la probabilidad total de una elección correcta es
P (CS) = min P (CS (fj ))

1≤i≤k
El tipo más simple de método de discriminación utiliza funciones de discriminación que comparan
los modelos a pares. En el caso de dos modelos fj y fq ∈ F y un método de discriminación fijo,
la probabilidad de seleccionar fj sobre fq bajo el supuesto que fq es verdadero es denotado por
P (fj | fq ) .
Teorema 1 Asumir que F contiene un modelo verdadero. Utilice un método de discriminación el

cual selecciona el mejor modelo con probabilidad 1, al condicionar en el modelo seleccionado
P (IS (fj )) ≤ max P (fj | fq )

q6=j
y X
P (CS (fj )) ≥ 1 − P (fq | fj ) (4.14)
q6=j
Además sin condicionamiento

X
P (IS) ≤ max P (fj | fq ) (4.15)
1≤q≤k
j6=q
Observar que podemos usar estas probabilidades de selección o lı́mites apropiados pueden uti-
lizarse para probar las cuestiones A1 o A3 de Atkinson. A continuación se presentan las dos pruebas
que pueden considerarse cuando se toman en cuenta las cuestiones de Atkinson.
Prueba 1.. Consideremos la cuestión A1 de Atkinson donde fj es fijado y compite contra
todos los otros modelos de F. Aquı́ probaremos
H0 : fj es correcto vs H1 : fj es incorrecto (4.16)
rechazamos H0 si fj , con q 6= j es seleccionado y para algún determinado α, 0 ≤ α ≤ 1, tenemos

que P (IS (fq | fj )) ≤ α. Con (4.14) bajo la hipótesis del modelo fj , se obtiene que la probabilidad
α
de un error tipo uno esta limitado superiormente por k−1 .
Prueba 2 Con la cuestión A3 un modelo es elegido para comparaciones. Supongamos que al
usar un método de discriminación, fj es seleccionado. Se tiene que no hay suficiente evidencia para
una selección si P (IS (fj )) > α para algún α, con 0 ≤ α ≤ 1. Si una selección puede hacerse,
entonces la magnitud de P (IS (fj )) medirá la confianza de la selección.
El tamaño de k afecta a la eficiencia de los métodos de discriminación (considere los limites (4.15)
y (4.14). Por esta razón, la investigación se verá favorecida si los modelos altamente improbables
son eliminados de F antes de emplear un método de discriminación. Una función de discriminación,
o estadı́stico, basado en los RSS para medir la falta de ajuste del modelo puede aplicarse a los
RSS(fj )
modelos individuales de F. Para el modelo verdadero fj ∈ F tenemos que σ2
∼ χ2(n) . Entonces
un modelo es eliminado si la medida de falta de ajuste

2 rss (fj )
LOF (fj ) = P χn > (4.17)
σ2
es pequeña (menor que α), donde rss (fj ) es el RSS observado del modelo fj . Esta prueba de
la exactitud del modelo esta basado en la cuestión A2 de Atkinson dado que los modelos no son
directamente contrastados sino simplemente avaluados por LOF. Un estadı́stico, el cual es una
extensión de (4.17) cuando se estima σ 2 , para la prueba de falta de ajuste para el modelo fj es:

rss(fj )
LOF (fj ) = P F(n,m) > (4.18)
nσ 2
Donde m = sj=1 (rj − 1) y rj son las repeteciones.

P
Caso para dos modelos.
Cuando se tienen dos modelos y se desea elegir el más adecuado para el comportamiento del
fenómeno existe en la literatura de pruebas de hipótesis varias pruebas que podemos usar entre
ellas se encuentra la prueba de Davidson y MacKinnon(1981) la cual se mencionó anteriormente y
las siguientes dos pruebas mencionadas en libro de Borowiak (1989), las cuales son: la prueba de
Hoel(1947) y una prueba basada en las probabilidades de una selección correcta o incorrecta.
Prueba de Hoel (1947) . Consideremos que F contiene dos modelos completamente determinados
y la cuestión A1 es considerada, por tanto la hipótesis que se tendrá será
H0 : fj es correcto vs H1 : f ∗ es correcto
y uno de los modelos es considerado verdadero bajo H0 . En está prueba al igual que en la prueba
de Davidson y M acKinnon se define un modelo de regresión artificial de la forma
f ∗ (xi ) = af1 (xi ) + (1 − a) f2 (xi )
y será probado contra fj . El valor de a que minimiza RSS (f ∗ ) es

Pn
R2 (i) [f1 (xi ) − f2 (xi )]
a = i=1
b Pn 2
i=1 [f1 (xi ) − f2 (xi )]
El estadı́stico a usarse es un estadı́stico F con 1 y n − 1 grados de libertad, dado por
(n − 1) [RSS (f1 ) − RSS (f ∗ )]

F =
RSS (f ∗ )
Rechazamos H0 si F > F1−α,1,n−1 a un nivel de significancia α.

Ahora de la cuestión A3 , en la cual se asume que uno de los modelos es el verdadero, ¿hay
suficiente evidencia para hacer una selección Borowiak propone una prueba donde?. El cual es
presentado en el siguiente teorema.
Teorema 2 Consideremos que F contiene 2 modelos, es decir, k = 2 y la normalidad de los errores

es asumida, el método de mı́nimos cuadrados el cual minimiza la IP (IS) = IP (f1 | f2 ) es el LSE
con Sj = I y Cj = 0, para j = 1, 2, el cual es el método de discriminación que selecciona el modelo

con menor RRS. Con este método de discriminación
 q 
[f1 (xi ) − f2 (xi )]T [f1 (xi ) − f2 (xi )]
IP (IS) = IP Z > 
2σ
Si IP (IS) es lo suficiente pequeño, una selección puede ser hecha y la confianza de la decisión es
medida por IP (IS) .
Caso de más de dos modelos.

A continuación se mencionarán dos pruebas en las cuales se tienen el caso de k > 2 , y la cuestión
A2 es examinada antes de continuar con los métodos de discriminación secuencial, es decir, bajo el
supuesto de que los modelos ajustan a los datos igualmente bien, hay evidencia estadı́stica de los
contrario, por tanto se realizan pruebas para ver si los modelos son estadı́sticamente iguales, cabe
mencionar que estas dos pruebas fueron presentadas por W illiams (1959) en su libro Regression
Analysis y por Atkinson (1969) en su paper ”A test discriminating between models” respectiva-
mente.
1. La prueba de Williams(1959), la cual esta basada en una prueba de homogeneidad de

varianza dada por W ilks (1946). Definamos el modelo de medias de cada observación sobre
todos los modelos.
k
1X
f (xi ) = fj (xi )
k
j=1
Este modelo es comparado con f∗ definido por el vector de valores de f ∗ = xβ ∗ , donde

1T β ∗ = 1, 1T = (1, ..., 1) y x es una matriz formada por las filas de (f1 (xi ) , ..., fk (xi )) con
i = 1, ..., n. El valor de β ∗ el cual minimiza RSS, esta dado por
−1
βb = xT x xT Y − c1

−1
donde c = 1T xT x xT Y − 1. Las hipótesis son
H0 : f es correcto vs H1 : f ∗ es correcto
y se usa un estadı́stico F con k − 1 y n − k + 1 grados de libertad

h i
(n − k + 1) RSS f − RSS fb∗

F =
(k − 1) RSS fb∗
Si H0 se acepta a un nivel de α, es decir, F < F1−α,k−1,n−k+1 , entonces los modelos son

considerados demasiado cercas para poder discriminar. Cuando H0 es rechazado, el modelo
con menor RSS es seleccionado como correcto, pero está elección no es cuantificada como
por ejemplo por IP (IS (fj )) .
2. La segunda prueba basado en A2 , es la prueba llamada prueba tilde y fue propuesta por
Atkinson (1969) . La prueba de la hipótesis nula es que la desviación cuadrada media de cada
modelo es la misma, es decir,
n
X
H0 : [E (yi ) − fj (xi )]2 es constante para j = 1, ..., k.
i=1
Para la construcción de este estadı́stico hay que notar que la hipótesis nula es equivalente a
n n
X 1X 2
H0 : E (yi ) fj (xi ) − fj (xi ) es constante para j = 1, ..., k.
k
i=1 i=1
n n
fj2 (xi ) para 1 ≤ j ≤ k y notar bajo H0 se tiene que Z (xi ) ∼
P P
Sea Z (xi ) = yi fj (xi ) −
i=1 i=1
n

N c, σ 2 fj2 (xi ) . Ahora se define
P
i=1
 −1 2 
−1 ZT x T x 1 
Q = ZT xT x Z−

1T (xT x)−1 1

donde ZT = (Z1 , ..., Zn ) y 1T = (1, ..., 1) . El estadı́stico de la prueba es un estadı́stico F con

k − 1 y n − k grados de libertad
(n − k) Q
F =
(k − 1) RSS fb
Si F > F(1−α,k−1,n−k) rechazamos H0 .
Métodos Secuenciales.
Una prueba con la misma intensión que las dos anteriores es presentada a continuación basándose en
las probabilidades de selección correcta o incorrecta, dado que estos dos previos métodos de discrim-
inación no contrastan de manera directa a los modelos. A continuación consideremos la cuestión
A3 , donde se asume que uno de los modelos es el verdadero, entonces se busca si hay suficiente
evidencia para poder realizar una selección. Para ello consideremos un método de discriminación
donde se usará un método de mı́nimos cuadrados donde Sj = S y Cj = 0 para 1 ≤ j ≤ k. Con
dicho método de mı́nimos cuadrados,
2 (fq − fj )T SRj ≤ (fj − fq )T S (fj − fq )
implica que fj ⊂ F es seleccionado si el evento

n o
∩q6=j 2 (fq − fj )T SRj < (fq − fj )T S (fq − fj ) (4.19)
Basándonos en los pares óptimos de LSE, entonces tenemos que S = I y por tanto (4.19) se
convierte en n o
T T
∩q6=j 2 (fq − fj ) Rj < (fq − fj ) (fq − fj ) (4.20)
Para facilidad de manejo tendremos que

h i1/2
δ(q,j) = (fq − fj )T (fq − fj )
Del teorema 1, donde se construye las probabilidades lı́mites en los procedimientos por pareja de
modelos, las probabilidades de selección son construidas en conjunto con el método de discrimi-
nación que selecciona el modelo con menor RRS, tenemos que de (4.20), los lı́mites condicionales
δ(q,j)

IP [IS (fj )] = max P Z > (4.21)
q6=j 2σ
y
δ(q,j)

IP [CS (fj )] = min P Z ≤
q6=j 2σ
El lı́mite superior de IP (IS) dado por
X
IP (IS) ≤ max P (fj | fq )
1≤q≤k
j6=q
puede ser construido con " T #

A (f1 − f2 )
IP (f1 | f2 ) = IP Z > 1
2σ (AT A) 2
donde Z ∼ N (0, 1) y A = S (f1 − f2 ) .
Para un fj ∈ F fijo, definiremos un conjunto que consiste de otros dos modelos de F por
SN (j) = {fr , fq : δj (r, q) < 0} donde δj (r, q) = (fr − fi )T (fq − fi ) . Observemos que SN (j) no es
necesariamente único y es elegido de acuerdo a las consideraciones que se veran más tarde.
Teorema 3 Sea k ≥ 3 y los errores se distribuyen normal. Sea fj elegido con LSE donde δ (i, r) <
δ (i, q) para q 6= r. Además, suponemos que existe al menos un modelo fq ∈ F tal que SN (j) =
{fr , fq : δj (r, q) < 0} . Entonces
" #
δ (r, i) [4 (q, r) + ρδ (q, j)]
IP [IS (fj )] ≤ min IP Z > IP Z ≤ 1 (4.22)
2σ 2σ (1 − ρ2 ) 2
y
" #
δ (r, i) [δ (q, j) − ρδ (r, j)]
IP [CS (fj )] ≤ min IP Z ≤ IP Z ≤ 1 (4.23)
2σ 2σ (1 − ρ2 ) 2
donde
δ 2 (q, j) − 2δj (r, q)
4 (q, r) =
δ (q, j)
y
δj (r, q)
ρ=
δ (r, i) δ (q, j)
y los minimos son tomados sobre todos los fq contenidos en SN (j).
Cuando existen modelos para formar SN (j), la probabilidad condicional lı́mite IS (4.22) es
una mejora sobre (4.21). Con este lı́mite se puede probar A3 , es decir, se encontrara que no hay
suficiente evidencia para realizar una selección si P (IS(fj )) ≥ α.
Cuando se presente esta situación será necesario utilizar métodos secuenciales que ayuden a
elegir el mejor modelo. Ahora presentaremos dos métodos secuenciales para elegir el mejor modelo,
pero primero se presentara la estructura general de un método secuencial.
Bajo el punto de vista de la cuestión A3 , los métodos de discriminación los cuales consisten
de una serie de comparaciones de modelos son a continuación construidos. Las comparaciones son
referidos como pasos de el procedimiento. En cada paso un modelo es considerado fijo y una función
de discriminación cuadrática definida por
Qj = RjT Sj Rj + Cj
es utilizado para seleccionar si el modelo es el modelo verdadero o si se elimina de la competencia.

El método de discriminación es utilizado hasta que un modelo es seleccionado. Estos métodos
secuenciales son denotamos por SM, y fueron propuestos por primera vez por Borowiak(1983). En
el paso j, supongamos que se tienen s = k − j + l posibles modelos contenidos en un conjunto Fj .
Entonces
Fj = {s modelos propuestos de F}
y se tiene que Fj ⊆ F. Ahora seleccionemos un f(j) ∈ Fj y consideramos un método de los mı́nimos
cuadráticos en el cual tomamos Sj = Aj ATj . De (4.19) observamos que f(j) es seleccionado sobre
todos los modelos rivales en Fj si los eventos
 
T
fr − f(j) Aj 

 
T
∩r∈Bj,1 2Aj Rj < 1/2 
ATj Aj

 
 
T
fr − f(j) Aj 

 
∩ ∩r∈B,2 2ATj Rj ≥ 1/2 
ATj Aj

 
n T o n T o
ocurren, donde Bj,1 = r : fr − f(j) Aj ≥ 0 y Bj,2 = r : fr − f(j) Aj < 0 . Para un f(j) y
fr donde Fj , r 6= (j), sea
T
fr − f(j) Aj
d(j) (r) = 1 (4.24)
T 2
Aj Aj
y definimos
miny∈Bj,1 d(j) (r) 6 ∅
si Bj,1 =
bj = (4.25)
∞ si Bj,1 = ∅
y
maxy∈Bj,2 d(j) (r) 6 ∅
si Bj,2 =
aj = (4.26)
−∞ si Bj,2 = ∅
El método secuencial general está en el siguiente teorema.
Teorema 4 Sean los modelos de F completamente determinados donde la normalidad de los errores
es asumido. Definimos un método secuencial de la siguiente manera; en el paso j elegimos f(j) ⊆ Fj
y se detiene y decimos que f(j) es correcto si este es seleccionado basándose en un método de
mı́nimos cuadrados al usar Sr = Aj ATj para r 6= (j), esto es, se selecciona f(j) si
2ATj Rj
aj ≤ 1 ≤ bj (4.27)
T 2
Aj Aj
donde aj y bj son definidos por (4.26) y (4.25) , respectivamente. De lo contrario, quitamos f(j) y
formamos un nuevo conjunto Sj+1 , y continuamos con el paso j + 2. Si el paso k − 1 es rechazado,
la selección es hecha entre los modelos dos modelos restantes, los cuales son denotados por f(k−1)

|d(j) (r)|
n o n o
|aj | bj |aj | bj
y f(k) . Sea γj = max 2σ , f r ∈ F j y r 6
= j , αj = min ,
2σ 2σ , y β j = max 2σ , 2σ para
1 ≤ j ≤ k1 . También supongamos
ATj Aj = 0 para j 6= r (4.28)
Si f(1) es seleccionado
IP CS f(1) = IP (−α1 ≤ Z ≤ β1 )
para j ≥ 2
IP IS f(1) | fj ≤ IP (α1 ≤ Z ≤ β1 + 2α1 )
Por otro lado, si f(1) es correcto

IP IS f(j) | f(1) ≤ IP (Z > α1 ) + IP (Z > β1 )
para j ≥ 2. Además, para 2 ≤ j ≤ m

j−1
Y

IP IS f(j) | f(m) ≤ IP (αj < Z < βj + 2αj ) ∗ [IP (Z ≤ 2γr − αr ) + IP [Z > βr + 2γr ]]
r=1
y para j ≥ m ≥ 2
m−1
Y

IP IS f(j) | f(m) ≤ [IP (Z > αj ) + IP (Z > βj )] ∗ [IP (Z ≤ 2γr − αr ) + IP [Z > βr + 2γr ]]
r=1
Además para 2 ≤ j ≤ k − 1
j−1
Y

IP CS f(j) ≥ IP (−αj ≤ Z ≤ βj ) ∗ [IP (Z ≤ αm ) + IP [Z > βm + 2γm ]]
m=1

y IP CS f(k) = IP CS f(k−1) .
Corolario 1 Bajo los supuestos y el método secuencial del teorema 4, sea
p1 = IP (Z > α1 ) + IP (Z > β1 )
y
t1 = IP [α1 ≤ Z ≤ β1 + 2α1 ]
y para 2 ≤ j ≤ k − 1 definimos
j−1
Y
p1 = [IP (Z > αj ) + IP (Z > βj )] ∗ [IP (Z ≤ 2γm − αm ) + IP [Z > βm + 2γm ]]
m=1
y
m−1
Y
t1 = IP [αj ≤ Z ≤ βj + 2αj ] ∗ [IP (Z ≤ 2γm − αm ) + IP [Z > βm + 2γm ]]
m=1
Ası́
IP IS f(1) ≤ t1
y para 2 ≤ j ≤ k − 1
IP IS f(j) ≤ max {p1 , ..., pj−1 , tj }
Como podemos observar el método secuencial general permite muchas variedades a través de
la elección de Aj de acuerdo con la condición de que ATj Ar 6= 0 para j 6= r. Por tanto a con-
tinuación se mencionarán dos métodos secuenciales, el primero proporciona cálculos exactos de las
probabilidades de selección, mientras que el segundo busca construir pasos para acercarse al óptimo.
Primer Método Secuencial. El primer método secuencial es derivado de una serie de lemas.
En el paso j fijamos f(j) donde Fj = {f1 , ..., fs } y definimos una matriz n∗(s − 1) donde s = k−j +1
de la siguiente manera
GTj = f1 − f(j) , ..., f(j)−1 − f(j) , f(j)+1 − f(j) , ..., fs − f(j)

en está matriz asumimos que s ≤ n + 1 y Gj tiene rango s − 1.
Lema 1 Para 1 ≤ j ≤ k − 1 definimos

−1
Aj = GTj Gj GTj 1 (4.29)
donde 1T = (1, ..., 1). Para algún fq ∈ Fj , q 6= (j),

T
fq − f(j) Aj = 1
y
− 1
d(j) (q) = 1T Gj GTj 1 2

(4.30)
Además (4.30) es un máximo sobre el conjunto de valores de (4.24).
Lema 2 En un método secuencial para los pasos j y m con j > m, notemos que Fj ⊆ Fm y
definamos Aj y Am de la forma (4.29) . Entonces ATj Am = 0.
Lema 3 Para el método secuencial descrito en el teorema 4, si se considera el método secuencial

1, se cumple que ATj Aj = 0 para j 6= r, βj = ∞, y γj = αj para j = 1, ..., k − 1.
Teorema 5 Con el método secuencial 1 bajo las condiciones del teorema 4 y si definimos

d1
p1 = IP Z >
2σ
para 2 ≤ s ≤ k − 1
s−1
ds Y dm
ps = IP Z > IP Z ≤
2σ 2σ
m=1
y pk = pk−1 . Se tiene que

IP IS f(j) = max {p1 , ..., pj } (4.31)
y
j
Y dm
IP CS f(j) = IP Z ≤ (4.32)
2σ
m=1
también,

IP (CS) = min IP CS f(j)
1≤j≤k

es el mı́nimo sobre f(j) , 1 ≤ j ≤ k − 1, de IP CS f(j) .
Segundo método secuencial. En el segundo método, que denotamos como SM 2, se trata

de optimizar las probabilidades de selección en cada paso bajo la condición ATj Aj = 0 para j 6= r.
De este modo, un método secuencial más poderoso, sobre el método secuencial 1, es construido
cuando el verdadero modelo se produce en los primeros pasos, es decir, grandes P [CS (fj )] para j
pequeñas. Este aumento también se puede realizar sobre LSE. Por ejemplo, si f(1) es le modelo
verdadero el evento de un una correcta selección con LSE en la intersección de k − 1 eventos esta
dado por (4.20) . Por otra parte, la correcta elección al usar un método secuencial corresponde a la
ocurrencia de un simple evento, (4.27) con j = 1. Esta comparación es particularmente convincente
en la construcción de pruebas basadas en la cuestión A1 .
La optimización en términos de probabilidades de selección para métodos secuenciales no es
fácil de obtener, por lo que la búsqueda de una construcción cerca del óptimo.
En el paso la elección de Aj del teorema 4 esta basado en la maximización de la función de αj
para 1 ≤ j ≤ k − 1. Para un f(j) ∈ F maximizamos
Y
Mj = d(j) (m) (4.33)
m6=j
donde (4.28) se mantiene y d(j) (m) esta dado por (4.24). En el paso j denotamos un vector de
pesos por WjT = (wj,1 , ..., wj,s ) para j = 1, ..., k.
Teorema 6 Bajo las condiciones del teorema 4, el método secuencial el cual maximiza (4.33) en
cada paso sujeto a las restricción (4.28), es denotado por SM 2, con valores de Aj definidos de
acuerdo a las siguientes condiciones: en el paso j = 1 sea
A1 = GT1 W1
donde W1 es una solución para W1∗ = G1 GT1 W1 , y para el paso j, j ≥ 2, definimos
j−1
X
Aj = G j W j − qm Am
m=1
donde
ATm Gm Wj
qm =
ATm Am
y Wj es una solución para Wj∗ = Gj GTj Wj − qm Gj Am .

P
Para el empleo del método secuencial 2, Wj para 1 ≤ j ≤ k − 1, el cual resuelve las ecuaciones
adecuadas debe ser encontrada. La solución es generalmente única, un posible procedimiento para
encontrar las Wj s del teorema 10 es resolver un sistema iterativo. Para W inicial encontramos,
para j = 1,
V = G1 GT1 W (4.34)
y para j ≥ 2
j−1
X
V = Gj GTj − qm Gj Am (4.35)
j=1
W
donde qm = ATm Gj , AT
para 1 ≤ m ≤ j − 1. Tanto en (4.34) y (4.35) sea
m Am
V T = (v1 , ..., vs−1 )
y tomamos el siguiente vector en lugar de W

c c
, ...,
v1 vs−1
" #1
2
donde c = P1 1 . Continuamos iterativamente hasta converger, según lo medido por el cambio

v2
j
en las sucesivas W , se ha alcanzado.
La fuerza del método radica en su capacidad para discriminar en los primeros pasos. Por esta
razón, este método de discriminación es especialmente adecuado para la construcción de pruebas
de la forma (4.16), basada en el punto de vista de A1 .
Dada estos tres métodos de discriminación lo siguiente es saber cual de ellso tres se debe aplicar
un método adecuado para seleccionar cual método utilizar es seleccionar el método de discriminación
el cual maximice P (CS) definido por
P (CS) = min P (CS (fj ))

1≤j≤k
4.2.3 Selección de Modelos basado en Criterios de Información.

Criterio de Información de Akaike.
Supongamos que, para alguna variable dependiente o variables dependientes, tenemos k modelos
en competición, que son estimados por máxima verosimilitud, mı́nimos cuadrados ordinarios o por
mı́nimos
cuadrados no lineales. Sea θi el pi − vector de parámetros para el i − ésimo modelo, y
sea ì θi el valor máximo de la función de logverosimilitud para este modelo, el cual podemos
b
tomar para ser − 12 nSSR en el caso de modelos estimados
por mı́nimos cuadrados. Esto parecer
natural elegir el modelo con valor mayor de ì θi . Sin embargo, si los modelos están anidados,
b
esto simplemente nos conduce a elegir el modelo con mayor número de parámetros, incluso cuando
otros modelos ajusten muy bien. Esto viola el principio de que, cuando cada uno de un conjunto
de modelos anidados se ha especificado correctamente, debemos preferir el que tiene menor número
de parámetros ha estimar. Este modelo es llamado el modelo mas parsimonioso del conjunto. Con
modelos no anidados, no es necesariamente el caso de que el menos parsimonioso de ellos obtiene el
mayor valor de la función de logverosimilitud, pero, cuando pi > pj , el modelo fi claramente tiene
una ventaja sobre el modelo fj y por tanto tiende a ser elegido con demasiada frecuencia, por lo
que la parsimonia es una preocupación en la elección de un modelo.
Para evitar este problema, se necesita penalizar a los modelos con un gran número de parámetros.
Esta idea conduce a varias funciones de criterios que pueden ser usados para ordenar o ranquear
los modelos competitivos. El más ampliamente usado de estos es probablemente el criterio de in-
formación de Akaike, o AIC (Akaike, 1973). Hay más de una versión del criterio de información
de Akaike. Para el modelo i, el más sencillo es

AICi = ì θbi − pi (4.36)
La función de verosimilitud es una medida de la capacidad de ajuste del modelo, mientras que
pi representa una penalización debida al número de parámetros, asi se reduce la función de log-
verosimilitud de cada modelo por 1 por cada parámetro estimado, y entonces elegir el modelo que
maximice AICi . La forma original del criterio de información de Akaike es equivalente a (4.36) pero
un poco mas complicado, y que se supone que debe ser minimizado en lugar de maximizado.
El AIC mide la información que se pierde cuando se utiliza un modelo alterno para aproximarse
al modelo real o desconocido. El objetivo es buscar el modelo aproximado, partiendo del modelo
completo, que proporcione la menor pérdida de información posible.
La AIC no siempre respeta la necesidad de parsimonia más que la de maximizar la función
de log-verosimilitud. Considere dos modelos anidados, f1 y f2 , con p y p + 1 parámetros respec-
tivamente. Asintóticamente, el doble de la diferencia entre las dos funciones log-verosmilitud se
distribuye como χ21 , si f1 esta correctamente especificado. Por tanto, la probabilidad que AIC2 sea
mayor que AIC1 tiende en muestras grandes a la masa de probabilidad en el lado derecho de la
cola de la distribución χ21 más alla de 2, la cual es 0.1573. Ası́, incluso con una muestra de tamaño
infinito, nosotros elegimos el modelo con menor parsimonia casi el 16% de las veces. Este ejemplo
muestra un problema general. Cuando dos o más modelos están anidados, el AIC puede fallar al
elegir el más parsimonioso de estos que son correctamente especificados. Si todos los modelos son
no anidado, y solo uno de ellos está bien especificado, el AIC elige este uno asintóticamente, pero
también puede simplemente elegir el modelo con el mayor valor de la función de log-verosimilitud.
Una popular alternativa para el AIC, el cual evita el problema discutido en el parrafo anterior,
es el Criterio de información de Schwarz o de información Bayesiano o BIC, el cual fue propuesto
por Schwarz (1978). Para un modelo i, el BIC es
1
BICi = ì θbi − ki log n.
2
El factor de log n en el término penalizado asegura que, cuando n → ∞, la pena por tener un
parámetro adicional será muy grande. En consecuencia, asintóticamente, no hay peligro de ele-
gir un modelo parsimonioso insuficiente. Si comparamos un falso pero parsimonioso modelo f2
con un modelo especificado correctamente f1 que puede tener más parámetros, el BIC elegira f1
asintóticamente.
El contexto de este criterio es bayesiano pero sus principales aplicaciones son frecuentistas
debido a que se basa sólo en el cálculo de la verosimilitud del modelo y no requiere especificar
ninguna distribución a priori. Se deriva en el proceso de seleccionar un modelo de entre modelos
alternativos con diferentes dimensiones pero con igualdad de información a priori, de manera que
maximice la probabilidad a posteriori de los parámetros.
Capı́tulo 5
Análisis Estadı́stico de los Datos.
Para realizar los análisis de este capı́tulo en el marco del estudio de pruebas de hipótesis no anidadas
y métodos de discriminación de modelos no lineales, se cuenta con dos conjuntos de datos, los
cuales fueron descritos en el Capı́tulo 3. El primer conjunto de datos son un conjunto de datos
experimentales en bioquı́mica y el segundo conjunto de datos es un conjunto de datos médicos.
En el primer conjunto de datos se aplicará las pruebas de hipótesis debido a que es este caso,
es más evidente los modelos posibles para el comportamiento observado, los modelos seleccionados
son dos modelos senoidales, los cuales son el modelo gompertz y el modelo lógistico los cuales son
modelos no anidados, además se aplicará el criterio de información de Akaike.
Para el segundo conjunto de datos se aplicarán los métodos de discriminación: criterio de
información de Akaike y Bayesiano y los métodos de discriminación propuestos por Borowiak
Dale S en su libro Model Discrimination for Nonlinear Regression Models (1983).
5.1 Datos Experimentales en bioquı́mica.

Como se mencionó en el Capı́tulo 3, el conjunto de datos en bioquı́mica consiste de 18 tratamientos
con dos repeticiones cada tratamiento, donde el primer tratamiento es un tratamiento de referencia
y la respuesta observada fue el crecimiento de nisina. A continuación realizaremos el ajuste de
los modelos gompertz y logı́stico a cada uno de los tratamientos realizados. Las Tablas 5.1 y ??
muestran la estimación de los parámetros para cada uno de los tratamientos con su respectivo R2 .
Al comparar las R2 obtenidas de los modelos ajustados para cada tratamiento, observamos
que son muy similares para ambos, es decir, que uno y otro de los modelos describen el mismo
porcentaje de variabilidad de los datos, además se observa que las estimaciones de los parámetros
son muy semejantes, esto debido a que los dos modelos son modelos de crecimiento y tienden a
tener el mismo comportamiento.
De la Tabla 5.2 del criterio de Akaike observamos que el modelo predominante fue el modelo
gompertz por tanto se puede concluir que el modelo general para los tramientos realizados para la
producción de nisina es el modelo gompertz. Debido a que el 77% de los modelos seleccionados
para los tratamientos fueron el modelo gompertz, al usar el criterio de Akaike.
39
40 CAPÍTULO 5. ANÁLISIS ESTADÍSTICO DE LOS DATOS.
Tabla 5.1: Estimaciones de los parámetros del modelo de crecimiento Gompertz para los tratamien-
tos del crecimiento ln(N/No).
Parámetros
Tratamiento α β γ R2
1 4.48327 1.27637 0.686482 58.7629
2 4.8939 1.41366 0.5515 76.506
3 6.17744 1.31772 0.352742 78.6785
4 5.72025 1.17692 0.322917 98.2015
5 5.84359 1.31783 0.422499 82.0257
6 6.35543 1.0876 0.363191 74.039
7 6.30775 1.16906 0.392686 88.469
8 6.25652 1.38625 0.56271 96.8942
9 6.30459 1.64499 0.676395 99.4823
10 6.04126 1.58106 0.404672 93.5249
11 6.21624 1.78928 0.675535 98.668
12 6.26583 1.23367 0.385951 97.5768
13 6.96528 1.13468 0.325726 96.7679
14 6.17842 1.44194 0.609284 99.296
15 6.44356 1.36898 0.454774 84.119
16 6.39739 1.68954 0.67144 98.4673
17 6.12475 1.16888 0.423493 96.1261
18 6.20454 1.66305 0.655915 97.4656
1 4.42886 2.49387 0.999473 58.2570
2 4.77743 2.84953 0.859986 76.2088
3 5.74968 2.74417 0.593215 78.1135
4 5.31846 2.46477 0.533154 97.2703
5 5.60748 2.65395 0.66278 81.3345
6 6.0049 2.32895 0.591911 73.3303
7 6.01148 2.47104 0.633628 87.8511
8 6.13632 2.73368 0.847570 96.4711
9 6.2369 3.08201 0.988950 99.4805
10 5.67497 3.40913 0.715697 94.4148
11 6.15357 3.36242 1.00154 99.0242
12 5.97398 2.55715 0.61639 97.0421
13 6.53306 2.39716 0.530202 96.1146
14 6.08275 2.80421 0.907605 98.7726
15 6.22421 2.90285 0.791740 84.5165
16 6.33751 3.1773 0.983799 98.7417
17 5.90272 2.42412 0.660018 95.3134
18 6.10672 3.16975 0.990751 97.2522
5.1. DATOS EXPERIMENTALES EN BIOQUÍMICA. 41
Tabla 5.2: El criterio de Akaike para Datos de Bioquı́mica

Tratamiento Gompertz Logı́stico Modelo Seleccionado
1 -25.54439 -25.62973 Gompertz
2 -21.33622 -21.4242 Gompertz
3 -22.67736 -22.67736 Gompertz
4 -2.177403 -5.097096 Gompertz
5 -21.02924 -21.29322 Gompertz
6 -24.62503 -24.81349 Gompertz
7 -17.97563 -18.34090 Gompertz
8 -8.90443 -9.798324 Gompertz
9 3.35974 3.336439 Gompertz
10 -13.35467 -12.31929 Logı́stico
11 -3.332184 -1.153368 Logı́stico
12 -6.337184 -7.732785 Gompertz
13 -9.090884 -10.37949 Gompertz
14 1.752258 -0.8940919 Gompertz
15 -21.43066 -21.25320 Logı́stico
16 -4.572419 -3.191580 Logı́stico
17 -9.535804 -10.86824 Gompertz
18 -7.762252 -7.762252 Gompertz
Seguidamente se aplica la prueba de hipótesis de Davidson y MacKinnon, para seleccionar cual

es el mejor modelo describir el comportamiento del crecimiento de nisina para lo cual se usa el
estadı́stico (4.9) y se rechazará la hipótesis nula cuando p − valor < α. Al efectuar dichas pruebas
obtenemos la Tabla 5.3 en la cual se encuentran los p − valores para las pruebas de hipótesis H0 :
Modelo Gompertz vs H1 : Modelo Logı́stico y H0 : Modelo Logı́stico vs H1 : Modelo Gompertz,
en el cual se observa que se ambos modelos no son rechazados por lo que se concluye que los
datos parecen ser compatibles con ambas hipótesis. Esto a diferencia del criterio de Akaike nos
proporciona la información de que ambos modelos son adecuados para describir el comportamiento
del crecimiento de la nisina en los tratamientos propuestos.
Figura 5.1: Modelos Estimados para el Crecimiento de Nisina.

Tabla 5.3: P − valores de las pruebas no anidadas para los modelos Gompertz y Logı́stico.
H0 : Gompertz H0 :Logı́stico
p − valor p − valor
Tratamiento 1 0.4811 0.5432
Tratamiento 10
Tratamiento 11 0.5068 0.5215
Tratamiento 12 0.4752 0.5492
Tratamiento 13 0.4556 0.5604
Tratamiento 14 0.4864 0.5436
Tratamiento 15
Tratamiento 16 0.5025 0.5280
Tratamiento 17 0.4693 0.5548
Tratamiento 18 0.4940 0.5359
En la figura 5.1 aparecen todos los modelos Gompertz para los 18 tratamientos, con el obje-
tivo de encontrar cual es el tratamiento más eficiente para producir nisina, y observamos que los
tratamientos 8, 9, 11, 14, 16 y 18 fueron los tratamientos que en menor tiempo produjeron mayor
cantidad de nisina, el tiempo óptimo las 6 horas donde la cinética alcanza su fase estacionaria,
por lo que se recomienda utilizar estos tratamientos para la producción de nisina en leche deslac-
tosada, aunque fue el tratamiento 16 el cual produjo durante todo el perı́odo de tiempo observado
mayor cantidad de nisina. Observé que los p − valores de los tratamientos 10 y 15 no pudieron ser
calculados dado que generaban valores N AN en las probabilidades y no se encontró error en los
cálculos.
5.2 Datos Médicos (Mediciones en Fetos).

5.2.1 Análisis descriptivo de las variables.
Para realizar los análisis de este capı́tulo en el marco del estudio de las hipótesis no anidadas para
modelos no lineales se cuenta con un conjunto de datos proporcionados por seguro social de León,
Guanajuato, el consiste de 47 fetos a los cuales se les midió las siguientes variables: diámetro
biparietal, circunferencia de la cabeza o cefálica, circunferencia abdominal, longitud de la diáfisis
del fémur durante su desarrollo gestional, estás mediciones se realizaron entre la semana 15 a la
semana 39 de la gestación, con un caso de 41 semanas de gestación, además se midió el peso del
recién nacido. Cabe mencionar que los registros viene dados en mm para las variable diámetro
5.2. DATOS MÉDICOS (MEDICIONES EN FETOS). 43
biparietal, circunferencia de la cabeza o cefálica, circunferencia abdominal, longitud de la diáfisis y

en gramos para el peso. Los objetivos a perseguir en este análisis como se mencionó anteriormente
son poder predecir el peso del feto en el momento del nacimiento.
Para el diámetro biparietal el número de observaciones realizadas durante toda la gestación de
los fetos fue de 252 en diferentes tiempos. La media y la varianza de este conjunto de datos son
69.9206 y 340.4. El máximo y el mı́nimo observados son 30.0 y 98.0. En la figura 5.2, se muestra
el gráfico de caja de bigotes para DBP en cual podemos observar que los datos más concentrados
por debajo de la mediana y que hay un ligero sesgo a la izquierda.
Figura 5.2: Caja y Bigotes para DBP
Para el circunferencia de la cabeza o cefálica el número de observaciones realizadas durante

toda las gestación de los fetos fue de 252 en diferentes tiempos. La media y la varianza de este
conjunto de datos son 250.448 y 4138.49. El máximo y el mı́nimo observados son 103.0 y 340.0.
En la figura se muestra el gráfico de caja y bigotes para CIRCEF en el cual se observa en mismo
comportamiento que en la figura 5.2.
Figura 5.3: Caja y Bigotes para CIRCEF
Para el circunferencia abdominal el número de observaciones realizadas durante toda las gestación
de los fetos fue de 252 en diferentes tiempos. La media y la varianza de este conjunto de datos
son 233.524 y 5013.59. El máximo y el mı́nimo observados son 83.0 y 354.0. En la figura 5.4 se
muestra el gráfico de caja y bigotes para CIRABD en el cual se observa que hay un ligero sesgo a
la izquierda.
Para la longitud de la diáfisis del fémur el número de observaciones realizadas durante toda las
gestación de los fetos fue de 252 en diferentes tiempos. La media y la varianza de este conjunto de
Figura 5.4: Caja y Bigotes para CIRABD.
datos son 51.8929 y 270.12. El máximo y el mı́nimo observados son 17.0 y 79.0. En la figura 5.5
se muestra el gráfico de caja y bigotes para LF emur donde se observa que hay un sesgo hacia la
izquierda.
Figura 5.5: Caja y Bigotes para LFemur.
Para el peso de nacimiento el número de observaciones realizadas durante toda las gestación
de los fetos fue de 57. La media y la varianza de este conjunto de datos son 51.8929 y 270.12. El
máximo y el mı́nimo observado son 2.050 y 3.850. En la figura 5.6 se muestra el gráfico de caja y
bigotes del peso de nacimiento donde podemos observar que hay un punto atı́pico que corresponde
al feto con menor peso de nacimiento de 2050 gramos, este es un caso en el cual el feto nació con
un peso menor por debajo del peso mı́nimo adecuado de 2500 gramos.
5.2.2 Análisis de Correlación de las variables.

Debido a que uno de nuestros interés es encontrar una función con la cual se pueda saber las
medidas fetales con solo saber la edad gestional, es decir buscar una ecuación de la forma
medida de interés del feto = f (gest)
esta medida puede ser cualquiera las variables medidas al feto durante su desarrollo y ası́ poder
saber si el feto se tiene un desarrollo adecuado para edad gestional que poseé, es decir, si está
dentro del intervalo de confianza para esta medida. Por tanto, es de interés conocer la correlación
que existe entre la edad gestional del feto y las demás variables ecograficas, ası́ como la relación que
Figura 5.6: Caja y Bigotes para Peso de Nacimiento.
Tabla 5.4: Correlaciones entre las variables fetales.

CORRELACIONES
Gest DBP CIRCEF CIRABD LFemur PesoN
Gest: Correlación de Pearson 1 0.983∗∗ 0.974∗∗ 0.977∗∗ 0.981∗∗ 0.026
Sig (Bilateral) 0.000 0.000 0.000 0.000 0.677
DBP: Correlación de Pearson 0.983∗∗ 1 0.990∗∗ 0.980∗∗ 0.980∗∗ 0.066
Sig (Bilateral) 0.000 0.000 0.000 0.000 0.296
CIRCEF: Correlación de Pearson 0.974∗∗ 0.990∗∗ 1 0.980∗∗ 0.978∗∗ 0.68
Sig (Bilateral) 0.000 0.000 0.000 0.000 0.281
CIRABD: Correlación de Pearson 0.977 ∗∗ 0.980 ∗∗ 0.980 ∗∗ 1 0.976∗∗ 0.082
Sig (Bilateral) 0.000 0.000 0.000 0.000 0.193
LFemur: Correlación de Pearson 0.981∗∗ 0.980∗∗ 0.978∗∗ 0.976∗∗ 1 0.038
Sig (Bilateral) 0.000 0.000 0.000 0.000 0.545
PesoN: Correlación de Pearson 0.026 0.066 0.68 0.082 0.038 1
Sig (Bilateral) 0.677 0.296 0.281 0.193 0.545
∗∗ . La correlación es significativa al nivel 0.01(bilateral) .
existe entre ellas. Como podemos observar en la Tabla 5.4 de la matriz de correlación las variables
Gest, DBP, CIRCEF, CIRABD y LF emur están altamente correlacionadas entre sı́, por lo que
podemos concluir que con una sola de las variables podemos describir el comportamiento de las
demás variables y de está manera podemos proceder a tratar de estimar cualesquiera de las variables
medidas al feto con sóla la edad gestional (semanas) del feto. Pero también vemos que la variable
peso de nacimiento no está correlacionada con ninguna de las variables medidas al feto, por lo que
podemos intuir que el objetivo de poder predecir el peso de nacimiento del feto con las variables
Gest, DBP , CIRCEF , CIRABD y LF emur no se podrá lograr. Ahora para el primer objetivo
mencionado de poder ver si el desarrollo del feto es adecuada tomaremos la variable que este más
altamente correlacionada con la variable gest, debido a que todas estan altamente correlacionadas,
la cual es la variable de Diámetro biparietal (DBP ) .
Tabla 5.5: Resumen del Ajuste del modelo y = ax + b para DBP vs CIRCEF.
Parámetro Estimación Error Est́andar T estadı́stico P-valor
a 9.18086 2.29165 4.00622 0.0001
b 3.45059 0.0316944 108.871 0.0000
Ajuste de modelos para la variable Biametro Biparietal.

En esta sección realizaremos los ajustes de los modelos para la variables CIRCEF, CIRABD,
LF emur en función de la variable DBP, es decir, construiremos funciones de la forma
variable = f (DBP )
donde la variable puede tomar las siguientes variables CIRCEF, CIRABD, LF emur
Ajuste de modelo para DBP vs CIRCEF. En la figura 5.7 se presenta el gráfico del diametro
Biparietal contra la circunferencia cefalica, en el cual podemos observar que hay una posible relación
lineal, por cual se procederá a realizar un ajuste lineal.
Figura 5.7: Gráfico de DBP vs CIRCEF
Al ajustar el modelo lineal de la forma y = ax + b obtenemos que la ecuación está dada por
CIRCEF = 9.18086DBP + 3.45059
donde ambos parámetros resultaron diferentes de cero un nivel de confianza de α = 0.05, como se
puede observar en la Tabla 5.5. Además se tiene de la tabla del análisis de varianza para α = 0.05
rechazamos H0 por lo que el modelo es significativo globalmente como se obseva en la Tabla 5.6.
El R2 es de 97.9344%. A continuación vemos en la figura 5.8 el gráfico del ajuste lineal, en el

cual observamos que hay valores que se encuentran fuera de los lı́mites de predicción, por lo que se
verá los puntos atı́picos para este ajuste.
La Tabla 5.7 lista todas las observaciones que tienen residuos estudentizados superiores a 2.0 en
valor absoluto. Los residuos estudentizados miden cuánta desviación tı́pica de cada valor observado
Tabla 5.6: Análisis de Varianza del modelo y = ax + b para DBP vs CIRCEF.

Fuente Suma de Cuadrados Df Cuadrados medios F P-valor
Regresión 1017303 1 1017300 11852.80 0.0000
Residual 21457 250 85.8281
Total 1038760 251
Figura 5.8: Ajuste del Modelo Lineal para DBP vs CIRCEF
de CIRCEF se desvı́a del modelo de ajuste, al usar todos los datos excepto esa observación. En
este caso, hay 9 residuos estudentizados superiores a 2.0 y 3 superiores a 3.0. Ahora veremos si
existen puntos influyentes que debamos eliminar del modelo y ser tratados por separado. Al usar
Leverage el cual es un estadı́stico que mide la influencia de cada observación en la determinación de
los coeficientes del modelo estimado. En este caso, un punto medio tendrı́a un valor de influencia
igual a 0.00793651. Se obtuvó que no hay ningún punto superior a 3 veces la influencia media.
Dado el p − valor observamos que existe una falta de ajuste del modelo, por tanto hay que
considerar otros modelos para poder modelar adecuadamente la relación CIRCEF vs DBP. Al-
gunos de los modelos considerados para modelar la relación CIRCEF vs DBP son un modelo
cuadrático, cúbico, logaritmico.
Tabla 5.7: Residuales Atipicos para el ajuste Lineal para BDP vs CIRCEF.
Fila X Y Valor Predicho Residuo Residuo Estudentizado
14 36 108 133.402 -25.4022 -2.80
24 38 160 140.303 19.6967 2.16
36 48 148 174.809 -26.8093 -2.95
112 68 264 243.821 20.1789 2.20
135 74 290 264.525 25.4754 2.79
137 73 225 261.074 -36.074 -4.02
144 80 230 285.228 -55.2282 -6.44
145 78 252 278.327 -26.327 -2.89
161 85 270 302.481 -32.4811 -3.60
Tabla 5.8: Prueba de Falta de Ajuste del Modelo Lineal para BDP vs CIRCEF.
Prueba de Falta de Ajuste
Suma de Cuadrados DF Media Cuadrática F p-valor
Falta de Ajuste 7033.77 62 113.448 1.48 0.0240
Error Puro 14423.3 188 76.7195
Tabla 5.9: Resumen del ajuste lineal para DBP vs CIRABD.

Parámetro Estimación Error Estandar T estadı́stico p-valor
α −29.4756 3.48384 −8.46065 0.0000
β 3.7614 0.0481829 78.065 0.0000
Ajuste del modelo para DBP vs CIRABD. En la figura 5.9 se muestra el gráfico del diámetro
Biparietal contra la circunferencia Abdominal, en el cual podemos observar que hay una evidente
de una relación lineal.
Figura 5.9: Gráfico de DBP vs CIRABD.
Al ajustar el modelo lineal de la forma y = αx + β obtenemos que el modelo ajustado es

CIRABD = −29.4756 + 3.7614 ∗ DBP
donde ambos parámetros son diferentes de cero como se puede ver en la Tabla 5.9, además se
tiene de la tabla del análisis de varianza para α = 0.05 rechazamos H0 por lo que el modelo es
significativo globalmente, como se observa en la Tabla 5.10.
El R2 es de 96.0594%. En la figura 5.10 se presenta el ajuste del modelo lineal para DBP y
CIRABD.
A continuación se presenta la Tabla 5.11, de la prueba de falta de ajuste del modelo lineal
donde podemos observar que no hay falta de ajuste del modelo, por tanto la relación funcional
entre DBP y CIRABD está dado por el modelo lineal
CIRABD = −29.4756 + 3.7614 ∗ DBP
Por la prueba de falta de ajuste para α = 0.05 obtenemos que el modelo es adecuado para el
conjunto de datos observado.
Tabla 5.10: Resumen del Análisis de Varianza del Modelo Lineal para DBP vs CIRABD.
Fuente Suma de Cuadrados Df Cuadrados medios F p-valor
Regresión 1208820 1 1208826 6094.14 0.0000
Residual 49589.5 250 198.358
Total 1, 258410 251
Tabla 5.11: Resumen de la prueba de falta de Ajuste del Modelo Lineal para DBP vs CIRABD.
Falta de Ajuste 11348.0 62 183.032 0.90 0.6805
Error Puro 38241.5 188 203.412
Tabla 5.12: Residuales Atipicos del Modelo Lineal para DBP vs CIRABD.
95 67 257 222.538 34.4619 2.48
105 68 188 226.3 −38.2995 −2.76
129 80 218 271.436 −53.4363 −3.91
135 74 280 248.868 31.1321 2.23
180 84 320 286.482 33.5181 2.41
186 84 320 286.482 33.5181 2.41
187 83 314 282.721 31.2795 2.25
197 82 320 278.959 41.0409 2.97
221 89 335 305.289 29.7111 2.13
228 86 332 294.005 37.9953 2.74
241 90 346 309.05 36.9497 2.67
Figura 5.10: Ajuste del Modelo Lineal DBP vs CIRABD.
La Tabla 5.12 se lista todas las observaciones que tienen residuos estudentizados superiores a
2.0 en valor absoluto. Los residuos estudentizados miden cuánta desviación tı́pica de cada valor
observado de CIRABD se desvı́a del modelo de ajuste, con todos los datos excepto esa observación.
En este caso, hay 11 residuos estudentizados superiores a 2.0 y 3 superiores a 3.0. Ahora veremos
si existen puntos influyentes que debamos eliminar del modelo y ser tratados por separado. Con
Leverage un punto medio tendrı́a un valor de influencia igual a 0.00793651.obteniendosé que no
hay ningún punto superior a 3 veces la influencia media.
Ajuste del modelo para DBP vs LF emur. En la figura 5.11 se presenta el diámetro biparietal
contra longitud del femur, en el cual podemos observar que hay una evidente relación lineal, además
que existen algunos puntos atipicos que se encuentran fuera de la nube de datos. Principalmente
observemos que hay un punto outlier que esta muy lejos de la nube, el cual corresponde a un bebe
con un peso de 3450 gramos y DBP de 55 y LF emur de 21.
Figura 5.11: Gráfico de DBP vs LFemur.
Entonces dado que hay evidencia de una posible relación lineal se procederá a realizar un ajuste
de un modelo lineal de la forma y = αx + β, el modelo está dado por
LF emur = −9.12934 + 0.872735 ∗ DBP
donde el modelo es significativo y ambós parámetros son distintos de cero como se puede ver en las
Tablas 5.13 y 5.13. En la figura 5.12 se presenta el gráfico del ajuste del modelo lineal. En la Tabla
Tabla 5.13: Resumen del ajuste lineal para DBP vs LFemur.

Parámetro Estimación Error Estandar T estadı́stico P-valor
α -9.12934 0.816369 -11.1829 0.0000
β 0.872735 0.0112907 77.2968 0.0000
Tabla 5.14: Análisis de Varianza del Modelo Lineal para DBP vs LFemur.
Fuente Suma de Cuadrados Df Cuadrados medios F P-valor
Regresión 65077.1 1 65077.1 5974.80 0.0000
Residual 2722.98 250 10.8919
Total 67800.1 251
5.15 se presenta el resumen de la prueba de falta de ajuste donde de forma análoga a la anterior
prueba de falta de ajuste para α = 0.05 obtenemos que el modelo es adecuado para modelar el
comportamiento observado entre las variables LF emur y DBP.
Figura 5.12: Ajuste Lineal de DBP vs LFemur.
Debido a que se observaron puntos atı́picos, se revisó estos puntos atı́picos. La Tabla 5.6
lista todas las observaciones que tienen residuos estudentizados superiores a 2.0 en valor absoluto.
Los residuos estudentizados miden cuánta desviación tı́pica de cada valor observado de CIRABD
se desvı́a del modelo de ajuste, utilizan todos los datos excepto esa observación. En este caso,
hay 13 residuos estudentizados superiores a 2.0 y 3 superiores a 3.0. Ahora veremos si existen
puntos influyentes que debamos eliminar del modelo y ser tratados por separado. En estadı́stico
de Leverage se obtiene que un punto medio tendrı́a un valor de influencia igual a 0.00793651 y para
los datos se obtuvó que no hay ningún punto superior a 3 veces la influencia media.
En conclusión tenemos que las relaciones entre la variable DBP y el conjunto de variables
CIRCEF, CIRABD, LF emur es lineal por lo que se puede decir que si tenemos una de estas
variables entonces podemos conocer el resto de las demás variables.
Tabla 5.15: Prueba de falta de Ajuste para el Modelon Lineal para DBP vs LFemur.
Prueba de Falta de Ajuste
Falta de Ajuste 805.54 62 12.9926 1.27 0.1105
Error Puro 1917.44 188 10.1992
Tabla 5.16: Residuales Atı́picos del Modelo Lineal para LFemur y DBP.
53 55 31 38.8711 -7.87109 -2.42
57 55 21 38.8711 -17.8711 -5.77
71 53 44 37.1256 6.87438 2.10
72 57 34 40.6166 -6.61656 -2.02
77 55 46 38.8711 7.12891 2.18
95 67 56 49.3439 6.65608 2.03
97 73 47 54.5803 -7.58033 -2.32
113 73 47 54.5803 -7.58033 -2.32
122 68 57 50.2167 6.78335 2.07
161 85 57 65.0532 -8.05315 -2.47
197 82 70 62.4349 7.56506 2.32
207 93 65 72.035 -7.03503 -2.16
225 91 77 70.2896 6.71044 2.06
5.2.3 Ajuste de modelos para la relación Gest vs DBP.

Ahora dado que ya se tiene una relación funcional entre DBP y las variables CIRCEF, CIRABD
y LF emur, el siguiente paso a seguir es encontrar una relación funcional entre DBP y la edad
gestional con el objetivo de poder conocer todas las medidas ecograficas de un feto con sólo conocer
la edad gestional. En la figura 5.13 se presenta la gráfica de la edad gestional contra el diametro
Biparietal. En la cual observamos que la relación existen entre las dos variables no tiene una
tendencia lineal sino posiblemente cuadrática, cúbica o de crecimiento. Entonces dado que no hay
una relación funcional se procedio a ajustar varios modelos que a nuestra consideración pueden
llegar a describir el comportamiento observado en la figura 5.13. Entre los modelos propuestos
están, el modelo Cuadrático, Cúbico, Gompertz y el modelo Logı́stico.
Figura 5.13: Gráfico de DBP vs gest.
Resultados del ajuste lineal Para el ajuste del modelo lineal y = ax + b obtenemos el modelo
DBP = −2.71255 + 2.55601 ∗ gest
donde ambos parámetros son diferentes de cero y el modelo es significativo de forma general como
se observa en las Tablas 5.17 y 5.18 respectivamente. En la figura 5.14 se tiene el ajuste del Modelo
lineal donde podemos observar que el ajuste no es muy bueno como se observo por primera vez y
como veremos en la prueba de falta de ajuste el ajuste no es adecuado.
Figura 5.14: Ajuste del Modelo Lineal de DBP vs gest.

Tabla 5.17: Estimación de Parámetros para el Modelo Lineal de DBP vs gest.

Parámetro Estimación Error Estandar T estadı́stico P-valor
α −2.71255 0.894384 −3.03287 0.0027
β 2.55601 0.0305406 83.6921 0.0000
Tabla 5.18: Análisis de Varianza del Modelo Lineal para DBP vs Gest.
Fuente Suma de Cuadrados gl Cuadrados medios F P-valor
Regresión 82496 1 82496 7004.36 0.0000
Residual 2944.45 250 11.7778
Total 85440.4 251
De la tabla del análisis de varianza para α = 0.05 rechazamos H0 por lo que el modelo es
significativo globalmente. El R2 de 96.5538%, esto pareciera indicar que hay un 96.5538% de
descripción de la variabilidad de los datos, pero como vemos en la prueba de falta de ajuste este
modelo no es adecuado para el comportamiento de los datos, por lo que podemos concluir que hay
una alta variabilidad en los datos.
De la prueba de falta de ajuste para α =0.05 se tiene falta de ajuste en el modelo por lo que
podemos descartar el modelo lineal como un modelo competitivo para modelar DBP vs gest.
Resultados del ajuste del modelo cuadrático. Para el ajuste del modelo lineal y = αx2 +
βx + γ obtenemos que el modelo esta dado por
DBP = −0.0496039gest2 + 5.31726gest − 38.6386
En la Tabla 5.21 obsevamos que el modelo es significativo globalmente, además todos sus parámetros
son distintos de cero.
Para α = 0.05 y 249 grados de libertad tenemos que 1 − f uncT Inv(0.05; 249) = 2.651 0, por
tanto rechazamos la hipótesis nula y concluimos que α, β y γ son diferentes de cero.
En la figura 5.15 vemos el ajuste del modelo cuadrático, donde podemos observar que hay un
adecuado ajuste.
Resultados del ajuste del modelo cúbico. Al realizar el ajuste del modelo lineal y = ax3 +
bx2 + cx + d obtenemos que el modelo es
DBP = −0.00233817x3 + 0.14341x2 + 0.221802x + 4.13203
Tabla 5.19: Prueba de falta de Ajuste del Modelo Lineal para DBP vs Gest.
Falta de Ajuste 1533.14 24 63.8809 10.23 0.0000
Error Puro 1411.31 226 6.24473
Tabla 5.20: Estimación de Parámetros para el Modelo Cuadrático de DBP vs gest.

Parámetro Estimación Error Estandar Asintótico T estadı́stico P-valor
α -0.0496039 0.00356875 -13.900 0.0000
β 5.31726 0.199988 26.588 0.0000
γ -38.6386 2.67085 -14.467 0.0000
Tabla 5.21: Análisis de Varianza para el Modelo Cuadrático DBP vs gest.

Regresión 1315780 3 438595 65868 0.0000
Residual 1658.01 249 6.65867
Total 1317440 252
Observemos que en la Tabla 5.23 del análisis de varianza se tiene que el modelo es globalmente
significativo pero, al realizar la prueba sobre cada uno de los parámetros observamos que hay
parámetros que son diferentes de cero. Al examinr los valores de los p − valores, podemos concluir
que los parámetros c y d son no significativos para el modelo y por tanto podemos excluirlos del
modelo.
En la Tabla 5.23 notamos que el modelo es significativo globalmente para α = 0.05. El R2 =
98.1997% por lo que podemos decir que el 98% de la variabilidad de los datos es explicado por el
modelo, pero recordemos que está medida no es del todo confiable como se observó en el ajuste del
modelo lineal.
Dado que los parámetros c y d pueden ser excluidos del modelo, a continuación se realizará un
ajuste cúbico de la forma ax3 + bx2 y de la forma ax3 + cx + d y ax3 + bx2 + d y compararemos
cual modelo es el más adecuado al conjunto de datos. Primero realizaremos el ajuste del modelo
de la forma ax3 + bx2 donde el modelo ajustado esta dado por
DBP = −0.002929gest3 + 0.174112gest2
y de la Tabla 5.25 se tiene que el modelo es globalmente significativo para α = 0.05 y que ambos
parámetros son significativamente diferentes de cero como se observa en la Tabla 5.26.
R2 = 97.9312%.
Para el ajuste del modelo de la forma ax3 + bx2 + d obtenemos que el modelo es
DBP = −0.0024372gest3 + 0.151691gest2 + 6.02267
Tabla 5.22: Intervalos de confianza Ası́ntoticos del 95% de confianza del Modelo Lineal para DBP
vs Gest.
Parámetro Intervalo de Confianza Asintótico de 95%
α ( -0.0566308 , -0.0425732 )
β ( 4.92337 , 5 71114 )
γ ( -4 .899 , -33.3783 )
Tabla 5.23: Análisis de Varianza del Modelo Cúbico y = ax3 + bx2 + cx + d.

Regresión 1315900 4 328976 53041 0.0000
Residual 1538.18 248 6.20235
Total 1317440 252
Tabla 5.24: Resumen de la Estimación de Parámetros para el Modelo ax3 + bx2 + cx + d.

Parámetro Estimación Error Estándar Asintótico T estadı́stico P-valor
a −0.00233817 0.000531959 −4.3954 8.2030 × 10−6
b 0.14341 0.0440476 3.2558 6.4419 × 10−4
c 0.221802 1.17526 0.18873 0.42523
d 4.13203 10.0668 0.41046 0.340 91
Tabla 5.25: Análisis de Varianza para el modelo ax3 + bx2 .

Regresión 1315670 2 657837 93044 0.0000
Residual 1767.55 250 7.07019
Total 1317440 252
Tabla 5.26: Resultados de la Estimación de Parámetros para el modelo ax3 + bx2 .

a −0.002929 0.0000351793 −83.259 0.0000
b 0.174112 0.00120317 144.71 0.0000
Figura 5.15: Ajuste del Modelo ax2 + bx + c
Tabla 5.27: Análisis de Varianza del Modelo ax3 + bx2 + d.

Regresión 1315900 3 438635 70995.83706 0.0000
Residual 1538.4 249 6.17832
Total 1317440 252
y de la Tabla 5.27 se determina que el modelo es significativo globalmente para α = 0.05. El

R2 = 98.0595%. Los parámetros son significativamente diferentes de cero como se observa en la
Tabla 5.28.
Por último se realiza el ajuste del modelo de la forma ax3 + cx + d se tiene que el modelo es
DBP = −0.0006115gest3 + 4.03342gest + 28.0874
de las Tablas 5.29 y 5.30 se concluye que el modelo es globalmente significativo ası́ como que los
parámetros son significativamente diferentes de cero, es decir el modelo es significativo globalmente
para α = 0.05 con un R2 de 98.1228% y los parámetros son significativamente diferentes de cero
para un p − valor de 0.05.
Ahora, aplicación del Criterio de información de Akaike y el criterio de información Bayesiano
obtenemos que el modelo más adecuado para el comportamiento es el modelo ax3 + bx2 + d tanto
para el criterio AIC como para BIC, por tanto para el conjunto de modelos en competencia se
considerada como modelo cúbico el modelo ax3 + bx2 + d.
Tabla 5.28: Estimación de Parámetros para el Modelo ax3 + bx2 + d.

a −0.0024372 0.000087195 −27.95114399 0.0000
b 0.151691 0.00384965 39.40384191 0.0000
d 6.02267 0.988936 60.900050317 0.0000
Tabla 5.29: Análisis de Varianza del Modelo ax3 + cx + d.

Regresión 1315840 3 438613 68092 0.0000
Residual 1603.93 249 6.44148
Total 1317440 252
Tabla 5.30: Estimación de parámetros para el Modelo ax3 + cx + d.

a −0.0006115 0.0000423907 −14.425 0.0000
c 4.03342 0.104879 38.458 0.0000
d 28.0874 1.8793 14.946 0.0000
Resultado del ajuste del modelo gompertz.

Para el modelo gompertz y = α exp (− exp (β − γx)) el ajuste para el conjunto de datos es
DBP = 112.09 exp (− exp 1.46478 − 0.0808253gest)
Al examinar los p−valores de la Tabla 5.32 rechazamos la hipótesis nula, por lo que los parámetros
son diferentes de cero, además de la Tabla 5.33se concluye que el modelo es globalmente signi-
ficativo. Observe en la figura 5.20 que el modelo gompertz parece describir adecuadamente el
comportamiento de la relación entre gest y DBP.
A continuación tenemos los intervalos de confianza para los parámetros del modelo gompertz
con un nivel de confianza del 95%.
El ajuste del modelo es
DBP = 112.09 exp (− exp (1.46478 − 0.0808253gest))
Resultados del ajuste del Modelo Logı́stico. Por último se ajustó el modelo logı́stico y =
α
1+exp(β−γx) y se obtuvó que para el conjunto de datos el modelo está dado por
102.777
DBP =
1 + exp (2.67237 − 0.1252gest)
Tabla 5.31: Criterio de Información de Akaike y Bayesiano para Modelos Cúbicos.

Modelo AIC BIC
ax3 +cx + d −110.0131 −112.064
ax3 +bx −110.4216 −111.7889
3 2
ax +bx +d −109.4883 −111.4592
Tabla 5.32: Resumen de la Estimación de Parámetros para el modelo Gompertz.

Parámetro Estimación Error Estándar Asintótico Estadı́stico T P-valor
α 112.09 1.8785 59.670 0.0000
β 1.46478 0.0449466 32.589 0.0000
γ 0.0808253 0.00306665 26.356 0.0000
Tabla 5.33: Análisis de Varianza para el modelo Gompertz.

Regresión 1315850 3 438617 68629.23655 0.000
Residual 1591.39 249 6.39111
Total 1317440 252
Tabla 5.34: Intervalos de confianza del 95% para el modelo Gompertz.

α (108.39, 115, 79)
β (1.37626, 1, 55331)
γ (0.0747854, 0.0868652)
Tabla 5.35: Resumen de la Estimación de Parámetros para el modelo Logistico.

α 102.777 1.11263 92.373 0.0000
β 2.67237 0.0570819 46.816 0.0000
γ 0.1252 0.00345413 36.246 0.0000
Figura 5.16: Ajuste Cúbico ax3 + bx2 + cx + d
Figura 5.17: Ajuste Cúbico ax3 + cx + d.
de las Tablas 5.35 y 5.36 se tiene que todos los parámetros resultarón significativamente diferentes
de cero para un α = 0.05 y del análisis de varianza para α = 0.05 rechazamos H0 por lo que el
modelo es significativo globalmente.
En la Tabla 5.37 se muestra los intervalos de confianza ajustados para los parámetros del modelo
Logı́stico con un nivel de confianza del 95%.
Y al igual que en los anteriores modelos podemos observar en la figura 5.21, que el ajusto
Logı́stico es adecuado para el comportamiento de la relación de DBP con gest.
5.2.4 Predicción del peso de nacimiento de los fetos.

Para realizar el objetivo de tratar de predecir el peso de nacimiento de los fetos con las variables
(ultrasonograficas) diámetro biparietal, circunferencia cefálica, circunferencia abdominal y longitud
Tabla 5.36: Análisis de Varianza para el modelo Logistico.

Regresión 1315900 3 438635 71047 0.0000
Residual 1537.3 249 6.17391
Total 1317440 252
Figura 5.18: Ajuste Cúbico ax3 + bx2 .
Figura 5.19: Ajuste Cúbico ax3 + bx2 + d.
del fémur se realizó análisis de regresión múltiple, en donde se consideró todas las variables, sus
cuadrados y todos sus posibles productos cruzados, además se examinó el paper de Greigh I. Hirata
1990. El propósito del trabajo de Hirata fue evaluar modelos para la predicción de pesos en fetos con
sospecha de macrosomı́a. Se estudió un total de 141 pacientes con mediciones estándar de la cabeza,
abdomen y fémur. Se formularon regresiones lineales con los parámetros simples, el cuadrado de
las variables y el producto de todos los cruces posibles, se generaron modelos con el peso al nacer
o su logaritmo como variables dependientes. Estos modelos fueron luego comparados con un grupo
de ecuaciones previamente publicadas. Clı́nicamente ninguno de los modelos fue adecuado. Sin
embargo dos fueron significativamente menos exactos para predecir el peso al nacer (p < 0.05). Los
mejores resultados se obtuvieron con las ecuaciones que utilizaron la circunferencia abdominal y la
longitud de fémur. No hubo mayor beneficio con modelos que tenı́an el peso al nacer o su logaritmo
como variables dependientes o en aquellos otros modelos con variables complejas como cuadrados o
Tabla 5.37: Intervalos de Confianza del 95% para los Parámetros del Modelo Logı́stico.
α (100.586, 104.969)
β (2.55995, 2.7848)
γ (0.118397, 0.132003)
Figura 5.20: Ajuste del Modelo Gompertz.
Figura 5.21: Ajuste del Modelo Logı́stico.
productos cruzados de las medidas. En conclusión, al evaluar pacientes con macrosomı́a, las mejores
estimaciones del peso fetal se obtienen con modelos que utilicen la circunferencia abdominal y la
longitud de fémur.
Primero se realizó un análisis exploratorio con gráficos del peso de nacimiento con las variables
de interés, este análisis fue realizado en statgraphic. Recordemos que las variables están altamente
correlacionadas entre sı́ y con la edad gestional, como se puede observar en la Tabla 5.4, pero
que también se observa que el peso de nacimiento de los fetos no está correlacionado fuertemente
con estas variables, lo que indica que no será fácil poder encontrar una función que nos ayude a
poder predecir el peso de nacimiento. Esto también puede ser visto en los siguientes gráficos del
peso de nacimiento con cada una de las variables, en los cual sólo se gráfico la última medición de
cada una de las variables ultrasonografica, debido a que en el desarrollo fetal las últimas semanas
de gestación el feto presenta una estabilización en el crecimiento como se observa en los gráficos
de las variables ultrasonograficas contra la edad gestional, por tanto si hay una relación entre las
variables ultrasonograficas y el peso de nacimiento esta debe ser más notable en las últimas semanas
de gestación. Observamos por ejemplo el gráfico del peso de nacimiento contra el DBP, el cual que
la variable más altamente correlacionada con la edad gestional y observamos que no hay una relación
funcional obvia entre estas dos variables, sino que observamos que para una medida determinada
del diámetro biparietal se dieron diferentes pesos, por ejemplo para un diámetro biparietal de 93
el rango de pesos de nacimiento fue de 2750 gramos a los 3450 gramos. Aún dado esto si podemos
decir que los fetos con mayor peso en el nacimiento presentan medidas en las variables de interés
altas con respecto a los fetos que tuvieron un peso de nacimiento muy bajo, esto nos lleva a intuir
que existe una relación entre estas variables y el peso de nacimiento la cual no es obvió o fácil de
encontrar, también podemos intuir que quizás los modelos no presenten una muy buena predicción
debido a que se presenta una dispersión grande en los pesos de nacimiento para las mediciones de
las variables observadas.
Figura 5.22: Gráfico del Peso de Nacimiento vs DBP.
Figura 5.23: Gráfico del Peso de Nacimiento vs CIRCEF.
Ahora procedamos a realizar las regresiones múltiples simple con todas las variables ultrasono-
graficas. Primero realicemos la regresión múltiple donde se encuentren todas las variables de interés,
donde se obtuvó que el modelo ajustado esta dado por
P esoN = 2975.5 + 2.27837DBP + 0.64589CIRCEF + 3.8115CIRABD − 20.2418LF emur
Dado que el p − valor en la Tabla 5.38 es inferior a α = 0.05, existe relación estadı́sticamente
significativa entre las variables para un nivel de confianza del 95%.
El R2 obtenido es de 4.46006%, el cual es muy pequeño, es decir, el modelo describe sólo un
4% de la variabilidad de los datos. Al examinar la Tabla 5.39 de estimación de los parámetros por
el método de mı́nimos cuadrados tenemos que las variables DBP y CIRCEF tienen un p − valor
más alto que α = 0.05 dados por 0.7949 y 0.7909 respectivamente, por tanto estos términos no
son estadı́sticamente significativos para un nivel de confianza del 95% o superior. Por tanto, se
considerará eliminarlos del modelo.
Seguidamente realizaremos la regresión múltiple para las variables longitud del fémur y circun-
ferencia abdominal como variables independientes y peso de nacimiento como variable dependiente,
Figura 5.24: Gráfico del Peso de Nacimiento vs CIRABD.
Figura 5.25: Gráfico del Peso de Nacimiento vs LF emur.
es decir, se ajustará el nuevo modelo con las variables que resultaron estadı́sticamente significativas.
El modelo para la regresión múltiple es
P esoN = 3028.79 + 4.433CIRABD − 17.8784LF emur
Dado que el p − valor en la Tabla 5.40 del análisis de varianza es inferior a α = 0.05, existe relación
estadı́sticamente significativa entre las variables para un nivel de confianza del 95%.
El R2 obtenido es de 4.30908%, el cual es muy pequeño, es decir, el modelo sólo describe un 4%
de la variabilidad de los datos, por lo que podemos concluir que estás dos variables independientes
son importantes para poder predecir el peso de nacimiento del feto, pero el modelo de predicción es
muy malo para predecir el peso. Ahora al examinar la Tabla 5.41 de estimación de los parámetros
por el método de mı́nimos cuadrados tenemos que las variables CIRABD y LF emur tienen un
p − valor menor que α = 0.05 dados por 0.0011 y 0.0023 respectivamente, por tanto estos términos
Tabla 5.38: Análisis de Varianza para el Modelo de Regresión Múltiple ax1 + bx2 + cx3 + dx4 + e.
Regresión 1242600 4 310650.0 2.88 0.0232
Residual 26618000 247 107765.0
Total 27860600 251
Tabla 5.39: Estimación de Parámetros para el Modelo de Regresión Múltiple ax1 +bx2 +cx3 +dx4 +e.
Constante 2975.5 111.951 26.5786 0.0000
DBP 2.27837 8.75458 0.260249 0.7949
CIRCEF 0.64589 2.43312 0.265458 0.7909
CIRABD 3.8115 1.67839 2.27092 0.0240
LF emur −20.2418 6.96267 −2.90719 0.0040
Tabla 5.40: Análisis de Varianza el Modelo de Regresión Múltiple cx3 + dx4 + e.

Regresión 1200540 2 600268.0 5.61 0.0042
Residual 26660100 249 107069.0
Total 27860600 251
son estadı́sticamente significativos para un nivel de confianza del 95% o superior. Por tanto, serán
considerados en el modelo.
Al realizar todas las regresiones con sus cuadrados y todos sus posibles productos cruzados se
obtuvó resultados similares dado que en todos los modelos las variables CIRABD y LF emur re-
sultaron significativas o un producto cruzado de ellas con otras variables, por ejemplo consideremos
el modelo
P esoN = a0 + a1 x1 + a2 x2 + a3 x3 + a4 x4 + a5 x1 x2 + a6 x2 x3 + a7 x3 x4 + a8 x4 x1
donde x1 = DBP, x2 = CIRCEF, x3 = CIRABD, x4 = LF emur, para mayor facilidad de manejo

del modelo, el ajuste del modelo se presenta en la Tabla 5.42, donde se observa que el p − valor
para la prueba de significancia, los términos no significativos para un α =0.05, son x3 x4 y x4 x1 , al
eliminarlas del modelo se obtiene la Tabla 5.43.
De la tabla obtenida para decidir la simplificación del modelo, observemos que el p − valor más
alto en las variables independientes es 0.3751, el cual pertenece a x2 . Dado que el p − valor es
superior o igual a 0.05 este término no es estadı́sticamente significativo para un nivel de confianza
del 95% o superior. Por tanto, se quitará x2 del modelo, y se procederá a ajustar el nuevo modelo.
Si continuamos de esta manera, es decir, ir eliminando los términos que no son significativos para
el modelo, se obtendrá que los términos significativos del modelo están dados por x4 = LF emur
y x2 x3 = CIRCEF ∗ CIRABD, como se observa en la Tabla 5.44, dado que sus p − valores son
menores que α =0.05.
Tabla 5.41: Estimación de Parámetros para el Modelo de Regresión Múltiple cx3 + dx4 + e.
Constante 3028.79 71.4143 42.4115 0.0000
CIRABD 4.433 1.34637 3.29256 0.0011
LF emur -17.8784 5.80043 -3.08225 0.0023
Tabla 5.42: Estimación de Parámetros del Modelo a0 + a1 x1 + a2 x2 + a3 x3 + a4 x4 + a5 x1 x2 +

a6 x2 x3 + a7 x3 x4 + a8 x4 x1 .
Constante 2522.43 464.718 5.42788 0.0000
x1 52.8053 33.1773 1.59161 0.1128
x2 6.84185 8.61735 0.793962 0.4280
x3 -10.2072 8.91759 -1.14462 0.2535
x4 -39.0281 31.897 -1.22357 0.2223
x1 x2 -0.208359 0.459458 -0.453488 0.6506
x2 x3 0.0396911 0.116012 0.342128 0.7326
x3 x4 0.0533682 0.448581 0.118971 0.9054
x4 x1 0.0775842 1.78418 0.0434846 0.9654
Tabla 5.43: Estimación de Parámetros para el Modelo a0 + a1 x1 + a2 x2 + a3 x3 + a4 x4 + a5 x1 x2 +

a6 x2 x3 .
Constante 2683.05 347.218 7.72728 0.0000
x1 51.8843 27.8747 1.86134 0.0639
x2 2.35909 2.65503 0.888537 0.3751
x3 -10.3904 7.38179 -1.40757 0.1605
x4 -21.3254 6.96272 -3.06279 0.0024
x1 x2 -0.189202 0.10046 -1.88335 0.0608
x2 x3 0.0524714 0.0266768 1.96693 0.0503
Tabla 5.44: Estimación de Parámetros para el Modelo a0 + a4 x4 + a6 x2 x3 .

Constante 3387.23 114.167 29.669 0.0000
x4 −15.8741 5.3771 −2.95216 0.0035
x2 x3 0.00910109 0.00285923 3.18306 0.0016
5.3. REALIZACIÓN DE LAS PRUEBAS DE HIPÓTESIS Y MÉTODOS DE DISCRIMINACIÓN.67
por tanto el modelo obtenido al usar el método de eliminar términos no significativos esta dado
por
P esoN = 3387.23 − 15.8741 ∗ LF emur + 0.00910109 ∗ CIRCEF ∗ CIRABD
Además se observó que todas las R2 de los modelos no excedı́an de el 6%, por lo cual podemos decir
que todos los modelos encontrados tienen un podre desempeño para estimar el peso de nacimiento.
Esto nos lleva concluir que el modelo para predecir el peso de nacimiento debe considerarse otro
tipo de análisis estadı́stico en el cual se consideré más información del feto y quizás de la madre,
aunque podemos concluir que para poder predecir el peso de nacimiento de manera más eficiente se
debe considerar las variables ultrasonograficas, circunferencia abdominal y la longitud del fémur.
5.3 Realización de las pruebas de hipótesis y métodos de discrim-

inación.
En el caso del conjunto de datos médicos, para facilidad de la utilización de los modelos en las prue-
bas y métodos de discriminación, serán renombrados de la siguiente manera: f1 :modelo cuadrático,
f2 :modelo cúbico, f3 :modelo gompertz, f4 :modelo logı́stico. Por tanto el conjunto de modelos
competitivos esta dado por F = {f1 , f2 , f3 , f4 } . Como se mecionó anteriormente se utilizó el paquete
R para realizar las pruebas y los métodos de discriminación.
Al aplicar el criterio de información de Akaike el modelo Logı́stico resulto ser el más adecuado
aunque la diferencia entre este y el modelo cúbico es mı́nima como se observa en la Tabla 5.45.
Ahora dado que el tamaño de la muestra es considerablemente grande, es conveniente aplicar el
criterio de información Bayesiana, al utilizar el BIC nos arroja que el modelo el cual maximiza
es el modelo Logı́stico con un valor de −111.4488,al igual que con el criterio de información de
Akaike, además de manera similar el modelo cúbico no difiere mucho del valor obtenido para el
modelo logı́stico. Ahora dado las dos pruebas podemos decir que el modelo más adecuado para el
comportamiento del fenomeno de los fetos es el modelo Logı́stico.
Tabla 5.45: Criterio de Akaike y Bayesiano para los Modelos del Datos Médicos.
M odelo
f1 f2 f3 f4
AIC −110.4939 −109.4083 −109.8992 −109.3979
BIC −112.448 −111.4592 −111.9502 −111.4488
Ahora realizemos las pruebas de Williams y Atkinson junto con la prueba basada en las proba-
bilidades de seleccionar correcta e incorrectamente el modelo para poder saber si podemos realizar
una discriminación de los modelos con un método de discriminación.
Al aplicar la prueba de Williams propuesta en su libro Regression Analysis, obtenemos que
el estadı́stico observado es de 1.506051 y el estadı́stico para α = 0.05 es de 2.640854, esto es
F < F1−α,k−1,n−k+1 , por tanto los modelos considerados para modelar el fenomeno de los fetos son
demasiado cercanos para poder realizar una discriminación.
Con la prueba tilde propuesta por Atkinson (1969) , obtenemos que F = 0.000002382555 y
F(1−α,k−1,n−k) = 2.640854, asi F < F1−α,k−1,n−k por tanto aceptamo H0 y al igual que en la prueba
de Williams concluimos que no hay suficiente evidencia para realizar una discriminación entre los
modelos, es decir, los modelos son muy parecidos.
Recordemos que estas dos pruebas no realizan un contraste directo de los modelos por lo que
se realizará a continuación es el de aplicar un método de discriminación basado en el Teorema 3.
Bajo la posibilidad de seleccionar el modelo los limites condicionales (4.22) y (4.23) son calculados
con σ = 7.092797. Estos estan listados en la Tabla (5.46). Hay que notar que en la aplicación del
procedimiento establecido en el teorema 2.3.1, tenemos que para los modelos f1 y f2 tenemos que
SN = ∅. Ası́ sobre los modelos que están en F, se tiene que max P [IS (fj )] ≤ 0.4000657. Entonces
basado en la cuestión A3 , se acepta H0 , es decir, no hay suficiente evidencia para realizar una
selección debido a la grandes probabilidades de seleccionar incorrectamente el modelo.
Tabla 5.46: Limites de probabilidades Modelo Seleccionado.

f1 f2 f3 f4
P [IS (fj )] 0.3882566 0.4000657 0.006997732 0.005868674
P [CS (fj )] 0.6117434 0.5999343 0.86662 0.5955264
De estas tres pruebas realizadas, en las cuales se concluyo lo mismo, podemos deducir que los
cuatro modelos seleccionados son adecuados para modelar el comportamiento de la variable DBP
con gest.A continuación se realizará la aplicación del método secuencial para seleccionar el modelo
más adecuado del conjunto de cuatro modelos propuestos para modelar el comportamiento de DBP
vs gest.
5.3.1 Aplicación del Método Secuencial 1 (SM 1) .

Este método fue utilizado dado que Borowiak Dale S, menciona en su libro que este método se-
cuencial tiene más ventaja sobre el método secuencial 2 y el LSE, dado que es le más potente para
seleccionar el modelo cuando se selecciona entre modelos internos, es decir aquellos que cumplen
con tener SN (j), además que se menciona que el método secuencial 2 es más edecuado cuando son
de interés dos o tres modelos.
Antes de realizar el método secuencial primero se realizará la prueba de falta de ajuste para
eliminar los modelos menos probables para modelar el comportamiento observado, notar que no
podemos aplicar las pruebas de falta de ajuste propuestas en la literatura por lo que se aplicara
la prueba de falta de ajuste no con los errores puros, si no con creación de subconjuntos de datos,
los valores junto con RSS estan listados en la Tabla 5.47. Ninguno de los modelos tuvo una falta
de ajuste serio, por tanto ninguno de los modelos sera eliminado. Por consiguiente, el conjunto de
modelos competitivos es F = {f1 , f2 , f3 , f4 } .
Tabla 5.47: Falta de ajuste para los Modelos de Datos Médicos.

f1 f2 f3 f4
RSS 1658.008 1538.403 1591.386 1537.304
LOF .1 .1 0.202 0.629
Para la selección de las f(j) , 1 ≤ j ≤ 4, se ranqueo con respecto al que maximize P (CS) , la
Tabla 5.49 muestra todos los P (CS) y observamos que la secuencia que maximiza P (CS) está dada
− 1
2
por f(1) = f3 , f(2) = f4 , f(3) = f1 y f(4) = f2 . Entonces en el primer paso 2ATj Rj ATj Aj =
− 1
2
3.213827 > 0.6644409, de aqui eliminamos f3 y en el segundo paso 2ATj Rj ATj Aj = 1.673862 <
2.907512, por lo cual seleccionamos f4 de F, es decir, el modelo Logı́stico resulto elegido del conjunto
de modelos competitivos, lo cual es similar a los resultados obtenidos con el criterio de Akaike. Las
probabilidades de selección son obtenidas al sustituir σb = 7.092797 en (4.31) y en (4.32). Entonces
P [IS (f4 )] = 0.4813207 y P [CS (f4 )] = 0.301456, donde podemos observar que la probabilidad de
seleccionar correctamente el modelo es muy pequeña esto debe ser debido a que los modelos son muy
parecidos y como las pruebas nos indicaron es dificil discriminar entre ellos. Estos resultados no
son tan buenos como se esperaban, dado que P [IS (f1 )] > P [CS (f1 )] , esto se debe posiblemente
a los resultados obtenidos en la prueba de Williams y la prueba tilde de Atkinson. Dado que estas
pruebas concluyeron que no hay suficiente evidencia para poder discriminar entre los modelos.
Tabla5.48: Procedimiento
− 1 SM 1.
T T 2
fj 2Aj Rj Aj Aj dj Decisión
Paso 1 f3 3.213827 0.6644409 Eliminamos f3
Paso 2 f4 1.673862 2.907512 Seleccionamos f4
5.3.2 Aplicación del Método LSE.

La aplicación del método LSE se sencillo ya que fj ∈ F si el evento (4.20) ocurre. Los cálculos se
que obtuvo son presetados en las siguientes Tablas
De la Tabla 5.50 podemos concluir que el modelo cuádratico no es elegido dado que ninguno de
los tres eventos cumplió con el evento (4.20).
De la Tabla 5.51 podemos concluir de forma análoga que el modelo cúbico no es elegido dado
que para el modelo logı́stico no se cumple el evento (4.20).
De la Tabla 5.52 podemos concluir que el modelo gompertz no es elegido dado que sólo el modelo
cuadrático cumplió con el evento (4.20).
De la Tabla 5.53 podemos observar que el modelo Logı́stico cumple con el evento (4.20),por
tanto del conjunto de modelos competitivos esté es el modelo seleccionado por el método LSE para
describir más adecuadamente el comportamiento de DBP vs Gest, y la probabilidad de seleccionar
correctamente el modelo Logı́stico es de 0.818398.
Tabla 5.49: P (CS) de las Secuencias para el Método 1.

Secuencia P(CS (fj )) P(CS)
1.2.3.4 0.5321905 0.3144352 0.2079586 0.2079586 0.2079586
1.2.4.3 0.5321905 0.3144352 0.2079586 0.2079586 0.2079586
1.3.2.4 0.5321905 0.3443981 0.2066162 0.2066162 0.2066162
1.3.4.2 0.5321905 0.3443981 0.2066162 0.2066162 0.2066162
1.4.2.3 0.5321905 0.3014787 0.2158537 0.2158537 0.2158537
1.4.3.2 0.5321905 0.3014787 0.2158537 0.2158537 0.2158537
2.1.3.4 0.567605 0.3084265 0.2029845 0.2029845 0.2029845
2.1.4.3 0.567605 0.3084265 0.2029845 0.2029845 0.2029845
2.3.1.4 0.567605 0.2987387 0.2252391 0.2252391 0.2252391
2.3.4.1 0.567605 0.2987387 0.2252391 0.2252391 0.2252391
2.4.1.3 0.567605 0.3198248 0.1956507 0.1956507 0.1956507
2.4.3.1 0.567605 0.3198248 0.1956507 0.1956507 0.1956507
3.1.2.4 0.5186793 0.3851379 0.2310574 0.2310574 0.2310574
3.1.4.2 0.5186793 0.3851379 0.2310574 0.2310574 0.2310574
3.2.1.4 0.5186793 0.3085221 0.2326155 0.2326155 0.2326155
3.2.4.1 0.5186793 0.3085221 0.2326155 0.2326155 0.2326155
3.4.1.2 0.5186793 0.301456 0.2379714 0.2379714 0.2379714
3.4.2.1 0.5186793 0.301456 0.2379714 0.2379714 0.2379714
4.1.2.3 0.528318 0.3040439 0.2176904 0.2176904 0.2176904
4.1.3.2 0.528318 0.3040439 0.2176904 0.2176904 0.2176904
4.2.1.3 0.528318 0.3429363 0.2097890 0.2097890 0.2097890
4.2.3.1 0.528318 0.3429363 0.2097890 0.2097890 0.2097890
4.3.1.2 0.528318 0.2925546 0.2309946 0.2309946 0.2309946
4.3.2.1 0.528318 0.2925546 0.2309946 0.2309946 0.2309946
Tabla 5.50: Método LSE para el modelo 1.

Modelo 1 f2 f3 f4
T
2f (q, 1) R1 249.8025 82.83783 215.6866
δ (q, 1) 130.1971 16.21517 94.98228

Modelo 2. f1 f3 f4
2f T (q, 2) R2 10.59173 12.61549 13.99753
δ (q, 2) 130.1971 65.59822 12.89863

Modelo 3 f1 f2 f4
2f T (q, 3) R3 −50.40748 118.5810 88.94101
δ (q, 3) 16.21517 65.59822 34.85935

Modelo 4 f1 f2 f3
T
2f (q, 4) R4 −25.72201 11.79973 −19.22225
δ (q, 4) 94.98228 12.89863 34.85938
Capı́tulo 6
Conclusiones y Comentarios.
Este capı́tulo está dedicado presentar algunas conclusiones generales sobre el análisis desarrollado
a lo largo de este trabajo. Ası́ mismo, se discuten algunos de los aspectos observados en la selección
de modelos de un conjunto de modelos propuestos con base a los resultados obtenidos.
Las conclusiones con respecto al análisis realizado a los datos observados de bioquı́mica podemos
concluir que ambos modelos propuestos son adecuados para los datos, pero al considerar el criterio
de información de Akaike podemos concluir que el modelo más apropiado para describir a todos los
tratamientos es el modelo Gompertz. Esto nos da mucha información dado que si sólo se hubiese
usado el criterio de información de Akaike, no se hubiese podido concluir que ambos modelos son
adecuados para el comportamiento observado, y el AIC nos proporcionó cual de los dos modelos es
el más apropiado para describir a la gran mayorı́a de tratamientos realizados. Con respecto a las
pruebas de hipótesis de Davidson y MacKinnon podemos decir que son bastante adecuados para
usarse cuando sólo se tiene dos modelos para el fenómeno observado y que su utilización es bastante
sencilla en comparación con los métodos de discriminación.
Con respecto a predecir el peso de los fetos al nacer como se observo en el análisis de correlación y
en los gráficos no es evidente como poder predecir el peso de nacimiento de los fetos con las variables
propuestas en la tesis, y como se observó las ecuaciones propuestas fueron pobres en predicción del
peso de nacimiento debido a que la gran mayorı́a de las ecuaciones tienen un R2 por debajo del 7%
de variabilidad descrita por el modelo, también cabe recordar que se consideró el paper de Hirata en
el cual se obtuvó el mismo resultado obtenido para fetos con macrosomı́a, las relaciones funcionales
significativas contienen a las variables diámetro abdominal y longitud del fémur. En conclusión, al
igual que en el paper de Hirata, al tratar de predecir el peso de nacimiento de un feto, las mejores
estimaciones se obtienen con modelos que utilicen la circunferencia abdominal y la longitud de
fémur, en este caso podemos decir que sin importar si el feto presenta macrosomı́a o no. Esto nos
lleva a pensar que el poder predecir el peso de nacimiento necesita de más información del feto y
quizás de la madre, ası́ como también un tipo de análisis estadı́stico distinto al utilizado en la tesis,
si el objetivo es el mismo, tratar de predecir el peso de nacimiento con medidas ultrasonograficas.
Dado todo lo anterior nuestro objetivo de comparar la ecuación de Rossavick con nuestro modelo
propuesto, no podrá llevarse a cabo debido a que no se encontró un modelo lo suficientemente
bueno para competir con el modelo de Rossavick.
De acuerdo a lo observado con el criterio de información de Akaike y el criterio de información
Bayesiano, concluimos que el modelo más adecuado para la relación funcional entre el diámetro
biparietal y la edad gestional fue el modelo Logı́stico, aunque la diferencias entre los valores fue
73
74 CAPÍTULO 6. CONCLUSIONES Y COMENTARIOS.
muy pequeña, esto nos lleva a intuir que los modelos son todos bastante adecuados para dicha
relación funcional.
Con respecto a la aplicación del método secuencial 1, podemos concluir que es un método
suficientemente útil para elegir el modelo más adecuado al comportamiento del fenómeno, además
que se puede obtener una probabilidad que nos evalúa la elección que se realice, en este trabajo
se encontró que el modelo más adecuado para la relación entre DBP y la edad gestional es el
modelo logı́stico y además se obtuvo que la probabilidad de seleccionar este modelo como correcto
fue de 0.301456, está probabilidad tan baja se obtuvo debido a que los cuatro modelos resultaron
ser adecuados al comportamiento observado, esto nos dice que muestras más adecuados sean todos
los modelos propuestos más difı́cil es seleccionar el modelo más competitivo o adecuado para el
fenómeno observado, esto se pudo concluir gracias a las pruebas de hipótesis para aplicadas para
determinar si los modelos están muy cercanos para poder discriminar.
De forma análoga a los dos métodos anteriores, en el método LSE se obtuvo el mismo resultado
de que el modelo Logı́stico es el más adecuado para modelar la relación funcional entre DBP y
Gest.
En conclusión para los datos médicos podemos asegurar que el modelo más adecuado es el
modelo Logı́stico, debido a que todos los criterios usados dieron el mismo resultado.
Como conclusión para poder discriminar de un conjunto de modelos competitivos considero que
si es posible, tratar tener sólo dos modelos competitivos ya que el tener muchos modelos complica, el
poder discriminar cual de todos es el más adecuado, pero si no hay remedio de tener k = 2 modelos,
consideró que serı́a conveniente usar más de un método para poder discernir cual es el modelo más
adecuado, más si los modelos propuestos todos son adecuados para describir el comportamiento
observado, pero el primer método que se recomienda por su fácil aplicación el criterio de información
de Akaike o Bayesiano de acuerdo a la situación, para tener una idea rápida del ranqueo posible
de los modelos y luego aplicar un método que nos pueda evaluar la probabilidad de realizar una
selección correcta del modelo.
Bibliografı́a
[1] Bates D.M. and Watts D.G (1988). Nonlinear Regression Analysis and its Applications, Jonh
Wiley and Sons.
[2] Borowiak Dale S. (1989), Model Discrimination for Nonlinear Regression Models, New York:
Marcel Dekker, INC.
[3] Davidson, R., and J. G. MacKinnon (1981). “Several tests for model specificationin the pres-
ence of alternative hypotheses,” Econometrica, 49, 781 − 793.
[4] Rusell Davidson and James G. MacKinnon. Econometric Theory and Methods.
[5] Garcı́a Parra Marı́a Dolores (2009). Estudio del crecimiento y producción de nisina A, por
Lactococcus Lactis U Q − 2 en leche descremada.
[6] Hirata G; Medearis A; Horenstein J;: Bear M; Platt L. Estimación ultrasonografica del peso
en el feto clinicamente macrosomico. Am J Obstet Gynecol, 1990; 162 : 238 − 242.
[7] Gallant A. Ronald (1987), Nonlinear Statistical Models, New York: Jonh Willey.
[8] Greene William H, (2003) Econometric Analysis, New Jersey: Printice Hall.
[9] Jerzy Szroeter (1999), Testing Non-Nested Econometric Models. The current State of economic
Science.
[10] Ratkowsky David A. (1983) . Nonlinear Regression Modeling A Unified Practical Approach,
New York: Dekker.
[11] Russell L. Deter, Ivar K. Rossavik and Ronald B. Harrist, (M ay 1988) , Development of Indi-
vidual Growth Curve Standards for Estimated Fetal Weight: I. Weight Estimation Procedure.
J Clin Ultrasound 16 : 215 − 225.
[12] Russell L. Deter and Ivar K. Rossavik, (1987), A simplified Method for Determining Individual
Growth Curve Standards, Obstetrics & Gynecology.
[13] Seber George Arthur Frederck and Wild C.J (2003) , Nonlinear Regression, New York: Jonh
Wiley.
75
76 BIBLIOGRAFÍA
Apéndice A
Método de Gauss-Newton.
El algoritmo de Gauss-Newton se utiliza para resolver problemas no lineales de mı́nimos cuadrados.

Es una modificación del método de optimización de Newton que no usa segundas derivadas y se
debe a Carl Friedrich Gauss.
Consideremos un modelo no lineal de la forma
Yn = f (xn , θ) + εn
en donde θ es el parámetro a estimar, εn es el error con media 0 y varianza σ 2 . En forma matricial

esta dada por
Y = f (X, θ) + ε (A.1)
Donde:
1. Y = [Y1 , ..., Yn ]T
2. X = [x1 , ..., xn ]T
0
3. E (ε) = 0, E ε ε = Iσ 2 .
El objetivo es minimizar la suma de cuadrados de los residuales para encontrar los estimadores:
0
S (θ) = [Y − f (X, θ)] [Y − f (X, θ)]
Al derivar con respecto a θ, tendremos
0
∂S (θ) ∂f (X, θ)
= −2 [Y − f (X, θ)] = 0
∂θ ∂θ
0
donde ∂f (X,θ)
∂β es el jacobiano de f (X, θ) . Al usar la aproximación a través de el desarrollo de la
serie de taylor de primer orden alrededor del punto inicial β1 , tendremos

∂f (xi , θ) ∂f (xi , θ)
f (xi , θ) ≈ f (xi , θ1 ) + |θ1 · · · |θp (θ − θ1 )
∂θ ∂θ
En forma matricial:
f (X, θ) ≈ f (X, θ1 ) + Z (θ1 ) (θ − θ1 )
77
78 APÉNDICE A. MÉTODO DE GAUSS-NEWTON.
∂f (X,θ)
donde Z (θ1 ) = ∂θ |θ1 , si sustituimos esta aproximación en (A.1) obtenemos
Y ≈ f (X, θ1 ) + Z (θ1 ) (θ − θ1 ) + ε
si definimos Y (θ1 ) = Y − f (X, θ1 ) + Z (θ1 ) θ1 , obtenemos un pseudomodelo lineal, de la forma
Y (θ1 ) = Z (θ1 ) θ + ε
Por mı́nimos cuadrados ordinarios, ya que el modelo es lineal, obtenemos un segundo valor para θ :
h i−1 0
θ2 = Z (θ1 )T Z (θ1 ) Z (θ1 ) Y (θ1 )
Al continuar el proceso de manera iterativa, se llegará a la estimación n + 1 dado por

h i−1 0
θn+1 = Z (θn )T Z (θn ) Z (θn ) Y (θn )
h i−1
= Z (θn )T Z (θn ) Z (θn )T [Y − f (X, θn ) + Z (θn ) θn ]
h i−1 0
= θn + Z (θn )T Z (θn ) Z (θn ) [Y − f (X, θn )]
Una vez alcanzado el valor por medio del proceso iterativo anteriormente descrito, falta deter-
minar si el valor alcanzado corresponde realmente a un mı́nimo (0 si el valor es un máximo), si es
ası́, si este mı́nimo es de carácter global o local.
Para tratar de maximizar las posibilidades de que se trata de un mı́nimo absoluto y no tan solo
de un mı́nimo local, una de las prácticas habituales consiste en utilizar el algoritmo para diferentes
valores inı́ciales de θ. Para los distintos valores inı́ciales, podemos obtener distintos mı́nimos de
la función, el mı́nimo que corresponde a la menor suma de cuadrados de los residuales será el
estimador del parámetro por mı́nimos cuadrados no lineales.
El algoritmo por si sólo no puede conducir en dirección a un máximo, ya que si partimos de
0
∂S (θ) ∂f (X, θ)
= −2 [Y − f (X, θ)]
∂θ ∂θ
0
= −2Z (θ) [Y − f (X, θ)]
= 0
entonces para la estimación n + 1 de θ se puede expresar como:
h i−1 0
θn+1 = θn + Z (θn )T Z (θn ) Z (θn ) [Y − f (X, θn )]
1h i−1 ∂S (θ)
= θn + Z (θn )T Z (θn ) |θn
2 ∂θ
h i−1
Dado que Z (θn )T Z (θn ) será siempre positiva debido a que es una función cuadrática, se
comienza el procedimiento con un valor inicial de θ situado a la derecha de un mı́nimo, la pendiente
de la función a minimizar S (θ) será positiva, por lo cual el algoritmo conducirá en la dirección
correcta, es decir al mı́nimo de la función. Ahora si se comienza con un valor inicial de θ situado
a la izquierda de un mı́nimo, la pendiente de S (θ) será negativa, por lo cual el cambio en θ será
positivo y nuevamente nos moveremos hacia un mı́nimo.
Apéndice B
Gráficas de Datos Experimentales.
B.1 Gráficas del Ajuste del modelo Gompertz.
B.2 Gráficas de Ajuste del Modelo Logı́stico.
79
80 APÉNDICE B. GRÁFICAS DE DATOS EXPERIMENTALES.
Trat 1. Trat 2
Trat 3. Trat 4
Trat 5. Trat 6
Trat 7. Trat 8
Figura B.1: Gráficos del Modelo Gompertz

B.2. GRÁFICAS DE AJUSTE DEL MODELO LOGÍSTICO. 81
Trat 9. Trat 10
Trat 11. Trat 12
Trat 13. Trat 14
Trat 15. Trat 16
Trat 17. Trat 18
Figura B.2: Gráficos del Modelo Gompertz

Trat 1. Trat 2
Trat 3. Trat 4
Trat 5. Trat 6
Trat 7. Trat 8
Trat 9. Trat 9
Figura B.3: Gráficos del Modelo Logı́stico

B.2. GRÁFICAS DE AJUSTE DEL MODELO LOGÍSTICO. 83
Trat 11. Trat 12
Trat 13. Trat 14
Trat 15. Trat 16
Trat 17. Trat 18
Figura B.4: Gráficos del Modelo Logı́stico

Apéndice C
Teorema de Frisch-Waugh-Lovell.
1. Los estimadores de mı́nimos cuadrado de β2 de las regresiones
y = X1 β1 + X2 β2 + u (C.1)
M1 y = M1 X2 β2 + residuales (C.2)
son numéricamente idénticos
2. Los residuales de las regresiones de (C.1) y (C.2) son numéricamente idénticos.
Demostración.
El estimador de β2 de (C.2) , esta dado por
−1
βb2 = X2T M1 X2 X2T M1 y
Sean βb1 y βb2 los dos vectores de estimadores de mı́nimos cuadrados de (C.1). Entonces si X =
[X1 X2 ]
y = Iy
= (PX + MX )
= PX y + M X y
= X βb + MX y
= X1 βb1 + X2 βb2 + MX y
85
86 APÉNDICE C. TEOREMA DE FRISCH-WAUGH-LOVELL.
Si multiplicamos por ambos lados de la igualdad por X2T M1 tenemos
y = X1 βb1 + X2 βb2 + MX y
X T M1 y = X T M1 X1 βb1 + X T M1 X2 βb2 + X T M1 MX y
2 2 2 2
= X2T (1 − PX1 ) X1 βb1 + X2T M1 X2 βb2 + X2T (1 − PX1 ) (1 − PX ) y
−1 T
= X2T 1−X1 X1T X1 X1 X1 βb1 +X2T M1 X2 βb2 +X2T (1−PX1 −PX +PX1 PX ) y
−1 T
= X2T X1 −X1 X1T X1 X1 X1 βb1 +X2T M1 X2 βb2 +X2T (1−PX1 −PX +PX1 PX ) y
= X2T (X1 − X1 I) βb1 + X2T M1 X2 βb2 + X2T (1 − PX1 − PX + PX1 ) y

= X T M1 X2 βb2 + X T (1 − PX ) y
2 2
= X2T M1 X2 βb2 + MX X2 y
= X T M1 X2 βb2
2
Despejando βb2 obtenemos que

−1
βb2 = X2T M1 X2 X2T M1 y
El cual coincide con βb2 de (C.2). Esto demuestra la primera parte del teorema.
Para demostrar la segunda parte del teorema multiplicamos por M1 a la siguiente igualdad
y = X1 βb1 + X2 βb2 + MX y
Entonces
M1 y = M1 X1 βb1 + M1 X2 βb2 + M1 MX y
= 0 + M1 X2 βb2 + MX y
= M1 X2 βb2 + MX y (C.3)
Al comparar con (C.2) y (C.3), observamos que sus regresandos son iguales. Dado que βb2 es el
estimador de β2 de (C.2), por la primera parte del teorema, el primer término de (C.3) es el vector
de valores ajustados de está regresión. Entonces el segundo término debe ser el vector de residuales
de (C.2). Pero MX y es también el vector de residuales de (C.1) y esto demuestra la segunda parte
del teorema.
Apéndice D
Programas en R.
Como se citó antenriormente, el programa que se uso para programar las pruebas de hipótesis, los
métodos de información y los criterios de información fue el paquete R versión 2.6.1 (2007-11-26).
A continuación se presenta una descripción del contenido de este capı́tulo. La primera sección
presenta los modelos ajustados a los datos medicos, los cuales son; el modelo cúbico, modelo
cuadrático, el modelo gompertz y el modelo Logı́stico. En la siguiente sección se programo los
criterios de información de Akaike y Bayesiano, posteriormente están los programas para la prueba
de Williams y la prueba tilde de Atkinson, ası́ como la prueba LSE, después se encuentra la prueba
para verificar que no halla falta de ajuste en los modelos propuesto, posteriomente esta el programa
para realizar el ranqueo de las probabilidades de una selección correcta para el método secuencial
1 y luego está el programa para realizar el método secuencial 1 y por último está el programa para
el ajuste de los modelos propuestos para los datos de bioquı́mica junto con los programas, para
realizar las pruebas de hipótesis de Davidson y M acKinnon.
87
88 APÉNDICE D. PROGRAMAS EN R.
D.1 Ajuste de los modelos propuestos para los datos Médicos.

datos=read.csv(”datosmedicos.csv”,header=T,sep=”;”,na.string=”NA”)
gest=datos[,1]
DBP=datos[,2]
CIRCEF=datos[,3]
CIRABD=datos[,4]
LFemur=datos[,5]
PesoN=datos[,6]
###########################
#### Modelo Cúbico ####
###########################
model3¡-nls(DBPã*gestˆ3+b*gest ˆ2+d, start=list(a=0,b=0,d=6))
summary(model3)
p.cubico=3
Predict.3 ¡- predict(model3)
residual.cubico=matrix(DBP-Predict.3,nrow=252,ncol=1,byrow=FALSE)
SSR.cubico=t(residual.cubico)%*%residual.cubico
##############################
#### Modelo Cuadrático ####
##############################
model.cuadratico¡-nls(DBPã*gestˆ2+b*gest+c, start=list(a=0,b=5,c=-30))
summary(model.cuadratico)
p.cuadratico=3
Predict.cuadratico ¡- predict(model.cuadratico)
residual.cuadratico=matrix(DBP-Predict.cuadratico,nrow=252,ncol=1,byrow=FALSE)
SSR.cuadratico=t(residual.cuadratico)%*%residual.cuadratico
##############################
#### Modelo Gompertz ####
##############################
model.gompertz¡-nls(DBPã*exp(-exp(b-c*gest)), start=list(a=110,b=0.1,c=0.1))
summary(model.gompertz)
p.gompertz=3
Predict.gompertz ¡- predict(model.gompertz)
residual.gompertz=matrix(DBP-Predict.gompertz,nrow=252,ncol=1,byrow=FALSE)
SSR.gompertz=t(residual.gompertz)%*%residual.gompertz
#############################
#### Modelo Logı́stico ####
#############################
model.Logistico¡-nls(DBPã/(1+exp(b-c*gest)), start=list(a=100,b=2,c=0.1))
summary(model.Logistico)
p.Logistico=3
Predict.Logistico ¡- predict(model.Logistico)
residual.Logistico=matrix(DBP-Predict.Logistico,nrow=252,ncol=1,byrow=FALSE)
SSR.Logistico=t(residual.Logistico)%*%residual.Logistico
D.2. PROGRAMA PARA EL CRITERIO DE INFORMACIÓN DE AKAIKE PARA DATOS MÉDICOS.89
D.2 Programa para el Criterio de Información de Akaike para

Datos Médicos.
D.2.1 Calculo del estadı́stico de Akaike.
AIC.cuadratico= -(1/2)*n*log(SSR.cuadratico)-p.cuadratico
AIC.cubico= -(1/2)*n*log(SSR.cubico)-p.cubico
AIC.gompertz= -(1/2)*n*log(SSR.gompertz)-p.gompertz
AIC.Logistico= -(1/2)*n*log(SSR.Logistico)-p.Logistico
AIC.cuadratico
AIC.cubico
AIC.gompertz
AIC.Logistico
modelo.AIC=max(AIC.cuadratico,AIC.cubico,AIC.gompertz,AIC.Logistico)
modelo.AIC
D.2.2 Cálculo del estadı́stico de Akaike Bayesiano.

BIC.cuadratico= -(1/2)*n*log(SSR.cuadratico)-(1/2)*p.cuadratico*log(n)
BIC.cubico= -(1/2)*n*log(SSR.cubico)-(1/2)*p.cubico*log(n)
BIC.gompertz= -(1/2)*n*log(SSR.gompertz)-(1/2)*p.gompertz*log(n)
BIC.Logistico= -(1/2)*n*log(SSR.Logistico)-(1/2)*p.Logistico*log(n)
BIC.cuadratico
BIC.cubico
BIC.gompertz
BIC.Logistico
modelo.BIC=max(BIC.cuadratico,BIC.cubico,BIC.gompertz,BIC.Logistico)
modelo.BIC
D.3 Programa para la Prueba tilde de Atkinson.

##############################
#### Regresión Múltiple ####
##############################
model.multiple¡-lm(DBP˜f1+f2+f3+f4)
summary(model.multiple)
Predict.Multiple ¡- predict(model.multiple)
residual.Multiple=DBP-Predict.Multiple
SSR.Multiple=sum(residual.Multipleˆ2)
######################################
#### Construcción del estadı́stico. ####
######################################
f1.1=matrix(f1,nrow=252,ncol=1,byrow=FALSE)
DBP.1=matrix(DBP,nrow=252,ncol=1)→⊂
Z.1=t(DBP.1)%*%f1.1-t(f1.1)%*%f1.1
Z.2=t(DBP.1)%*%f2.1-t(f2.1)%*%f2.1
Z.3=t(DBP.1)%*%f3.1-t(f3.1)%*%f3.1
Z.4=t(DBP.1)%*%f4.1-t(f4.1)%*%f4.1
Z=matrix(c(Z.1,Z.2,Z.3,Z.4),nrow=4,ncol=1,byrow=FALSE)
m=c(f1,f2,f3,f4)
length(m)
x=matrix(m, nrow = 252, ncol = 4, byrow = FALSE)
d=matrix(c(rep(1,4)),nrow=4,ncol=1)
Q=t(Z)%*%solve(t(x)%*%x)%*%Z-((t(Z)%*%solve(t(x)%*%x)%*%d)
ˆ2)/(t(d)%*%solve(t(x)%*%x)%*%d)
n=252
k=4
F.observado=((n-k)%*%Q)/((k-1)%*%SSR.Multiple)
F.stat ¡- qf(p=0.95,df1=3,df2=249);
D.4 Programa de la Prueba de Willians.

######################################
#### Construccion del estadı́stico. ####
######################################
m=c(f1,f2,f3,f4)
length(m)
x=matrix(m, nrow = 252, ncol = 4, byrow = FALSE)
d=matrix(c(rep(1,4)),nrow=4,ncol=1)
DBP.1=matrix(DBP,nrow=252,ncol=1)
c=t(d)%*%solve(t(x)%*%x)%*%t(x)%*%DBP-1
C=c(c,c,c,c)
beta.gorro=(solve(t(x)%*%x))%*%(t(x)%*%DBP.1-C*d)
f.x=x%*%beta.gorro
f.bar ¡- apply(x,1,mean);
residual.f.bar=DBP-f.bar
RSS.f.bar=sum(residual.f.barˆ2)
residual.f.x=DBP-f.x
RSS.f.x=sum(residual.f.xˆ2)
n=252
k=4
F=((n-k+1)*(RSS.f.bar-RSS.f.x))/((k-1)*RSS.f.x)
F.stat=qf(p=0.95,df1=3,df2=249)
#########################################
#### Cálculos necesarios. ####
#########################################
f.1.2=matrix(f1-f2,nrow=252,ncol=1,byrow=FALSE)
D.4. PROGRAMA DE LA PRUEBA DE WILLIANS. 91
delta.1.2=t(f.1.2)%*%f.1.2
delta.1.3=t(f.1.3)%*%f.1.3
delta.1.4=t(f.1.4)%*%f.1.4
delta.2.1=t(f.2.1)%*%f.2.1
delta.2.3=t(f.2.3)%*%f.2.3
delta.2.4=t(f.2.4)%*%f.2.4
delta.3.1=t(f.3.1)%*%f.3.1
delta.3.2=t(f.3.2)%*%f.3.2
delta.3.4=t(f.3.4)%*%f.3.4
delta.4.1=t(f.4.1)%*%f.4.1
delta.4.2=t(f.4.2)%*%f.4.2
delta.4.3=t(f.4.3)%*%f.4.3
delta.1.2.3=sum((f2-f1)*(f3-f1))
delta.1.2.4=sum((f2-f1)*(f3-f1))
delta.1.3.2=sum((f3-f1)*(f2-f1))
delta.1.3.4=sum((f3-f1)*(f4-f1))
delta.1.4.2=sum((f4-f1)*(f2-f1))
delta.1.4.3=sum((f4-f1)*(f3-f1))
delta.2.1.3=sum((f1-f2)*(f3-f2))
delta.2.1.4=sum((f1-f2)*(f4-f2))
delta.2.3.1=sum((f3-f2)*(f1-f2))
delta.2.3.4=sum((f3-f2)*(f4-f2))
delta.2.4.1=sum((f4-f2)*(f1-f2))
delta.2.4.3=sum((f4-f2)*(f3-f2))
delta.3.1.2=sum((f1-f3)*(f2-f3))
delta.3.1.4=sum((f1-f3)*(f4-f3))
delta.3.2.1=sum((f2-f3)*(f1-f3))
delta.3.2.4=sum((f2-f3)*(f4-f3))
delta.3.4.1=sum((f4-f3)*(f1-f3))
delta.3.4.2=sum((f4-f3)*(f2-f3))
delta.4.1.2=sum((f1-f4)*(f2-f4))
delta.4.1.3=sum((f1-f4)*(f3-f4))
delta.4.2.1=sum((f2-f4)*(f1-f4))
delta.4.2.3=sum((f2-f4)*(f3-f4))
delta.4.3.1=sum((f3-f4)*(f1-f4))
delta.4.3.2=sum((f3-f4)*(f2-f4))
D.5 Calculo de la falta de ajuste.

t.cuadratico=SSR.cuadratico/var.gest
t.cubico=SSR.3/var.gest
t.gompertz=SSR.gompertz/var.gest
t.Logistico=SSR.Logistico/var.gest
p.cuadratico=1-pchisq(t.cuadratico, 252, ncp=0, lower.tail = TRUE, log.p = FALSE)
p.cubico=1-pchisq(t.cubico, 252, ncp=0, lower.tail = TRUE, log.p = FALSE)
p.gompertz=1-pchisq(t.gompertz, 252, ncp=0, lower.tail = TRUE, log.p = FALSE)
p.Logistico=1-pchisq(t.Logistico, 252, ncp=0, lower.tail = TRUE, log.p = FALSE)
D.6 Ranqueo de los modelos con P(CS)

Para sacar las probabilidades del ranqueo del modelo , las letras m, j, k y ` toman los valores 1, 2,
3 y 4. Recuerde que no se puden tener valores repetidos en las letras, es decir, no se puede sacar
las probabilidades de la secuencia 1.3.3.4.
### m.j.k.`
g.1=c(f.j.m,f.k.m,f.`.m) # Paso 1
length(g.1)
G.1=matrix(g.1,nrow=252,ncol=3)
d=matrix(rep(1,3),nrow=3,ncol=1,byrow=FALSE)
A.1=G.1%*%solve(t(G.1)%*%G.1)%*%d
d.1=(t(d)%*%solve(t(G.1)%*%G.1)%*%d)ˆ(-1/2)
w.1=d.1/(2*sigma)
P.CS.1=pnorm(w.1)
P.CS.1
P.IS.1=1-pnorm(w.1.1)
P.IS.1
g.2=c(f.k.j,f.`.j) # Paso 2
G.2=matrix(g.j,nrow=252,ncol=2)
A.2=G.2%*%solve(t(G.2)%*%G.2)%*%d
d.2=(t(d)%*%solve(t(G.2)%*%G.2)%*%d)ˆ(-1/2)
w.2=d.2/(2*sigma)
P.CS.2=pnorm(w.1)*pnorm(w.2)
P.CS.2
g.3=c(f.`.k) # Paso 3
A.3=G.3%*%solve(t(G.3)%*%G.3)%*%d
d.3=(t(d)%*%solve(t(G.3)%*%G.3)%*%d)ˆ(-1/2)
D.7. MÉTODO SECUENCIAL 1. 93
w.3=d.3/(2*sigma)
P.CS.3=pnorm(w.1)*pnorm(w.2)*pnorm(w.3)
P.CS.3
D.7 Método Secuencial 1.

D.7.1 Paso 1
g.1=c(f.1.3,f.2.3,f.4.3)
A.1=G.1%*%solve(t(G.1)%*%G.1)%*%d
d.1=(t(d)%*%solve(t(G.1)%*%G.1)%*%d)ˆ(-1/2)
h.1=2*t(A.1)%*%residual.cubico/((t(A.1)%*%A.1)ˆ(1/2))
### Construccion del B.1.1 y B.1.2
t(f.1.3)%*%A.1
t(f.2.3)%*%A.1
t(f.4.3)%*%A.1
alpha.1=d.1/(2*sigma)
xi.1=alpha.1
#beta.1=infinito
### Nota: Para este caso tenemos que B.1.1 es vacio por tanto el limite
### inferior es infinito y el limite superior es el maximo de las
### d.i en este caso es 0.6644409.
### Nota: El resultado obtenido es que h.1=3.213827 por tanto el modelo
### es rechazado.
D.7.2 Paso 2
g.2=c(f.1.4,f.2.4)
A.2=G.2%*%solve(t(G.2)%*%G.2)%*%d
d.2=(t(d)%*%solve(t(G.2)%*%G.2)%*%d)ˆ(-1/2)
h.2=2*t(A.2)%*%residual.Logistico/((t(A.2)%*%A.2)ˆ(1/2))
### Construccion del B.1.1 y B.1.2
t(f.1.4)%*%A.2
t(f.2.4)%*%A.2
alpha.2=d.2/(2*sigma)
xi.2=alpha.2
#beta.2=infinito
### Nota: Para este caso tenemos que B.1.1 es vacio por tanto el limite
### inferior es infinito y el limite superior es el maximo de las
### d.2 en este caso es 2.907512.
### Nota: El resultado obtenido es que h.2=1.673862 por tanto el modelo
### es aceptado.
#############################################
#### Probabilidades de selección. ####
#############################################
#### P(CS(f.(4)))
P.CS=pnorm(d.1/(2*sigma))*pnorm(d.2/(2*sigma))
P.CS
#### P.IS
p.1=pnorm(d.1/(2*sigma),lower.tail = FALSE)
p.2=pnorm(d.2/(2*sigma),lower.tail = FALSE)*pnorm(d.1/(2*sigma))
P.IS=max(p.1,p.2)
P.IS
#### Nota: Del teorema 2.4.2 tenemos que P.IS=0.4813207
#### y P.CS= 0.301456. Podemos ver que la pobrabilidad P.CS es muy pequeña.
D.8 Programa para el Método LSE.

#######################
#### Modelo 1 ####
#######################
e.1.2=2*t(f.2.1)%*%residual.cuadratico
e.1.2
e.1.3
e.1.4
delta.2.1
delta.3.1
delta.4.1
#### Nota: el modelo cuadratico no es elegido dado que no ninguno cumple con 2f.q.1*R.1¡delta.q.1
#######################
#### Modelo 2 ####
#######################
e.2.1=2*t(f.1.2)%*%residual.cubico
e.2.1
e.2.3
e.2.4
delta.1.2
delta.3.2
delta.4.2 #### Nota: tampoco el modelo cubico no es elegido
#######################
#### Modelo 3 ####
#######################
D.9. AJUSTE DE LOS MODELOS PROPUESTOS PARA LOS DATOS DE BIOQUÍMICA. 95
e.3.1=2*t(f.1.3)%*%residual.gompertz
e.3.1
e.3.2
e.3.4
delta.1.3
delta.2.3
delta.4.3
#### Nota: tampoco el modelo gompertz es seleccionado.
#######################
#### Modelo 4 ####
#######################
e.4.1=2*t(f.1.4)%*%residual.Logistico
e.4.1
e.4.2
e.4.3
delta.1.4
delta.2.4
delta.3.4
#### Nota: El modelo Logistico cumple con el evento por lo tanto es el modelo selec-
cionado del conjunto de modelos competitivos.
#####################################
#### Probabilidades de selección ####
#####################################
p.1=1-pnorm((delta.4.1)/(2*sigma))
P.IS.Logistico=max(p.1,p.2,p.3)
P.IS.Logistico
p.1=pnorm((delta.4.1)/(2*sigma))
P.CS.Logistico=min(p.1,p.2,p.3)
P.CS.Logistico
D.9 Ajuste de los modelos propuestos para los datos de bioquı́mica.

datos=read.csv(”datosbioquimicos.csv”,header=T,sep=”;”,na.string=”NA”)
Tiempo=datos[,1]
Trat.1=datos[,2]
Trat.2=datos[,3]
Trat.3=datos[,4]
Trat.4=datos[,5]
Trat.5=datos[,6]
Trat.6=datos[,7]
Trat.7=datos[,8]
Trat.8=datos[,9]
Trat.9=datos[,10]
Trat.10=datos[,11]
Trat.11=datos[,12]
Trat.12=datos[,13]
Trat.13=datos[,14]
Trat.14=datos[,15]
Trat.15=datos[,16]
Trat.16=datos[,17]
Trat.17=datos[,18]
Trat.18=datos[,19]
var=var(Tiempo)
sigma=sqrt(var)
D.9.1 Modelo Gompertz

Para realizar el ajuste del modelo Gompertz hay que correr el programa para los 18 tratamientos,
es decir, i = 1, ...18. Tener cuidado con los puntos inciales para los parámetros, estos varian de
tratamiento a tratamiento.
model.gompertz.trat.i¡-nls(Trat.iã*exp(-exp(b-c*Tiempo)), start=list(a=4,b=1,c=0.1))
summary(model.gompertz.trat.i)
p.gompertz=3
Predict.gompertz.trat.i ¡- predict(model.gompertz.trat.i)
residual.gompertz.trat.i=matrix(Trat.i-Predict.gompertz.trat.i,nrow=14,ncol=1,byrow=FALSE)
SSR.gompertz.trat.i=t(residual.gompertz.trat.i)%*%residual.gompertz.trat.i
a.g.i=4.4836 # Estos parámetros son los obtenidos de ajuste del modelo logı́stico a
cada tramiento.
b.g.i=1.2750
c.g.i=0.6859
D.9.2 Modelo Logı́stico

Para realizar el ajuste del modelo Logı́stico hay que correr el programa para los 18 tratamientos,
es decir, i = 1, ...18. Tener cuidado con los puntos inciales para los parámetros, estos varian de
tratamiento a tratamiento.
model.Logistico.trat.i¡-nls(Trat.iã/(1+exp(b-c*Tiempo)), start=list(a=5,b=2,c=1))
summary(model.Logistico.trat.i)
p.Logistico=3
Predict.Logistico.trat.i ¡- predict(model.Logistico.trat.i)
residual.Logistico.trat.i=matrix(Trat.i-Predict.Logistico.trat.i,nrow=14,ncol=1,byrow=FALSE)
SSR.Logistico.trat.i=t(residual.Logistico.trat.i)%*%residual.Logistico.trat.i
D.10. PROGRAMA DEL CRITERIO DE INFORMACIÓN DE AKAIKE (DATOS BIOQUÍMICA).97
a.l.i=4.4302 # Estos parámetros son los obtenidos de ajuste del modelo logı́stico a cada
tramiento.
b.l.i=2.4822
c.l.i=0.9944
D.10 Programa del Criterio de Información de Akaike (Datos

bioquı́mica).
Para realizar Criterio de Información de Akaike hay que correr el programa para los 18 tratamientos,
es decir, i = 1, ...18.
AIC.gompertz.trat.i= -(1/2)*n*log(SSR.gompertz.trat.i)-p.gompertz
AIC.Logistico.trat.i= -(1/2)*n*log(SSR.Logistico.trat.i)-p.Logistico
AIC.trat.i=max(AIC.gompertz.trat.i,AIC.Logistico.trat.i)
AIC.gompertz.trat.i
AIC.Logistico.trat.i
AIC.trat.i
D.11 Programa de las pruebas de hipótesis de Davidson y MacK-

innon.
Para realizar las pruebas de hipótesis de Davidson y MacKinnon hay que correr el programa para
los 18 tratamientos, es decir, i = 1, ...18.
#### H0: modelo Gompertz H1: Modelo Logistico. Tratamiento i.
d.f.alpha=exp(-exp(b.g.i-c.g.i*Tiempo))
d.f.beta=-a.g.i*exp(-exp(b.g.i-c.g.i*Tiempo))*exp(b.g.i-c.g.i*Tiempo)
d.f.gamma=a.g.i*Tiempo*exp(-exp(b.g.i-c.g.i*Tiempo))*exp(b.g.i-c.g.i*Tiempo)
q=c(d.f.alpha,d.f.beta,d.f.gamma)
F=matrix(q,ncol=3,nrow=14,byrow=FALSE)
I=matrix(rep(1,196),ncol=14,nrow=14,byrow=TRUE)
M=I-F%*%solve(t(F)%*%F)%*%t(F)
numerador=t(Trat.i-Predict.gompertz.trat.i)%*%t(M)%*
%(Predict.Logistico.trat.i-Predict.gompertz.trat.i)
denominador=sigma*sqrt(t(Predict.Logistico.trat.i-Predict.gompertz.trat.i)%*%t(M)
%*%(Predict.Logistico.trat.i-Predict.gompertz.trat.i))
estadistico.t=numerador/denominador
p.valor=pt(estadistico.t, df=11, lower.tail = TRUE, log.p = FALSE)
p.valor
######################################
H0: modelo Logistico H1: Modelo Gompertz. Tratamiento 1.
d.f.alpha=1/(1+exp(b.l.i-c.l.i*Tiempo))
d.f.beta=-a.l.i*exp(b.l.i-c.l.i*Tiempo)/((1+exp(b.l.i-c.l.i*Tiempo))ˆ2)
d.f.gamma=a.l.i*Tiempo*exp(b.l.i-c.l.i*Tiempo)/((1+exp(b.l.i-c.l.i*Tiempo))ˆ2)
q=c(d.f.alpha,d.f.beta,d.f.gamma)
F=matrix(q,ncol=3,nrow=14)
I=matrix(rep(1,196),ncol=14,nrow=14,byrow=TRUE)
M=1-F%*%solve(t(F)%*%F)%*%t(F)
numerador=t(Trat.i-Predict.Logistico.trat.i)%*%t(M)%*
%(Predict.gompertz.trat.i-Predict.Logistico.trat.i)
denominador=sigma*sqrt(t(Predict.gompertz.trat.i-Predict.Logistico.trat.i)%*%t(M)%*%
(Predict.gompertz.trat.i-Predict.Logistico.trat.i))
estadistico.t=numerador/denominador
p.valor=pt(estadistico.t, df=11, lower.tail = TRUE, log.p = FALSE)
p.valor

Prueba J Davidson

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Prueba J Davidson

Cargado por

Copyright:

Formatos disponibles

PRUEBA DE HIPÓTESIS

Guanajuato, Gto.. Julio de 2011

Roxana Góngora Hernández.

Jorge Domı́nguez Domı́nguez

para obtener el grado de

Maestrı́a en Ciencias con Especialidad en Probabilidad y Estadı́stica

Centro de Investigación en Matemáticas, A.C.

May 15, 2012

En la últimas décadas la aplicación de regresión lineal a muchas situaciones de la realidad se

2 Modelos de Regresión No Lineales. 7

4 Pruebas de Hipótesis y Métodos de Discriminación para Modelos de Regresión

5 Análisis Estadı́stico de los Datos. 39

5.2.4 Predicción del peso de nacimiento de los fetos. . . . . . . . . . . . . . . . . . 60

B Gráficas de Datos Experimentales. 79

2.1 Gráfico de un Modelo Senoidal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.1 Medición del diámetro biparietal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

5.1 Modelos Estimados para el Crecimiento de Nisina. . . . . . . . . . . . . . . . . . . . 41

B.1 Gráficos del Modelo Gompertz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

B.2 Gráficos del Modelo Gompertz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

3.1 Diseño Experimental para los Datos de Bioquı́mica. . . . . . . . . . . . . . . . . . . 16

5.32 Resumen de la Estimación de Parámetros para el modelo Gompertz. . . . . . . . . . 59

El objetivo de la tesis es utilizar pruebas de hipótesis no anidadas y métodos de discriminación

1.1 Planteamiento del problema.

yi = f (xi , θ) + εi , i = 1, ..., n. (1.1)

anidados o no anidados, supongamos que tenemos las siguientes hipótesis

H0 : yi = f (xi , θ) + εi , i = 1, ..., n (1.2)

• Conocer, aplicar y ajustar un modelo de regresión no lineal adecuado al comportamiento de

• Conocer si el modelo seleccionado es el mejor modelo o existe otro modelo competitivo.

• Describir el crecimiento y la producción de nisina por la bacteria Lactococcus lactis subsp

• Encontrar el mejor tratamiento para la producción de nisina A.

• Ajustar modelos no lineales a cada una de las cinéticas realizadas.

1.4 Estructura del trabajo.

1.5 Resultados relevantes.

Modelos de Regresión No Lineales.

Un modelo de regresión no lineal puede escribirse de la siguiente forma

yi = f (xi , θ) + εi , i = 1, ..., n (2.1)

2.1 Estimación por mı́nimos cuadrados.

Donde F (θn ) = ∂f (X,θ)

2.2 Estimación por máxima verosimilitud.

Debido a que la maximización de la función de verosimilitud es equivalente a la maximización de

al derivar con respecto a β e igualando a cero la derivada tenemos

2.3 Inferencia Estadı́stica en regresión no lineal.

Consecuentemente la inferencia estadı́stica para regresión no lineal cuando el tamaño de muestra

hipótesis que un coeficiente de regresión individual, o

usamos una razón similar a la prueba t dada por

2.4 Curvas de crecimiento.

Figura 2.1: Gráfico de un Modelo Senoidal.

Logı́stica, la Richards (1959), la M organ − M ercer − F lodin (1975), y un modelo derivado de

2.4.1 Modelo Gompertz.

Figura 2.2: Gráfico del Modelo Gompertz

1. El parámetro de α es el lı́mite superior de la curva como se observa en el gráfico , es decir la

2. El parámetro β es el tiempo de adaptación antes de iniciar la fase exponencial o de crecimiento

3. El parámetro γ es la tasa de crecimiento.

2.4.2 Modelo Logı́stico.

Donde los parámetros tienen los siguientes significados:

1. El parámetro de α es el lı́mite superior de la curva como se observa en el siguiente gáfico.

2. El parámetro β falta su interpretación pero lo observado en los gráficos es el tiempo de

3. El parámetro γ es la tasa de crecimiento.

Figura 2.3: Gráfico de un Modelo Logı́stico

3.1 Datos Médicos (Datos Observables).

Circunferencia abdominal: es la medición de la distancia alrededor del abdomen en un punto

Figura 3.1: Medición del diámetro biparietal.