Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ANIDADAS Y NO ANIDADAS
Y MÉTODOS DE
DISCRIMINACIÓN PARA
MODELOS NO LINEALES
T E S I S
Que para obtener el grado de
Maestría en Ciencias
con Orientación en
Probabilidad y Estadística
P r e s e n t a
Roxana Góngora Hernández
Director de Tesis:
Dr. Jorge Domínguez y Domínguez
por
Director de Tesina:
Dedicatoria
A mis padres Mario Jesús Góngora Alonzo y Sandra Hernández Perrusquia, por su apoyo,
confianza y animo en cada paso de mi vida.
“Aunque esto pueda parecer una paradoja, toda ciencia exacta está dominada por la idea de la
aproximación ” – Bertrand Russell.
iv
v
Agradecimientos
Agradezco de manera especial a mis padres, Mario Jesús Góngora Alonzo y Sandra Hernández
Perrusquia, por su apoyo incondicional en los momentos difı́ciles de mi vida, por el amor que me
han demostrado, pero sobretodo por ser el ser humano que hoy soy gracias a ellos. Gracias a mis
hermanos, Luis Manuel y Mayra Jacqueline por sus comentarios retadores para poder terminar la
maestrı́a. Gracias a mi mejor amigo y novio Alejandro Téllez Quiñones, por su amor, animo y
apoyo en todo momento de mi maestrı́a y por ser el motivo de mi esfuerzo de ser mejor cada dı́a.
Agradezco con profunda sinceridad a mi asesor de tesis, Dr. Jorge Domı́nguez Domı́nguez, por su
apoyo para poder graduarme y disposición a ayudarme en momentos difı́ciles de mi maestrı́a, por su
paciencia para que este trabajo se realizará y sus consejos tanto del trabajo como de la vida. Gracias
a mis sinodales, Enrique Villa y Rogelio Ramos Quiroga, por la paciencia en revisar mi tesis y sus
comentarios de provecho en ella, que me ayudaron a comprender mejor mi trabajo. Quiero agradecer
también a cada uno de los investigadores del área de Probabilidad y Estadı́stica de CIMAT, quienes
con sus enseñanzas, son una parte muy importante en mi formación académica. Y como olvidar
a mis compañeros de maestrı́a, quienes hicieron de mi estancia en Guanajuato agradable, llena
de apoyo, paciencia y amor, sobre todo a Carolina Quintanilla, Leticia Escobar, Selomit Uribe,
Carlos Campos, Luis castillo, Alfhonse, Joel Iglesias, Pedro Salazar, Gustavo Cano, gracias por
su ayuda y amistad. También expreso mi agradecimiento a todas las personas e instituciones que
hicieron posible la persona que hoy soy académicamente. Agradezco al CONACYT, por la beca
que me fue concedida (con número de registro 234019) para llevar a cabo mis estudios de maestrı́a.
Gracias a CIMAT, A. C. por haberme brindado los recursos humanos, tecnológicos y económicos
para la realización de mis estudios y tesis de maestrı́a. Finalmente, agradezco a Dios, por darme
la oportunidad de haber progresado en este mundo y ser feliz estos años en Guanajuato, pero en
especial por las experiencias que vivı́ y que me ayudaron a valorar a mi familia, mi pareja y mis
amigos.
vi
Resumen
1 Introducción. 1
1.1 Planteamiento del problema. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 Antecedentes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.2 Limitaciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Objetivos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Metodologı́a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Estructura del trabajo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5 Resultados relevantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3 Problemas de Estudio. 13
3.1 Datos Médicos (Datos Observables). . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2 Datos Experimentales en Bioquı́mica. . . . . . . . . . . . . . . . . . . . . . . . . . . 15
vii
viii CONTENIDO
6 Conclusiones y Comentarios. 73
A Método de Gauss-Newton. 77
C Teorema de Frisch-Waugh-Lovell. 85
D Programas en R. 87
D.1 Ajuste de los modelos propuestos para los datos Médicos. . . . . . . . . . . . . . . . 88
D.2 Programa para el Criterio de Información de Akaike para Datos Médicos. . . . . . . 89
D.2.1 Calculo del estadı́stico de Akaike. . . . . . . . . . . . . . . . . . . . . . . . . . 89
D.2.2 Cálculo del estadı́stico de Akaike Bayesiano. . . . . . . . . . . . . . . . . . . . 89
D.3 Programa para la Prueba tilde de Atkinson. . . . . . . . . . . . . . . . . . . . . . . . 89
D.4 Programa de la Prueba de Willians. . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
D.5 Calculo de la falta de ajuste. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
D.6 Ranqueo de los modelos con P(CS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
D.7 Método Secuencial 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
D.7.1 Paso 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
D.7.2 Paso 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
D.8 Programa para el Método LSE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
D.9 Ajuste de los modelos propuestos para los datos de bioquı́mica. . . . . . . . . . . . . 95
D.9.1 Modelo Gompertz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
D.9.2 Modelo Logı́stico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
D.10 Programa del Criterio de Información de Akaike (Datos bioquı́mica). . . . . . . . . . 97
D.11 Programa de las pruebas de hipótesis de Davidson y MacKinnon. . . . . . . . . . . . 97
Lista de Figuras
ix
x LISTA DE FIGURAS
5.1 Estimaciones de los parámetros del modelo de crecimiento Gompertz para los tratamien-
tos del crecimiento ln(N/No). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.2 El criterio de Akaike para Datos de Bioquı́mica . . . . . . . . . . . . . . . . . . . . 41
5.3 P − valores de las pruebas no anidadas para los modelos Gompertz y Logı́stico. . . 42
5.4 Correlaciones entre las variables fetales. . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.5 Resumen del Ajuste del modelo y = ax + b para DBP vs CIRCEF. . . . . . . . . . 46
5.6 Análisis de Varianza del modelo y = ax + b para DBP vs CIRCEF. . . . . . . . . 47
5.7 Residuales Atipicos para el ajuste Lineal para BDP vs CIRCEF. . . . . . . . . . . . 47
5.8 Prueba de Falta de Ajuste del Modelo Lineal para BDP vs CIRCEF. . . . . . . . 48
5.9 Resumen del ajuste lineal para DBP vs CIRABD. . . . . . . . . . . . . . . . . . . . 48
5.10 Resumen del Análisis de Varianza del Modelo Lineal para DBP vs CIRABD. . . . . 49
5.11 Resumen de la prueba de falta de Ajuste del Modelo Lineal para DBP vs CIRABD. 49
5.12 Residuales Atipicos del Modelo Lineal para DBP vs CIRABD. . . . . . . . . . . . . 49
5.13 Resumen del ajuste lineal para DBP vs LFemur. . . . . . . . . . . . . . . . . . . . . 51
5.14 Análisis de Varianza del Modelo Lineal para DBP vs LFemur. . . . . . . . . . . . . . 51
5.15 Prueba de falta de Ajuste para el Modelon Lineal para DBP vs LFemur. . . . . . . . 52
5.16 Residuales Atı́picos del Modelo Lineal para LFemur y DBP. . . . . . . . . . . . . . . 52
5.17 Estimación de Parámetros para el Modelo Lineal de DBP vs gest. . . . . . . . . . . 54
5.18 Análisis de Varianza del Modelo Lineal para DBP vs Gest. . . . . . . . . . . . . . . 54
5.19 Prueba de falta de Ajuste del Modelo Lineal para DBP vs Gest. . . . . . . . . . . . 54
5.20 Estimación de Parámetros para el Modelo Cuadrático de DBP vs gest. . . . . . . . 55
5.21 Análisis de Varianza para el Modelo Cuadrático DBP vs gest. . . . . . . . . . . . . 55
5.22 Intervalos de confianza Ası́ntoticos del 95% de confianza del Modelo Lineal para
DBP vs Gest. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.23 Análisis de Varianza del Modelo Cúbico y = ax3 + bx2 + cx + d. . . . . . . . . . . . 56
5.24 Resumen de la Estimación de Parámetros para el Modelo ax3 + bx2 + cx + d. . . . . 56
5.25 Análisis de Varianza para el modelo ax3 + bx2 . . . . . . . . . . . . . . . . . . . . . . 56
5.26 Resultados de la Estimación de Parámetros para el modelo ax3 + bx2 . . . . . . . . . 56
5.27 Análisis de Varianza del Modelo ax3 + bx2 + d. . . . . . . . . . . . . . . . . . . . . . 57
5.28 Estimación de Parámetros para el Modelo ax3 + bx2 + d. . . . . . . . . . . . . . . . . 57
5.29 Análisis de Varianza del Modelo ax3 + cx + d. . . . . . . . . . . . . . . . . . . . . . . 58
5.30 Estimación de parámetros para el Modelo ax3 + cx + d. . . . . . . . . . . . . . . . . 58
5.31 Criterio de Información de Akaike y Bayesiano para Modelos Cúbicos. . . . . . . . . 58
xi
xii LISTA DE TABLAS
Introducción.
1
2 CAPÍTULO 1. INTRODUCCIÓN.
Para el primer conjunto de datos se revisó los siguientes trabajos [6] , [11] y [12] y para el segundo
conjunto de datos se usó el siguiente trabajo [5]
Una forma funcional de interés es la forma funcional no lineal debido al avance tecnológico de
las computadoras. Los modelos no lineales han sido objeto de atención creciente en los últimos
años. Se ha encontrado que los modelos no lineales son más frecuentes de lo que se pensaba, dado
que cada dı́a más áreas de investigación requieren la utilización de los modelos de regresión no
lineal. Algunas aplicaciones se han dado en Medicina, Finanzas, Medio ambiente, redes neuronales,
meteorológica, etc. Entenderemos por Modelo de Regresión no lineal por un modelo de la forma
donde θ es el parámetro de interés que aparece de forma no lineal. Por otro lado, cuando se trata
de modelar el comportamiento de un fenómeno existen varios modelos alternativos, entonces surge
el problema de seleccionar el modelo más adecuado del conjunto que se tenga. La selección de
un mejor modelo de la colección de modelos construidos o existentes, a menudo es una elección
entre teorı́as en competencia o la elección se basa en resultados empı́ricos obtenidos a partir de
datos de la muestra. Por tanto la discriminación de modelos se aplicará la teorı́a de la selección
de modelos rivales entre los modelos basados en la información de la muestra para encontrar un
modelo adecuado del conjunto dado. Dentro de la teorı́a de selección de modelos hay dos tipos
de modelos, los cuales son: modelos anidados y modelos no anidados. Por Modelos anidados
entenderemos aquellos en los que se puede establecer una jerarquı́a, de tal manera que uno de
ellos es el denominado modelo general y el o los otros, llamados modelos restringidos, los cuales
se pueden obtener mediante la imposición de restricciones, lineales o no lineales, sobre el modelo
general, y los Modelos no anidados, son aquellos que no pueden ser jerarquizados en un modelo
general o modelos restringidos no pueden obtenerse de un modelo general a través de la imposición
de restricciones.
Como se mencionó existen varios modelos alternativos que podrı́an modelar un cierto problema,
supongamos entonces que existen dos modelos f y g que podrı́an describir el problema, entonces
surge dos situaciones naturales, las cuales son, los dos modelos de regresión no lineales pueden ser
1.1. PLANTEAMIENTO DEL PROBLEMA. 3
donde f y g son de la forma (1.1), cuando se tiene la hipótesis donde los modelos de regresión
no lineal son anidados por lo general podemos usar la prueba de razón de verosimilitud para
compararlos y cuando los dos modelos de regresión no lineal sean no anidados, existen una gran
variedad de pruebas, pero en el trabajo nos enfocaremos a trabajar con la prueba P de Davidson
y MacKinnon para modelos de regresión no lineales. Por tanto podemos decir que el problema
sustancial del trabajo se puede definir de la siguiente manera:
La prueba de hipótesis implica generalmente modelos anidados, en la cual el modelo que rep-
resenta la hipótesis nula es un caso especial de un modelo más general que representa la hipótesis
alternativa. Para este modelo, siempre se puede probar la hipótesis nula mediante pruebas de las
restricciones que se imponen a la alternativa. Pero a menudo surgen modelos los cuales no están
anidados. Esto significa que ninguno de los modelos puede ser escrito como un caso especial del otro
sin imposición de restricciones en ambos modelos. En tal caso, no podemos simplemente probar
uno de los modelos contra el otro, al imponer restricciones en uno de ellos.
Existe una extensa literatura sobre las pruebas de hipótesis no anidadas. Esta proporciona
un gran número de maneras de probar la especificación de los modelos estadı́sticos cuando una o
más alternativas no anidadas existen. En este trabajo se presentará un de estos caminos el cual es
ampliamente utilizado para pruebas de hipótesis no anidadas, principalmente en el contexto de los
modelos de regresión.
Si lo que se desea es seleccionar el ”mejor” modelo de un conjunto de modelos competitivos,
entonces se debe usar un enfoque diferente a las pruebas de hipótesis, basado en métodos de
discriminación y criterios de información. En los métodos de discriminación se sugiere tres hipótesis
de las cuales se construye la metodologı́a de estos métodos, estas cuestiones fueron presentas por
Atkinson (1969) , las cuales son:
A1 Bajo el supuesto que un modelo particular es el verdadero, ¿hay evidencia de que de los otros
modelos, ajusten mejor a los datos?
A2 Bajo el supuesto que el modelo se ajusta adecuadamente a los datos, ¿hay evidencia estadı́stica
de lo contrario?
A3 Si se asume que uno de los modelos es el verdadero, ¿hay suficiente evidencia para hacer una
selección?
La eficacia de estas cuestiones está basada en la evaluación del ajuste y la estabilidad de los
modelos.
1.1.2 Limitaciones.
Como se señaló, en la literatura estadı́stica existe una gran variedad de publicaciones sobre las
pruebas de hipótesis no anidadas y métodos de discriminación, por lo cual podemos encontrar una
gran variedad de maneras de probar la especificación de los modelos estadı́sticos cuando una o
más alternativas no anidadas existen. Si se desea conocer algunas de estas pruebas, se recomienda
4 CAPÍTULO 1. INTRODUCCIÓN.
recurrir al artı́culo de Jerzy Szroeter [9] . En este trabajo sólo se presentará algunos de estos caminos,
los cuales fueron de interés, además que son ampliamente utilizados en la selección de un modelo de
un conjunto de modelos competitivos, principalmente en el contexto de los modelos de regresión.
Por tanto, se realizará una revisión de los estadı́sticos de prueba para modelos de regresión anidados
y no anidados propuestos por Davidson y MacKinnon, es decir, la prueba de razón de verosimilitud
y la prueba P de Davidson y MacKinnon, también se revisará la teorı́a de modelos de discriminación
en el libro de Borowiak Dale S y el criterio de Información de Akaike que como se ha mencionado
es uno de los métodos más utilizados en todos los ámbitos.
En el contexto en el que se desarrolla este trabajo, no se discutirá acerca de los problemas que
surgen en el ámbito computacional cuando se lleva a cabo el método de mı́nimos cuadrados. Ası́
como tampoco se realizará una verificación de las potencias de las pruebas que podrı́a considerarse
como una extensión de la tesis.
1.2 Objetivos.
La realización de este trabajo pretende los siguientes objetivos:
• Plantear, discutir y aplicar las estadı́sticas de prueba para realizar la prueba de hipótesis no
anidadas sobre los modelos de regresión no anidados.
• Plantear, discutir y aplicar los métodos de discriminación en la selección del mejor modelo
de un conjunto de modelos competitivos.
Debido a que la motivación del presente trabajo nació del deseo de resolver los dos problemas
reales anteriormente mencionados, surgió ası́ el hecho de utilizar modelos no lineales, dada la
naturaleza propia de los problemas a tratar, dando lugar a los siguientes objetivos especı́ficos.
Para el problema con el conjunto de datos médicos los objetivos a perseguir durante el trabajo
son
• Se ajustará modelos no lineales a la relación funcional entre las variables medidas a lo fetos
los datos para tratar de encontrar un modelo que pueda ser usado para poder saber todas las
mediciones ecográficas del feto con sólo saber la edad gestional.
• Se realizará un análisis estadı́stico para tratar de encontrar un modelo que pueda predecir el
peso de nacimiento de un feto dado que se midieron 4 variables durante su gestación.
Para el segundo problema de la producción de nisina los objetivos a seguir en el trayecto del
trabajo son:
• Encontrar un modelo general y compararlo con los modelos de regresión no lineal ajustado
para cada cinética.
1.3 Metodologı́a.
Con el objetivo de poder alcanzar los objetivos planteados, fue necesario realizar una investigación
amplia de distintos libros y artı́culos donde se considero que se presentaba de manera clara las
pruebas de hipótesis no anidadas para modelos no anidados y los métodos de discriminación.
Debido a que en este trabajo se utilizaron datos reales se realizó una limpieza de los datos,
ası́ como un análisis de cada una de las variables, los cuales se presentan en el Capı́tulo 5. En el
trabajo se consideran dos conjuntos de datos, a cada uno de los cuales les fue ajustado modelos no
lineales, entre los que se encuentran los modelos de crecimiento.
Ası́ como también debido a que los paquetes estadı́sticos carecen de las pruebas de hipótesis
anidadas y no anidadas, y para los métodos de discriminación, fue necesario realizar la programación
de estas pruebas en R, versión 2.6.1 (2007-11-26) debido a que es un lenguaje de programación
gratuito, de fácil manejo y es utilizado en muchos campos entre los cuales se encuentra el campo
estadı́stico.
Para el ajuste de los modelos no lineales a los datos se uso el paquete de Statgraphics Plus
versión 5.1 (1994 − 2000) dado que es paquete comercial muy fácil de usar, aunque también se
realizaron el ajuste en el programa R. El siguiente paso fue utilizar estos modelos ajustados para
las pruebas de hipótesis y los métodos de discriminación, para encontrar el mejor modelo para el
comportamiento de los datos. Para lograr el objetivo de predicción del peso de nacimiento del bebe
se realizó un análisis de entrada y salida de variables.
En el Capı́tulo 4 se presenta la teorı́a central del trabajo, las pruebas de hipótesis no anidadas
propuestas por Davidson y MacKinnon en su artı́culo de 1891 y la teorı́a discriminación de modelos
presentada en el libro de Borowiak Dale S. y el criterio de información de Akaike y Bayesiano.
En el Capı́tulo 5 se presenta el análisis estadı́stico de los datos. A continuación se hace una
discusión de los métodos utilizados para elegir un modelo de un conjunto de modelos competitivos
para describir el comportamiento de los problemas abordados en el trabajo.
En el último Capı́tulo se presentan las conclusiones y comentarios del trabajo realizado.
donde f es la función esperada, xi es una variable regresora o variables independientes para las
n observaciones, θ es vector de parámetros a estimar, donde θb es el estimador correspondiente y
εi representa el error aleatorio. En este trabajo los errores se asumen normales independientes
e idénticamente distribuidos con media cero y varianza desconocida σ 2 . Entenderemos por un
modelo de regresión no lineal un modelo donde la función esperada es una función no lineal en los
parámetros, por ejemplo
yi = xθi + εi
El conjunto de variables {xi } es considerado como un conjunto de variables fijas y no variables
aleatorias. Los supuestos para la regresión no lineal son: homogeneidad de varianzas, los valores
de xi son fijos, los valores de la muestra son tomados sin error.
7
8 CAPÍTULO 2. MODELOS DE REGRESIÓN NO LINEALES.
En forma similar a los modelos lineales, uno puede usar mı́nimos cuadrados para estimar los
parámetros de un modelo no lineal. El método o algoritmo que usaremos en la tesis es el de Gauss-
Newton, dado que es uno de los más usado en regresión no lineal. Este se basa en una aproximación
lineal de la función f (xi , θ) cuando ésta es derivable, es decir, en la minimización de la función de
suma de cuadrados de los residuales.
Se considera el modelo no lineal de la forma (2.1). En forma matricial se expresa por:
Y = f (X, θ) + ε (2.2)
T T
Donde Y = [y1 , ..., yn ] , X = [x1 , ..., xn ] , ε = [ε1 , ..., εn ] y θ es el vector de parámetros de
dimensión 1 ∗ p. El objetivo es minimizar la suma de cuadrados de los residuales para encontrar
los estimadores:
S (θ) = [Y − f (X, θ)]T [Y − f (X, θ)] (2.3)
El algoritmo de Gauss-Newton es un procedimiento iterativo. Esto significa que debemos propor-
cionar una estimación inicial del vector de parámetros θ1 . Entonces para la estimación m + 1 de θ
se puede expresar como:
h i−1 0
θm+1 = θm + F (θm )T F (θn ) F (θm ) [Y − f (X, θm )] (2.4)
(n−p)s2
y σ2
tiene distribución chi − cuadrada con n − p grados de libertad
(n − p) s2
∼ χ2(n−p)
σ2
también se tiene que s2 y θb son independientes. Además bajo el supuesto de que los errores son
normalmente distribuidos, entonces θb es también el estimador de máxima verosimilitud.
de aquı́ vemos que la elección del vector de parámetros b que maximiza la log-verosimilitud es
equivalente a maximizar la suma de cuadrados de los residuales. Por tanto en el caso de los errores
se distribuyan normal, los estimadores de mı́nimos cuadrados en regresión no lineal son los mismos
que los estimadores de máxima verosimilitud.
H0 : θ = 0 vs H1 : θ 6= 0
θb
t0 =
se θb
donde se θb es el error estándar de θb el cual puede ser obtenido como un elemento de var θb =
−1
σ2 Z T Z . La distribución asintótica de t0 es N (0, 1) cuando la hipótesis nula es verdadera.
Rechazamos H0 si |t0 | > t1− α2 ;n−p . Un intervalo de confianza de Wald de 100 (1 − α) % para el
parámetro θ es
θb − z α2 se θb ≤ θ ≤ θb + z α2 se θb
Numerosas funciones matemáticas se han propuesto para modelar las curvas de crecimiento,
algunas de las cuales se tienen cierta base teórica subyacente. Entre ellas están la Gompertz, la
2.4. CURVAS DE CRECIMIENTO. 11
por tanto se vuelven tan numerosos los individuos de dicha población que pierden su capacidad
de crecer debido a interacciones entre los miembros de la población, por lo que resulta un estado
de equilibrio. Este tipo de crecimiento se llama crecimiento logı́stico. El crecimiento logı́stico
es el balance entre producción en proporción a la población, y a las pérdidas en proporción a la
oportunidad de interacciones individuales. Un ejemplo es el crecimiento de levadura en el fermento
del pan. Primeramente, el crecimiento de la población es casi exponencial. La disponibilidad de
alimento es constante y como la población crece esto implica comer más y más. Sin embargo,
las células de levaduras se vuelven tan numerosas que sus productos comienzan a interferir con el
propio crecimiento. Por lo que resulta un estado de equilibrio entre producción y pérdida de células.
El modelo logı́stico está dado por:
α
Y =
1 + exp (β − γX)
Problemas de Estudio.
13
14 CAPÍTULO 3. PROBLEMAS DE ESTUDIO.
Los datos a usar en la tesis fueron proporcionados por seguro social de León, Guanajuato,
consisten de 48 fetos a los cuales se les midió las siguientes variables: diámetro biparietal (DBP ),
circunferencia de la cabeza o cefálica (CIRCEF ), circunferencia abdominal (CIRABD), longitud
de la diáfisis del fémur (Lf emur), peso del recién nacido (P eso). Las mediciones seriales fueron de
la semana 15 a la semana 39, dándose un caso de 41 semanas de gestación.
produce antimicrobianos naturales entre ellos la nisina A. Y debido a que la nisina es un péptido
antimicrobiano capaz de inhibir bacterias Gram positivas, usada como un conservador clasificado
como GRAS (generalmente reconocida como segura) y dado que ingerida es destruida rápidamente
durante la digestión, por lo que carece de toxicidad para el ser humano, además que el uso de
la nisina esta comercialmente disponible en más de 50 paı́ses alrededor del mundo. Se realizó un
experimento con el objetivo crecer Lactococcus lactis U Q − 2 en leche e incrementar la producción
de nisina A, se modificó las condiciones del medio donde se desarrolla, de manera que pueda ser
útil para la bioconservación de productos lácteos.
Los objetivo a perseguir en la tesis para este problema son:
1. Describir el crecimiento ln NN0 y la producción de nisina por la bacteria Lactococcus lactis
subsp en leche en polvo light reconstituida, la cual es usada para preservar alimentos pere-
cederos como leche y quesos, a través de un modelo de regresión no lineal, es decir, ajustar
modelos no lineales a cada una de las cinéticas realizadas.
3. Encontrar un modelo general y compararlo con los modelos de regresión no lineal ajustado
para cada cinética.
En el experimento se evaluó el efecto que tienen la agregación de nisina externa y sales (Mg y
Mn en dos concentraciones diferentes), en el medio de cultivo (leche), sobre la producción de nisina
del Lactococcus lactis U Q − 2. Se usó un diseño multifactorial con un nivel de significancia de
α = 0.05. Todas las muestras experimentales se realizaron por duplicado. La Tabla (3.1) muestra
el diseño utilizado para obtener los datos del experimento.
Capı́tulo 4
Dentro de la teorı́a de selección de modelos hay dos tipos de modelos, los cuales son: modelos
anidados y modelos no anidados. Por Modelos anidados entenderemos aquellos en los que se puede
establecer una jerarquı́a, de tal manera que uno de ellos es el denominado modelo general y el o
los otros, llamados modelos restringidos, los cuales pueden ser obtenidos mediante la imposición de
restricciones, lineales o no lineales, sobre el modelo general, y los Modelos no anidados, son aquellos
que no pueden ser jerarquizados en un modelo general y un o unos modelos restringidos no pueden
obtenerse de un modelo general a través de la imposición de restricciones.
H0 : Y = f (X, β) + ε0 (4.1)
en contra de
H1 : Y = g (X, γ) + ε1 (4.2)
17
18CAPÍTULO 4. PRUEBAS DE HIPÓTESIS Y MÉTODOS DE DISCRIMINACIÓN PARA MODELOS DE R
= " #
1
[Y −g(X,γ)]2
P
n −
sup 2πσ1 2 − 2
e 2σ12
1 2
[Y −f (X,βb)]
P
n −
2πb
σ0 2 − 2
e 2b
σ12
=
1
γ )]2
P
n − [Y −g(X,b
2πb 2 −
σ1 2 e 2b
σ12
h i2 − n2 − P n 2
P
[ Y −f (X, b)]2
β
2π
e 2 [Y −f (X,βb)]
P
n Y − f X, βb
= − n n o
n
γ )]2
P
− [Y −g(X,b
2π P 2 2
γ )]2
[Y − g (X, γ
b)] e
P
2 [Y −g(X,b
n
n
h i2 − 2
e{− 2 }
P n
Y − f X, βb
= P − n
e{− 2 }
n
b)]2
2
[Y − g (X, γ
Ph i2 − n2
Y − f X, β
b
= P
b)]2
[Y − g (X, γ
n
2
P 2
[Y − g (X, γ
b)]
= P h
i2
Y − f X, βb
donde observamos que λ es el cociente de la suma de cuadrados de los errores. Entonces bajo
condiciones de regularidad generales, sabemos que −2 ln (λ) ∼ χ2 con grados de libertad m2 − m1 ,
4.2. PRUEBAS DE HIPÓTESIS PARA LOS MODELOS NO ANIDADOS. 19
γ )]2
P
[Y −g(X,b
y por tanto una región rechazo para un nivel de significancia de α es −n ln 2 < χ2(1−α) .
[Y −f (X,βb)]
P
Ası́ si el p−valor es menor que el nivel de significancia, concluimos que el modelo alternativo ajusta
a los datos significativamente mejor que el modelo de hipótesis nula. De lo contrario, la conclusión
es que no hay evidencia convincentes de apoyar el modelo alternativo, por lo que aceptar el modelo
de la hipótesis nula.
Observaciones:
• Esta prueba es referida como la prueba de razón de verosimilitud generalizada (GLRT ) para
modelos anidados.
• Tenga en cuenta que la prueba realmente no nos ayuda a decidir qué modelo es el correcto.
Lo que hace es ayudar a decidir si se tiene evidencias suficientes para rechazar el modelo más
simple de la hipótesis nula.
• Esta prueba solo es válida para comparar modelos anidados. Esta no puede ser usada para
modelos no anidados. En este último caso, se tendrá que utilizar un método alternativo
basado en la teorı́a de la información o en métodos de discriminación.
no anidada. Una de las primeras de tales pruebas fue presentada por P esaran(1974) y P esaran
y Deaton(1978) y se basaron explı́citamente en el trabajo clásico de Cox(1961, 1962). En el año
de 1981 Davidson y M acKinnon propusieron un procedimiento mucho más simple basado en un
modelo de regresión artificial y mostraron que las pruebas resultantes son asintóticamente equiva-
lentes a las pruebas de Cox. Además que W hite(1982) mostró que si se implementa la prueba de
Cox uno de los procedimientos de Davidson y MacKinnon es obtenido directamente.
La prueba J propuesta en su paper de (1981) para modelos de regresión lineal puede ser ampliada
para modelos de regresión no lineal. Supongamos que hay dos modelos no lineales
donde X representa las observaciones en una matriz de variables exógenas, β y γ son respecti-
vamente vectores de parámetros a ser estimados y εi se asume como i.i.d N 0, σi2 , entonces las
hipótesis estarán dadas por:
H1 : Y = f (X, β) + ε1
H2 : Y = g (X, γ) + ε2
Cuando decimos que los dos modelos son no anidados, queremos decir que hay valores de β
(usualmente una infinidad de valores de β) para los cuales no hay valores de γ admisibles tal
que f (X, β) = g (X, γ) y viceversa. En otras palabras, ningún modelo es un caso especial del otro
a menos que se impongan restricciones sobre ambos modelos. El modelo artificial análogo al modelo
artificial para modelos de regresión lineal es
Por si sólo, este modelo no es muy útil dado que α, β y γ generalmente no son identificables. Por
tanto en el paper de Davidson y MacKinnon sugirieron que γ sea reemplazado por γ b el cual es el
estimador de mı́nimos cuadrados, entonces (4.6) se convierte en:
y = (1 − α) f (X, β) + αg (X, γ
b) + ε (4.7)
Debido a que algunos de los parámetros de la regresión no lineal (4.7) no pueden ser identificados
adecuadamente, el estadı́stico J puede ser difı́cil de calcular. Esta dificultad puede ser evitada al
realizar una linealización del en una forma usual, esto es, realizar un GN R (regresión de Gauss-
Newton) es decir, sólo se necesita linealizar la ecuación (4.7) alrededor de β = β. b Esta GN R
es
h i
y − f X, βb = Fbb + α g (X, γ b) − f X, βb (4.8)
Numerosas pruebas no anidadas están disponibles para los modelos de regresión no lineal.
Entre ellas está la prueba PA la cual está relacionada con la prueba P precisamente como la prueba
JA está relacionada a la prueba J en el caso de modelos lineales. Al igual que la prueba JA
tiene mejores propiedades para muestras finitas bajo la hipótesis nula que la prueba P ordinaria.
Lamentablemente, el excelente desempeño de la prueba PA bajo la hipótesis nula no va acompañada
de un buen desempeño bajo la hipótesis alternativa. En consecuencia γ e puede diferir grandemente
de γb cuando H1 es falsa, y la evidencia que el modelo H1 es incorrecta puede ser suprimida.
Cabe mencionar que γ e se puede obtener al realizar una regresión de PX y en X. Simulación de
experimentos han mostrado que la prueba PA puede ser menos potente que la prueba P, para ello
véase Davidson y MacKinnon (1982) . Por tanto un rechazo de la prueba PA debe ser tomada muy
seriamente pero si no hay un rechazo está puede proporcionar muy poca información. Entonces
la prueba PA , puede sufrir de una seria falta de poder. En contraste una versión Bootstrap de la
prueba P es razonablemente confiable y altamente potente. Por tanto es recomendable usar esta
prueba en vez de la prueba PA , si el tiempo de la computadora no es una restricción.
El estadı́stico t de α
b de (4.8) esta dado por:
T
y − fb M c0 gb − fb
t = r T (4.9)
σ
b gb − fb M c0 gb − fb
h i
donde y = [y1 , ..., yn ], fb = fb1 , ..., fbn y gb = [b
g1 , ..., gbn ] , σ
b es el estimador del error estándar de (4.8)
y
−1
c0 = I − Fb FbT Fb
M FbT
MFb y − fb = αMFb gb − fb + residuales (4.10)
y la varianza de α
b está dada por
T −1
2
V ar (b
α) = σ
b MFb gb − fb MFb gb − fb
b2
σ
= T
gb − fb MFb gb − fb
α
b
t = p
V ar (b
α)
T
(gb−fb) MFb (y−fb)
T
(gb−fb) MFb (gb−fb)
= r
b2
σ
T
(gb−f ) MFb (gb−fb)
b
T
(gb−fb) MFb (y−fb)
T
(gb−fb) MFb (gb−fb)
= σ
b
q
T
(gb−f ) MFb (gb−fb)
b
r T T
gb − f MFb gb − f
b b gb − f MFb y − f
b b
= T
b gb − fb MFb gb − fb
σ
T
gb − fb MFb y − fb
= r T
σ
b gb − fb MFb gb − fb
4.2. PRUEBAS DE HIPÓTESIS PARA LOS MODELOS NO ANIDADOS. 23
Bajo los supuestos de Davidson y M acKinnon se puede mostrar que bajo H0 (4.9) tiende en
probabilidad a
εT M (g − f )
q 0 0 (4.11)
T
σ0 (g − f ) M0 (g − f )
donde las cantidades sin sombrero son evaluadas en β0 el verdadero valor de β o en γ0 el plim de γ b
bajo H1 . Debido al papel desempeñado por la matriz de proyección M0 en (4.9) se puede observar
que (4.11) es N (0, 1). Davidson y M acKinnon llamaron a esta prueba basada en (4.8) la prueba
P.
Una extensión de esta prueba es mencionada en el paper de Davidson y M acKinnon, la cual
puede ser utilizada para probar la veracidad de una hipótesis contra varias alternativas a la vez, es
decir, para probar H0 contra m modelos alternativos gj (Zji , γj ) para la prueba se debe estimar
m
X
yi − fbi = αj gbji − fbi + Fbi b + εi
j=1
y realizar una prueba de razón de verosimilitud de la restricción de que todos los αj s son cero.
Aunque cabe mencionar que en su libro Econometric Theory and Methods, no mencionan esta
extensión de la prueba P , sino que sugieren que no se debe usar pruebas de hipótesis para seleccionar
un modelo de un conjunto de modelos competitivos, y mencionan que hay que usar criterios de
información para estos casos, es decir, dado que las pruebas de hipótesis no anidadas están diseñadas
como pruebas especificas, en lugar de procedimientos para elegir entre los distintos modelos no es
sorprendente que a veces no nos lleven a elegir un modelo sobre el otro. Si nosotros simplemente
queremos elegir el ”mejor” modelo de algún conjunto de modelos competentes o si alguno de ellos es
satisfactorio, debemos utilizar un enfoque muy diferente, basándose en un criterio de información.
existen variosmodelos alternativos, surge el problema de cuál modelo seleccionar del conjunto que
se tenga, dado ası́ modelos competitivos que pueden surgir de una teorı́a o un conjunto de teorı́as.
La selección de un mejor modelo de la colección de modelos construidos a menudo es una elección
entre teorı́as en competencia, y se basa en resultados empı́ricos obtenidos a partir de datos de
la muestra. Por tanto modelos de discriminación es la teorı́a de la selección de modelos rivales
basados en información de la muestra.
Podemos decir que dos propiedades caracterizan una propuesta de un modelo de utilidad en el
análisis de los datos. Primero es el modelo ajustado adecuado a los datos empı́ricos. En segundo
lugar, en el caso de los modelos que contengan parámetros desconocidos a ser estimados, es la
dependencia del modelo ajustado, o estimación de parámetros, en particular del conjunto de datos
observados. Esta segunda propiedad se llama estabilidad del modelo. En la construcción de los
procedimientos de selección de modelos y pruebas, estos dos rasgos de modelado deben tenerse en
cuenta.
Basados en el ajuste de los modelos rivales, Atkinson (1969) sugiere tres puntos de vista
hipotéticos para pruebas estadı́sticas en discriminación de modelos. Estas son resumidas en las
siguientes preguntas:
A1 Bajo el supuesto que un modelo particular es el verdadero, ¿hay evidencia de que de los otros
modelos, ajusten mejor a los datos?
A2 Bajo el supuesto que el modelo se ajusta adecuadamente a los datos, ¿hay evidencia estadı́stica
de lo contrario?
A3 Al asumir que uno de los modelos es el verdadero, ¿hay suficiente evidencia para hacer una
selección?
El mérito de estas preguntas básicas se sostiene con la evaluación de la estabilidad del modelo
y su ajuste. Estos puntos básicos son puntos de partida para el modelo de discriminación. Si
cualquiera de las cuestiones A1 o A3 es considerada, entonces asumimos que F contiene un modelo
verdadero único. En este caso, las ideas de seleccionar correcta e incorrecta un modelo junto con sus
probabilidades correspondientes pueden ser exploradas. Si la pregunta A2 es presentada, entonces
no tenemos que definir un verdadero modelo, si no las caracterı́sticas del modelo son contrastadas.
En el libro de Borowiak Dale S, se realiza exploraciones de estos métodos de discriminación.
En esta sección se usará una nueva notación para la cual se presentará a continuación. En
general en los problemas de discriminación del modelo el investigador se enfrenta con k modelos,
los cuales pueden ser adecuados para el comportamiento observado en el fenómeno, denotados por
fj para j = 1, ..., k. El conjunto de modelos rivales se define como F.
Donde εi (fj ) es el término asociado al error de la xi asociado a la forma funcional fj tal que
E (εi (fj )) = 0 para todo i = 1, ..., n.
Como se mencionó los métodos de discriminación consiste en seleccionar el mejor modelo de un
conjunto de k modelos competitivos, por tanto se construyen funciones o estadı́sticos usados para
4.2. PRUEBAS DE HIPÓTESIS PARA LOS MODELOS NO ANIDADOS. 25
seleccionar el mejor o el verdadero modelo, los cuales son usados para eliminar los modelos menos
probables, o designar cuando los modelos son similares a los modelos verdaderos o falsos. Estas
funciones son referidas como funciones de discriminación, denotadas como DF s. Bajo A1 o A3 , un
método de discriminación, denotado como DM , selecciona el mejor modelo de F y puede ser usar
una DF o una serie de DF s. La elección de un DM a utilizar dependerá de las circunstancias
particulares del problema.
Comúnmente, las DF s se basan en los errores observados o los residuales de los modelos rivales.
Una DF que está basada en una función cuadrática de residuales es llamado una función de
discriminación cuadrática or QDF. Para un modelo fj ∈ F, una QDF toma la forma
Qj = RjT Sj Rj + Cj (4.13)
donde, Sj es una matriz positiva semidefinida de nxn, Cj es una constante y Rj = Y − fj .
Observemos los siguientes dos puntos.
El tipo más simple de método de discriminación utiliza funciones de discriminación que comparan
los modelos a pares. En el caso de dos modelos fj y fq ∈ F y un método de discriminación fijo,
la probabilidad de seleccionar fj sobre fq bajo el supuesto que fq es verdadero es denotado por
P (fj | fq ) .
y X
P (CS (fj )) ≥ 1 − P (fq | fj ) (4.14)
q6=j
Observar que podemos usar estas probabilidades de selección o lı́mites apropiados pueden uti-
lizarse para probar las cuestiones A1 o A3 de Atkinson. A continuación se presentan las dos pruebas
que pueden considerarse cuando se toman en cuenta las cuestiones de Atkinson.
Prueba 1.. Consideremos la cuestión A1 de Atkinson donde fj es fijado y compite contra
todos los otros modelos de F. Aquı́ probaremos
RSS(fj )
modelos individuales de F. Para el modelo verdadero fj ∈ F tenemos que σ2
∼ χ2(n) . Entonces
un modelo es eliminado si la medida de falta de ajuste
2 rss (fj )
LOF (fj ) = P χn > (4.17)
σ2
es pequeña (menor que α), donde rss (fj ) es el RSS observado del modelo fj . Esta prueba de
la exactitud del modelo esta basado en la cuestión A2 de Atkinson dado que los modelos no son
directamente contrastados sino simplemente avaluados por LOF. Un estadı́stico, el cual es una
extensión de (4.17) cuando se estima σ 2 , para la prueba de falta de ajuste para el modelo fj es:
rss(fj )
LOF (fj ) = P F(n,m) > (4.18)
nσ 2
H0 : fj es correcto vs H1 : f ∗ es correcto
y uno de los modelos es considerado verdadero bajo H0 . En está prueba al igual que en la prueba
de Davidson y M acKinnon se define un modelo de regresión artificial de la forma
Si IP (IS) es lo suficiente pequeño, una selección puede ser hecha y la confianza de la decisión es
medida por IP (IS) .
−1
donde c = 1T xT x xT Y − 1. Las hipótesis son
H0 : f es correcto vs H1 : f ∗ es correcto
2. La segunda prueba basado en A2 , es la prueba llamada prueba tilde y fue propuesta por
Atkinson (1969) . La prueba de la hipótesis nula es que la desviación cuadrada media de cada
modelo es la misma, es decir,
n
X
H0 : [E (yi ) − fj (xi )]2 es constante para j = 1, ..., k.
i=1
Para la construcción de este estadı́stico hay que notar que la hipótesis nula es equivalente a
n n
X 1X 2
H0 : E (yi ) fj (xi ) − fj (xi ) es constante para j = 1, ..., k.
k
i=1 i=1
n n
fj2 (xi ) para 1 ≤ j ≤ k y notar bajo H0 se tiene que Z (xi ) ∼
P P
Sea Z (xi ) = yi fj (xi ) −
i=1 i=1
n
N c, σ 2 fj2 (xi ) . Ahora se define
P
i=1
−1 2
−1 ZT x T x 1
Q = ZT xT x Z−
1T (xT x)−1 1
Métodos Secuenciales.
Una prueba con la misma intensión que las dos anteriores es presentada a continuación basándose en
las probabilidades de selección correcta o incorrecta, dado que estos dos previos métodos de discrim-
inación no contrastan de manera directa a los modelos. A continuación consideremos la cuestión
A3 , donde se asume que uno de los modelos es el verdadero, entonces se busca si hay suficiente
evidencia para poder realizar una selección. Para ello consideremos un método de discriminación
donde se usará un método de mı́nimos cuadrados donde Sj = S y Cj = 0 para 1 ≤ j ≤ k. Con
dicho método de mı́nimos cuadrados,
Basándonos en los pares óptimos de LSE, entonces tenemos que S = I y por tanto (4.19) se
convierte en n o
T T
∩q6=j 2 (fq − fj ) Rj < (fq − fj ) (fq − fj ) (4.20)
30CAPÍTULO 4. PRUEBAS DE HIPÓTESIS Y MÉTODOS DE DISCRIMINACIÓN PARA MODELOS DE R
Del teorema 1, donde se construye las probabilidades lı́mites en los procedimientos por pareja de
modelos, las probabilidades de selección son construidas en conjunto con el método de discrimi-
nación que selecciona el modelo con menor RRS, tenemos que de (4.20), los lı́mites condicionales
δ(q,j)
IP [IS (fj )] = max P Z > (4.21)
q6=j 2σ
y
δ(q,j)
IP [CS (fj )] = min P Z ≤
q6=j 2σ
El lı́mite superior de IP (IS) dado por
X
IP (IS) ≤ max P (fj | fq )
1≤q≤k
j6=q
Teorema 3 Sea k ≥ 3 y los errores se distribuyen normal. Sea fj elegido con LSE donde δ (i, r) <
δ (i, q) para q 6= r. Además, suponemos que existe al menos un modelo fq ∈ F tal que SN (j) =
{fr , fq : δj (r, q) < 0} . Entonces
" #
δ (r, i) [4 (q, r) + ρδ (q, j)]
IP [IS (fj )] ≤ min IP Z > IP Z ≤ 1 (4.22)
2σ 2σ (1 − ρ2 ) 2
y
" #
δ (r, i) [δ (q, j) − ρδ (r, j)]
IP [CS (fj )] ≤ min IP Z ≤ IP Z ≤ 1 (4.23)
2σ 2σ (1 − ρ2 ) 2
donde
δ 2 (q, j) − 2δj (r, q)
4 (q, r) =
δ (q, j)
y
δj (r, q)
ρ=
δ (r, i) δ (q, j)
y los minimos son tomados sobre todos los fq contenidos en SN (j).
4.2. PRUEBAS DE HIPÓTESIS PARA LOS MODELOS NO ANIDADOS. 31
Cuando existen modelos para formar SN (j), la probabilidad condicional lı́mite IS (4.22) es
una mejora sobre (4.21). Con este lı́mite se puede probar A3 , es decir, se encontrara que no hay
suficiente evidencia para realizar una selección si P (IS(fj )) ≥ α.
Cuando se presente esta situación será necesario utilizar métodos secuenciales que ayuden a
elegir el mejor modelo. Ahora presentaremos dos métodos secuenciales para elegir el mejor modelo,
pero primero se presentara la estructura general de un método secuencial.
Bajo el punto de vista de la cuestión A3 , los métodos de discriminación los cuales consisten
de una serie de comparaciones de modelos son a continuación construidos. Las comparaciones son
referidos como pasos de el procedimiento. En cada paso un modelo es considerado fijo y una función
de discriminación cuadrática definida por
Qj = RjT Sj Rj + Cj
n T o n T o
ocurren, donde Bj,1 = r : fr − f(j) Aj ≥ 0 y Bj,2 = r : fr − f(j) Aj < 0 . Para un f(j) y
fr donde Fj , r 6= (j), sea
T
fr − f(j) Aj
d(j) (r) = 1 (4.24)
T 2
Aj Aj
y definimos
miny∈Bj,1 d(j) (r) 6 ∅
si Bj,1 =
bj = (4.25)
∞ si Bj,1 = ∅
y
maxy∈Bj,2 d(j) (r) 6 ∅
si Bj,2 =
aj = (4.26)
−∞ si Bj,2 = ∅
El método secuencial general está en el siguiente teorema.
32CAPÍTULO 4. PRUEBAS DE HIPÓTESIS Y MÉTODOS DE DISCRIMINACIÓN PARA MODELOS DE R
Teorema 4 Sean los modelos de F completamente determinados donde la normalidad de los errores
es asumido. Definimos un método secuencial de la siguiente manera; en el paso j elegimos f(j) ⊆ Fj
y se detiene y decimos que f(j) es correcto si este es seleccionado basándose en un método de
mı́nimos cuadrados al usar Sr = Aj ATj para r 6= (j), esto es, se selecciona f(j) si
2ATj Rj
aj ≤ 1 ≤ bj (4.27)
T 2
Aj Aj
donde aj y bj son definidos por (4.26) y (4.25) , respectivamente. De lo contrario, quitamos f(j) y
formamos un nuevo conjunto Sj+1 , y continuamos con el paso j + 2. Si el paso k − 1 es rechazado,
la selección es hecha entre los modelos dos modelos restantes, los cuales son denotados por f(k−1)
|d(j) (r)|
n o n o
|aj | bj |aj | bj
y f(k) . Sea γj = max 2σ , f r ∈ F j y r 6
= j , αj = min ,
2σ 2σ , y β j = max 2σ , 2σ para
1 ≤ j ≤ k1 . También supongamos
ATj Aj = 0 para j 6= r (4.28)
Si f(1) es seleccionado
IP CS f(1) = IP (−α1 ≤ Z ≤ β1 )
para j ≥ 2
IP IS f(1) | fj ≤ IP (α1 ≤ Z ≤ β1 + 2α1 )
Por otro lado, si f(1) es correcto
IP IS f(j) | f(1) ≤ IP (Z > α1 ) + IP (Z > β1 )
y para j ≥ m ≥ 2
m−1
Y
IP IS f(j) | f(m) ≤ [IP (Z > αj ) + IP (Z > βj )] ∗ [IP (Z ≤ 2γr − αr ) + IP [Z > βr + 2γr ]]
r=1
Además para 2 ≤ j ≤ k − 1
j−1
Y
IP CS f(j) ≥ IP (−αj ≤ Z ≤ βj ) ∗ [IP (Z ≤ αm ) + IP [Z > βm + 2γm ]]
m=1
y IP CS f(k) = IP CS f(k−1) .
p1 = IP (Z > α1 ) + IP (Z > β1 )
4.2. PRUEBAS DE HIPÓTESIS PARA LOS MODELOS NO ANIDADOS. 33
y
t1 = IP [α1 ≤ Z ≤ β1 + 2α1 ]
y para 2 ≤ j ≤ k − 1 definimos
j−1
Y
p1 = [IP (Z > αj ) + IP (Z > βj )] ∗ [IP (Z ≤ 2γm − αm ) + IP [Z > βm + 2γm ]]
m=1
y
m−1
Y
t1 = IP [αj ≤ Z ≤ βj + 2αj ] ∗ [IP (Z ≤ 2γm − αm ) + IP [Z > βm + 2γm ]]
m=1
Ası́
IP IS f(1) ≤ t1
y para 2 ≤ j ≤ k − 1
IP IS f(j) ≤ max {p1 , ..., pj−1 , tj }
Como podemos observar el método secuencial general permite muchas variedades a través de
la elección de Aj de acuerdo con la condición de que ATj Ar 6= 0 para j 6= r. Por tanto a con-
tinuación se mencionarán dos métodos secuenciales, el primero proporciona cálculos exactos de las
probabilidades de selección, mientras que el segundo busca construir pasos para acercarse al óptimo.
Primer Método Secuencial. El primer método secuencial es derivado de una serie de lemas.
En el paso j fijamos f(j) donde Fj = {f1 , ..., fs } y definimos una matriz n∗(s − 1) donde s = k−j +1
de la siguiente manera
y
− 1
d(j) (q) = 1T Gj GTj 1 2
(4.30)
Además (4.30) es un máximo sobre el conjunto de valores de (4.24).
Lema 2 En un método secuencial para los pasos j y m con j > m, notemos que Fj ⊆ Fm y
definamos Aj y Am de la forma (4.29) . Entonces ATj Am = 0.
Teorema 5 Con el método secuencial 1 bajo las condiciones del teorema 4 y si definimos
d1
p1 = IP Z >
2σ
para 2 ≤ s ≤ k − 1
s−1
ds Y dm
ps = IP Z > IP Z ≤
2σ 2σ
m=1
también,
IP (CS) = min IP CS f(j)
1≤j≤k
es el mı́nimo sobre f(j) , 1 ≤ j ≤ k − 1, de IP CS f(j) .
donde (4.28) se mantiene y d(j) (m) esta dado por (4.24). En el paso j denotamos un vector de
pesos por WjT = (wj,1 , ..., wj,s ) para j = 1, ..., k.
Teorema 6 Bajo las condiciones del teorema 4, el método secuencial el cual maximiza (4.33) en
cada paso sujeto a las restricción (4.28), es denotado por SM 2, con valores de Aj definidos de
acuerdo a las siguientes condiciones: en el paso j = 1 sea
A1 = GT1 W1
4.2. PRUEBAS DE HIPÓTESIS PARA LOS MODELOS NO ANIDADOS. 35
j−1
X
Aj = G j W j − qm Am
m=1
donde
ATm Gm Wj
qm =
ATm Am
Para el empleo del método secuencial 2, Wj para 1 ≤ j ≤ k − 1, el cual resuelve las ecuaciones
adecuadas debe ser encontrada. La solución es generalmente única, un posible procedimiento para
encontrar las Wj s del teorema 10 es resolver un sistema iterativo. Para W inicial encontramos,
para j = 1,
V = G1 GT1 W (4.34)
y para j ≥ 2
j−1
X
V = Gj GTj − qm Gj Am (4.35)
j=1
W
donde qm = ATm Gj , AT
para 1 ≤ m ≤ j − 1. Tanto en (4.34) y (4.35) sea
m Am
" #1
2
La función de verosimilitud es una medida de la capacidad de ajuste del modelo, mientras que
pi representa una penalización debida al número de parámetros, asi se reduce la función de log-
verosimilitud de cada modelo por 1 por cada parámetro estimado, y entonces elegir el modelo que
maximice AICi . La forma original del criterio de información de Akaike es equivalente a (4.36) pero
un poco mas complicado, y que se supone que debe ser minimizado en lugar de maximizado.
El AIC mide la información que se pierde cuando se utiliza un modelo alterno para aproximarse
al modelo real o desconocido. El objetivo es buscar el modelo aproximado, partiendo del modelo
completo, que proporcione la menor pérdida de información posible.
La AIC no siempre respeta la necesidad de parsimonia más que la de maximizar la función
de log-verosimilitud. Considere dos modelos anidados, f1 y f2 , con p y p + 1 parámetros respec-
tivamente. Asintóticamente, el doble de la diferencia entre las dos funciones log-verosmilitud se
distribuye como χ21 , si f1 esta correctamente especificado. Por tanto, la probabilidad que AIC2 sea
mayor que AIC1 tiende en muestras grandes a la masa de probabilidad en el lado derecho de la
cola de la distribución χ21 más alla de 2, la cual es 0.1573. Ası́, incluso con una muestra de tamaño
infinito, nosotros elegimos el modelo con menor parsimonia casi el 16% de las veces. Este ejemplo
muestra un problema general. Cuando dos o más modelos están anidados, el AIC puede fallar al
elegir el más parsimonioso de estos que son correctamente especificados. Si todos los modelos son
no anidado, y solo uno de ellos está bien especificado, el AIC elige este uno asintóticamente, pero
también puede simplemente elegir el modelo con el mayor valor de la función de log-verosimilitud.
4.2. PRUEBAS DE HIPÓTESIS PARA LOS MODELOS NO ANIDADOS. 37
Una popular alternativa para el AIC, el cual evita el problema discutido en el parrafo anterior,
es el Criterio de información de Schwarz o de información Bayesiano o BIC, el cual fue propuesto
por Schwarz (1978). Para un modelo i, el BIC es
1
BICi = `i θbi − ki log n.
2
El factor de log n en el término penalizado asegura que, cuando n → ∞, la pena por tener un
parámetro adicional será muy grande. En consecuencia, asintóticamente, no hay peligro de ele-
gir un modelo parsimonioso insuficiente. Si comparamos un falso pero parsimonioso modelo f2
con un modelo especificado correctamente f1 que puede tener más parámetros, el BIC elegira f1
asintóticamente.
El contexto de este criterio es bayesiano pero sus principales aplicaciones son frecuentistas
debido a que se basa sólo en el cálculo de la verosimilitud del modelo y no requiere especificar
ninguna distribución a priori. Se deriva en el proceso de seleccionar un modelo de entre modelos
alternativos con diferentes dimensiones pero con igualdad de información a priori, de manera que
maximice la probabilidad a posteriori de los parámetros.
38CAPÍTULO 4. PRUEBAS DE HIPÓTESIS Y MÉTODOS DE DISCRIMINACIÓN PARA MODELOS DE R
Capı́tulo 5
Para realizar los análisis de este capı́tulo en el marco del estudio de pruebas de hipótesis no anidadas
y métodos de discriminación de modelos no lineales, se cuenta con dos conjuntos de datos, los
cuales fueron descritos en el Capı́tulo 3. El primer conjunto de datos son un conjunto de datos
experimentales en bioquı́mica y el segundo conjunto de datos es un conjunto de datos médicos.
En el primer conjunto de datos se aplicará las pruebas de hipótesis debido a que es este caso,
es más evidente los modelos posibles para el comportamiento observado, los modelos seleccionados
son dos modelos senoidales, los cuales son el modelo gompertz y el modelo lógistico los cuales son
modelos no anidados, además se aplicará el criterio de información de Akaike.
Para el segundo conjunto de datos se aplicarán los métodos de discriminación: criterio de
información de Akaike y Bayesiano y los métodos de discriminación propuestos por Borowiak
Dale S en su libro Model Discrimination for Nonlinear Regression Models (1983).
39
40 CAPÍTULO 5. ANÁLISIS ESTADÍSTICO DE LOS DATOS.
Tabla 5.1: Estimaciones de los parámetros del modelo de crecimiento Gompertz para los tratamien-
tos del crecimiento ln(N/No).
Parámetros
Tratamiento α β γ R2
1 4.48327 1.27637 0.686482 58.7629
2 4.8939 1.41366 0.5515 76.506
3 6.17744 1.31772 0.352742 78.6785
4 5.72025 1.17692 0.322917 98.2015
5 5.84359 1.31783 0.422499 82.0257
6 6.35543 1.0876 0.363191 74.039
7 6.30775 1.16906 0.392686 88.469
8 6.25652 1.38625 0.56271 96.8942
9 6.30459 1.64499 0.676395 99.4823
10 6.04126 1.58106 0.404672 93.5249
11 6.21624 1.78928 0.675535 98.668
12 6.26583 1.23367 0.385951 97.5768
13 6.96528 1.13468 0.325726 96.7679
14 6.17842 1.44194 0.609284 99.296
15 6.44356 1.36898 0.454774 84.119
16 6.39739 1.68954 0.67144 98.4673
17 6.12475 1.16888 0.423493 96.1261
18 6.20454 1.66305 0.655915 97.4656
1 4.42886 2.49387 0.999473 58.2570
2 4.77743 2.84953 0.859986 76.2088
3 5.74968 2.74417 0.593215 78.1135
4 5.31846 2.46477 0.533154 97.2703
5 5.60748 2.65395 0.66278 81.3345
6 6.0049 2.32895 0.591911 73.3303
7 6.01148 2.47104 0.633628 87.8511
8 6.13632 2.73368 0.847570 96.4711
9 6.2369 3.08201 0.988950 99.4805
10 5.67497 3.40913 0.715697 94.4148
11 6.15357 3.36242 1.00154 99.0242
12 5.97398 2.55715 0.61639 97.0421
13 6.53306 2.39716 0.530202 96.1146
14 6.08275 2.80421 0.907605 98.7726
15 6.22421 2.90285 0.791740 84.5165
16 6.33751 3.1773 0.983799 98.7417
17 5.90272 2.42412 0.660018 95.3134
18 6.10672 3.16975 0.990751 97.2522
5.1. DATOS EXPERIMENTALES EN BIOQUÍMICA. 41
Tabla 5.3: P − valores de las pruebas no anidadas para los modelos Gompertz y Logı́stico.
H0 : Gompertz H0 :Logı́stico
p − valor p − valor
Tratamiento 1 0.4811 0.5432
Tratamiento 2 0.4868 0.5341
Tratamiento 3 0.4771 0.5517
Tratamiento 4 0.4682 0.5535
Tratamiento 5 0.4757 0.5563
Tratamiento 6 0.4658 0.5533
Tratamiento 7 0.4717 0.5497
Tratamiento 8 0.4831 0.5474
Tratamiento 9 0.4969 0.5339
Tratamiento 10
Tratamiento 11 0.5068 0.5215
Tratamiento 12 0.4752 0.5492
Tratamiento 13 0.4556 0.5604
Tratamiento 14 0.4864 0.5436
Tratamiento 15
Tratamiento 16 0.5025 0.5280
Tratamiento 17 0.4693 0.5548
Tratamiento 18 0.4940 0.5359
En la figura 5.1 aparecen todos los modelos Gompertz para los 18 tratamientos, con el obje-
tivo de encontrar cual es el tratamiento más eficiente para producir nisina, y observamos que los
tratamientos 8, 9, 11, 14, 16 y 18 fueron los tratamientos que en menor tiempo produjeron mayor
cantidad de nisina, el tiempo óptimo las 6 horas donde la cinética alcanza su fase estacionaria,
por lo que se recomienda utilizar estos tratamientos para la producción de nisina en leche deslac-
tosada, aunque fue el tratamiento 16 el cual produjo durante todo el perı́odo de tiempo observado
mayor cantidad de nisina. Observé que los p − valores de los tratamientos 10 y 15 no pudieron ser
calculados dado que generaban valores N AN en las probabilidades y no se encontró error en los
cálculos.
Para el circunferencia abdominal el número de observaciones realizadas durante toda las gestación
de los fetos fue de 252 en diferentes tiempos. La media y la varianza de este conjunto de datos
son 233.524 y 5013.59. El máximo y el mı́nimo observados son 83.0 y 354.0. En la figura 5.4 se
muestra el gráfico de caja y bigotes para CIRABD en el cual se observa que hay un ligero sesgo a
la izquierda.
Para la longitud de la diáfisis del fémur el número de observaciones realizadas durante toda las
gestación de los fetos fue de 252 en diferentes tiempos. La media y la varianza de este conjunto de
44 CAPÍTULO 5. ANÁLISIS ESTADÍSTICO DE LOS DATOS.
datos son 51.8929 y 270.12. El máximo y el mı́nimo observados son 17.0 y 79.0. En la figura 5.5
se muestra el gráfico de caja y bigotes para LF emur donde se observa que hay un sesgo hacia la
izquierda.
Para el peso de nacimiento el número de observaciones realizadas durante toda las gestación
de los fetos fue de 57. La media y la varianza de este conjunto de datos son 51.8929 y 270.12. El
máximo y el mı́nimo observado son 2.050 y 3.850. En la figura 5.6 se muestra el gráfico de caja y
bigotes del peso de nacimiento donde podemos observar que hay un punto atı́pico que corresponde
al feto con menor peso de nacimiento de 2050 gramos, este es un caso en el cual el feto nació con
un peso menor por debajo del peso mı́nimo adecuado de 2500 gramos.
esta medida puede ser cualquiera las variables medidas al feto durante su desarrollo y ası́ poder
saber si el feto se tiene un desarrollo adecuado para edad gestional que poseé, es decir, si está
dentro del intervalo de confianza para esta medida. Por tanto, es de interés conocer la correlación
que existe entre la edad gestional del feto y las demás variables ecograficas, ası́ como la relación que
5.2. DATOS MÉDICOS (MEDICIONES EN FETOS). 45
existe entre ellas. Como podemos observar en la Tabla 5.4 de la matriz de correlación las variables
Gest, DBP, CIRCEF, CIRABD y LF emur están altamente correlacionadas entre sı́, por lo que
podemos concluir que con una sola de las variables podemos describir el comportamiento de las
demás variables y de está manera podemos proceder a tratar de estimar cualesquiera de las variables
medidas al feto con sóla la edad gestional (semanas) del feto. Pero también vemos que la variable
peso de nacimiento no está correlacionada con ninguna de las variables medidas al feto, por lo que
podemos intuir que el objetivo de poder predecir el peso de nacimiento del feto con las variables
Gest, DBP , CIRCEF , CIRABD y LF emur no se podrá lograr. Ahora para el primer objetivo
mencionado de poder ver si el desarrollo del feto es adecuada tomaremos la variable que este más
altamente correlacionada con la variable gest, debido a que todas estan altamente correlacionadas,
la cual es la variable de Diámetro biparietal (DBP ) .
46 CAPÍTULO 5. ANÁLISIS ESTADÍSTICO DE LOS DATOS.
Tabla 5.5: Resumen del Ajuste del modelo y = ax + b para DBP vs CIRCEF.
Parámetro Estimación Error Est́andar T estadı́stico P-valor
a 9.18086 2.29165 4.00622 0.0001
b 3.45059 0.0316944 108.871 0.0000
variable = f (DBP )
donde la variable puede tomar las siguientes variables CIRCEF, CIRABD, LF emur
Ajuste de modelo para DBP vs CIRCEF. En la figura 5.7 se presenta el gráfico del diametro
Biparietal contra la circunferencia cefalica, en el cual podemos observar que hay una posible relación
lineal, por cual se procederá a realizar un ajuste lineal.
Al ajustar el modelo lineal de la forma y = ax + b obtenemos que la ecuación está dada por
donde ambos parámetros resultaron diferentes de cero un nivel de confianza de α = 0.05, como se
puede observar en la Tabla 5.5. Además se tiene de la tabla del análisis de varianza para α = 0.05
rechazamos H0 por lo que el modelo es significativo globalmente como se obseva en la Tabla 5.6.
La Tabla 5.7 lista todas las observaciones que tienen residuos estudentizados superiores a 2.0 en
valor absoluto. Los residuos estudentizados miden cuánta desviación tı́pica de cada valor observado
5.2. DATOS MÉDICOS (MEDICIONES EN FETOS). 47
de CIRCEF se desvı́a del modelo de ajuste, al usar todos los datos excepto esa observación. En
este caso, hay 9 residuos estudentizados superiores a 2.0 y 3 superiores a 3.0. Ahora veremos si
existen puntos influyentes que debamos eliminar del modelo y ser tratados por separado. Al usar
Leverage el cual es un estadı́stico que mide la influencia de cada observación en la determinación de
los coeficientes del modelo estimado. En este caso, un punto medio tendrı́a un valor de influencia
igual a 0.00793651. Se obtuvó que no hay ningún punto superior a 3 veces la influencia media.
Dado el p − valor observamos que existe una falta de ajuste del modelo, por tanto hay que
considerar otros modelos para poder modelar adecuadamente la relación CIRCEF vs DBP. Al-
gunos de los modelos considerados para modelar la relación CIRCEF vs DBP son un modelo
cuadrático, cúbico, logaritmico.
Tabla 5.7: Residuales Atipicos para el ajuste Lineal para BDP vs CIRCEF.
Fila X Y Valor Predicho Residuo Residuo Estudentizado
14 36 108 133.402 -25.4022 -2.80
24 38 160 140.303 19.6967 2.16
36 48 148 174.809 -26.8093 -2.95
112 68 264 243.821 20.1789 2.20
135 74 290 264.525 25.4754 2.79
137 73 225 261.074 -36.074 -4.02
144 80 230 285.228 -55.2282 -6.44
145 78 252 278.327 -26.327 -2.89
161 85 270 302.481 -32.4811 -3.60
48 CAPÍTULO 5. ANÁLISIS ESTADÍSTICO DE LOS DATOS.
Tabla 5.8: Prueba de Falta de Ajuste del Modelo Lineal para BDP vs CIRCEF.
Prueba de Falta de Ajuste
Suma de Cuadrados DF Media Cuadrática F p-valor
Falta de Ajuste 7033.77 62 113.448 1.48 0.0240
Error Puro 14423.3 188 76.7195
Ajuste del modelo para DBP vs CIRABD. En la figura 5.9 se muestra el gráfico del diámetro
Biparietal contra la circunferencia Abdominal, en el cual podemos observar que hay una evidente
de una relación lineal.
Tabla 5.10: Resumen del Análisis de Varianza del Modelo Lineal para DBP vs CIRABD.
Fuente Suma de Cuadrados Df Cuadrados medios F p-valor
Regresión 1208820 1 1208826 6094.14 0.0000
Residual 49589.5 250 198.358
Total 1, 258410 251
Tabla 5.11: Resumen de la prueba de falta de Ajuste del Modelo Lineal para DBP vs CIRABD.
Suma de Cuadrados DF Media Cuadrática F p-valor
Falta de Ajuste 11348.0 62 183.032 0.90 0.6805
Error Puro 38241.5 188 203.412
Tabla 5.12: Residuales Atipicos del Modelo Lineal para DBP vs CIRABD.
Fila X Y Valor Predicho Residuo Residuo Estudentizado
95 67 257 222.538 34.4619 2.48
105 68 188 226.3 −38.2995 −2.76
129 80 218 271.436 −53.4363 −3.91
135 74 280 248.868 31.1321 2.23
180 84 320 286.482 33.5181 2.41
186 84 320 286.482 33.5181 2.41
187 83 314 282.721 31.2795 2.25
197 82 320 278.959 41.0409 2.97
221 89 335 305.289 29.7111 2.13
228 86 332 294.005 37.9953 2.74
241 90 346 309.05 36.9497 2.67
50 CAPÍTULO 5. ANÁLISIS ESTADÍSTICO DE LOS DATOS.
La Tabla 5.12 se lista todas las observaciones que tienen residuos estudentizados superiores a
2.0 en valor absoluto. Los residuos estudentizados miden cuánta desviación tı́pica de cada valor
observado de CIRABD se desvı́a del modelo de ajuste, con todos los datos excepto esa observación.
En este caso, hay 11 residuos estudentizados superiores a 2.0 y 3 superiores a 3.0. Ahora veremos
si existen puntos influyentes que debamos eliminar del modelo y ser tratados por separado. Con
Leverage un punto medio tendrı́a un valor de influencia igual a 0.00793651.obteniendosé que no
hay ningún punto superior a 3 veces la influencia media.
Ajuste del modelo para DBP vs LF emur. En la figura 5.11 se presenta el diámetro biparietal
contra longitud del femur, en el cual podemos observar que hay una evidente relación lineal, además
que existen algunos puntos atipicos que se encuentran fuera de la nube de datos. Principalmente
observemos que hay un punto outlier que esta muy lejos de la nube, el cual corresponde a un bebe
con un peso de 3450 gramos y DBP de 55 y LF emur de 21.
Entonces dado que hay evidencia de una posible relación lineal se procederá a realizar un ajuste
de un modelo lineal de la forma y = αx + β, el modelo está dado por
donde el modelo es significativo y ambós parámetros son distintos de cero como se puede ver en las
Tablas 5.13 y 5.13. En la figura 5.12 se presenta el gráfico del ajuste del modelo lineal. En la Tabla
5.2. DATOS MÉDICOS (MEDICIONES EN FETOS). 51
Tabla 5.14: Análisis de Varianza del Modelo Lineal para DBP vs LFemur.
Fuente Suma de Cuadrados Df Cuadrados medios F P-valor
Regresión 65077.1 1 65077.1 5974.80 0.0000
Residual 2722.98 250 10.8919
Total 67800.1 251
5.15 se presenta el resumen de la prueba de falta de ajuste donde de forma análoga a la anterior
prueba de falta de ajuste para α = 0.05 obtenemos que el modelo es adecuado para modelar el
comportamiento observado entre las variables LF emur y DBP.
Debido a que se observaron puntos atı́picos, se revisó estos puntos atı́picos. La Tabla 5.6
lista todas las observaciones que tienen residuos estudentizados superiores a 2.0 en valor absoluto.
Los residuos estudentizados miden cuánta desviación tı́pica de cada valor observado de CIRABD
se desvı́a del modelo de ajuste, utilizan todos los datos excepto esa observación. En este caso,
hay 13 residuos estudentizados superiores a 2.0 y 3 superiores a 3.0. Ahora veremos si existen
puntos influyentes que debamos eliminar del modelo y ser tratados por separado. En estadı́stico
de Leverage se obtiene que un punto medio tendrı́a un valor de influencia igual a 0.00793651 y para
los datos se obtuvó que no hay ningún punto superior a 3 veces la influencia media.
En conclusión tenemos que las relaciones entre la variable DBP y el conjunto de variables
CIRCEF, CIRABD, LF emur es lineal por lo que se puede decir que si tenemos una de estas
variables entonces podemos conocer el resto de las demás variables.
52 CAPÍTULO 5. ANÁLISIS ESTADÍSTICO DE LOS DATOS.
Tabla 5.15: Prueba de falta de Ajuste para el Modelon Lineal para DBP vs LFemur.
Prueba de Falta de Ajuste
Suma de Cuadrados DF Media Cuadrática F p-valor
Falta de Ajuste 805.54 62 12.9926 1.27 0.1105
Error Puro 1917.44 188 10.1992
Tabla 5.16: Residuales Atı́picos del Modelo Lineal para LFemur y DBP.
Fila X Y Valor Predicho Residuo Residuo Estudentizado
53 55 31 38.8711 -7.87109 -2.42
57 55 21 38.8711 -17.8711 -5.77
71 53 44 37.1256 6.87438 2.10
72 57 34 40.6166 -6.61656 -2.02
77 55 46 38.8711 7.12891 2.18
95 67 56 49.3439 6.65608 2.03
97 73 47 54.5803 -7.58033 -2.32
113 73 47 54.5803 -7.58033 -2.32
122 68 57 50.2167 6.78335 2.07
161 85 57 65.0532 -8.05315 -2.47
197 82 70 62.4349 7.56506 2.32
207 93 65 72.035 -7.03503 -2.16
225 91 77 70.2896 6.71044 2.06
5.2. DATOS MÉDICOS (MEDICIONES EN FETOS). 53
Resultados del ajuste lineal Para el ajuste del modelo lineal y = ax + b obtenemos el modelo
donde ambos parámetros son diferentes de cero y el modelo es significativo de forma general como
se observa en las Tablas 5.17 y 5.18 respectivamente. En la figura 5.14 se tiene el ajuste del Modelo
lineal donde podemos observar que el ajuste no es muy bueno como se observo por primera vez y
como veremos en la prueba de falta de ajuste el ajuste no es adecuado.
Tabla 5.18: Análisis de Varianza del Modelo Lineal para DBP vs Gest.
Fuente Suma de Cuadrados gl Cuadrados medios F P-valor
Regresión 82496 1 82496 7004.36 0.0000
Residual 2944.45 250 11.7778
Total 85440.4 251
De la tabla del análisis de varianza para α = 0.05 rechazamos H0 por lo que el modelo es
significativo globalmente. El R2 de 96.5538%, esto pareciera indicar que hay un 96.5538% de
descripción de la variabilidad de los datos, pero como vemos en la prueba de falta de ajuste este
modelo no es adecuado para el comportamiento de los datos, por lo que podemos concluir que hay
una alta variabilidad en los datos.
De la prueba de falta de ajuste para α =0.05 se tiene falta de ajuste en el modelo por lo que
podemos descartar el modelo lineal como un modelo competitivo para modelar DBP vs gest.
Resultados del ajuste del modelo cuadrático. Para el ajuste del modelo lineal y = αx2 +
βx + γ obtenemos que el modelo esta dado por
En la Tabla 5.21 obsevamos que el modelo es significativo globalmente, además todos sus parámetros
son distintos de cero.
Para α = 0.05 y 249 grados de libertad tenemos que 1 − f uncT Inv(0.05; 249) = 2.651 0, por
tanto rechazamos la hipótesis nula y concluimos que α, β y γ son diferentes de cero.
En la figura 5.15 vemos el ajuste del modelo cuadrático, donde podemos observar que hay un
adecuado ajuste.
Resultados del ajuste del modelo cúbico. Al realizar el ajuste del modelo lineal y = ax3 +
bx2 + cx + d obtenemos que el modelo es
Tabla 5.19: Prueba de falta de Ajuste del Modelo Lineal para DBP vs Gest.
Suma de Cuadrados DF Media Cuadrática F p-valor
Falta de Ajuste 1533.14 24 63.8809 10.23 0.0000
Error Puro 1411.31 226 6.24473
5.2. DATOS MÉDICOS (MEDICIONES EN FETOS). 55
Observemos que en la Tabla 5.23 del análisis de varianza se tiene que el modelo es globalmente
significativo pero, al realizar la prueba sobre cada uno de los parámetros observamos que hay
parámetros que son diferentes de cero. Al examinr los valores de los p − valores, podemos concluir
que los parámetros c y d son no significativos para el modelo y por tanto podemos excluirlos del
modelo.
En la Tabla 5.23 notamos que el modelo es significativo globalmente para α = 0.05. El R2 =
98.1997% por lo que podemos decir que el 98% de la variabilidad de los datos es explicado por el
modelo, pero recordemos que está medida no es del todo confiable como se observó en el ajuste del
modelo lineal.
Dado que los parámetros c y d pueden ser excluidos del modelo, a continuación se realizará un
ajuste cúbico de la forma ax3 + bx2 y de la forma ax3 + cx + d y ax3 + bx2 + d y compararemos
cual modelo es el más adecuado al conjunto de datos. Primero realizaremos el ajuste del modelo
de la forma ax3 + bx2 donde el modelo ajustado esta dado por
y de la Tabla 5.25 se tiene que el modelo es globalmente significativo para α = 0.05 y que ambos
parámetros son significativamente diferentes de cero como se observa en la Tabla 5.26.
R2 = 97.9312%.
Para el ajuste del modelo de la forma ax3 + bx2 + d obtenemos que el modelo es
Tabla 5.22: Intervalos de confianza Ası́ntoticos del 95% de confianza del Modelo Lineal para DBP
vs Gest.
Parámetro Intervalo de Confianza Asintótico de 95%
α ( -0.0566308 , -0.0425732 )
β ( 4.92337 , 5 71114 )
γ ( -4 .899 , -33.3783 )
56 CAPÍTULO 5. ANÁLISIS ESTADÍSTICO DE LOS DATOS.
de las Tablas 5.29 y 5.30 se concluye que el modelo es globalmente significativo ası́ como que los
parámetros son significativamente diferentes de cero, es decir el modelo es significativo globalmente
para α = 0.05 con un R2 de 98.1228% y los parámetros son significativamente diferentes de cero
para un p − valor de 0.05.
Ahora, aplicación del Criterio de información de Akaike y el criterio de información Bayesiano
obtenemos que el modelo más adecuado para el comportamiento es el modelo ax3 + bx2 + d tanto
para el criterio AIC como para BIC, por tanto para el conjunto de modelos en competencia se
considerada como modelo cúbico el modelo ax3 + bx2 + d.
Al examinar los p−valores de la Tabla 5.32 rechazamos la hipótesis nula, por lo que los parámetros
son diferentes de cero, además de la Tabla 5.33se concluye que el modelo es globalmente signi-
ficativo. Observe en la figura 5.20 que el modelo gompertz parece describir adecuadamente el
comportamiento de la relación entre gest y DBP.
A continuación tenemos los intervalos de confianza para los parámetros del modelo gompertz
con un nivel de confianza del 95%.
El ajuste del modelo es
Resultados del ajuste del Modelo Logı́stico. Por último se ajustó el modelo logı́stico y =
α
1+exp(β−γx) y se obtuvó que para el conjunto de datos el modelo está dado por
102.777
DBP =
1 + exp (2.67237 − 0.1252gest)
de las Tablas 5.35 y 5.36 se tiene que todos los parámetros resultarón significativamente diferentes
de cero para un α = 0.05 y del análisis de varianza para α = 0.05 rechazamos H0 por lo que el
modelo es significativo globalmente.
En la Tabla 5.37 se muestra los intervalos de confianza ajustados para los parámetros del modelo
Logı́stico con un nivel de confianza del 95%.
Y al igual que en los anteriores modelos podemos observar en la figura 5.21, que el ajusto
Logı́stico es adecuado para el comportamiento de la relación de DBP con gest.
del fémur se realizó análisis de regresión múltiple, en donde se consideró todas las variables, sus
cuadrados y todos sus posibles productos cruzados, además se examinó el paper de Greigh I. Hirata
1990. El propósito del trabajo de Hirata fue evaluar modelos para la predicción de pesos en fetos con
sospecha de macrosomı́a. Se estudió un total de 141 pacientes con mediciones estándar de la cabeza,
abdomen y fémur. Se formularon regresiones lineales con los parámetros simples, el cuadrado de
las variables y el producto de todos los cruces posibles, se generaron modelos con el peso al nacer
o su logaritmo como variables dependientes. Estos modelos fueron luego comparados con un grupo
de ecuaciones previamente publicadas. Clı́nicamente ninguno de los modelos fue adecuado. Sin
embargo dos fueron significativamente menos exactos para predecir el peso al nacer (p < 0.05). Los
mejores resultados se obtuvieron con las ecuaciones que utilizaron la circunferencia abdominal y la
longitud de fémur. No hubo mayor beneficio con modelos que tenı́an el peso al nacer o su logaritmo
como variables dependientes o en aquellos otros modelos con variables complejas como cuadrados o
Tabla 5.37: Intervalos de Confianza del 95% para los Parámetros del Modelo Logı́stico.
Parámetro Intervalo de Confianza Asintótico de 95%
α (100.586, 104.969)
β (2.55995, 2.7848)
γ (0.118397, 0.132003)
62 CAPÍTULO 5. ANÁLISIS ESTADÍSTICO DE LOS DATOS.
productos cruzados de las medidas. En conclusión, al evaluar pacientes con macrosomı́a, las mejores
estimaciones del peso fetal se obtienen con modelos que utilicen la circunferencia abdominal y la
longitud de fémur.
Primero se realizó un análisis exploratorio con gráficos del peso de nacimiento con las variables
de interés, este análisis fue realizado en statgraphic. Recordemos que las variables están altamente
correlacionadas entre sı́ y con la edad gestional, como se puede observar en la Tabla 5.4, pero
que también se observa que el peso de nacimiento de los fetos no está correlacionado fuertemente
con estas variables, lo que indica que no será fácil poder encontrar una función que nos ayude a
poder predecir el peso de nacimiento. Esto también puede ser visto en los siguientes gráficos del
peso de nacimiento con cada una de las variables, en los cual sólo se gráfico la última medición de
cada una de las variables ultrasonografica, debido a que en el desarrollo fetal las últimas semanas
de gestación el feto presenta una estabilización en el crecimiento como se observa en los gráficos
de las variables ultrasonograficas contra la edad gestional, por tanto si hay una relación entre las
variables ultrasonograficas y el peso de nacimiento esta debe ser más notable en las últimas semanas
de gestación. Observamos por ejemplo el gráfico del peso de nacimiento contra el DBP, el cual que
la variable más altamente correlacionada con la edad gestional y observamos que no hay una relación
funcional obvia entre estas dos variables, sino que observamos que para una medida determinada
del diámetro biparietal se dieron diferentes pesos, por ejemplo para un diámetro biparietal de 93
el rango de pesos de nacimiento fue de 2750 gramos a los 3450 gramos. Aún dado esto si podemos
decir que los fetos con mayor peso en el nacimiento presentan medidas en las variables de interés
5.2. DATOS MÉDICOS (MEDICIONES EN FETOS). 63
altas con respecto a los fetos que tuvieron un peso de nacimiento muy bajo, esto nos lleva a intuir
que existe una relación entre estas variables y el peso de nacimiento la cual no es obvió o fácil de
encontrar, también podemos intuir que quizás los modelos no presenten una muy buena predicción
debido a que se presenta una dispersión grande en los pesos de nacimiento para las mediciones de
las variables observadas.
Ahora procedamos a realizar las regresiones múltiples simple con todas las variables ultrasono-
graficas. Primero realicemos la regresión múltiple donde se encuentren todas las variables de interés,
donde se obtuvó que el modelo ajustado esta dado por
P esoN = 2975.5 + 2.27837DBP + 0.64589CIRCEF + 3.8115CIRABD − 20.2418LF emur
Dado que el p − valor en la Tabla 5.38 es inferior a α = 0.05, existe relación estadı́sticamente
significativa entre las variables para un nivel de confianza del 95%.
El R2 obtenido es de 4.46006%, el cual es muy pequeño, es decir, el modelo describe sólo un
4% de la variabilidad de los datos. Al examinar la Tabla 5.39 de estimación de los parámetros por
el método de mı́nimos cuadrados tenemos que las variables DBP y CIRCEF tienen un p − valor
más alto que α = 0.05 dados por 0.7949 y 0.7909 respectivamente, por tanto estos términos no
son estadı́sticamente significativos para un nivel de confianza del 95% o superior. Por tanto, se
considerará eliminarlos del modelo.
Seguidamente realizaremos la regresión múltiple para las variables longitud del fémur y circun-
ferencia abdominal como variables independientes y peso de nacimiento como variable dependiente,
64 CAPÍTULO 5. ANÁLISIS ESTADÍSTICO DE LOS DATOS.
es decir, se ajustará el nuevo modelo con las variables que resultaron estadı́sticamente significativas.
El modelo para la regresión múltiple es
Dado que el p − valor en la Tabla 5.40 del análisis de varianza es inferior a α = 0.05, existe relación
estadı́sticamente significativa entre las variables para un nivel de confianza del 95%.
El R2 obtenido es de 4.30908%, el cual es muy pequeño, es decir, el modelo sólo describe un 4%
de la variabilidad de los datos, por lo que podemos concluir que estás dos variables independientes
son importantes para poder predecir el peso de nacimiento del feto, pero el modelo de predicción es
muy malo para predecir el peso. Ahora al examinar la Tabla 5.41 de estimación de los parámetros
por el método de mı́nimos cuadrados tenemos que las variables CIRABD y LF emur tienen un
p − valor menor que α = 0.05 dados por 0.0011 y 0.0023 respectivamente, por tanto estos términos
Tabla 5.38: Análisis de Varianza para el Modelo de Regresión Múltiple ax1 + bx2 + cx3 + dx4 + e.
Fuente Suma de Cuadrados gl Cuadrados medios F P-valor
Regresión 1242600 4 310650.0 2.88 0.0232
Residual 26618000 247 107765.0
Total 27860600 251
5.2. DATOS MÉDICOS (MEDICIONES EN FETOS). 65
Tabla 5.39: Estimación de Parámetros para el Modelo de Regresión Múltiple ax1 +bx2 +cx3 +dx4 +e.
Parámetro Estimación Error Estándar Asintótico Estadı́stico T P-valor
Constante 2975.5 111.951 26.5786 0.0000
DBP 2.27837 8.75458 0.260249 0.7949
CIRCEF 0.64589 2.43312 0.265458 0.7909
CIRABD 3.8115 1.67839 2.27092 0.0240
LF emur −20.2418 6.96267 −2.90719 0.0040
son estadı́sticamente significativos para un nivel de confianza del 95% o superior. Por tanto, serán
considerados en el modelo.
Al realizar todas las regresiones con sus cuadrados y todos sus posibles productos cruzados se
obtuvó resultados similares dado que en todos los modelos las variables CIRABD y LF emur re-
sultaron significativas o un producto cruzado de ellas con otras variables, por ejemplo consideremos
el modelo
P esoN = a0 + a1 x1 + a2 x2 + a3 x3 + a4 x4 + a5 x1 x2 + a6 x2 x3 + a7 x3 x4 + a8 x4 x1
Tabla 5.41: Estimación de Parámetros para el Modelo de Regresión Múltiple cx3 + dx4 + e.
Parámetro Estimación Error Estándar Asintótico Estadı́stico T P-valor
Constante 3028.79 71.4143 42.4115 0.0000
CIRABD 4.433 1.34637 3.29256 0.0011
LF emur -17.8784 5.80043 -3.08225 0.0023
66 CAPÍTULO 5. ANÁLISIS ESTADÍSTICO DE LOS DATOS.
por tanto el modelo obtenido al usar el método de eliminar términos no significativos esta dado
por
P esoN = 3387.23 − 15.8741 ∗ LF emur + 0.00910109 ∗ CIRCEF ∗ CIRABD
Además se observó que todas las R2 de los modelos no excedı́an de el 6%, por lo cual podemos decir
que todos los modelos encontrados tienen un podre desempeño para estimar el peso de nacimiento.
Esto nos lleva concluir que el modelo para predecir el peso de nacimiento debe considerarse otro
tipo de análisis estadı́stico en el cual se consideré más información del feto y quizás de la madre,
aunque podemos concluir que para poder predecir el peso de nacimiento de manera más eficiente se
debe considerar las variables ultrasonograficas, circunferencia abdominal y la longitud del fémur.
Tabla 5.45: Criterio de Akaike y Bayesiano para los Modelos del Datos Médicos.
M odelo
f1 f2 f3 f4
AIC −110.4939 −109.4083 −109.8992 −109.3979
BIC −112.448 −111.4592 −111.9502 −111.4488
Ahora realizemos las pruebas de Williams y Atkinson junto con la prueba basada en las proba-
bilidades de seleccionar correcta e incorrectamente el modelo para poder saber si podemos realizar
una discriminación de los modelos con un método de discriminación.
Al aplicar la prueba de Williams propuesta en su libro Regression Analysis, obtenemos que
el estadı́stico observado es de 1.506051 y el estadı́stico para α = 0.05 es de 2.640854, esto es
F < F1−α,k−1,n−k+1 , por tanto los modelos considerados para modelar el fenomeno de los fetos son
demasiado cercanos para poder realizar una discriminación.
Con la prueba tilde propuesta por Atkinson (1969) , obtenemos que F = 0.000002382555 y
F(1−α,k−1,n−k) = 2.640854, asi F < F1−α,k−1,n−k por tanto aceptamo H0 y al igual que en la prueba
68 CAPÍTULO 5. ANÁLISIS ESTADÍSTICO DE LOS DATOS.
de Williams concluimos que no hay suficiente evidencia para realizar una discriminación entre los
modelos, es decir, los modelos son muy parecidos.
Recordemos que estas dos pruebas no realizan un contraste directo de los modelos por lo que
se realizará a continuación es el de aplicar un método de discriminación basado en el Teorema 3.
Bajo la posibilidad de seleccionar el modelo los limites condicionales (4.22) y (4.23) son calculados
con σ = 7.092797. Estos estan listados en la Tabla (5.46). Hay que notar que en la aplicación del
procedimiento establecido en el teorema 2.3.1, tenemos que para los modelos f1 y f2 tenemos que
SN = ∅. Ası́ sobre los modelos que están en F, se tiene que max P [IS (fj )] ≤ 0.4000657. Entonces
basado en la cuestión A3 , se acepta H0 , es decir, no hay suficiente evidencia para realizar una
selección debido a la grandes probabilidades de seleccionar incorrectamente el modelo.
De estas tres pruebas realizadas, en las cuales se concluyo lo mismo, podemos deducir que los
cuatro modelos seleccionados son adecuados para modelar el comportamiento de la variable DBP
con gest.A continuación se realizará la aplicación del método secuencial para seleccionar el modelo
más adecuado del conjunto de cuatro modelos propuestos para modelar el comportamiento de DBP
vs gest.
Para la selección de las f(j) , 1 ≤ j ≤ 4, se ranqueo con respecto al que maximize P (CS) , la
5.3. REALIZACIÓN DE LAS PRUEBAS DE HIPÓTESIS Y MÉTODOS DE DISCRIMINACIÓN.69
Tabla 5.49 muestra todos los P (CS) y observamos que la secuencia que maximiza P (CS) está dada
− 1
2
por f(1) = f3 , f(2) = f4 , f(3) = f1 y f(4) = f2 . Entonces en el primer paso 2ATj Rj ATj Aj =
− 1
2
3.213827 > 0.6644409, de aqui eliminamos f3 y en el segundo paso 2ATj Rj ATj Aj = 1.673862 <
2.907512, por lo cual seleccionamos f4 de F, es decir, el modelo Logı́stico resulto elegido del conjunto
de modelos competitivos, lo cual es similar a los resultados obtenidos con el criterio de Akaike. Las
probabilidades de selección son obtenidas al sustituir σb = 7.092797 en (4.31) y en (4.32). Entonces
P [IS (f4 )] = 0.4813207 y P [CS (f4 )] = 0.301456, donde podemos observar que la probabilidad de
seleccionar correctamente el modelo es muy pequeña esto debe ser debido a que los modelos son muy
parecidos y como las pruebas nos indicaron es dificil discriminar entre ellos. Estos resultados no
son tan buenos como se esperaban, dado que P [IS (f1 )] > P [CS (f1 )] , esto se debe posiblemente
a los resultados obtenidos en la prueba de Williams y la prueba tilde de Atkinson. Dado que estas
pruebas concluyeron que no hay suficiente evidencia para poder discriminar entre los modelos.
Tabla5.48: Procedimiento
− 1 SM 1.
T T 2
fj 2Aj Rj Aj Aj dj Decisión
Paso 1 f3 3.213827 0.6644409 Eliminamos f3
Paso 2 f4 1.673862 2.907512 Seleccionamos f4
Conclusiones y Comentarios.
Este capı́tulo está dedicado presentar algunas conclusiones generales sobre el análisis desarrollado
a lo largo de este trabajo. Ası́ mismo, se discuten algunos de los aspectos observados en la selección
de modelos de un conjunto de modelos propuestos con base a los resultados obtenidos.
Las conclusiones con respecto al análisis realizado a los datos observados de bioquı́mica podemos
concluir que ambos modelos propuestos son adecuados para los datos, pero al considerar el criterio
de información de Akaike podemos concluir que el modelo más apropiado para describir a todos los
tratamientos es el modelo Gompertz. Esto nos da mucha información dado que si sólo se hubiese
usado el criterio de información de Akaike, no se hubiese podido concluir que ambos modelos son
adecuados para el comportamiento observado, y el AIC nos proporcionó cual de los dos modelos es
el más apropiado para describir a la gran mayorı́a de tratamientos realizados. Con respecto a las
pruebas de hipótesis de Davidson y MacKinnon podemos decir que son bastante adecuados para
usarse cuando sólo se tiene dos modelos para el fenómeno observado y que su utilización es bastante
sencilla en comparación con los métodos de discriminación.
Con respecto a predecir el peso de los fetos al nacer como se observo en el análisis de correlación y
en los gráficos no es evidente como poder predecir el peso de nacimiento de los fetos con las variables
propuestas en la tesis, y como se observó las ecuaciones propuestas fueron pobres en predicción del
peso de nacimiento debido a que la gran mayorı́a de las ecuaciones tienen un R2 por debajo del 7%
de variabilidad descrita por el modelo, también cabe recordar que se consideró el paper de Hirata en
el cual se obtuvó el mismo resultado obtenido para fetos con macrosomı́a, las relaciones funcionales
significativas contienen a las variables diámetro abdominal y longitud del fémur. En conclusión, al
igual que en el paper de Hirata, al tratar de predecir el peso de nacimiento de un feto, las mejores
estimaciones se obtienen con modelos que utilicen la circunferencia abdominal y la longitud de
fémur, en este caso podemos decir que sin importar si el feto presenta macrosomı́a o no. Esto nos
lleva a pensar que el poder predecir el peso de nacimiento necesita de más información del feto y
quizás de la madre, ası́ como también un tipo de análisis estadı́stico distinto al utilizado en la tesis,
si el objetivo es el mismo, tratar de predecir el peso de nacimiento con medidas ultrasonograficas.
Dado todo lo anterior nuestro objetivo de comparar la ecuación de Rossavick con nuestro modelo
propuesto, no podrá llevarse a cabo debido a que no se encontró un modelo lo suficientemente
bueno para competir con el modelo de Rossavick.
De acuerdo a lo observado con el criterio de información de Akaike y el criterio de información
Bayesiano, concluimos que el modelo más adecuado para la relación funcional entre el diámetro
biparietal y la edad gestional fue el modelo Logı́stico, aunque la diferencias entre los valores fue
73
74 CAPÍTULO 6. CONCLUSIONES Y COMENTARIOS.
muy pequeña, esto nos lleva a intuir que los modelos son todos bastante adecuados para dicha
relación funcional.
Con respecto a la aplicación del método secuencial 1, podemos concluir que es un método
suficientemente útil para elegir el modelo más adecuado al comportamiento del fenómeno, además
que se puede obtener una probabilidad que nos evalúa la elección que se realice, en este trabajo
se encontró que el modelo más adecuado para la relación entre DBP y la edad gestional es el
modelo logı́stico y además se obtuvo que la probabilidad de seleccionar este modelo como correcto
fue de 0.301456, está probabilidad tan baja se obtuvo debido a que los cuatro modelos resultaron
ser adecuados al comportamiento observado, esto nos dice que muestras más adecuados sean todos
los modelos propuestos más difı́cil es seleccionar el modelo más competitivo o adecuado para el
fenómeno observado, esto se pudo concluir gracias a las pruebas de hipótesis para aplicadas para
determinar si los modelos están muy cercanos para poder discriminar.
De forma análoga a los dos métodos anteriores, en el método LSE se obtuvo el mismo resultado
de que el modelo Logı́stico es el más adecuado para modelar la relación funcional entre DBP y
Gest.
En conclusión para los datos médicos podemos asegurar que el modelo más adecuado es el
modelo Logı́stico, debido a que todos los criterios usados dieron el mismo resultado.
Como conclusión para poder discriminar de un conjunto de modelos competitivos considero que
si es posible, tratar tener sólo dos modelos competitivos ya que el tener muchos modelos complica, el
poder discriminar cual de todos es el más adecuado, pero si no hay remedio de tener k = 2 modelos,
consideró que serı́a conveniente usar más de un método para poder discernir cual es el modelo más
adecuado, más si los modelos propuestos todos son adecuados para describir el comportamiento
observado, pero el primer método que se recomienda por su fácil aplicación el criterio de información
de Akaike o Bayesiano de acuerdo a la situación, para tener una idea rápida del ranqueo posible
de los modelos y luego aplicar un método que nos pueda evaluar la probabilidad de realizar una
selección correcta del modelo.
Bibliografı́a
[1] Bates D.M. and Watts D.G (1988). Nonlinear Regression Analysis and its Applications, Jonh
Wiley and Sons.
[2] Borowiak Dale S. (1989), Model Discrimination for Nonlinear Regression Models, New York:
Marcel Dekker, INC.
[3] Davidson, R., and J. G. MacKinnon (1981). “Several tests for model specificationin the pres-
ence of alternative hypotheses,” Econometrica, 49, 781 − 793.
[4] Rusell Davidson and James G. MacKinnon. Econometric Theory and Methods.
[5] Garcı́a Parra Marı́a Dolores (2009). Estudio del crecimiento y producción de nisina A, por
Lactococcus Lactis U Q − 2 en leche descremada.
[6] Hirata G; Medearis A; Horenstein J;: Bear M; Platt L. Estimación ultrasonografica del peso
en el feto clinicamente macrosomico. Am J Obstet Gynecol, 1990; 162 : 238 − 242.
[7] Gallant A. Ronald (1987), Nonlinear Statistical Models, New York: Jonh Willey.
[8] Greene William H, (2003) Econometric Analysis, New Jersey: Printice Hall.
[9] Jerzy Szroeter (1999), Testing Non-Nested Econometric Models. The current State of economic
Science.
[10] Ratkowsky David A. (1983) . Nonlinear Regression Modeling A Unified Practical Approach,
New York: Dekker.
[11] Russell L. Deter, Ivar K. Rossavik and Ronald B. Harrist, (M ay 1988) , Development of Indi-
vidual Growth Curve Standards for Estimated Fetal Weight: I. Weight Estimation Procedure.
J Clin Ultrasound 16 : 215 − 225.
[12] Russell L. Deter and Ivar K. Rossavik, (1987), A simplified Method for Determining Individual
Growth Curve Standards, Obstetrics & Gynecology.
[13] Seber George Arthur Frederck and Wild C.J (2003) , Nonlinear Regression, New York: Jonh
Wiley.
75
76 BIBLIOGRAFÍA
Apéndice A
Método de Gauss-Newton.
Yn = f (xn , θ) + εn
1. Y = [Y1 , ..., Yn ]T
2. X = [x1 , ..., xn ]T
0
3. E (ε) = 0, E ε ε = Iσ 2 .
El objetivo es minimizar la suma de cuadrados de los residuales para encontrar los estimadores:
0
S (θ) = [Y − f (X, θ)] [Y − f (X, θ)]
Al derivar con respecto a θ, tendremos
0
∂S (θ) ∂f (X, θ)
= −2 [Y − f (X, θ)] = 0
∂θ ∂θ
0
donde ∂f (X,θ)
∂β es el jacobiano de f (X, θ) . Al usar la aproximación a través de el desarrollo de la
serie de taylor de primer orden alrededor del punto inicial β1 , tendremos
∂f (xi , θ) ∂f (xi , θ)
f (xi , θ) ≈ f (xi , θ1 ) + |θ1 · · · |θp (θ − θ1 )
∂θ ∂θ
En forma matricial:
f (X, θ) ≈ f (X, θ1 ) + Z (θ1 ) (θ − θ1 )
77
78 APÉNDICE A. MÉTODO DE GAUSS-NEWTON.
∂f (X,θ)
donde Z (θ1 ) = ∂θ |θ1 , si sustituimos esta aproximación en (A.1) obtenemos
Y ≈ f (X, θ1 ) + Z (θ1 ) (θ − θ1 ) + ε
si definimos Y (θ1 ) = Y − f (X, θ1 ) + Z (θ1 ) θ1 , obtenemos un pseudomodelo lineal, de la forma
Y (θ1 ) = Z (θ1 ) θ + ε
Por mı́nimos cuadrados ordinarios, ya que el modelo es lineal, obtenemos un segundo valor para θ :
h i−1 0
θ2 = Z (θ1 )T Z (θ1 ) Z (θ1 ) Y (θ1 )
Una vez alcanzado el valor por medio del proceso iterativo anteriormente descrito, falta deter-
minar si el valor alcanzado corresponde realmente a un mı́nimo (0 si el valor es un máximo), si es
ası́, si este mı́nimo es de carácter global o local.
Para tratar de maximizar las posibilidades de que se trata de un mı́nimo absoluto y no tan solo
de un mı́nimo local, una de las prácticas habituales consiste en utilizar el algoritmo para diferentes
valores inı́ciales de θ. Para los distintos valores inı́ciales, podemos obtener distintos mı́nimos de
la función, el mı́nimo que corresponde a la menor suma de cuadrados de los residuales será el
estimador del parámetro por mı́nimos cuadrados no lineales.
El algoritmo por si sólo no puede conducir en dirección a un máximo, ya que si partimos de
0
∂S (θ) ∂f (X, θ)
= −2 [Y − f (X, θ)]
∂θ ∂θ
0
= −2Z (θ) [Y − f (X, θ)]
= 0
entonces para la estimación n + 1 de θ se puede expresar como:
h i−1 0
θn+1 = θn + Z (θn )T Z (θn ) Z (θn ) [Y − f (X, θn )]
1h i−1 ∂S (θ)
= θn + Z (θn )T Z (θn ) |θn
2 ∂θ
h i−1
Dado que Z (θn )T Z (θn ) será siempre positiva debido a que es una función cuadrática, se
comienza el procedimiento con un valor inicial de θ situado a la derecha de un mı́nimo, la pendiente
de la función a minimizar S (θ) será positiva, por lo cual el algoritmo conducirá en la dirección
correcta, es decir al mı́nimo de la función. Ahora si se comienza con un valor inicial de θ situado
a la izquierda de un mı́nimo, la pendiente de S (θ) será negativa, por lo cual el cambio en θ será
positivo y nuevamente nos moveremos hacia un mı́nimo.
Apéndice B
79
80 APÉNDICE B. GRÁFICAS DE DATOS EXPERIMENTALES.
Trat 1. Trat 2
Trat 3. Trat 4
Trat 5. Trat 6
Trat 7. Trat 8
Trat 9. Trat 10
Trat 1. Trat 2
Trat 3. Trat 4
Trat 5. Trat 6
Trat 7. Trat 8
Trat 9. Trat 9
Teorema de Frisch-Waugh-Lovell.
y = X1 β1 + X2 β2 + u (C.1)
M1 y = M1 X2 β2 + residuales (C.2)
Demostración.
El estimador de β2 de (C.2) , esta dado por
−1
βb2 = X2T M1 X2 X2T M1 y
Sean βb1 y βb2 los dos vectores de estimadores de mı́nimos cuadrados de (C.1). Entonces si X =
[X1 X2 ]
y = Iy
= (PX + MX )
= PX y + M X y
= X βb + MX y
= X1 βb1 + X2 βb2 + MX y
85
86 APÉNDICE C. TEOREMA DE FRISCH-WAUGH-LOVELL.
y = X1 βb1 + X2 βb2 + MX y
X T M1 y = X T M1 X1 βb1 + X T M1 X2 βb2 + X T M1 MX y
2 2 2 2
= X2T (1 − PX1 ) X1 βb1 + X2T M1 X2 βb2 + X2T (1 − PX1 ) (1 − PX ) y
−1 T
= X2T 1−X1 X1T X1 X1 X1 βb1 +X2T M1 X2 βb2 +X2T (1−PX1 −PX +PX1 PX ) y
−1 T
= X2T X1 −X1 X1T X1 X1 X1 βb1 +X2T M1 X2 βb2 +X2T (1−PX1 −PX +PX1 PX ) y
El cual coincide con βb2 de (C.2). Esto demuestra la primera parte del teorema.
Para demostrar la segunda parte del teorema multiplicamos por M1 a la siguiente igualdad
y = X1 βb1 + X2 βb2 + MX y
Entonces
M1 y = M1 X1 βb1 + M1 X2 βb2 + M1 MX y
= 0 + M1 X2 βb2 + MX y
= M1 X2 βb2 + MX y (C.3)
Al comparar con (C.2) y (C.3), observamos que sus regresandos son iguales. Dado que βb2 es el
estimador de β2 de (C.2), por la primera parte del teorema, el primer término de (C.3) es el vector
de valores ajustados de está regresión. Entonces el segundo término debe ser el vector de residuales
de (C.2). Pero MX y es también el vector de residuales de (C.1) y esto demuestra la segunda parte
del teorema.
Apéndice D
Programas en R.
Como se citó antenriormente, el programa que se uso para programar las pruebas de hipótesis, los
métodos de información y los criterios de información fue el paquete R versión 2.6.1 (2007-11-26).
A continuación se presenta una descripción del contenido de este capı́tulo. La primera sección
presenta los modelos ajustados a los datos medicos, los cuales son; el modelo cúbico, modelo
cuadrático, el modelo gompertz y el modelo Logı́stico. En la siguiente sección se programo los
criterios de información de Akaike y Bayesiano, posteriormente están los programas para la prueba
de Williams y la prueba tilde de Atkinson, ası́ como la prueba LSE, después se encuentra la prueba
para verificar que no halla falta de ajuste en los modelos propuesto, posteriomente esta el programa
para realizar el ranqueo de las probabilidades de una selección correcta para el método secuencial
1 y luego está el programa para realizar el método secuencial 1 y por último está el programa para
el ajuste de los modelos propuestos para los datos de bioquı́mica junto con los programas, para
realizar las pruebas de hipótesis de Davidson y M acKinnon.
87
88 APÉNDICE D. PROGRAMAS EN R.
f4.1=matrix(f4,nrow=252,ncol=1,byrow=FALSE)
DBP.1=matrix(DBP,nrow=252,ncol=1)→⊂
Z.1=t(DBP.1)%*%f1.1-t(f1.1)%*%f1.1
Z.2=t(DBP.1)%*%f2.1-t(f2.1)%*%f2.1
Z.3=t(DBP.1)%*%f3.1-t(f3.1)%*%f3.1
Z.4=t(DBP.1)%*%f4.1-t(f4.1)%*%f4.1
Z=matrix(c(Z.1,Z.2,Z.3,Z.4),nrow=4,ncol=1,byrow=FALSE)
m=c(f1,f2,f3,f4)
length(m)
x=matrix(m, nrow = 252, ncol = 4, byrow = FALSE)
d=matrix(c(rep(1,4)),nrow=4,ncol=1)
Q=t(Z)%*%solve(t(x)%*%x)%*%Z-((t(Z)%*%solve(t(x)%*%x)%*%d)
ˆ2)/(t(d)%*%solve(t(x)%*%x)%*%d)
n=252
k=4
F.observado=((n-k)%*%Q)/((k-1)%*%SSR.Multiple)
F.stat ¡- qf(p=0.95,df1=3,df2=249);
f.1.3=matrix(f1-f3,nrow=252,ncol=1,byrow=FALSE)
f.1.4=matrix(f1-f4,nrow=252,ncol=1,byrow=FALSE)
f.2.1=matrix(f2-f1,nrow=252,ncol=1,byrow=FALSE)
f.2.3=matrix(f2-f3,nrow=252,ncol=1,byrow=FALSE)
f.2.4=matrix(f2-f4,nrow=252,ncol=1,byrow=FALSE)
f.3.1=matrix(f3-f1,nrow=252,ncol=1,byrow=FALSE)
f.3.2=matrix(f3-f2,nrow=252,ncol=1,byrow=FALSE)
f.3.4=matrix(f3-f4,nrow=252,ncol=1,byrow=FALSE)
f.4.1=matrix(f4-f1,nrow=252,ncol=1,byrow=FALSE)
f.4.2=matrix(f4-f2,nrow=252,ncol=1,byrow=FALSE)
f.4.3=matrix(f4-f3,nrow=252,ncol=1,byrow=FALSE)
delta.1.2=t(f.1.2)%*%f.1.2
delta.1.3=t(f.1.3)%*%f.1.3
delta.1.4=t(f.1.4)%*%f.1.4
delta.2.1=t(f.2.1)%*%f.2.1
delta.2.3=t(f.2.3)%*%f.2.3
delta.2.4=t(f.2.4)%*%f.2.4
delta.3.1=t(f.3.1)%*%f.3.1
delta.3.2=t(f.3.2)%*%f.3.2
delta.3.4=t(f.3.4)%*%f.3.4
delta.4.1=t(f.4.1)%*%f.4.1
delta.4.2=t(f.4.2)%*%f.4.2
delta.4.3=t(f.4.3)%*%f.4.3
delta.1.2.3=sum((f2-f1)*(f3-f1))
delta.1.2.4=sum((f2-f1)*(f3-f1))
delta.1.3.2=sum((f3-f1)*(f2-f1))
delta.1.3.4=sum((f3-f1)*(f4-f1))
delta.1.4.2=sum((f4-f1)*(f2-f1))
delta.1.4.3=sum((f4-f1)*(f3-f1))
delta.2.1.3=sum((f1-f2)*(f3-f2))
delta.2.1.4=sum((f1-f2)*(f4-f2))
delta.2.3.1=sum((f3-f2)*(f1-f2))
delta.2.3.4=sum((f3-f2)*(f4-f2))
delta.2.4.1=sum((f4-f2)*(f1-f2))
delta.2.4.3=sum((f4-f2)*(f3-f2))
delta.3.1.2=sum((f1-f3)*(f2-f3))
delta.3.1.4=sum((f1-f3)*(f4-f3))
delta.3.2.1=sum((f2-f3)*(f1-f3))
delta.3.2.4=sum((f2-f3)*(f4-f3))
delta.3.4.1=sum((f4-f3)*(f1-f3))
delta.3.4.2=sum((f4-f3)*(f2-f3))
delta.4.1.2=sum((f1-f4)*(f2-f4))
delta.4.1.3=sum((f1-f4)*(f3-f4))
delta.4.2.1=sum((f2-f4)*(f1-f4))
delta.4.2.3=sum((f2-f4)*(f3-f4))
92 APÉNDICE D. PROGRAMAS EN R.
delta.4.3.1=sum((f3-f4)*(f1-f4))
delta.4.3.2=sum((f3-f4)*(f2-f4))
w.3=d.3/(2*sigma)
P.CS.3=pnorm(w.1)*pnorm(w.2)*pnorm(w.3)
P.CS.3
D.7.2 Paso 2
g.2=c(f.1.4,f.2.4)
G.2=matrix(g.2,nrow=252,ncol=2)
d=matrix(rep(1,2),nrow=2,ncol=1,byrow=FALSE)
A.2=G.2%*%solve(t(G.2)%*%G.2)%*%d
d.2=(t(d)%*%solve(t(G.2)%*%G.2)%*%d)ˆ(-1/2)
h.2=2*t(A.2)%*%residual.Logistico/((t(A.2)%*%A.2)ˆ(1/2))
### Construccion del B.1.1 y B.1.2
t(f.1.4)%*%A.2
t(f.2.4)%*%A.2
alpha.2=d.2/(2*sigma)
xi.2=alpha.2
#beta.2=infinito
### Nota: Para este caso tenemos que B.1.1 es vacio por tanto el limite
### inferior es infinito y el limite superior es el maximo de las
### d.2 en este caso es 2.907512.
### Nota: El resultado obtenido es que h.2=1.673862 por tanto el modelo
94 APÉNDICE D. PROGRAMAS EN R.
### es aceptado.
#############################################
#### Probabilidades de selección. ####
#############################################
#### P(CS(f.(4)))
P.CS=pnorm(d.1/(2*sigma))*pnorm(d.2/(2*sigma))
P.CS
#### P.IS
p.1=pnorm(d.1/(2*sigma),lower.tail = FALSE)
p.2=pnorm(d.2/(2*sigma),lower.tail = FALSE)*pnorm(d.1/(2*sigma))
P.IS=max(p.1,p.2)
P.IS
#### Nota: Del teorema 2.4.2 tenemos que P.IS=0.4813207
#### y P.CS= 0.301456. Podemos ver que la pobrabilidad P.CS es muy pequeña.
e.3.1=2*t(f.1.3)%*%residual.gompertz
e.3.2=2*t(f.2.3)%*%residual.gompertz
e.3.4=2*t(f.4.3)%*%residual.gompertz
e.3.1
e.3.2
e.3.4
delta.1.3
delta.2.3
delta.4.3
#### Nota: tampoco el modelo gompertz es seleccionado.
#######################
#### Modelo 4 ####
#######################
e.4.1=2*t(f.1.4)%*%residual.Logistico
e.4.2=2*t(f.2.4)%*%residual.Logistico
e.4.3=2*t(f.3.4)%*%residual.Logistico
e.4.1
e.4.2
e.4.3
delta.1.4
delta.2.4
delta.3.4
#### Nota: El modelo Logistico cumple con el evento por lo tanto es el modelo selec-
cionado del conjunto de modelos competitivos.
#####################################
#### Probabilidades de selección ####
#####################################
p.1=1-pnorm((delta.4.1)/(2*sigma))
p.2=1-pnorm((delta.4.2)/(2*sigma))
p.3=1-pnorm((delta.4.3)/(2*sigma))
P.IS.Logistico=max(p.1,p.2,p.3)
P.IS.Logistico
p.1=pnorm((delta.4.1)/(2*sigma))
p.2=pnorm((delta.4.2)/(2*sigma))
p.3=pnorm((delta.4.3)/(2*sigma))
P.CS.Logistico=min(p.1,p.2,p.3)
P.CS.Logistico
Trat.4=datos[,5]
Trat.5=datos[,6]
Trat.6=datos[,7]
Trat.7=datos[,8]
Trat.8=datos[,9]
Trat.9=datos[,10]
Trat.10=datos[,11]
Trat.11=datos[,12]
Trat.12=datos[,13]
Trat.13=datos[,14]
Trat.14=datos[,15]
Trat.15=datos[,16]
Trat.16=datos[,17]
Trat.17=datos[,18]
Trat.18=datos[,19]
var=var(Tiempo)
sigma=sqrt(var)
a.l.i=4.4302 # Estos parámetros son los obtenidos de ajuste del modelo logı́stico a cada
tramiento.
b.l.i=2.4822
c.l.i=0.9944
I=matrix(rep(1,196),ncol=14,nrow=14,byrow=TRUE)
M=1-F%*%solve(t(F)%*%F)%*%t(F)
numerador=t(Trat.i-Predict.Logistico.trat.i)%*%t(M)%*
%(Predict.gompertz.trat.i-Predict.Logistico.trat.i)
denominador=sigma*sqrt(t(Predict.gompertz.trat.i-Predict.Logistico.trat.i)%*%t(M)%*%
(Predict.gompertz.trat.i-Predict.Logistico.trat.i))
estadistico.t=numerador/denominador
p.valor=pt(estadistico.t, df=11, lower.tail = TRUE, log.p = FALSE)
p.valor