Está en la página 1de 108

UNIVERSIDAD AUTÓNOMA CHAPINGO

DIVISIÓN DE CIENCIAS FORESTALES

MODELOS DE TIEMPOS DE VIDA Y SUS APLICACIONES EN

EL MODELAJE DE MORTALIDAD FORESTAL

TESIS

QUE COMO REQUISITO PARCIAL PARA

OBTENER EL TÍTULO DE:

LICENCIADO EN ESTADÍSTICA

PRESENTA:

JOSÉ ANTONIO FLORES CRUZ

Chapingo, Edo. de México, Marzo de 2011.


Agradecimientos
Agradezco a Dios por todas las cosas buena que me ha dado y las personas que me
ha permitido conocer.

Un agradecimiento especial para la Universidad Autónoma Chapingo por haberme


cobijado por siete largos y provechosos años.

Agradezco el respaldo que he tenido por parte de mi familia, mis padres abuelos y
hermanos.

Agradezco a mis amigos y profesores, quienes de una u otra forma me han acompaña-
do y ayudado; en especial a mis amigos María de los Ángeles Soriano Luna y Felipe
Valentín López Figueroa y a los profesores Carlos Cíntora González, Gerardo Terra-
zas González, Margarito Soriano Montero, Ángel Leyva Ovalle y Alejandro Corona
Ambris por su apoyo incondicional en la elaboración de la presente tesis.
Índice General

1. Introducción a los modelos de tiempos de vida 2


1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Ejemplos de tiempos de vida . . . . . . . . . . . . . . . . . . . . . . . 3
1.3. Importancia de los tiempos de vida . . . . . . . . . . . . . . . . . . . 3
1.4. Medidas de conabilidad . . . . . . . . . . . . . . . . . . . . . . . . . 4

2. Tiempos de vida con datos censurados 9


2.1. Datos Censurados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2. El estimador de Kaplan-Meier . . . . . . . . . . . . . . . . . . . . . 10
2.2.1. Estimación de la Varianza . . . . . . . . . . . . . . . . . . . . 11
2.3. El estimador de Nelson-Aalen . . . . . . . . . . . . . . . . . . . . . . 12
2.4. Comparación de funciones de supervivencia . . . . . . . . . . . . . . 13

3. Modelos paramétricos para tiempos de vida 15


3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2. Distribución Exponencial . . . . . . . . . . . . . . . . . . . . . . . . 15
3.3. Distribución Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.4. Distribución Gumbel (Valor Extremo) . . . . . . . . . . . . . . . . . 18
3.5. Distribución Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.6. Distribución Log-normal . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.7. Distribución Log-logística . . . . . . . . . . . . . . . . . . . . . . . . 20
3.8. Distribución Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.9. Modelos Log-Localidad-Escala . . . . . . . . . . . . . . . . . . . . . 21
3.10. Grácos que permiten identicar modelos paramétricos . . . . . . . . 22
3.10.1. Grácas de probabilidades . . . . . . . . . . . . . . . . . . . . 23
3.10.2. Grácas de riesgo . . . . . . . . . . . . . . . . . . . . . . . . . 25

4. Inferencia para tiempos de vida censurados 26


4.1. Función de Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . 26
4.2. Prueba de Hipótesis y Regiones de Conanza . . . . . . . . . . . . . . 28

iii
iv ÍNDICE GENERAL

4.3. El estimador de Kaplan-Meier como un estimador de máxima verosi-


militud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.4. Censura por la derecha y Máxima Verosimilitud . . . . . . . . . . . . 30
4.5. Censura tipo I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.6. Variables Aleatorias Independientes y Censuradas . . . . . . . . . . . 32
4.7. Censura Tipo II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.8. Inferencia para las Distribuciones Log-Localidad-Escala . . . . . . . 34
4.8.1. Ejemplo para la distribución Exponencial . . . . . . . . . . . . 36
4.8.2. Ejemplo para la distribución Weibull . . . . . . . . . . . . . . 39

5. Tiempos de Vida y Modelos de Regresión 41


5.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.2. Regresión con modelos paramétricos . . . . . . . . . . . . . . . . . . . 42
5.2.1. Modelos de Regresión Log-Localidad-Escala . . . . . . . . . . 42
5.3. Inferencia para modelos de regresión Log-Localidad-Escala . . . . . . 43
5.3.1. Ejemplo para la distribuciones Weibull . . . . . . . . . . . . . 45

6. Aplicación de los tiempos de vida en un inventario forestal 47


6.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
6.2. Herramientas del inventario forestal . . . . . . . . . . . . . . . . . . . 48
6.3. El inventario forestal y los tiempos de vida . . . . . . . . . . . . . . . 49
6.4. Aplicación a un Problema Forestal . . . . . . . . . . . . . . . . . . . 51
6.4.1. Los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
6.4.2. Estimación de la función de supervivencia . . . . . . . . . . . 52
6.4.3. Ajuste del modelo paramétrico . . . . . . . . . . . . . . . . . . 56
6.4.4. El modelo de regresión . . . . . . . . . . . . . . . . . . . . . . 58
6.4.5. Función de supervivencia entre sitios . . . . . . . . . . . . . . 60
6.5. Aplicación a un Problema Forestal . . . . . . . . . . . . . . . . . . . 65
6.5.1. Los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.5.2. Estimación de la función de supervivencia . . . . . . . . . . . 67
6.5.3. Ajuste del modelo paramétrico . . . . . . . . . . . . . . . . . . 70
6.5.4. El modelo de regresión . . . . . . . . . . . . . . . . . . . . . . 72
6.5.5. Función de supervivencia entre sitios . . . . . . . . . . . . . . 74

A. Apéndice A 80
A.1. Introducción al Lenguaje R . . . . . . . . . . . . . . . . . . . . . . . 80
A.2. Instalación de R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
A.3. Instalación de paquetes adicionales . . . . . . . . . . . . . . . . . . . 81
A.4. Ayudas y documentación de R . . . . . . . . . . . . . . . . . . . . . . 82
A.5. Acceso a datos internos y Externos . . . . . . . . . . . . . . . . . . . 82
A.6. Asignación y Vericación de objetos . . . . . . . . . . . . . . . . . . . 82

iv
ÍNDICE GENERAL v

A.7. Especicaciones de caracteres . . . . . . . . . . . . . . . . . . . . . . 83


A.8. Datos faltantes y Comentarios en R . . . . . . . . . . . . . . . . . . . 83
A.9. Creación de datos en R . . . . . . . . . . . . . . . . . . . . . . . . . . 83
A.10.Envío de grácos a otros programas . . . . . . . . . . . . . . . . . . . 84
A.11.Salir del programa R . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
A.12.Análisis de supervivencia utilizando el lenguaje R . . . . . . . . . . . 84
A.13.El paquete survival . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
A.14.La función Surv . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
A.15.La función survt y survdi . . . . . . . . . . . . . . . . . . . . . . . 87
A.16.La función coxph . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
A.17.La función cox.zph . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
A.18.La función residuals . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
A.19.La función survreg y la función survreg.distributions . . . . . . . . . . 89

v
Índice de cuadros

2.1. Cuadro usado para contrastar dos funciones de supervivencia en el


tiempo de observación ti . . . . . . . . . . . . . . . . . . . . . . . . . . 13

6.1. Tiempos de vida de Populus tremuloides Michx para el sitio de mues-


treo Manitoba, MB, rodal 3. . . . . . . . . . . . . . . . . . . . . . . . 51

6.2. Estimación de la función de supervivencia por método de Kaplan-Meier


para los tiempos de vida de Populus tremuloides Michx. . . . . . . . 53

6.3. Estimación de la función de supervivencia por el método de Kaplan-


Meier para ausencia de dosel. Tiempos de vida de Populus tremuloides
Michx. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

6.4. Estimación de la función de supervivencia por el método de Kaplan-


Meier para presencia de dosel. Tiempos de vida de Populus tremuloides
Michx. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

6.5. Prueba de igualdad de curvas para presencia y ausencia de dosel. Tiem-


pos de vida de Populus tremuloides Michx. . . . . . . . . . . . . . . 56

6.6. Comparación de modelos paramétricos por el método del log-verosimilitud


para los tiempos de vida de Populus tremuloides Michx. . . . . . . . 57

6.7. Parámetros estimados utilizando la distribución Gumbel de valor ex-


tremo, para los tiempos de vida de Populus tremuloides Michx. . . . 59

6.8. Tiempos de vida de Populus tremuloides Michx. en el sitio de muestreo


EMEND, AB, rodal 13. . . . . . . . . . . . . . . . . . . . . . . . . . . 61

6.9. Estimación de la función de supervivencia a través del método de


Kaplan-Meier para los tiempos de vida de Populus tremuloides Michx.
en el sitio de muestreo EMEND, AB, rodal 13. . . . . . . . . . . . . . 61

6.10. Prueba de igualdad de curvas de supervivencia para los tiempos de


vida de Populus tremuloides Michx. Para los sitios Manitoba, MB,
rodal 3 y EMEND, AB, rodal 13. . . . . . . . . . . . . . . . . . . . . 63

6.11. Estimación de la función de supervivencia para dosel ausente. Tiempos


de vida de Populus tremuloides Michx. Sitio de muestreo EMEND, AB,
rodal 13. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

vi
ÍNDICE DE CUADROS vii

6.12. Estimación de la función de supervivencia para dosel presente. Tiempos


de vida de Populus tremuloides Michx. en el sitio de muestreo EMEN,
AB, rodal 13. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6.13. Prueba de igualdad de curvas de supervivencia (dosel presente y au-
sente) para los tiempos de vida de Populus tremuloides Michx. Sitio
de muestreo EMEND, AB, rodal 13. . . . . . . . . . . . . . . . . . . 65
6.14. Tiempos de vida de Populus tremuloides Michx para el sitio de mues-
treo Manitoba, MB, rodal 3. . . . . . . . . . . . . . . . . . . . . . . . 66
6.15. Estimación de la función de supervivencia por método de Kaplan-Meier
para los tiempos de vida de Populus tremuloides Michx. . . . . . . . 67
6.16. Estimación de la función de supervivencia por el método de Kaplan-
Meier para ausencia de dosel. Tiempos de vida de Populus tremuloides
Michx. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.17. Estimación de la función de supervivencia por el método de Kaplan-
Meier para presencia de dosel. Tiempos de vida de Populus tremuloides
Michx. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
6.18. Prueba de igualdad de curvas para presencia y ausencia de dosel. Tiem-
pos de vida de Populus tremuloides Michx. . . . . . . . . . . . . . . 70
6.19. Comparación de modelos paramétricos por el método del log-verosimilitud
para los tiempos de vida de Populus tremuloides Michx. . . . . . . . 71
6.20. Parámetros estimados utilizando la distribución Gumbel de valor ex-
tremo, para los tiempos de vida de Populus tremuloides Michx. . . . 73
6.21. Tiempos de vida de Populus tremuloides Michx. en el sitio de muestreo
EMEND, AB, rodal 13. . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.22. Estimación de la función de supervivencia a través del método de
Kaplan-Meier para los tiempos de vida de Populus tremuloides Michx.
en el sitio de muestreo EMEND, AB, rodal 13. . . . . . . . . . . . . . 75
6.23. Prueba de igualdad de curvas de supervivencia para los tiempos de
vida de Populus tremuloides Michx. Para los sitios Manitoba, MB,
rodal 3 y EMEND, AB, rodal 13. . . . . . . . . . . . . . . . . . . . . 77
6.24. Estimación de la función de supervivencia para dosel ausente. Tiempos
de vida de Populus tremuloides Michx. Sitio de muestreo EMEND, AB,
rodal 13. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
6.25. Estimación de la función de supervivencia para dosel presente. Tiempos
de vida de Populus tremuloides Michx. en el sitio de muestreo EMEN,
AB, rodal 13. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.26. Prueba de igualdad de curvas de supervivencia (dosel presente y au-
sente) para los tiempos de vida de Populus tremuloides Michx. Sitio
de muestreo EMEND, AB, rodal 13. . . . . . . . . . . . . . . . . . . 79

vii
Índice de guras

1.1. Gráca del comportamiento de la función de riesgo . . . . . . . . . . 7

6.1. Curva de supervivencia para los tiempos de vida de Populus tremuloi-


des Michx. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
6.2. Comparación de las curvas de supervivencia para presencia y ausencia
de dosel. Tiempos de vida de Populus tremuloides Michx. . . . . . . 55
6.3. Gráca de probabilidad para la distribución Gumbel de valor extre-
mo y la distribución Log-normal para los tiempos de vida de Populus
tremuloides Michx. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
6.4. Modelo ajustado utilizando la distribución Gumbel de valor extremo
para los tiempos de vida de Populus tremuloides Michx. Sitio de mues-
treo Manitoba, MB, rodal 13 . . . . . . . . . . . . . . . . . . . . . . . 60
6.5. Función de supervivencia para los tiempos de vida de Populus tremu-
loides Michx. Sitios de muestreo Manitoba, MB, rodal 3 y EMEND,
AB, rodal 13. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.6. Comparación de las curvas de supervivencia (dosel presente y ausente)
para los tiempos de vida de Populus tremuloides Michx. en el sitio de
muestreo EMEND, AB, rodal 13. . . . . . . . . . . . . . . . . . . . . 64
6.7. Curva de supervivencia para los tiempos de vida de Populus tremuloi-
des Michx. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
6.8. Comparación de las curvas de supervivencia para presencia y ausencia
de dosel. Tiempos de vida de Populus tremuloides Michx. . . . . . . 70
6.9. Gráca de probabilidad para la distribución Gumbel de valor extre-
mo y la distribución Log-normal para los tiempos de vida de Populus
tremuloides Michx. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
6.10. Modelo ajustado utilizando la distribución Gumbel de valor extremo
para los tiempos de vida de Populus tremuloides Michx. Sitio de mues-
treo Manitoba, MB, rodal 13 . . . . . . . . . . . . . . . . . . . . . . . 74
6.11. Función de supervivencia para los tiempos de vida de Populus tremu-
loides Michx. Sitios de muestreo Manitoba, MB, rodal 3 y EMEND,
AB, rodal 13 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

viii
ÍNDICE DE FIGURAS ix

6.12. Comparación de las curvas de supervivencia (dosel presente y ausente)


para los tiempos de vida de Populus tremuloides Michx. en el sitio de
muestreo EMEND, AB, rodal 13. . . . . . . . . . . . . . . . . . . . . 78

ix
Resumen
La presente tesis muestra la forma en la que se pueden usar los tiempos de vida para
crear modelos de predicción de mortalidad forestal de tal forma que se haga uso de
la información que es recolectada en los inventarios forestales. Se utiliza la variable
intensidad de luz para mostrar que la intensidad de luz es un factor inuyente en
la mortalidad de la especie arbórea Populus tremuloides (Michx). Posteriormente se
realiza una comparación de las curvas de supervivencia, para la misma especie, man-
teniendo las condiciones de intensidad luz y cambiado la localización geográca con
la nalidad de detectar variaciones en el comportamiento de las curvas de supervi-
vencia y asignarla de esta manera como factor inuyente en la mortalidad de Populus
tremuloides (Michx).

Palabras Clave: Censura, Covariable Distribución de vida, Estimador de Kaplan-


Meier, Tiempo de vida.

x
Summary
This thesis shows how you can use the lifetime to create prediction models of forest
mortality using the information that is collected in forest inventories. We used the
variable intensity of light to teach that the intensity of light is an inuence factor in
mortality of the tree species em Populus tremuloides (Michx). After that, we realized
a comparison of survival curves for the same species, under similar conditions of light
intensity, but with dierent geographical location in order to detect variations in the
behavior of the survival curves and thus assign it as a inuence factor in the mortality
of em Populus tremuloides (Michx).

Key Words: Censored, Covariable, Lifetime, Lifetime Distribution, Kaplan-Meier


Estimator.

xi
Introducción General
Generar modelos de predicción preciso para estimar mortalidad forestal usando varia-
bles de tiempo de vida, se ha convertido en una herramienta necesaria para el desa-
rrollo de mejores modelos de producción. El empleo de la estadística en el modelaje
de diferentes comportamientos de crecimiento y mortalidad se ha venido utilizando
desde hace ya algunas décadas; los primeros modelos de crecimiento y producción
aplicados a las ciencias forestales hacían uso de las distribuciones de probabilidad
para estimar la distribución del diámetro de los árboles [JB65].

Las ciencias forestales históricamente se han enfocado en desarrollar sub-modelos de


mortalidad individual de árboles para incorporarlos dentro de modelos de crecimiento
y producción. Sin embargo otras ciencias que monitorean poblaciones de organismo
vivientes, tales como la ciencia médica y la veterinaria han desarrollado metodologías
para evaluar la mortalidad de más de un simple individuo, comparado con ellas las
ciencias forestales tiene relativamente pocas metodologías para evaluar la mortalidad
forestal [CW05].

Métodos analíticos desarrollados por la ciencia médica para determinar la sobreviven-


cia colectiva pueden proveer la base para el desarrollo de nuevas técnicas analíticas de
mortalidad forestal [ZM03]. El análisis de supervivencia frecuentemente es denido
como una clase de método estadístico para el estudio de ocurrencia de eventos en el
tiempo, por lo general muerte. El análisis de supervivencia es la única técnica esta-
dística donde se incluyen datos censurados de las observaciones y también se pueden
incluir la información que se encuentra en las variables [All95].

Actualmente con el desarrollo de nuevas técnicas estadísticas, se han ido obteniendo


modelos de producción más precisos que hacen uso de la información contenida en
covariables; investigaciones recientes en ciencias forestales sobre mortalidad, se están
enfocando en hacer uso de las distribuciones de vida para modelar mortalidad fo-
restal ya que de ello depende la precisión de otros modelos. En diferentes modelos
de producción se tiene contemplado que el factor más importante a considerar es la
mortalidad forestal [CERJB06].

El objetivo de los modelos de tiempos de vida aplicado a la ciencia forestal sería


ajustar una distribución de tiempo de vida para determinar la mortalidad de cada
especie (s) forestal (es) y luego integrar el efecto que producen las covariables en el

xii
ÍNDICE DE FIGURAS xiii

proceso de muerte debido a factores que no puedan ser controlados por el ser humano.
Es frecuente que en un bosque se presente el problema de muerte o destrucción de
árboles forestales como resultado de la lucha por la existencia, enfermedades, daños
de insectos, sequía, viento, fuego y otros factores [CERJB06].
Se pueden utilizar una o varias variables explicativas (covariables) para obtener una
descripción del impacto de los factores no controlables en la producción en un tiempo
determinado. Con esta información se puedan realizar cálculos más precisos sin la
necesidad de invertir mucho tiempo y dinero en muestreos continuos.

xiii
Objetivo General
Mostrar el conjunto de procedimientos a seguir en la elaboración de modelos de tiem-
pos de vida para modelar mortalidad forestal.

Objetivos Particulares
Mostrar que los tiempos de vida pueden aplicarse a las ciencias forestales para la
creación de mejores de predicción de mortalidad forestal.
Contribuir en las ciencias forestales a través de la creación de métodos alternativos
de predicción de mortalidad forestal.
Ejemplicar la forma de utilizar los datos recolectados en los inventarios forestales
para crear modelos de supervivencia para las plantaciones forestales.
Ejemplicar la forma de encontrar variables que inuyen en el proceso de mortalidad
forestal.

xiv
Metodología
La metodología a seguir se fundamenta principalmente en la revisión bibliográca
de autores expertos en el tema de conabilidad como [ME98], [F.94], y [CMJo91].
Se revisaron algunos libros estrictamente relacionados con el tema de análisis de
tiempos de vida, artículos relacionados con la modelación de mortalidad forestal y
algunos manuales para el programa R y S-Plus. Se comienza con una introducción
de los tiempos de vida y sus aplicaciones en otras ciencias para dar a conocer los
términos usados en conabilidad, posteriormente se desarrollan algunas propiedades
que cumple la función de supervivencia. Se dene que es un dato censurado y los tipos
de censura, para introducir la metodología de estimación no paramétrica a través del
estimador de Kaplan-Meier. Se hace referencia a la teoría de Máxima Verosimilitud y
se detalla la forma de incluir los datos de tiempos de vida dentro de las estimaciones.
Se dan a conocer algunas formas para identicar las distribuciones de vida que se
ajustan a los datos de forma gráca o a través de paquetes estadísticos. Finalmente
se ajusta un modelo de regresión usando la información contenida en las covariables
el cual servirá para una mejor predicción de mortalidad forestal.

xv
Capítulo 1
Introducción a los modelos de
tiempos de vida

1.1. Introducción
El análisis estadístico de los tiempos de vida es de gran importancia en muchas
áreas de investigación, entre las que destacan la medicina, la ingeniería y las ciencias
sociales. En la actualidad se hace uso de las distribuciones de tiempos de vida en
investigaciones sobre tratamientos para el control de enfermedades, la durabilidad y
la manufactura de los productos en la industria, los movimientos demográcos, para
expedir una garantía, etc. Se está generando nuevos métodos que sean aplicables en
otros campos como es la agronomía y dentro de esta se pone especial interés en el
manejo forestal.

Uno de las principales problemáticas en el manejo forestal es la mortalidad que se da


como resultado de muchos factores, entre ellos la competencia por luz, agua nutrientes,
el ataques de plagas y patógenos o eventos catastrócos como terremotos, tornados y
huracanes. Algunos de estos factores pueden ser controlados a través de la aplicación
de ciertos tratamientos como fertilizantes y plaguicidas, pero otros como los causados
por fenómenos naturales escapan del control humano.

Poder predecir la mortalidad en un bosque es de suma importancia para monitorear


el crecimiento y la producción del mismo. Esto se puede llevar a cabo modelando
la mortalidad individual de los árboles, o de manera alternativa, su supervivencia.
Los modelos de supervivencia describen de manera más precisa el crecimiento en una
plantación, lo que lleva a una mejor estimación de la producción. Como ejemplo tóme-
se en cuenta el incremento en la producción maderable la cual depende del área basal
pero que es muy sensible a la mortalidad. Hasta ahora se ha puesto muy poca aten-
ción en utilizar los modelos de tiempos de vida como una herramienta de predicción
aún teniendo presente que la mayor variabilidad en las predicciones de rendimiento

2
1.2. Ejemplos de tiempos de vida 3

se encuentra en la estimación de la supervivencia de los árboles por unidad de área


[HRA02].
En otros campos de la ciencia como la medicina y la sociología se han utilizado
modelos basados en la función de riesgo de algunas distribuciones probabilísticas
como la Logística, Weibull, Log-normal, etc. Estos métodos pueden ser trasladados o
adaptados al campo forestal y de esta manera generar predicciones más precisas en
la producción de madera.

1.2. Ejemplos de tiempos de vida


El concepto de tiempo de vida"se reere al tiempo en que ocurre un determinado
evento, por lo general a este evento se le ha llamado muerte". En los últimos años la
aplicación de los tiempos de vida se ha ampliado a diferentes ramas de las ciencias;
ejemplos especícos son

La duración de componentes eléctricos tales como focos, motores eléctricos,


microprocesadores y otros.

La supervivencia de un paciente a un tratamiento médico.

El tiempo que una persona está desempleada.

La vida de una persona en un determinado país.

El tiempo que tarda un árbol en alcanzar un diámetro deseado.

1.3. Importancia de los tiempos de vida


Para introducir la importancia que tienen los tiempos de vida es necesario apoyarse
en un concepto estadístico conocido como conabilidad el cual se dene como la
probabilidad de funcionamiento satisfactorio de un objeto de interés (dispositivo)
a lo largo del tiempo. Normalmente se supone que para dispositivos idénticos, la
supervivencia (o tiempo de vida), se distribuye de tal forma que es posible modelarlo
mediante una función de densidad probabilística.
La conabilidad como área de la estadística, surge de la necesidad de evitar fallas
catastrócas (fallas que provocan la pérdida de la unidad) ya que la utilización de
unidades en actividades importantes requieren que estas tengan un adecuado nivel
de conabilidad. Por tanto, la extensión de las medidas de conabilidad para incluir
el tiempo implica la especicación de las distribuciones de probabilidad, las cuales
deben ser modelos razonables que expliquen de manera adecuada la dispersión del
tiempo de vida.

3
4 Capítulo 1. Introducción a los modelos de tiempos de vida

El aumento en la dependencia de la tecnología requiere que los productos fabrica-


dos funcionen correctamente por un periodo deseado o especicado. Por ejemplo,
en una compañía es esencial conocer la conabilidad de sus productos de tal forma
que se pueda determinar los tiempos de garantía, los precios de sus productos, etc.,
[CMJo91].
En una plantación forestal es de interés estimar las probabilidades de que un árbol
muera (tiempo de falla) o sobreviva por determinado tiempo, permitiendo generar
estimaciones acerca de la densidad del rodal, el área basal y hasta una aproximación
de los recursos de los cuales se dispondrá a lo largo del tiempo.

1.4. Medidas de conabilidad


A continuación se presentan algunas deniciones de utilidad en el tratamiento proba-
bilístico de la conabilidad.

Denición 1. Productos no reparables son aquellos productos que sólo pueden


fallar una vez, por ejemplo bombillas de luz, transistores, microprocesadores, etc. 

Denición 2. Productos reparables son aquellos productos que pueden fallar más
de una vez. En este caso es importante considerar la disponibilidad del producto
reparado que dependerá de la ocurrencia de fallas y del tiempo de mantenimiento,
por ejemplos automóviles, lavadoras, computadoras, etc. 

La variable aleatoria de importancia y que está implícita en la denición de conabi-


lidad, es la variable llamada tiempo de vida que es también el tiempo de funciona-
miento de un dispositivo. Es importante mencionar que la palabra tiempo se usa en
un sentido más general, ya que puede ser tiempo real, tiempo de operación, horas de
vuelo, kilómetros recorridos, o cualquier otra variable no negativa que sea de interés.
Al denotar el tiempo de vida con la variable T, la función de distribución de T se
representa por F (t), en donde

F (t) = P (T ≤ t) (1.1)

F (t) es la probabilidad de que el tiempo de vida de un dispositivo o individuo


es decir,
sea menor o igual al tiempo t.
La función de distribución F (t) satisface las siguientes propiedades:

1. 0 ≤ F (t) ≤ 1.

2. Es monótona no decreciente.

3. Es continua por la derecha.

4
1.4. Medidas de conabilidad 5

4. lı́m F (t) = 1 .
t→∞

5. lı́m F (t) = 0 .
t→0

A partir de la función de distribución se dene la función de conabilidad o función


de supervivencia, de la variable aleatoria T como

S(t) = P (T ≥ t) = 1 − P (T ≤ t) = 1 − F (t). (1.2)

La función de supervivencia cumple con las siguientes propiedades:

1. 0 ≤ S(t) ≤ 1 .

2. Monótona decreciente.

3. lı́m S(t) = 0 .
t→∞

4. lı́m S(t) = 1 .
t→0

5. El j -ésimo cuantíl de la distribución de T es el valor tj tal que P r(T ≤ tj ) = j ,


j ∈ (0, 1); es decir tj = F −1 (j).

No en todos los casos es fácil de encontrar la función de densidad f (t), pero en caso
de existir puede obtenerse de S(t) como sigue:

d d
f (t) = F (t) = − S(t) (1.3)
dt dt
f (t) proporciona una cuanticación de la dispersión de la distribución de vida.
La función h(t) se denomina función de riesgo y algunos también suelen llamarla como
la función de tasa de fallas o función de intensidad. La función h(t) es la probabilidad
condicional de falla en cualquier instante y como tal, es útil para caracterizar el
comportamiento del tiempo de vida de los dispositivos.
La construcción de la función de riesgo se ilustrará con el siguiente ejemplo: supóngase
que en una muestra, todos los dispositivos comienzan a funcionar al mismo tiempo, al
cual se le denominará t = 0. Si transcurrido algún tiempo se observa nuevamente esta
muestra, se puede dar el caso de que algunos hayan fallado mientras que otros todavía
funcionan. Lo que se necesita es evaluar la probabilidad de supervivencia (o falla)
para aquellos dispositivos que han sobrevivido hasta el momento en que se realiza
la observación, es decir, se determina la probabilidad condicional de supervivencia.
Ahora supóngase que la edad de los dispositivos que funcionan hasta el momento de
ser observados se designa por τ, de forma que la probabilidad condicional de falla
durante las próximas unidades de tiempo t es F (t | τ ), en donde

5
6 Capítulo 1. Introducción a los modelos de tiempos de vida

F (t + τ ) − F (τ )
F (t + τ | τ ) =
1 − F (τ )
F (t + τ ) − F (τ )
= .
S(τ )
Al dividir entre el tiempo t y tomar el límite cuando este tiende a 0, se obtiene la
tasa instantánea de falla h(t), siempre que f (t) exista:

1 F (t + τ ) − F (τ )
h(τ ) = lı́m
t→0 t S(τ )
1 F (t + τ ) − F (τ )
= lı́m
S(τ ) t→0 t
1 d
= F (τ )
S(τ ) dτ
f (τ )
= .
S(τ )
Los cuatros descriptores básicos usados describir el tiempo de vida de cualquier dis-
positivos del tiempo de vida son la función de distribución F (t), la función de super-
vivencia S(t), la función de densidad f (t) y la función de riesgo h(t).
Obsérvese que el conocimiento de cualquiera de las cuatro implica el conocimiento de
todas ellas.
En general, las expresiones

S(t) = 1 − F (t)
d
f (t) = F (t)
dt
f (t)
h(t) =
S(t)
pueden invertirse de tal modo que cualquiera de las cuatro cantidades se pueden
utilizar para encontrar a las otras.
Por ejemplo

[ ∫ t ]
S(t) = exp − h(u)du (1.4)
0

puede obtenerse considerando la expresión h(t) como una ecuación diferencial.


Frecuentemente, el comportamiento de las fallas de los dispositivos se describe en
términos de la función de riesgo, cuya gráca muchas veces se asemeja a la forma que

6
1.4. Medidas de conabilidad 7

1.0
0.9
0.8
0.7
h(t)

0.6
0.5
0.4
0.3

5 10 15 20

Figura 1.1: Gráca del comportamiento de la función de riesgo

tiene una bañera"; esta función forma la base conceptual para gran parte del estudio
de conabilidad.
La idea de la curva en forma de bañera"se sustenta en la siguiente lógica. Al comenzar
el funcionamiento de los dispositivos, los más débiles fallan a una tasa relativamente
alta, quizá debido a una fabricación defectuosa. Como los primeros fallan, retiran las
copias débiles de los dispositivos y la tasa de riesgo decrece. De modo parecido, al
nal de la vida de los dispositivos, los supervivientes fallan como consecuencia del
desgaste", de modo que aumenta la tasa de riesgo. En el intervalo trascurrido entre
estos dos comportamientos, los dispositivos exhiben un riesgo relativamente bajo y
aproximadamente constante. Este intervalo se denomina frecuentemente como la vida
funcional del dispositivo [CMJo91].

Denición 3. Una distribución de vida F (t) es una distribución de tasa de fallas


creciente si:
d( )
h(t) ≥ 0 0 ≤ t < ∞.
dt


Denición 4. Una distribución de vida F (t) es una distribución de tasa de fallas

7
8 Capítulo 1. Introducción a los modelos de tiempos de vida

decreciente si:
d( )
h(t) ≤ 0 0 ≤ t < ∞.
dt


La tercera posibilidad que se puede presentar es:

Denición 5. Una distribución de vida F (t) es una distribución de tasa de fallas


constante si:
d( )
h(t) = 0 0 ≤ t < ∞.
dt


Existen situaciones en que las condiciones para la designación de la distribución como


creciente o decreciente sólo se cumplen parcialmente.
Para manejar casos de esta índole se dan las siguientes deniciones.

Denición 6. Una distribución de vida F (t) es una distribución de tasa de fallas


creciente en promedio si:

∫ t
1
h(t) > h(u)du 0≤t<∞
t 0
y es una distribución de tasa de fallas decreciente en promedio si:

∫ t
1
h(t) < h(u)du 0 ≤ t < ∞.
t 0


Una función que es de gran interés para el análisis de conabilidad es la función


acumulativa de riesgo H(t), que se dene como la integral de la función de riesgo en
el intervalo (0, t)
∫ t
H(t) = h(u)du. (1.5)
0

La función H(t) se utiliza mucho en el contexto de secuencias o reposiciones de dispo-


sitivos y en el análisis de datos. Se observa sin embargo que H(t) es una aproximación
al número de reposiciones que se harían (fallas) si un conjunto de copias de un dis-
positivo funcionara simultáneamente con la reposición instantánea de cualquiera que
fallara.

8
Capítulo 2
Tipos de Censura e Inferencia

2.1. Datos Censurados


En un estudio es frecuente encontrar datos de tiempo de vida con observaciones
incompletas por lo cual el tratamiento estadístico, en particular la estimación de
las características de conabilidad, cambian con respecto a la estimación clásica de
muestras completas; a estos datos se les denomina datos censurados". Existen tres
tipos de censura los cuales pueden ser por la derecha, por la izquierda o por intervalos.

Es común que el valor exacto del tiempo de vida de una unidad no sea observado pero
se sabe que excede de un tiempo C, entonces estas observaciones reciben el nombre
de censuradas por la derecha. Una observación de este tipo ocurre cuando la unidad
aún no ha fallado una vez que ha terminado el tiempo previsto para la prueba.

La censura por la izquierda aparece cuando se sabe que la unidad ha fallado en un


tiempo anterior a C. Por ejemplo cuando las revisiones de la unidad se hacen cada
hora, si una unidad ha fallado antes de la primera hora entonces de la unidad sólo se
sabe que el tiempo de vida es inferior a una hora.

Un ejemplo de censura por intervalo se da cuando la unidad falla entre la primera y


segunda hora, es decir, que la unidad trabaje durante la primera revisión pero en la
segunda ya no funcione, entonces se sabe que la unidad ha durado más de una hora
pero menos de dos horas.

Un mecanismo de censura, conocido como del tipo I, ocurre cuando se ponen a prueba
n unidades y a priori se ja un periodo de duración t0 , de esta manera los tiempos
de vida Ti , i = 1, ..., n que se observan son aquellos, tal que Ti ≤ t0 , mientras que
hay otros de los que sólo se sabe que T i > t0 . Este tipo de censura es fácil de tratar
estadísticamente.

Otro mecanismo de censura se da cuando se hace una revisión a n unidades y cada


unidad es observada hasta que el observador está convencido de que la unidad ha
empezado a fallar, el punto de vista del observador se basa en su experiencia, en este

9
10 Capítulo 2. Tiempos de vida con datos censurados

caso el mecanismo de censura contiene información de interés sobre los tiempos de


vida. Esta situación se puede formalizar de la siguiente manera: sea Ti censurado por
la derecha por Ci entonces se sabe que Ti > Ci y además Ti = Ci + ϵi donde ϵi es una
variable aleatoria positiva de media cero y varianza pequeña (el tamaño de ϵi depende
de la experiencia del observador). De acuerdo a este esquema, una unidad censurada
por Ci puede no ser representativa de todas las unidades que tienen un tiempo de
vida Ci o superior.
La censura por la derecha del tipo II es habitual en los estudios de conabilidad,
en este caso se ja la duración del ensayo hasta después de haber observado un
número especico de unidades fallidas. Obsérvese que el tiempo de censura por la
derecha (o tiempos, si todas las unidades no se han puesto en funcionamiento a la
vez) no son conocidos. Pueden encontrarse otras formas más complicadas de censura
por la derecha, pero deben tratarse de manera particular cada una de ellas, sabiendo
que cualquier unidad censurada por la derecha en Ci es representativa de todas las
unidades similares que tienen un tiempo de vida superior a Ci ; para la censura por la
izquierda y por intervalo se aplican criterios similares.
Dada una muestra aleatoria de una variable de interés T, si la realización de la
muestra es completa, es decir, si se conocen todos los tiempos de vida, entonces se
trata de pruebas de vida con datos completos. Si la realización de la muestra es
incompleta, es decir, no se han observado todas las fallas, se tiene una prueba de vida
con datos censurados. Es importante mencionar que el tiempo de vida de las unidades
no dependen del mecanismo de censura.
La estimación con datos censurados es más compleja que con datos completos; las
técnicas descriptivas básicas no funcionan, pero se puede estimar la función de con-
abilidad mediante el estimador de Kaplan-Meier o producto-límite. A partir de este
estimador resulta inmediato construir estimadores tanto para la función de densidad
como para la tasa de falla y tasa de falla acumulada.

2.2. El estimador de Kaplan-Meier


Para observar la tendencia de una muestra aleatoria t1 , ..., tn se puede gracar la fun-
ción de supervivencia empírica o la función de distribución empírica que proporcionan
estimadores no paramétricos de la distribución bajo estudio. Si no hay observaciones
censuradas en una muestra de tamaño n, la función de supervivencia empírica se
dene como

Número de observaciones ≥t
Ŝ(t) = t ≥ 0. (2.1)
n
Esta es una función escalonada que decrece en proporción 1/n después de cada tiempo
de vida observado si todas las observaciones son distintas; si hay d tiempos de vida

10
2.2. El estimador de Kaplan-Meier 11

iguales a t, entonces la función de supervivencia empírica decrece d/n después de cada


t.
Cuando se tienen datos con tiempos de vida censurados, se realizan algunos cambios
en la ecuación (2.1) porque los tiempos de vida mayores o iguales a t generalmente
no se conocen, a esta modicación se le conoce como estimador de Kaplan-Meier.
El estimador de Kaplan-Meier o Producto Limite es un método no paramétrico fre-
cuentemente usado para encontrar las funciones básicas de tiempo de vida cuando se
tienen componentes que no han fallado (tiempos de vida con censura).
Si t1 , t2 , ..., tn representan los tiempos de falla en la muestra (incluyendo censuras),
entonces el estimador de Kaplan-Meier para la función de supervivencia es

∏ ( di )
Ŝ(t) = 1− (2.2)
i:ti ≤t
ni
donde ni denota el número de componentes que no han fallado hasta ti y di denota
el número de componentes que han fallado en el intervalo (ti , ti+1 ]. Si un tiempo
de censura y un tiempo de vida son registrados de la misma manera, entonces son
incluidos en el conjunto de los individuos que no han fallado ni ; por lo tanto, el
estimador de Kaplan-Meier para la función de densidad (asociada al i-ésimo intervalo
de tiempo) es

Ŝ(ti ) − Ŝ(ti−1 )
fˆi = − (2.3)
∆i
donde ∆i denota la amplitud del i-ésimo intervalo (ti−1 , ti ).
El estimador de Kaplan-Meier para la tasa de fallas (asociada al i-ésimo intervalo de
tiempo) es

2fˆi
ĥi = (2.4)
Ŝ(ti ) − Ŝ(ti−1 )
El estimador de Kaplan-Meier para la tasa de fallas acumulada es

Ĥ = − log(Ŝ(t)) (2.5)

donde Ŝ(t) está denida en (2.2).

2.2.1. Estimación de la Varianza


Cuando se usa el estimador de Kaplan-Meier es necesario tener un estimador de la
varianza de Ŝ(t). Este estimador está dado por

∑ di
V ˆar[Ŝ(t)] = Ŝ(t)2 , (2.6)
ti ≤t
ni (ni − di )

11
12 Capítulo 2. Tiempos de vida con datos censurados

y como es sabido, el error estándar está dado por la raíz cuadrada de la varianza.

2.3. El estimador de Nelson-Aalen


La estimación de la función de riesgo acumulada también puede ser representada por
una integral de Riemann-Stieltjes como

∫ t ∫ t
dN.(u)
Ĥ(t) = dĤ(u) = , (2.7)
0 0 Y.(u)

donde dNi (t) = I(ti = t, δi = 1) y Yi (t) = I(ti ≥ t),asumiendo que Y (u) > 0 para
0 ≤ u ≤ t. A ésta ecuación algunas veces la llaman Función de Riesgo Acumulada
empírica pero comúnmente es conocida como el estimador de Nelson-Aalen, por haber
sido propuesta por Nelson (1969) y por Aalen en 1972 [F.94].

En términos del estimador de Kaplan- Meier, esta función se representa por

∑ di
Ĥ(t) = , (2.8)
n
i:t ≤t i
i

donde t1 , ..., tk representan los diferentes tiempos en los cuales se observaron las fallas
y los di se denen como en (2.2).

Al obtener la gráca Ĥ(t) se obtiene información acerca de la forma de la función de


riesgo, por ejemplo, la función Ĥ(t) es líneal si h(t) es constante, y es convexa si h(t)
es monótona.

Una estimación asintótica de la varianza de Ĥ(t) es

∑ dj (nj − dj )
ˆ [Ĥ(t)]
Var = . (2.9)
3
i:t ≤t
n j
i

Otra alternativa para estimar esta varianza es

∑ dj
ˆ [Ĥ(t)]
Var = . (2.10)
n2
i:t ≤t j
i

Aunque (2.10) no es muy conveniente para muestras pequeñas, para muestras grandes
ambos estimadores tienden a ser similares.

Los estimadores Ŝ(t) y Ĥ(t) son no paramétricos ya que Ŝ(t) y Ĥ(t) son discretas y no
satisfacen la relación H(t) = − log S(t), la cual sí se satisface para las distribuciones
continuas.

12
2.4. Comparación de funciones de supervivencia 13

2.4. Comparación de funciones de supervivencia


Dado los tiempos de vida ti i = 1, 2, ...n, la comparación de dos curvas de supervi-
vencia se efectúa a través de contrastes basados en tablas de contingencia, que tienen
una estructura como la que se muestra a continuación.

Evento Grupo 1 Grupo 2 Total


Muerte d1 (ti ) d2 (ti ) d(ti )
No muerte n1 (ti ) − d1 (ti ) n2 (ti ) − d2 (ti ) n(ti ) − d(ti )
En riesgo n1 (ti ) n2 (ti ) n(ti )

Cuadro 2.1: Cuadro usado para contrastar dos funciones de supervivencia en el tiempo
de observación ti .

En el Cuadro 2.1, nj (ti ) y dj (ti ), j = 1, 2, representan el número de componentes


que están en riego y el número de muertes (o de ocurrencia del evento de interés)
respectivamente, para el grupo j . De igual forma n(ti ) representa el total de individuos
que están en riesgo en los dos grupos y d(ti ) es el total de muertes en los dos grupos.
Para construir el estadístico de contraste Q basta con calcular el número esperado de
fallas y la varianza estimada del número de fallas para uno de los grupos; por ejemplo,
para el grupo 1 el número esperado de muertes se calcula de la siguiente manera:

n1 (ti )d(ti )
Ê1 (ti ) = (2.11)
n(ti )
La varianza estimada para d(ti ) se basa en la distribución hipergeométrica, y que
para el grupo 1 se va a denir de la forma:

n1 (ti )n2 (ti )[n(ti ) − d(ti )]


V̂ (d1 (ti )) = (2.12)
n2 (ti )[n(ti ) − 1]
Finalmente, el estadístico de contraste se dene de la siguiente manera:

[∑ ]2
n
wi [d1 (ti ) − Ê1 (ti )]
i=1
Q= ∑n 2
, (2.13)
w
i=1 i V̂ (d1 (ti ))
donde wi denota los pesos, que toman valores distintos dependiendo de la prueba
utilizada; por ejemplo si se usa la prueba de log-rank los pesos son iguales a 1, es
decir, wi = 1 para i = 1, 2, ..., m, pero si se utiliza la prueba de Peto, wi se dene de
la siguiente forma

n(ti )
wi = Ŝ(ti−1 ) ,
n(ti ) − 1

13
14 Capítulo 2. Tiempos de vida con datos censurados

donde Ŝ(t) va a estar representada por la función 2.2.


De manera sintótica se puede demostrar que la distribución, bajo la hipótesis nula de
2
igualdad de distribuciones, puede aproximarse mediante una χ1 .

14
Capítulo 3
Distribuciones de vida

3.1. Introducción
La inferencia sobre el análisis de datos requiere de supuestos a cerca del mecanismo de
aleatoriedad que generó esos datos. Se puede utilizar cualquier función de distribución
para crear un modelo de tiempos de vida. En la práctica, las funciones de distribución
que tienen funciones de riesgo monótonas parecen más realistas y dentro de esta
clase están aquellas que proporcionan los modelos más razonables de conabilidad.
En los libros como [ME98] y [F.94] se pueden encontrar las distribuciones que son
frecuentemente utilizadas en el análisis de tiempos de vida.

3.2. Distribución Exponencial


La función de distribución favorita para modelar tiempos de vida, es la distribución
Exponencial, porque es sencilla de manejar algebraicamente y se considera represen-
tativa del intervalo de vida funcional de un dispositivo.
Algunas veces la información acerca de los procesos de falla en una población sugie-
re distribuciones particulares, no obstante, se utiliza mucho el modelo exponencial.
La distribución Exponencial es la única distribución de probabilidad que tiene una
función de riesgo constante.
La expresión utilizada para la función de distribución exponencial es:

F (t) = 1 − e−λt 0≤t<∞ (3.1)

en donde el parámetro λ > 0.


Para la distribución Exponencial, la función de conabilidad está dada por la siguiente
expresión

S(t) = 1 − F (t) = e−λt para t > 0. (3.2)

15
16 Capítulo 3. Modelos paramétricos para tiempos de vida

La función de densidad para la distribución Exponencial puede obtenerse derivando


la función de distribución F (t) con respecto a t

f (t) = λe−λt para t > 0. (3.3)

Para esta distribución la función de riesgo está dada por:

f (t) λe−λt
h(t) = = −λt = λ (3.4)
S(t) e
la cual es constante con respecto al tiempo. Lo atractivo de este resultado radica en
su simplicidad de manipulación algebraica, pero surgen problemas con el modelo de
riesgo constante que giran en torno a la propiedad de falta de memoria"que exhibe y
el hecho asociado de que la probabilidad de supervivencia condicional es independiente
de la edad. Es decir:

P [T > t1 + t2 |T > t1 ] = P [T > t2 ] = e−λt2 .


Un resultado incondicional correspondiente es que:

P [T > t1 + t2 ] = e−λ(t1 +t2 ) = e−λt1 e−λt2 = P [T > t1 ]P [T > t2 ]


Una interpretación de estos resultados es que un dispositivo usado tiene la misma
conabilidad que uno nuevo y la misma conabilidad que otro que haya sido utilizado
durante un período más largo de tiempo, lo cual es contrario a la intuición.
Una última observación relativa al modelo exponencial es el hecho de que la distri-
bución de vida de un sistema en serie que consta de componentes independientes,
cada uno de los cuales tiene una distribución de vida exponencial, es exponencial.
Obsérvese que esto implica que la función de riesgo para el sistema en serie se calcula
como la suma de los componentes.
La tasa de falla acumulada surge directamente de integrar la función de riesgo h(t)

H(t) = λt para t > 0. (3.5)

La distribución Exponencial se escribe frecuentemente utilizando la reparametrización


θ = λ−1 , de esta manera la función de densidad queda expresada de la forma.

f (t) = θ−1 e−t/θ t ≥ 0. (3.6)

La notación T ∼ exp(θ)
se utiliza para indicar que la variable aleatoria tiene función
2
de densidad (3.6). La media y la varianza de esta distribución son θ y θ respectiva-
mente, y el j -ésimo cuantil es tj = − log(1 − j). La distribución en la cual θ=1 es
llamada la distribución Exponencial Estándar.

16
3.3. Distribución Weibull 17

3.3. Distribución Weibull


La distribución Weibull al igual que la exponencial es ampliamente utilizada como
modelo de distribución de tiempos de vida. Se puede presentar de varias maneras. La
más general es:

{ ( t − δ )β }
F (t) = 1 − exp − (3.7)
θ−δ
donde δ es un parámetro de vida mínima o umbral que con frecuencia se supone cero;
si se da este caso, la función de distribución es:

{ ( t )β }
F (t) = 1 − exp − (3.8)
θ
donde θ es el parámetro de escala y β es el parámetro de forma. El parámetro de
escala determina el intervalo de dispersión. Cuando t = θ, el valor de la distribución
se conoce como vida característica, y está dado por:

F (t = θ) = 1 − e−1 = 0,632
el cual es independiente del valor de β.
Una expresión alternativa y conveniente de la función de distribución es:

F (t) = 1 − e−αt
β
(3.9)

que se obtiene reemplazando θ−β con α. Las dos formas son claramente equivalentes,
por lo que se puede utilizar la expresión anterior.
Para la distribución Weibull, el parámetro β determina la forma de la función de
riesgo. La expresión general de la función de riesgo es:

h(t) = αβtβ−1 (3.10)

y crece cuando β > 1, decrece cuando β < 1, y es constante cuando β = 1. Obsérvese


que el caso en que β = 1, no sólo da un riesgo constante, sino que implica también
que la función de distribución se reduce a la distribución Exponencial con parámetro
λ = θ−1 . Esta es otra conrmación de que sólo la distribución exponencial tiene riesgo
constante.
La distribución Weibull se utiliza extensivamente en el desarrollo de modelos de con-
abilidad y tiene la ventaja de que con un cambio en los parámetros de localidad
o escala se comporta como una distribución diferente, lo que es de mucha ayuda la
hora de crear modelos con varios tipos de comportamiento de su función de riesgo,
además de que es fácil de manipular algebraicamente. Además, al igual que cualquier
distribución con dos parámetros, puede describir bastante bien muchas situaciones
reales [CMJo91].

17
18 Capítulo 3. Modelos paramétricos para tiempos de vida

Si se considera que un dispositivo falla debido a varias causas posibles, el primer


mecanismo de falla que ocurra (tiempo mínimo hasta su aparición) determina la falla
del dispositivo, por tanto, el tiempo de falla es el valor mínimo de un conjunto, y
debe representarse utilizando una distribución de valores extremos.
Si la variable aleatoria T tiene distribución Weibull con parámetro α>0 y β >0
entonces la función de conabilidad está dada por

S(t) = e−αt
β
para t > 0. (3.11)

La notación T ∼ Weib(α, β) es usada para indicar que la variable aleatoria T tiene


la siguiente función de densidad

f (t) = αβtβ−1 e−αt


β
para t > 0. (3.12)

La forma de la función de densidad probabilística para la Weibull y la función de riesgo


dependen exclusivamente de β. Los valores de β varían de aplicación en aplicación
pero en algunas situaciones las distribuciones con β en un rango de 0.5 a 3 son
apropiados.

3.4. Distribución Gumbel (Valor Extremo)


La primera distribución asintótica de Valor Extremo que es cerrada y se relaciona
con la distribución Weibull es la distribución Gumbel, cuyo interés radica en que si
T tiene distribución Weibull, entonces log T tiene distribución de Valor Extremo.
La función de densidad probabilística y la función de supervivencia para la distribu-
ción de Valor Extremo son respectivamente

1 {y − u}
f (y) = exp S(y) ∞<y<∞ (3.13)
b b
{ ( y − u )}
S(y) = exp − exp ∞<y<∞ (3.14)
b
donde u es un parámetro de localidad , b es un parámetro de escala y∞ < u < ∞.
Si Ttiene distribución Weibull con función de densidad (3.12) entonces Y = log T
−1
tiene distribución de valor extremo con b = β y u = log α.
Para realizar el análisis de algunos datos es conveniente trabajar con los logaritmos
de los tiempos de vida, es por ello que la distribución de Valor Extremo es usada
frecuentemente.
Se usará la notación T ∼ EV(u, b) para indicar que la variable aleatoria T tiene
función de densidad (3.13). La distribución de Valor Extremo EV (0, 1) con µ = 0
y σ = 1 se denomina la distribución de Valor Extremo Estándar. Claramente si
T ∼ EV(u, b) entonces (y − u)/b ∼ EV(0, 1).

18
3.5. Distribución Normal 19

3.5. Distribución Normal


La función de distribución correspondiente se tabula generalmente en forma estan-
darizada y se puede evaluar con facilidad utilizando métodos numéricos. Esta distri-
bución es bien conocida por que sus parámetros corresponden a sus momentos, es
2
decir, µ = E[T ] es la media de la distribución y σ es la varianza, la cual es igual a
E[T ] − E [T ].
2 2

3.6. Distribución Log-normal


El modelo más popular en estadística es la distribución Normal, pero debido a que no
es fácil de manejar algebraicamente no es utilizada tan ampliamente en los modelos
de tiempos de vida.
La distribución Normal se expresa generalmente en términos de su función de densi-
dad:

e−(y−µ) /2σ
2 2

f (y) = √ , −∞ < µ < ∞, σ 2 > 0, −∞ < y < ∞. (3.15)


σ 2π
Aunque la distribución Normal muestra un riesgo creciente, se considera frecuente-
mente que la distribución Log-normal es un modelo representativo del tiempo de vida
de ciertos componentes y ha sido utilizada como modelo en diversas aplicaciones para
la ingeniería, medicina, y otras áreas. Si la función Y = log T se distribuye de la
2
forma (3.15) con media µ y varianza σ , entonces el tiempo de vida T = exp Y tiene
distribución Log-normal con función de densidad

e−(log t−µ) /2σ


2 2

f (y) = √ , −∞ < µ < ∞, σ 2 > 0, t > 0. (3.16)


tσ 2π
Este modelo es bastante útil y muestra la característica única de que para algunos
valores de los parámetros, seleccionados adecuadamente, la función de riesgo aumenta
y luego disminuye.
Las funciones de supervivencia y de riesgo para la distribución Log-normal se desa-
rrollan a partir de la función de distribución Normal Estándar

∫ x
1
e−u /2 du
2
Φ(x) = 1/2
(3.17)
−∞ (2π)
de manera que la función de supervivencia está dada por

( log t − µ )
S(t) = 1 − Φ (3.18)
σ
mientras que la función de riesgo va a estar dada por h(t) = f (t)/S(t). Se utiliza la
notación T ∼ LogN(µ, σ ) para denotar que T tiene la función de densidad (3.16).
2

19
20 Capítulo 3. Modelos paramétricos para tiempos de vida

3.7. Distribución Log-logística


La distribución Log-logística tiene función de densidad de la forma

(β/α)(t/α)β−1
f (t) = t > 0, (3.19)
[1 + (t/α)β ]2
donde α>0 y β>0 son parámetros.
La función de supervivencia y la función de riesgo son, respectivamente,

S(t) = [1 + (t/α)β ]−1 (3.20)

(β/α)(t/α)β−1
h(t) = . (3.21)
1 + (t/α)β ]
El nombre de distribución Log-logística proviene de que Y = log T tiene distribución
Logística con función de densidad

b−1 exp[(y − u)/b]


f (y) = −∞<y <∞ (3.22)
1 + exp[(y − u)/b]2
donde u = log α, b = β −1 , −∞ < u < ∞ y b > 0. Se usa la notación Y ∼
Logistica(u, b) para indicar que Y tiene la función de densidad (3.22) y T ∼ Logistica(α, β)
para indicar que T tiene la función de densidad (3.19) .

3.8. Distribución Gama


La distribución Gama es también utilizada ampliamente para el desarrollo de modelos
de conabilidad. La función de densidad para la distribución Gama es

λβ β−1 −λt
f (t) = t e t>0 (3.23)
Γ(β)
donde β > 0 y λ > 0 son parámetros, λ−1 es un parámetro de escala y β algunas
veces es llamado el parámetro de forma. Esta distribución, al igual que la Weibull,
incluye a la distribución Exponencial como un caso particular cuando β = 1.
La función de distribución puede expresarse analíticamente sólo cuando el parámetro
β es entero, en cuyo caso la función de distribución se representa por



(λt)k
F (t) = e−λt (3.24)
k=β
k!

Como en el caso de la distribución Weibull, este modelo muestra un riesgo creciente


cuando β > 1, un riesgo decreciente cuando β < 1 y un riesgo constante cuando

20
3.9. Modelos Log-Localidad-Escala 21

β = 1. La desventaja de utilizar esta función es que es bastante difícil de manipular


algebraicamente, pero puede generarse como la convolución de distribuciones expo-
nenciales, por tanto, tiene un interés práctico considerable con relación a los procesos
de fallas físicos.
La función de supervivencia y la función de riesgo se desarrollan usando la función
gama incompleta.

∫ x
1
I(β, x) = uβ−1 e−u du. (3.25)
Γ(β) 0
Integrando (3.23) encontramos que la función de supervivencia está dado por

S(t) = 1 − I(β, t) (3.26)

La función de riesgo es h(t) = f (t)/S(t). Esta función es monótona creciente para


β > 1, con h(0) = 0 y lı́m h(t) = λ; para 0 < β < 1, h(t) es monótona decreciente
t→∞
con lı́m h(t) = ∞ y lı́m h(t) = λ.
t→0 t→∞
La distribución con λ = 1 es llamada la distribución Gama con un parámetro y su
función de densidad es

tβ−1 e−t
f (t) = t > 0. (3.27)
Γ(β)
La notación Y ∼ Gama(β) será usada para indicar que la variable aleatoria Y tiene
la función de densidad (3.27).

3.9. Modelos Log-Localidad-Escala


Un modelo paramétrico de localidad-escala para una variable aleatoria Y ∈ (−∞, ∞)
es una distribución con función de densidad de la forma

1 (y − u)
f (y) = f0 − ∞ < y < ∞, (3.28)
b b
donde (−∞ < u < ∞) y b > 0 son parámetros de localidad y escala respectivamente
y f0 (z) es una función de densidad denida en el intervalo (−∞, ∞). La distribución
y función de supervivencia para Y son F0 [(y − u)/b] y S0 [(y − u)/b], respectivamente,
donde

∫ z
F0 (z) = f0 (w)dw = 1 − S0 (z).
−∞
La variable aleatoria estandarizada Z = (y − u)/b claramente tiene función de densi-
dad f0 (z) y función de supervivencia S0 (z). Cuando u = 0 y b = 1 suele llamarse la
forma estándar de la distribución.

21
22 Capítulo 3. Modelos paramétricos para tiempos de vida

Las distribuciones de vida que tienen la propiedad Y = log T tienen distribución


de localidad-escala; tal es el caso de las distribuciones Weibull, Log-normal, y Log-
logística para la cual la variable T corresponde a las distribuciones de Valor Extremo,
Normal y Logística, respectivamente
Las funciones de supervivencia para Z = (y − u)/b son respectivamente.

S0 (z) = exp(−ez ) Valor Extremo

S0 (z) = 1 − Φ(z) Normal

S0 (z) = (1 + ez )−1 Logística

donde −∞ < z < ∞ y Φ(z) está dado por (3.17).


Se pueden generar otros modelos de localidad-escala de la forma (3.28) dada una
distribución de tiempos de vida utilizando la transformación T = exp(Y ). Note que
la función de supervivencia para T puede ser expresada en este caso como

( log t − u )
P r(T ≥ t) = S0 (3.29)
b
[( t )β ]
= S0∗ = (3.30)
α
donde α = exp(u), β = b−1 y S0∗ (x) es una función de supervivencia denida en el

intervalo (0, ∞) por la relación S0 (x) = S0 (log x).
La familia de distribuciones de tres o más parámetros se pueden obtener generalizando
(3.28) para f0 (z), F0 (z) o S0 (z) y puede incluir uno o más parámetros de forma.

3.10. Grácos que permiten identicar modelos pa-


ramétricos
Las grácas de los estimadores de Kaplan-Meier o de Nelson-Aalen dan una buena
descripción de los tiempos de vida univariados. Estos métodos pueden ser usados para
medir las aproximaciones a un modelo paramétrico especico.
Supóngase que un modelo paramétrico tiene función de supervivencia S(t; θ) y fun-
ción de distribución F (t; θ) y sea θ̂ el estimador obtenido de un conjunto de datos
especícos. Si la familia paramétrica es apropiada, entonces las estimaciones S(t; θ̂) y
F (t; θ̂) son muy parecidas a las estimaciones no paramétricas de S(t) o F (t). Un pro-
cedimiento más simple es gracar S(t; θ̂) y el estimador de Kaplan-Meier en el mismo
plano; alternativamente se puede incluir la función de distribución correspondiente
[F.94].

22
3.10. Grácos que permiten identicar modelos paramétricos 23

Existen algunos grácos sencillos que permiten identicar algunos modelos paramé-
tricos. A continuación se presentan los más conocidos:
Modelo exponencial: El modelo exponencial puede identicarse si al gracar la función
de riesgo estimada λ(t) contra el tiempo t se observa aproximadamente una línea recta
horizontal.
El modelo Weibull puede identicarse al

1) Observar una línea recta que corta en el origen al gracar − log Ŝ(t) contra el
tiempo t, donde Ŝ(t) es la función de supervivencia estimada.

2) Obtener una línea recta al gracar log[− log Ŝ(t)] contra el logaritmo del tiempo
log(t).

El modelo Log-normal puede identicarse al

1) Observar una línea recta al gracar Φ−1 [1 − Ŝ(t)] contra el logaritmo del tiempo
log(t), donde Φ( ) es la función de distribución de una normal estándar.

2) Observar una línea recta al gracar log[1 − Ŝ(t)/Ŝ(t)] contra el logaritmo del
tiempo log(t).

3.10.1. Grácas de probabilidades


Una de las grácas más importantes y más utilizadas en probabilidad y estadística,
son las grácas P-P (probabilidad-probabilidad) las cuales esencialmente gracan los
puntos (S(ti ; θ̂), Ŝ(tj )), donde t1 < t2 < ... < tk son los diferentes tiempos de vida en
los cuales se presentaron las fallas. De esta forma, el modelo paramétrico y la función
de supervivencia empírica son comparados en cada uno de los tiempos de falla y si el
modelo paramétrico se aproxima al modelo empírico, entonces los datos pertenecen a
esa distribución. Una variación común de este procedimiento se da cuando S(t; θ̂) es
continua en t, entonces se puede reemplazar Ŝ(tj ) con el valor

Ŝj∗ = ,5Ŝ(tj ) + ,5Ŝ(tj +), (3.31)

donde Ŝ(t) es una función escalonada con saltos en tj .


Un procedimiento similar siguen las grácas Q-Q (cuantil-cuantil) en las cuales se gra-
can los cuantiles del modelo paramétrico contra los cuantiles empíricos. Por ejemplo,
los cuantiles para la distribución Weibull están dados por

t(p; α, β) = α[− log(1 − p)]1/β , 0 < p < 1.


Una gráca de puntos (t(pj ; α̂, β̂), tj ), j = 1, 2, ..., k , donde pj está dado por Ŝj∗ de
(3.31) debe de ser aproximadamente una línea recta si el modelo Weibull es apropiado.

23
24 Capítulo 3. Modelos paramétricos para tiempos de vida

Una técnica relacionada con los modelo P-P y Q-Q es usada para los modelos paramé-
tricos cuya función de supervivencia puede linealizarse. Esto consiste en transformar
S(t, θ) en una función lineal de t o en alguna función g1 [S(t, θ)] que sea una función
lineal de g2 (t) para algunas funciones g1 y g2 . En este caso se gracaría g1 [Ŝ(t)] contra
g2 (t) y si la familia paramétrica es apropiada, entonces la gráca resultaría una línea
recta, este procedimiento tiene la ventaja de no requerir de un estimador de θ.
Por ejemplo, para la distribución exponencial su función de supervivencia satisface

log S(t) = −λt, (3.32)

de forma tal que una gráca de log S(t) contra t asemejará una línea recta que pasará
por el origen, si el modelo es el apropiado. Para esta gráca no se necesita estimar λ,
pero una estimación de ella puede ser obtenida cuando la gráca es una línea recta.
Para la distribución Weibull, S(t) satisface

log[− log S(t)] = β log t + β log λ.

Así la gráca de log[− log S(t)] contra el log t, debe de aproximarse a una línea recta
si el modelo Weibull es apropiado. Cuando la gráca se aproxima a una línea recta
pueden obtenerse estimaciones de λ y β calculando la pendiente y la interceptada, la
pendiente es una estimación de β y la interceptada sobre el eje horizontal (log t) es
una estimación de − log λ.
El procedimiento de linealización es aplicable a los modelos para los cuales se puede
usar una transformación Y = g(T ) de los tiempos de vida; un ejemplo de estos
modelos son las distribuciones paramétricas de localidad y escala vistos en la sección
3.9, para los cuales Y tiene función de supervivencia, asumiendo que Y es una función
creciente de T, de la forma

(y − u)
P r(Y ≥ y) = S0
b
= P r(T ≥ t) = S(t)

donde t = g −1 (y), y tanto u como b son parámetros, −∞ < u < ∞ y b > 0.


Así
1 u
So−1 [S(t)] = y − (3.33)
b b
es una función lineal de y = g(t). Una gráca de S0−1 [Ŝ(t)] contra g(t) debe ser aproxi-
madamente una línea recta si la familia de los modelos considerados es la apropiada,
las distribuciones Weibull y Exponencial caen dentro de esta categoría.

24
3.10. Grácos que permiten identicar modelos paramétricos 25

3.10.2. Grácas de riesgo


Los procedimientos grácos que se describen en términos de la función de supervi-
vencia pueden ser descritos en términos de su función de riesgo acumulada H(t); a
este método se les conoce como grácas de riesgo. Por ejemplo, para la distribución
Weibull, H(t) = − log S(t) satisface

log H(t) = β log t + β log λ.


Una alternativa para gracar log[− log Ŝ(t)] contra log t es gracar log Ĥ(t) contra
log t, donde Ĥ(t) es la estimación no paramétrica de Nelson-Aalen. Hay que con-
siderar que Ĥ(t) no es igual a − log Ŝ(t) pero las dos grácas dieren muy poco,
principalmente para muestras grandes.
Otros procedimientos grácos puede ser desarrollados como por ejemplo para los mo-
delos con función de riesgo lineal donde h(t) = α + βt, su función de riesgo acumulada
2 −1
es de la forma H(t) = αt + βt /2. De esta manera t H(t) = α + βt/2 es una función
−1
lineal de t, tal que si gracamos t H(t) contra t se debe de aproximar a una línea
recta si el modelo es adecuado [F.94].

25
Capítulo 4
Inferencia para tiempos de vida
censurados

4.1. Función de Verosimilitud


Sean t1 , t2 , ..., tn observaciones de una población de interés, con función de densidad

probabilística f (t; θ), donde la distribución de f es conocida pero θ = (θ1 , θ2 , ..., θn )
es un vector de parámetros desconocido que toma valores en un conjunto Ω.
La función de verosimilitud para θ va estar dada dado por:


n
L(θ) = f (ti ; θ). (4.1)
i=1

Cuando las t1 , t2 , ..., tn son independientes, pero no idénticamente distribuidas, la


función de verosimilitud es de la forma (4.1) con fi (ti ; θ)
f (ti ; θ).
en lugar de
Ahora supóngase que θ̂ es un vector en Ω el cual maximiza la función L(θ), entonces
θ̂ va a ser conocido como el estimador de máxima verosimilitud de θ .
Supóngase que θ̂ ya ha sido calculado; algunas veces se puede estar interesado en
alguna función de los parámetros, como por ejemplo la siguiente

ϕ = g(θ)
donde g es una función uno a uno. Entonces el estimador de máxima verosimilitud
de ϕ es ϕ̂ denotado por

ϕ̂ = g(θ̂).
Esta propiedad es conocida como propiedad de invarianza para los estimadores de
máxima verosimilitud

26
4.1. Función de Verosimilitud 27

En la mayoría de los casos es conveniente trabajar con l(θ) = log L(θ) el cual, aplican-
do la propiedad de invarianza para los estimadores de máxima verosimilitud, también
es maximizado por θ̂ . El estimador de los parámetros θ̂ frecuentemente puede en-
contrarse resolviendo la ecuación de máxima verosimilitud Uj (θ) = 0, (j = 1, ..., n),
donde

∂l(θ)
Uj (θ) = j = 1, ..., n. (4.2)
∂θj
Las Uj (θ) son llamadas scores o funciones score, y el vector U k×1 (θ) = [U1 (θ), ..., Un (θ)]′
es conocido como el vector score. El vector score es una suma de variables aleatorias
independientes, dado que

l(θ) = log f (ti ; θ).
La matriz n×n
( −∂ 2 log L(θ) )
I(θ) = (4.3)
∂θi ∂θj
es conocida como la matriz de información observada.
La matriz Ψ(θ) es llamada la matriz de información de Fisher o matriz de información
esperada, con entradas

( −∂ 2 log L(θ) )
Ψij(θ) = E i, j = 1, ..., n. (4.4)
∂θi ∂θj
En Cox and Hinkley 1974 ([F.94]) se muestra que θ̂ de manera asintóticamente sigue
−1
una distribución Nn [θ, Ψ (θ)]; como resultado U (θ) se distribuye asintóticamente
de manera normal con vector de medias 0 y matriz de varianzas y covarianzas Ψ(θ).
Considérese la matriz I(θ) evaluada en θ̂ , la inversa de I va a ser la matriz estimada
−1
de varianzas y covarianzas para θ̂ . De esta forma, si V = I tiene entradas vij

entonces vij es la covarianza estimada entre θ ˆi y θˆj . En particular un estimador para


1/2
el error estándar de θ̂i (i = 1, ..., n), es justamente vii .
En adición, si
ϕ = g(θ),
entonces el error estándar de ϕ̂ puede ser estimado con

(∑
n ∑
n )1/2
se(θ̂) = (∂g/∂θi )(∂g/∂θj )vij , (4.5)
i=1 j=1

donde las derivadas parciales son evaluadas en θ̂ . Este procedimiento es conocido


como método delta. Cuando n = 1 tal que θ es un parámetro escalar, la ecuación
(4.5) se reduce a

27
28 Capítulo 4. Inferencia para tiempos de vida censurados

dg √

se(θ̂) = v11 , (4.6)

donde dg/dθ es evaluado en θ̂.
Otro resultado estadístico importante es que θ̂ es un estimador consistente para θ
−1
por lo cual n I(θ) va a ser un estimador consistente para Ψ(θ)/n.

4.2. Prueba de Hipótesis y Regiones de Conanza


Sea θ = (θ1 , θ2 , ..., θn )′ un vector de parámetros y sea θ̂ el estimador de máxima verosi-
militud para θ , entonces se pueden realizar pruebas de hipótesis y encontrar regiones
de conanza basados en el hecho de que θ̂ asintóticamente sigue una distribución

Nn [θ, Ψ−1 (θ)] o que n(θ̂ − θ) es asintóticamente Nn [0, nΨ−1 (θ)].
De esta manera bajo la hipótesis H0 : θ = θ 0

(θ̂ − θ 0 )′ Ψ(θ 0 )(θ̂ − θ 0 ) (4.7)

2
asintóticamente se aproxima a una χ(n) .
−1
Dado que n I(θ) es un estimador consistente para Ψ(θ)/n, un estadístico equivalente
a (4.7) es

W (θ 0 ) = (θ̂ − θ 0 )′ I(θ 0 )(θ̂ − θ 0 ) (4.8)

que se distribuye asintóticamente como una χ2(n) . Este estadístico es más fácil de
encontrar que (4.7) y frecuentemente esa es la razón teórica para preferirlo.
Una región de conanza 1−α para θ consta de vectores θ0 que satisfacen

w(θ 0 ) ≤ χ2(n),α (4.9)

donde χ2(n),α es el cuantil superior 100α de una χ2(n),α .


La segunda aproximación para realizar una prueba de hipótesis o encontrar regiones
de conanza es a través del cociente de verosimilitud.
Bajo la hipótesis nula H0 : θ = θ 0 el estadístico

[ L(θ ) ]
0
Λ(θ 0 ) = −2 log = 2l(θ̂) − 2l(θ 0 ) (4.10)
L(θ̂)
asintóticamente sigue una distribución χ2(n) .
La correspondiente región de conanza 1 − α para θ satisface

Λ(θ 0 ) ≤ χ2(n),α (4.11)

donde χ2(n),α es el cuantil superior 100α de una χ2(n),α .

28
4.2. Prueba de Hipótesis y Regiones de Conanza 29

Las pruebas basadas en aproximaciones asintóticas χ2 como (4.7) y (4.10) proveen evi-
dencia en contra de los valores hipotéticos de los parámetros cuando las observaciones
estadísticas son grandes. Por ejemplo, para el estadístico W (θ 0 ) de (4.7), el p-value
(nivel de signicancia) basados en los valores observados w(θ 0 ) es aproximadamente
P r(χ2(n) ) ≥ w(θ 0 ).
Ahora supóngase que el vector de parámetros θ se particiona para formar subvectores

de parámetros tal que θ = (θ 1 , θ 2 ) . Si se quiere realizar pruebas de hipótesis y
encontrar regiones de conanza para θ 1 se siguen los mismos métodos anteriores.
Sean (θˆ1 , θˆ2 ) los estimadores de máxima verosimilitud para (θ 1 , θ 2 ) y I(θ) = I(θ 1 , θ 2 )
la matriz de información para (θˆ1 , θˆ2 ). Bajo la hipótesis nula H0 : θ 1 = θ 10 el
estadístico de prueba (4.8) queda de la siguiente forma

W (θ 10 ) = (θˆ0 − θ 10 )′ I(θ 10 )(θˆ0 − θ 10 ) (4.12)

el cual se distribuye asintóticamente como una χ2(m) , donde m es la dimensión del


vector θ1.
La correspondiente región de conanza aproximada 1−α para θ1 está dado por

w(θ 10 ) ≤ χ2(m),α . (4.13)

donde χ2(m),α es el cuantil superior 100α de una χ2(m),α .


De igual forma, bajo la hipótesis nula H0 : θ 1 = θ 10 el cociente de verosimilitud
estadístico es de la forma

[ L(θ , θ ) ]
10 2
Λ(θ 10 ) = −2 log = 2l(θˆ1 , θˆ2 ) − 2l(θ 10 , θˆ2 ) (4.14)
ˆ ˆ
L(θ 1 , θ 2 )
2
que asintóticamente sigue una distribución χ(m) . Valores grandes de Λ(θ 10 ) en com-
2
paración con χ(m) proveen evidencia suciente en contra de la hipótesis nula.
La correspondiente región de conanza 1 − α para θ 1 satisface

Λ(θ 10 ) ≤ χ2(m),α (4.15)

donde χ2(n),α es el cuantil superior 100α de una χ2(n),α .


Para el caso en el que θ1 es un escalar, un intervalo 1 − α para θ1 es

−1/2
θ 1 ± Zα/2 I 1 (4.16)

donde Zα/2 es el cuantil superior 100α/2 de la distribución Normal Estándar.


Los métodos basados en (4.7) y (4.10) son asintóticamente equivalentes y frecuen-
temente dan resultados similares en la práctica. Sin embargo, el método basado en
el cociente de verosimilitud es preferible porque los resultados son invariantes a las
reparametrizaciones y la forma de las regiones de conanza depende esencialmente de
las observaciones [F.94].

29
30 Capítulo 4. Inferencia para tiempos de vida censurados

4.3. El estimador de Kaplan-Meier como un estima-


dor de máxima verosimilitud
Como se ha comentado, el estimador de Kaplan-Meier puede ser considerado como
un estimador de máxima verosimilitud no paramétrico de la función de supervivencia
S(t).
Supóngase que se tienen T1 , T2 , ..., Tn tiempos de vidas independientes con función
de distribución discreta, función de supervivencia S(t) y función de riesgo h(t). Sin
pérdida de generalidad se puede decir que t = 1, 2, 3, ... y considerando la distribución
de T , en términos de su función de riesgo h(t), como un parámetro, entonces bajo el
supuesto de censura observada la función de verosimilitud toma la forma


n ∏

L= h(t)dNi (t) [1 − h(t)]Yi (t)[1−dNi (t)] . (4.17)
i=1 t=0

En la ecuación (4.17) ti representa los tiempos de vida o tiempos de censura para


el individuo i, δi = I(ti es un tiempo de vida), Yi (t) = I(ti ≥ t) y dNi (t) = I(ti =
t, δi = 1).
Esto se puede escribir de la siguiente forma



L= h(t)dt (1 − h(t))nt −dt (4.18)
t=0

donde


n ∑
n
dt = dNi (t), nt = Yi (t) (4.19)
i=1 i=1

es el número de observaciones de tiempos de vida iguales a t y el número de individuos


en riesgo (vivos y no censurados) hasta t, respectivamente.

4.4. Censura por la derecha y Máxima Verosimilitud


Para obtener la función de verosimilitud (4.1) y aplicar las propiedades estadísticas
utilizando tiempos de vida censurados, es necesario considerar el proceso por el cual
tanto los tiempos de vida como los datos censurados fueron generados, es decir, es
necesario conocer el tipo de censura que presentan los datos [CMJo91].
Supóngase que T1 , ..., Tn son variables aleatorias que representan los tiempos de vida
de n individuos. Se dene la función indicadora de censura como δi = I(Ti = ti ), la
cual toma el valor de 1 si Ti = ti y 0 si Ti > ti , es decir si ti es una observación
del tiempo de vida entonces (δi = 1) o (δi = 0) si es una observación censurada.

30
4.5. Censura tipo I 31

De esta manera los datos observados van a ser los pares (ti , δi ), i = 1, ..., n. Para
observaciones censuradas por la derecha, la función de verosimilitud va a estar dada
por


n
L= f (ti )δi S(ti )1−δi . (4.20)
i=1

4.5. Censura tipo I


Dado que para un mecanismo de censura del tipo I cada individuo tiene un tiempo
de censura esperado Ci > 0 tal que Ti es observado si Ti ≤ Ci , de otra forma sólo se
sabe que Ti > Ci , se utilizará la notación

ti = min(Ti , Ci ), δi = I(Ti ≤ Ci ) (4.21)

donde δi = 1 si Ti ≤ Ci y δi = 0 si Ti > Ci .
La función de verosimilitud está basada en la distribución de probabilidad de (ti , δi ), i =
1, 2, ..., n, donde las ti y δi son las variables aleatorias dadas en (4.21) y su correspon-
diente función de densidad probabilística es

f (ti )δi P r(Ti > Ci )1−δi . (4.22)

Nótese que en este caso los Ci son constantes jas y que ti puede tomar valores
menores e igual a Ci con

P r(ti = Ci , δi = 0) = P r(Ti > Ci )


P r(ti , δi = 1) = f (ti ), ti ≤ Ci ,

donde Pr en la segunda expresión denota una función de densidad probabilística o


función masa dependiendo si Ti es una distribución continua o discreta en el tiempo
ti .
Si se asume que los tiempos de vida T1 , ...Tn son estadísticamente independientes,
entonces la función de verosimilitud (4.20) va a estar dada por


n
L= f (ti )δi S(ti +)1−δi . (4.23)
i=1

El término S(ti +) es igual a P r(Ti > ti ), de esta manera si S(t) es continua para ti
entonces S(ti +) = S(ti ). Cuando se jan covariables xi , estas se pueden representar
en el modelo reemplazando S(t) y f (t) con Si (t) = P r(T ≥ t | xi ) y fi (t) = f (t | xi ).

31
32 Capítulo 4. Inferencia para tiempos de vida censurados

Supóngase que los tiempos de vida Ti son independientes y siguen una distribución
exponencial con función de densidad f (t) = λ exp(−λt) y función de supervivencia
S(t) = exp{−λt}. Entonces (4.23) va a estar dado por


n ∑
n ) (
−λt δi −λt 1−δi
L(λ) = (λe ) (e ) = λ exp − λ
r
ti (4.24)
i=1 i=1

donde r= δi es el número de observaciones de tiempos de vida no censurados o
fallas.
La función log-verosimilitud se denota como l(λ) = log L(λ), la cual es


n
l(λ) = r log λ − λ ti . (4.25)
i=1

El estimador de máxima verosimilitud se obtiene resolviendo dl/dλ = 0, para este


ejemplo va a estar dado por la aproximación


n
λ̂ = r/ ti .
i=1

4.6. Variables Aleatorias Independientes y Censura-


das
Para un proceso en el que cada individuo tiene un tiempo de vida T y un tiempo de
censura C , donde T y C son variables aleatorias continuas e independientes, con fun-
ciones de supervivencia S(t) y G(t) respectivamente, se asume que todos los tiempos
de vida y de censura son independientes y que G(t) no depende de ningún parámetro
de S(t) [CMJo91].
La notación utilizada es la siguiente, ti = min(Ti , Ci ), δi = 1 si Ti ≤ Ci y δi = 0
si Ti > Ci . Las observaciones van a estar dada por los pares (ti , δi ). La función de
densidad probabilística para (ti , δi ) se obtiene de la siguiente manera.
Si f (t) y g(t) son las funciones de densidad para Ti y Ci respectivamente, entonces

P r(ti = t, δi = 0) = P r(Ci = t, Ti > Ci )


= g(t)S(t)
P r(ti = t, δi = 1) = P r(Ti = t, Ti ≤ Ci )
= f (t)G(t).

Al combinarlas en una sola expresión,

32
4.7. Censura Tipo II 33

P r(ti = t, δi ) = [f (t)G(t)]δi [g(t)S(t)]1−δi ,

de esta forma la distribución de (ti , δi ), i = 1, 2, ..., n, es


n
[f (ti )G(ti )]δi [g(ti )S(ti )]1−δi .
i=1

Dado que G(t) y g(t) no dependen de ningún parámetro de f (t), la función de vero-
similitud queda de la siguiente manera:


n
L= f (ti )δi S(ti )1−δi (4.26)
i=1

la cual tiene la misma forma de (4.23). El resultado obtenido para la censura tipo I
es considerado un caso especial de ésta si las Ci tienen distribución degenerada.

4.7. Censura Tipo II


El término censura tipo II se reere a aquella situación donde solamente los r tiempos
de vida más pequeños, en una muestra aleatoria, son observados; aquí r es un entero
especicado entre 1 y n. Este esquema de censura surge cuando en el estudio comien-
zan a funcionar n individuos al mismo tiempo y termina hasta que se presentan r
fallas. Algunas pruebas de vida que son formuladas con una censura tipo II tienen la
desventaja de que el tiempo total t(r) que dura la prueba es aleatorio. De esta forma,
para la realización de experimentos es común utilizar la censura tipo I. El valor de
r se escoge antes de que los datos sean colectados, y consiste de los r tiempos de
vida más pequeños de una muestra aleatoria T1 , ..., Tn . Para distribuciones continuas
se denotan los r menores tiempos de vida como T(1) , T(2) , ..., T(r) . Si Ti tiene función
de densidad probabilística f (t) y función de supervivencia S(t), entonces utilizando
el resultado general de los estadísticos de orden, la función de densidad conjunta de
T(1) , T(2) , ..., T(r) es

n! { ∏ }
n
f (t(i) ) S(t(r) )n−r (4.27)
(n − r)! i=1

La función de verosimilitud está basada en (4.23) excluyendo la constante n!/(n − r)!.


En términos de (δi , ti ) se tiene que δi = 0 y ti = t(r) , por esto, para los individuos cuyos
tiempos de vida son censurados, la función (4.27) da una función de verosimilitud de
la forma (4.23) igual que para la censura tipo I.

33
34 Capítulo 4. Inferencia para tiempos de vida censurados

Por ejemplo considérese la distribución exponencial con tiempos de vida censurados


(tipo II). La función log-verosimilitud va a ser de la misma forma que (4.25) pero
también se puede escribirse como

[∑
n ]
l(λ) = r log λ − λ t(i) + (n − r)t(r) (4.28)
i=1

de donde el estimador de máxima verosimilitud para λ es

λ̂ = r/W

con


n
W = t(i) + (n − r)t(r) (4.29)
i=1

donde r es jo y W es un estadístico suciente para λ.


Considérese una vez más la distribución exponencial, cuya función log-verosimilitud
va a estar dada por (4.25), entonces


n
l(λ) = r log λ − λ ti ,
i=1

donde r= δi es el número de tiempos de vida no censurados. La matriz de infor-
mación va a estar dada por

−d2 l r
I(λ) = 2
= 2 (4.30)
dλ λ
2
y la matriz de información esperada es ψ(λ) = E(r)/λ . Tanto para la censura del
∑n
tipo I como para la del tipo II, se puede evaluar la E(r) sustituyendo r = i=1 δi .

4.8. Inferencia para las Distribuciones Log-Localidad-


Escala
Las distribuciones de localidad y escala tienen función de supervivencia de la forma

(y − u)
S(y; u, b) = S0 − ∞ < y < ∞, (4.31)
b
donde (−∞ < u < ∞) es un parámetro de localidad y b > 0 es un parámetro de
escala, y S0 () es una función de supervivencia especicada en (−∞, ∞). Si T es la
variable de tiempo de vida y Y = log T tiene distribución (4.31), entonces decimos que

34
4.8. Inferencia para las Distribuciones Log-Localidad-Escala 35

T tiene distribución log-localidad-escala, la función de supervivencia para T puede


ser escrita como

( log t − u )
S ∗ (t; α, β) = S0 = S0∗ [(t/α)β ], (4.32)
b
donde α = exp(u), β = b−1 y para 0 < w < ∞, S0∗ (w) = S0 (log w). Las distribuciones
Weibull, Log-logística y Log-normal tienen ésta forma.
Para una muestra censurada de tiempos de vida (ti , δi ) i = 1, ..., n, la función de
verosimilitud es

n [
∏ 1 ( yi − u )]δi ( yi − u )1−δi
L(u, b) = f0 S0 , (4.33)
i=1
b b b

donde yi = log ti y f0 (z) = −S0′ (z) es la función de


∑ densidad probabilística corres-
pondiente a S0 (z). Haciendo zi = (yi − u)/b y r = δi , la función log-verosimilitud
para u y b es


n
l(u, b) = −r log b + [δi log f0 (zi ) + (1 − δi ) log S0 (zi )], (4.34)
i=1
−1
donde ∂zi /∂u = −b y ∂zi /∂b = −zi b−1 , las funciones score son

1 ∑ [ ∂ log f0 (zi ) ∂ log S0 (zi ) ]


n
∂l
=− δi + (1 − δi ) (4.35)
∂u b i=1 ∂zi ∂zi

r 1 ∑[ ∂ log S0 (zi ) ]
n
∂l ∂ log f0 (zi )
=− − δi zi + (1 − δi )zi . (4.36)
∂b b b i=1 ∂zi ∂zi

Las segundas derivadas de l(u, b) son

1 ∑ [ ∂ 2 log f0 (zi ) ∂ 2 log S0 (zi ) ]


n
∂ 2l
= δi + (1 − δ i ) (4.37)
∂u2 b2 i=1 ∂zi2 ∂zi2

2 ∑[ ∂ log S0 (zi ) ]
n
∂2l r ∂ log f0 (zi )
= + δ z
i i + (1 − δ )z
i i
∂b2 b2 b2 i=1 ∂zi ∂zi

1 ∑ [ 2 ∂ 2 log f0 (zi ) ]
n 2
2 ∂ log S0 (zi )
+ δ z
i i + (1 − δ )z
i i (4.38)
b2 i=1 ∂zi2 ∂zi2

1 ∑ [ ∂ log f0 (zi ) ∂ log S0 (zi ) ]


n
∂ 2l
= 2 δi + (1 − δi )
∂u∂b b i=1 ∂zi ∂zi

35
36 Capítulo 4. Inferencia para tiempos de vida censurados

1 ∑[ ∂ 2 log S0 (zi ) ]
n
∂ 2 log f0 (zi )
+ δ z
i i + (1 − δ )z
i i (4.39)
b2 i=1 ∂zi2 ∂zi2
Por lo tanto la matriz de información observada es

( )
−∂ 2 l/∂u2 −∂ 2 l/∂u∂b
I(u, b) = . (4.40)
−∂ 2 l/∂b∂u −∂ 2 l/∂b2
La matriz de información esperada de Fisher la encontramos con ψ(u, b) = E[I(u, b)].
En muchas ocasiones la varianza asintótica del estimador de máxima verosimilitud θ̂
coincide con 1/I(θ).
Pruebas de hipótesis para los parámetros u y b se pueden llevar a cabo usando el
coeciente de verosimilitudes (4.14). Supóngase que se quiere probar la hipótesis
H0 : u = u 0 , entonces el estadístico a utilizar es

Λ(u0 ) = 2l(û, b̂) − 2l(u0 , b̂) (4.41)

que de manera asintótica sigue una distribución χ2(1) .


De esta forma se rechaza la hipótesis nula H0 : u = u0 si Λ(u0 ) es altamente signi-
2
cativo en comparación con χ(1) .
La correspondiente región de conanza 1 − α para u satisface,

Λ(u0 ) ≤ χ2(1),α
.
Usualmente para muestras grandes se utiliza la aproximación normal para la distri-
bución conjunta de los estimadores û y b̂. se puede obtener un intervalo de conanza
1−α para u con

u ± Zα/2 I −1/2
,
donde Zα/2 es el cuantil superior 100α/2 de la ditribución normal estándar y I −1/2 es
el error estándar de u que puede ser calculado usando (4.6).

4.8.1. Ejemplo para la distribución Exponencial


La aplicación de la distribución exponencial está limitada a un conjunto de datos
donde la función de riesgo es constante, por lo que los procedimientos basados en la
distribución exponencial son apropiados [CMJo91].
Considérese la distribución exponencial con función de densidad de la forma (3.6),
entonces para un proceso de censura por la derecha la función de verosimilitud va a
estar dada por

36
4.8. Inferencia para las Distribuciones Log-Localidad-Escala 37

n ( )δ i ( )1−δi ( 1 )r (
∏ 1∑ )
n
1
L(θ) = e(−t/θ)
e(−t/θ)
= exp − ti (4.42)
i=1
θ θ θ i=1

y su función log-verosimilitud es de la forma

1∑
n
l(θ) = −r log θ − ti , (4.43)
θ i=1

donde

donde r = δi es el número de tiempos de vida no censurados, δi=1 si ti es una
observación del tiempo de vida o δi=0 si es una observación censurada.
La ecuación de verosimilitud ∂l/∂θ = 0 da como resultado


n
θ̂ = ti /r, (4.44)
i=1

asumiendo que r > 0. Si r = 0, la función log-verosimilitud l(θ) está condicionada a


ser monótona decreciente cuando θ → ∞, asi que no proporcionan un estimador de
máxima verosimilitud nito.

En general ti y r son variables aleatorias por lo cual, la distribución exacta de θ̂ y
otros cuantiles considerados en los métodos grácos son muy difíciles de calcular pero
la metodología de máxima verosimilitud puede aplicarse de tal forma que la matriz
de información está dada por −d l/dθ , que para la distribución exponencial va a ser
2 2

el valor

2 ∑
n
−r
I(θ) = 2 + 3 ti . (4.45)
θ θ i=1

Evaluando la función I(θ) en el estimador de máxima verosimilitud θ̂ se obtiene


I(θ̂) = r/θ̂2 .
Asintóticamente, un intervalo de conanza para θ̂, se puede obtener aplicando el
resultado (4.12) y considerando que θ es un escalar,

θ̂ − θ
Z= ∼ N (0, 1). (4.46)
I −1/2 (θ̂)
Si I −1/2 (θ̂) = (θ̂)1/2 , r > 0 es el error estándar para θ̂, entonces

θ̂ ± 1,96I −1/2 (θ̂)


puede considerarse como un intervalo del 95 % de conanza para θ.

37
38 Capítulo 4. Inferencia para tiempos de vida censurados

Frecuentemente se está interesado en probar la hipótesis H0 = θ = θ0 , para ello se


utilizará el estadístico

θ̂ − θ0
Z= (4.47)
I −1/2 (θ̂)
cuando el tamaño de muestra sea los sucientemente grande (n ≥ 30). De esta manera
se rechaza H0 si Z < −Zα/2 o si Z > Zα/2 .
La aproximación (4.46) no es adecuada para muestra pequeñas, esto se debe a que
l(θ) tiende a ser asimétrica cuando el número de observaciones censuradas es pequeña
[All95].
Cuando se tienen pocas observaciones censuradas, se puede utilizar alguno de los dos
métodos siguientes
Método 1: Sprott (1973) y otros ([F.94]), mostraron que si utilizaban la repara-
−1/3
metrización ϕ = θ , entonces la función log-verosimilitud se va a aproximar a
−3
l1 (θ) = l(ϕ ), de esta manera

ϕ̂ − ϕ
Z= −1/2
∼ N (0, 1) (4.48)
I1 (ϕ̂)

es bastante precisa, además que el valor I1 (ϕ̂) = 9r/ϕ̂2 es más fácil de encontrar.
Método 2: El cociente de verosimilitud estadístico

Λ(θ) = 2l(θ̂) − 2l(θ) (4.49)

asintóticamente se distribuye como una χ2(1) .


Para funciones monótonas de θ, tales como S(t; θ) = exp(−t/θ) o h(t; θ) = θ−1 se
pueden obtener intervalos de conanzas y realizar pruebas de hipótesis consideran-
do los valores extremos de las observaciones. Por ejemplo si las observaciones están
dadas por (ti , δi ), i = 1, ..., n y si L(ti , δi ) representa el valor más pequeño de las
observaciones y U (ti , δi ) representa el valor más grande, entonces

L(ti , δi ) ≤ θ ≤ U (ti , δi ))

puede considerarse como un intervalo de conanza 1−α para θ.


Siguiendo el mismo principio

exp[−t0 /L(Datos)] ≤ S(t; θ) ≤ exp[−t0 /U (Datos)]

es un intervalo de conanza 1 − α para S(t; θ) asumiendo que t0 es un tiempo de vida


conocido.

38
4.8. Inferencia para las Distribuciones Log-Localidad-Escala 39

4.8.2. Ejemplo para la distribución Weibull


Para una variable de tiempo de vida T, la distribución Weibull tiene función de
densidad dada por

β ( t )β−1
f (t; α, β) = exp[−(t/α)β ], t ≥ 0 (4.50)
α α
donde α > 0 y β > 0 son los parámetros de escala y de forma, respectivamente.
Equivalentemente si se quiere trabajar con la distribución de valor extremo Y = log T ,
la cual pertenece a los modelos de localidad-escala, se utiliza la función de densidad
probabilística

1
f (y; u, b) = e(y−u)/b exp[−e(y−u)/b ], −∞ < y < ∞, (4.51)
b
donde u = log α y b = β −1 .
Sean (ti , δi ), y (yi , δi ), i = 1, ..., n con yi = log ti muestras aleatorias con tiempos de
vida censurados y funciones de densidad dadas por (4.50); y (4.51), respectivamente.
Para aplicar los resultados de la sección 4.8 se debe expresar la distribución de valor
extremo de la misma forma que la ecuación (4.31)

S0 (z) = exp(−ez ), f0 (z) = −S0′ (z) = ez exp(−ez ), (4.52)

donde zi = (yi − u)/b.


La función log-verosimilitud va a estar dada por


n
l(u, b) = −r log b + (δi zi − ezi ), (4.53)
i=1

donde r= δi .
Las derivadas parciales de primer y segundo orden son:

∂ log f0 (z) ∂ 2 log f0 (z)


= 1 − ez , = −ez ,
∂z ∂z 2

∂ log S0 (z) ∂ 2 log S0 (z)


= −ez , = −ez .
∂z ∂z 2
Utilizando los resultados (4.35) y (4.36) e igualando a 0 se encuentran los estimadores
de máxima verosimilitud para û y b̂; consecuentemente la matriz de información para
la distribución de valor extremo es,

( ∑n ẑi
)
1
I(û, b̂) = ∑n r ∑
i=1 ẑ i e
. (4.54)
b̂2 i=1 ẑi e
ẑi
r + ni=1 ẑi2 eẑi

39
40 Capítulo 4. Inferencia para tiempos de vida censurados

La solución de la ecuación de verosimilitud ∂l(u, b)/∂u = 0 es aproximadamente

(1 ∑
n )
û = b log eyi /b
r i=1

1∑
n ∑n /∑n
yi + b̂ − yi exp(yi /b̂) exp(yi /b̂) = 0 (4.55)
r i=1 i=1 i=1

nótese que la ecuación (4.55) no involucra a û, por lo cual para encontrar û primero
se debe encontrar b̂. Esto se puede realizar numéricamente utilizando algún lenguaje
de programación.
Para llevar a cabo una prueba de hipótesis H0 : b = b0 se puede usar el cociente de
verosimilitudes

Λ(b0 ) = 2l(û, b̂) − 2l(û, b0 ) (4.56)

rechanzando H0 : b = b 0 si Λ(b0 ) ≥ χ2(1),m .


De igual forma una región de conanza para b0 satisface Λ(b0 ) ≤ χ2(1),q ; o podemos
encontrar un intervalo de conanza 1 − α para b con

b̂ ± Zα/2 I −1/2 , (4.57)

donde Zα/2 es el cuantil superior 100α/2 de la distribución normal estándar y I −1/2


denidio como en (4.6).

40
Capítulo 5
Tiempos de Vida y Modelos de
Regresión

5.1. Introducción
El uso de covariables en un modelo de regresión es importante para representar la
heterogeneidad de una población. En este capítulo se explicará la forma en que puede
relacionarse la información contenida en las covariables con los tiempos de vida. Por
ejemplo, en un estudio de supervivencia para pacientes de cáncer pulmonar, factores
como la edad, la condición general de los pacientes y el tipo de tumor, realizan el
papel de covariables. En experimentos que involucran tiempos de falla de circuitos
eléctricos, un factor importante es el voltaje al cual es sometido el circuito ya que
este puede acelerar o retardar la falla de los componentes [ME98].
Los modelos de regresión para tiempos de vida pueden ser formulados de muchas
maneras. Algunos de los modelos paramétricos discutidos en el capítulo 2 pueden
introducirse a un modelo de regresión especicando la relación que existe entre el
modelo paramétrico y las covariables. En los libros como [F.94], [CMJo91] y [ME98],
se puede encontrar información más detallada a cerca de los modelos de regresión y
sus aplicaciones en los tiempos de vida.
El análisis de regresión de tiempos de vida desarrolla especicaciones para la distri-
bución de un tiempo de vida T dado un vector de covariables x.
Supóngase que cada individuo en un población tiene un tiempo de vida T y que un
vector columna x
= (x1 , ..., xp )′ representa a las covariables. Entonces, para un modelo
de distribución exponencial, dado el vector x, la distribución de T es exponencial con
función de supervivencia

S(t | x) = exp[−λ(x)t]. (5.1)

La especicación del modelo también involucra una forma funcional dado por λ(x),

41
42 Capítulo 5. Tiempos de Vida y Modelos de Regresión

cuya forma más común es λ(x) = exp(β ′ x) donde β es un vector columna p×1 de
coecientes de regresión, la cual tiene la propiedad de que λ(x) ≥ 0 para cualquier
vector β y x.
Frecuentemente sólo ciertos parámetros en una distribución de tiempos de vida son
dependientes de las covariables. Por ejemplo, en los modelos log-localidad-escala so-
lamente se usa u como dependiente de x ′
. La especicación u(x) = β x dado a un
modelo donde Y = log T tiene función de supervivencia de la forma

( y − β′x )
P r(Y ≥ y | x) = S0 (5.2)
b
donde b>0 es un parámetro de escala. Tales modelos son familiares en un análisis
de regresión ordinaria, particularmente para el caso donde S0 (z) es la función de
supervivencia de la distribución normal estándar.

5.2. Regresión con modelos paramétricos


Un análisis de regresión para tiempos de vida desarrolla ciertas especicaciones para
la distribución de la variable de los tiempos vida T, dado un vector de covariables
x. Los modelos paramétricos más importantes usados para un análisis de regresión
que involucra tiempos de vida son extensiones de los modelos vistos en el capítulo 3
[F.94].

5.2.1. Modelos de Regresión Log-Localidad-Escala


Los modelos de regresión localidad-escala consideran la distribución de Y dado x con
u = u(x), de la forma

( y − u(x) )
S(y | x) = S0 − ∞ < y < ∞, (5.3)
b
donde S0 (z) es independiente de x. Otra forma de expresarlo sería
Y = u(x) + bZ, (5.4)

donde Z es una variable aleatoria con función de supervivencia S0 (z). La familia de


modelos para la cual Z tiene distribución normal estándar es frecuente en los análisis
de regresión, de igual manera que las distribuciones de Valor Extremo, Logística y
otras distribuciones para Z.
La función de supervivencia para T dado x correspondiente a (5.3) es de la forma
S(t | x) = S0∗ [(t/α(x))δ ], t ≥ 0, (5.5)

42
5.3. Inferencia para modelos de regresión Log-Localidad-Escala 43

donde α(x) = exp(u(x)), δ = b−1 y S0∗ (t) = S0 (log t). Las covariables efectivamente
alteran la escala de tiempo y (5.5) es frecuentemente tomado como un modelo de
tiempos de falla acelerado. En particular, si α(x) > 1 el efecto del vector de covariables
desacelera el tiempo, y si α(x) < 1 el tiempo es acelerado.
Vectores diferentes de covariables x1 y x2 , dan funciones que son traslaciones, una
de otra; éstas pueden tener la misma forma pero están separadas por una distancia
u(x1 ) − u(x2 ). Tales modelos son especialmente utilizados cuando los tiempos de vida
para individuos diferentes pueden variar por orden de magnitud. Por ejemplo algunos
modelos ingenieriles en los cuales los tiempos de fallas son acelerados por temperatura,

voltaje u otro acelerador, tienen especicaciones lineales u(x) = β x.
Por ejemplo, considérese la distribución Weibull con parámetro de escala α y pará-
metro de forma δ , el modelos de regresión para el cual α y δ dependen de x necesita
′ ′
que, α(x) = exp(β ) y δ(x) = exp(γ ) donde β y γ son vectores de coecientes de
regresión del tamaño de x, en este caso α(x) > 0 y δ(x) > 0 sin restricciones para β
o γ.
En el modelo Weibull utilizado en muchas situaciones, solamente α depende de x de
forma tal que la función de supervivencia de T es

S(t | x) = exp[−(t/α(x))δ ], t ≥ 0. (5.6)

La función Y = log T en este caso tiene función de supervivencia

[ ( y − u(x) )]
S(y | x) = exp − exp − ∞ < y < ∞, (5.7)
b
donde u(x) = log α(x) y b = δ −1 . Esta es una distribución paramétrica de localidad-
escala (distribución Gumbel de valor extremo) con u = u(x). En términos de T el
modelo (5.6) se reere a un modelo de tiempo de falla acelerado log-localidad-escala.

5.3. Inferencia para modelos de regresión Log-Localidad-


Escala
Supóngase que una variable aleatoria censurada consta de los datos (yi , δi , xi ), i =
1, 2, ..., n donde yi = log ti es el logaritmo del tiempo de vida o logaritmo del tiempo de
censura dependiendo si δi = 1 ó 0, respectivamente. Esta sección describe al estimador
de máxima verosimilitud y los procedimientos de inferencia relacionados con el modelo
general de localidad-escala para Y de la forma (5.3) o (5.4), pero con u(xi ; β) dada
la forma lineal

u(xi ; β) = βxi , (5.8)

donde β y xi son vectores p × 1.

43
44 Capítulo 5. Tiempos de Vida y Modelos de Regresión

El modelo de regresión anterior incluye al término de interceptada, de forma tal


que βxi = β0 + β1 xi,1 + ... + βp−1 xi,p−1 . Esto generalmente se realiza centrando las
covariables. La interceptada es el parámetro más relevante cuando las covariables
están centradas y las correlaciones entre β̂0 y los estimadores de los otros coecientes
de regresión son pequeños.
La función log-verosimilitud l(β, b) tiene la forma


n
l(β, b) = −r log b + [δi log fo (zi ) + (1 − δi ) log S0 (zi )], (5.9)
i=1

con zi = (yi − ui )/b, ui = u(xi ,∑β), f0 (z) = −S0′ (z) la función de densidad probabilís-
tica de Zi = (Yi − ui )/b y r = δi el número de tiempos de vida no censurados.

Sea xi = (xi1 , ..., xip ) y X la matriz n×p con xij la entrada (i, j). Entonces ∂zi /∂βj =
−xij b−1 , ∂zi /∂b = −zi b−1 y las primeras derivadas de l(β, b) son

1 ∑ [ ∂ log f0 (zi ) ∂ log S0 (zi ) ]


n
∂l
=− δi + (1 − δi ) xij (5.10)
∂βj b i=1 ∂zi ∂zi

r 1 ∑ [ ∂ log f0 (zi ) ∂ log S0 (zi ) ]


n
∂l
=− − δi + (1 − δi ) zi . (5.11)
∂b b b i=1 ∂zi ∂zi

Las segundas derivadas de l(β, b) son

1 ∑ [ ∂ 2 log f0 (zi ) ∂ 2 log S0 (zi ) ]


n
∂ 2l
= 2 δi + (1 − δ i ) xij xik (5.12)
∂βj ∂βk b i=1 ∂zi2 ∂zi2

2 ∑ [ ∂ log f0 (zi ) ∂ log S0 (zi ) ]


n
∂2l r
= 2+ 2 δi + (1 − δi ) zi
∂ 2b b b i=1 ∂zi ∂zi

1 ∑ [ ∂ 2 log f0 (zi ) ∂ 2 log S0 (zi ) ] 2


n
+ 2 δi + (1 − δi ) zi (5.13)
b i=1 ∂zi2 ∂zi2

1 ∑ [ ∂ log f0 (zi ) ∂ log S0 (zi ) ]


n
∂2l
= 2 δi + (1 − δi ) xij
∂βj ∂b b i=1 ∂zi ∂zi

1 ∑ [ ∂ 2 log f0 (zi ) ∂ 2 log S0 (zi ) ]


n
+ 2 δi + (1 − δ i ) zi xij . (5.14)
b i=1 ∂zi2 ∂zi2

Los estimadores de máxima verosimilitud de β̂ y b̂ se encuentran resolviendo la ecua-


ción ∂l/∂β = 0, ∂l/∂b = 0 o directamente de la maximización de l(β, b).
La matriz de información en forma particionada es

44
5.3. Inferencia para modelos de regresión Log-Localidad-Escala 45

( )
−∂ 2 l/∂β∂β ′ −∂ 2 l/∂β∂b
I(β, b) = . (5.15)
−∂ 2 l/∂b∂β ′ −∂ 2 l/∂b2
De manera asintótica se considera la aproximación normal para la distribución de los
coecientes de regresión,

[β̂ b̂]′ ∼ Np+1 ([β b]′ , I −1 [β, b]),


donde β̂ y b̂ satisfacen las ecuaciones ∂l/∂β = 0, ∂l/∂b = 0 dadas por (5.12) y (5.13).
Para realizar inferencia sobre los coecientes de regresión β , la hipótesis sobre β
0 ′
frecuentemente se escribe de la forma H0 : β 1 = β 1 , con β particionado como β =
′ ′
(β 1 , β 2 ) donde β 1 es k × 1 (k < p) y β 1 es un vector especíco. Para esta prueba se
0

utiliza el cociente de verosimilitudes

Λ = 2l(β̂1 , βˆ2 , b̂) − 2l(β 01 , β̃ 2 , b̃), (5.16)

donde β̃ 2 y b̃ son los estimadores de máxima verosimilitud de β 2 y b, respectivamente,


′ ′ ′
bajo la hipótesis nula; b̂ y (β 1 , β 2 ) = β son los estimadores de máxima verosimilitud
bajo el modelo completo. Valores grandes de Λ proveen evidencia en contra de la
hipótesis nula p − values aproximados pueden ser calculados utilizando el
H0 , y los
hecho de que de manera asintótica Λ se distribuye aproximadamente bajo la hipótesis
2
nula como χ(k) .
0
Un procedimiento alternativo para probar H0 : β 1 = β 1 es usar

Λ1 = (β̂ 1 − β 01 )′ V11−1 (β̂ 1 − β 01 ) (5.17)

como estadístico de prueba. En este caso V = I(β̂, b̂)−1 se particiona como

( )
V11 V12
V =
V21 V22
donde V11 es la matriz de covarianzas asintótica para x × k . Para mues-
β̂ 1 de tamaño
2
tras grandes y bajo H0 , Λ1 se distribuye aproximadamente como una χ(k) . Los estadís-
ticos (5.16) y (5.17) son asintóticamente equivalentes, pero para muestras pequeñas
es preferible utilizar (5.16). Para los coecientes de regresión individuales βj , los es-
timadores y los errores estándar son usados para la prueba de hipótesis H0 : β j = 0
vía Zj = (β̂j − 0)/(Var(β̂j ))
1/2
, considerando la distribución de Zj aproximadamente
N (0, 1) si H0 es verdadera.

5.3.1. Ejemplo para la distribuciones Weibull


Esta sección se enfoca en los modelos de localidad-escala de forma (5.7) para la
distribución del Logaritmo de los tiempos de vida Y, dado el vector de covariables

45
46 Capítulo 5. Tiempos de Vida y Modelos de Regresión

x, con u(x) = β′ x. La correspondiente α(x) para el modelo Weibull dado en (5.6) es


exp(β ′ x), de tal manera que Y es de la forma

Y = β ′ x + bZ (5.18)

donde Z tiene distribución de valor extremo estándar con función de densidad y


función de supervivencia respectivas

f0 (z) = exp(z − ez ), S0 (z) = exp(−ez ) − ∞ < z < ∞.


La expresión general en (5.6) es utilizada para obtener la función log-verosimilitud y
sus derivadas. El log-verosimilitud (5.9) para la distribución de valor extremo de la
forma


n
l(β, b) = −r log b + [δi zi − ezi ]. (5.19)
i=1

donde zi = (yi − β xi )/b.
De acuerdo con los resultados (5.12) al (5.15), la matriz de información observada,
evaluada en (β̂, b̂), tiene la forma particionada

( ∑n ẑ bf x bf x′ ∑n ẑi
)
1 e i i i ẑ e bf x
I(β̂, b̂) = ∑n
i=1
ẑi ′ ∑n 2 ẑi
i=1 i i
(5.20)
β̂ 2 i=1 ẑi e bf xi i=1 ẑi e

Los intervalos de conanza aproximados y las pruebas estadísticas pueden realizarse


tomando (β̂, b̂) como un vector con densidad normal multivariada con matriz de
covarianzas I(β̂, b̂)−1 o vía el procedimiento del cociente de verosimilitud.

46
Capítulo 6
El Inventario Forestal y los Tiempos
de Vida

6.1. Introducción
Durante décadas recientes, los gobiernos, grupos ambientalistas y agencias de desa-
rrollo han participado en una amplia variedad de actividades y han gastado cientos de
millones de dólares para apoyar el manejo sostenible de los bosques. A pesar de estos
esfuerzos, actualmente casi ningún tipo de extracción maderera de bosques naturales
puede considerarse sostenible. La mayoría de los proyectos han fracasado o nunca
se han adoptado, debido a que los rendimientos de inversiones en manejo forestal
sostenible (MFS) por lo general son más bajos que aquellos obtenidos mediante la
extracción convencional u otros usos de la tierra. Por lo tanto, no es probable que
las compañías madereras inviertan en MFS a menos que el gobierno las obligue a
hacerlo. Aún si el MFS fuese económicamente atractivo, desde la perspectiva de la
conservación, las circunstancias que garantizarían su implementación con motivos de
conservación son limitadas [CERJB06].

Los productores y las compañías madereras están más interesados en la producción


que les garantizará mayor rendimiento de sus inversiones que en la propia conserva-
ción. Por ejemplo, un productor forestal desea conocer qué cantidad de madera poseen
sus plantaciones, con el objeto de saber cuánto tiene para vender, o para hacer una
estimación de cuánto tendrá para vender dentro de algunos años. Al cabo de un año
de realizada una nueva plantación, el mismo productor está interesado en saber cuán-
tas plantas han sobrevivido y cuántas se han perdido, con el n de determinar si la
plantación fue un éxito. Una empresa consumidora de madera quiere saber la capaci-
dad de oferta de materia prima actual y la futura que habrá en la región donde opera.
Por su parte, un estado puede estar interesado en saber cuánta supercie plantada
tiene, en dónde está, qué especies contiene y cuál es su situación, con la nalidad de

47
48 Capítulo 6. Aplicación de los tiempos de vida en un inventario forestal

tomar decisiones de política forestal [Wab03].


Para resolver estas y otras cuestiones, el planicador y el administrador forestal nece-
sitan contar con información acerca de un conjunto denido de árboles, generalmente
numeroso, con características disímiles y distribuidas en forma continua o discontinua
sobre una porción de terreno más o menos extensa. El mecanismo para acceder a esa
información es el Inventario Forestal, que puede denirse como el conjunto de proce-
dimientos destinado a proveer información cualitativa y cuantitativa de un bosque,
incluyendo algunas características del terreno en donde el mismo crece. Para tener
una idea de su importancia, vale la pena destacar que el inventario forestal es la base
de la planicación y del manejo forestal; como puede verse, la necesidad de ejecutar
un inventario forestal surge de la necesidad de información para la toma de decisiones
[Wab03].
A escala mundial, el inventario forestal tuvo sus comienzos hacia nales de la Edad
Media, cuando las técnicas estadísticas aún no existían; en tanto que su aparición en
forma sistematizada e incorporando conceptos modernos comienza en el siglo XVIII
en el centro de Europa. En esos tiempos, el propósito básico del inventario forestal
era la determinación del volumen de madera presente en los bosques. Más tarde y
ante la creciente necesidad de información sobre otros aspectos del bosque, amplió
su acción a límites difíciles hoy en día de precisar. Sin embargo, la determinación del
volumen siguió y sigue siendo su objetivo principal, de allí que en el campo forestal
pocos temas hayan recibido tanta atención como éste [Wab03].

6.2. Herramientas del inventario forestal


Actualmente, las técnicas de inventario se han ido perfeccionando con la incorporación
de herramientas modernas como, por ejemplo, los diseños de muestreo, el cálculo del
tamaño de la muestra, las tablas de volumen y las imágenes digitales. Un inventario
forestal engloba al conjunto de procedimientos aplicados para determinar el estado
actual de un bosque; por lo que la interpretación de la expresión estado actual varía
de una situación a otra, conforme varía el objetivo perseguido por el inventario. Por
ejemplo, para un productor que desea vender su madera, el objetivo del inventario es
determinar la cantidad de madera que tiene disponible para la venta; el estado actual
quedaría representado por el volumen de madera comercializable que tiene disponi-
ble. En cambio, para quien desea predecir el volumen futuro de madera, el objetivo
del inventario es determinar el volumen que hoy tienen los árboles involucrados y
obtener alguna medida de su crecimiento; el estado actual quedaría representado por
el volumen de madera actual y su tasa de crecimiento [Wab03].
Para cumplir con los objetivos, el inventario forestal recurre a distintas herramien-
tas; entre ellas se destacan: las Técnicas e Instrumentos de Medición, la Teoría del
Muestreo, la Topografía, la Cartografía, la Teledetección y últimamente la Navegación

48
6.3. El inventario forestal y los tiempos de vida 49

Satelital. Todas las herramientas involucradas deben coordinarse en el espacio y en el


tiempo detrás de un mismo objetivo, lo que hace que la realización de un inventario
forestal sea técnicamente una operación compleja; esta complejidad crece a medida
que la supercie a ser inventariada es mayor. Cuando tratamos con inventarios de
grandes supercies al componente técnico se le suma el componente humano y las
dicultades asociadas a él, como, por ejemplo, su traslado al bosque, su alimentación
y su alojamiento [Wab03].
De los distintos ejemplos de inventarios forestales mencionados, se deduce que no
existe lo que podríamos llamar un inventario forestal único o universal, capaz de
dar respuesta a todas nuestras preguntas. Por el contrario, cada situación especíca
plantea una necesidad de información también especíca, distinta a la requerida en
otra situación o en otro momento. Un aspecto importante a tener en cuenta es que la
información provista por un inventario forestal es estática, ya que indica el estado de
situación en la fecha en que los datos fueron registrados. Sin embargo, este concepto
es a veces olvidado, de manera que no es raro encontrarse con situaciones en las que se
sigue tomando como válida la información registrada en un inventario que se llevó a
cabo, por ejemplo, cinco, diez o más años atrás. Esta situación se torna crítica cuando
los cambios del sistema ocurren a gran velocidad, como es el caso de las plantaciones
[Wab03].
Es aquí donde resulta indispensable integrar nuevas técnicas estadísticas que permitan
llevar a cabo un control de la evolución de las plantaciones a través del tiempo. Las
diferentes variables que se han estado registrando en los diferentes inventarios llevados
a cabo pueden usarse en conjunto con una distribución de vida para generar un modelo
de predicción más preciso de la evolución de las plantaciones.

6.3. El inventario forestal y los tiempos de vida


Determinar el estado actual del bosque implica contestar dos preguntas básicas: ¾qué
hay? Y ¾dónde está? Plantear y contestar correctamente las dos preguntas es, a gran-
des rasgos, el objetivo de un inventario forestal. La respuesta a la primera pregunta
(¾qué hay?) depende de la información requerida. En términos generales hay dos me-
canismos básicos para su obtención, que son: a) la observación de todos los árboles de
interés, en cuyo caso hablamos de un inventario al 100 por ciento; y b) la observación
de sólo una parte de esos árboles, en cuyo caso hablamos de un inventario por mues-
treo. Salvo situaciones excepcionales, lo usual es operar con técnicas de muestreo.
Podría pensarse que un inventario al 100 por ciento brinda mejores resultados que
el mismo inventario hecho mediante muestreo, pero ello no es necesariamente cierto
[ZM03].
Los trabajos de campo siempre están sujetos a error, los que se incrementan al incre-
mentarse la carga del trabajo. Al operar mediante una muestra la carga de trabajo se

49
50 Capítulo 6. Aplicación de los tiempos de vida en un inventario forestal

reduce, permitiendo que se reduzcan al máximo aquellos errores; el precio es el error


de muestreo, pero este error es controlable.

La respuesta a la segunda pregunta (¾dónde está?) depende en gran medida de la


escala geográca del trabajo. La pregunta pierde trascendencia cuando el inventario
es solicitado por el dueño de una propiedad, ya que en estos casos los rodales suelen
estar perfectamente delimitados y ubicados. Pero toma especial importancia cuando
el territorio a cubrir es extenso y no se tiene información sobre la ubicación y límites
exactos de los bosques, como ocurriría en un inventario forestal regional, estatal o
nacional. El área de interés debe tener límites perfectamente denidos por dos razones,
a saber: 1) porque la información lograda es válida exclusivamente para esa área, y 2)
porque debe coincidir con el área de interés. Para lograr esta información se dispone
del relevamiento a campo, de las fotografías aéreas y de las imágenes digitales [ZM03].

Como se vio, el sólo hecho de contestar esas dos preguntas implica un arduo trabajo en
campo y por consiguiente la utilización de muchos recursos. La propuesta de utilizar
modelos de regresión con distribuciones de vida puede simplicar el trabajo en campo
y el ahorro de recursos. En la actualidad se han utilizado los tiempos de vida para
muchas investigaciones, siendo las de mayor importancia la industria y la medicina,
pero aún faltan muchos campos más donde pueden ser de utilidad, incluyendo el
ámbito forestal. Los modelos de tiempos de vida, como se había mencionado, pueden
incorporan muchas covariables que inuyen en la mortalidad y realizar una predicción
más precisa del número de árboles que hay o habrá en un bosque sin la necesidad de
realizar censos o muestreos constantes.

El objetivo principal de estos modelos sería ajustar una distribución de tiempo de


vida para determinar la mortalidad de cada especie forestal y luego integrar el efecto
que producen las covariables en el proceso de muerte debido a factores que no puedan
ser controlados por el ser humano. Es frecuente que en un bosque se presente el
problema de muerte o destrucción de árboles forestales como resultado de la lucha por
la existencia, enfermedades, daños de insectos, sequía, viento, fuego y otros factores.

Se pueden utilizar una o varias variables explicativas (covariables) para obtener una
descripción del impacto de los factores no controlables en la producción en un tiempo
determinado. Con esta información se puedan realizar cálculos más precisos sin la
necesidad de invertir mucho tiempo y dinero en muestreos continuos. Se puede co-
menzar a usar los modelos de regresión con tiempos de vida como complemento de
las técnicas estadísticas que se han venido utilizando.

Para mostrar el funcionamiento de los modelos de regresión para los tiempos de vida,
en la siguiente sección se presenta un ejemplo de aplicación para modelar mortalidad
forestal en presencia y ausencia de dosel.

50
6.4. Aplicación a un Problema Forestal 51

6.4. Aplicación a un Problema Forestal


6.4.1. Los datos
En este apartado se verá el impacto que produce la presencia de dosel en la morta-
lidad de una plantación forestal, los datos tomados para este ejemplo provienen del
proyecto "Dierential growth and mortality of advance regeneration across the Cana-
dian boreal forest 2003/2004", publicado por la compañía SUSTAINABLE FOREST
MANAGEMENT NETWORK.

La metodología que se siguió para llevar a cabo el experimento, fue la siguiente: se


establecieron sitios experimentales para medir el crecimiento y la mortalidad de cinco
especies arbóreas, a través de regeneración natural. Las especies arbóreas utilizadas
fueron Populus tremuloides (Michx), Abies balsamea (L.), Picea Glauca (Moench),
y Picea mariana (Mill). Los sitios experimentales se establecieron a lo largo de los
bosques boreales de Canadá asegurándose de que cada especie quedara distribuida de
forma uniforme en las regiones oriente, centro y occidente. Los sitios experimentales
fueron establecidos en la primavera del 2000 y desde entonces se realizaron mediciones
periódicas cada 6 meses, durante un periodo de tres años. Se monitoreó aproximada-
mente a 500 individuos por cada especie forestal en cada región. La variable utilizada
para esta ejemplicación es la condición de intensidad de luz, alta para ausencia de
dosel y baja para presencia de dose(dosel abierto y dosel cerrado, respectivamente).

Los siguientes datos pertenecen a la especie arbórea, Populus tremuloides , Michx


y fueron levantados en el sitio de muestreo conocido como Manitoba, MB, rodal 3,
localizado en la región centro de Canadá.

Tiempo Censura Dosel Pesos


6 Failure 1 9
12 Failure 1 5
12 Failure 0 1
18 Failure 1 9
18 Failure 0 1
24 Failure 0 25
24 Failure 1 35
30 Failure 0 38
30 Failure 1 5
30 Censored 0 43
30 Censored 1 19

Cuadro 6.1: Tiempos de vida de Populus tremuloides Michx para el sitio de muestreo
Manitoba, MB, rodal 3.

51
52 Capítulo 6. Aplicación de los tiempos de vida en un inventario forestal

En el Cuadro 6.5.1,
Tiempo: Representa el tiempo en que ocurrieron las muertes o las censuras.
Censura: Es el indicador de muerte o de censura.
Dosel: Es la covariable que indica presencia o ausencia de dosel, el número 1 indica
dosel presente y el número 0 indica dosel ausente.
Peso: Representa el número de individuos muertos o censurados.
Las mediciones de las características de los sitios experimentales fueron realizadas
cada seis meses para que los cambios en las plantaciones pudieran ser observadas.
Como no se puede saber el instante preciso en que un árbol muere, es necesario que
las características que indican que el árbol realmente ha muerto sean notorias.

6.4.2. Estimación de la función de supervivencia


La función de supervivencia no paramétrica se estimó utilizando el método de Kaplan-
Meier, la metodología de este procedimiento se muestra en el capítulo 3, sección 2.2.
Las etiquetas de las columnas de los cuadros donde se presentan las estimaciones de
la función de supervivencia por el método de Kaplan-Meier se denen de la siguiente
manera,
Time: Representa los meses cuando se recolectaron los datos. De esta manera time=6
signica que los datos se recolectaron el sexto mes después de haber comenzado el
experimento.
n.risk: Es el número de árboles en riesgo cuando se recolectaron los datos.
n.event: El número de árboles muertos cuando se recolectaron los datos.
survival: Es la función de supervivencia estimada usando el método de Kaplan-Meier.
std.err: Representa el error estándar de la función de supervivencia estimada.
lower 95 % CI: Representa el límite inferior de un intervalo del 95 % de concanza
para la función de supervivencia estimada.
upper 95 % CI: Representa el límite superior de un intervalo del 95 % de concanza
para la función de supervivencia estimada.
Los resultados que arroja el programa de análisis estadístico R se muestra en el Cuadro
6.5.2.
En dicho cuadro se puede apreciar que la probabilidad de supervivencia va disminu-
yendo con forme transcurre el tiempo, siendo de un 95 % en los primeros seis meses
y reduciendose de manera importante a un 32 % al nal del experimento, en el mes
30. La curva de supervivencia para este cuadro se muestra en la gráca 6.5.2.
En esta gráca se puede notar una abrupta caída en la función de supervivencia en
el mes 24, pero no se sabe que produce este incremento tan notable en la mortalidad.
Para poder observar con más detalle los efectos que tienen la presencia de dosel en
la mortalidad de esta especie se puede realizar una comparación de las funciones de
supervivencia por separado, es decir, una curva de supervivencia para dosel presente
y otra para dosel ausente.

52
6.4. Aplicación a un Problema Forestal 53

Time n.risk n.event survival std.err lower 95 % CI upper 95 % CI


6 190 9 0.953 0.0154 0.923 0.983
12 181 6 0.921 0.0196 0.883 0.96
18 175 10 0.868 0.0245 0.822 0.918
24 165 60 0.553 0.0361 0.486 0.628
30 105 43 0.326 0.034 0.266 0.4

Cuadro 6.2: Estimación de la función de supervivencia por método de Kaplan-Meier


para los tiempos de vida de Populus tremuloides
1.0
0.8 Michx.
Supervivencia

0.6
0.4
0.2
0.0

0 5 10 15 20 25 30

Meses

Figura 6.1: Curva de supervivencia para los tiempos de vida de Populus tremuloides
Michx.

Primero se realiza la estimación de la función de supervivencia no paramétrica para el


conjunto de datos obtenidos en los sitios con dosel ausente y luego se aplica la misma
metodología a los datos obtenidos en los sitios con presencia de dosel.

Para datos que fueron recolectados en el sitio con dosel ausente, se comienza a ob-
servar la muerte de algunos árboles a partir del mes doce con una probabilidad de
supervivencia mayor del 99 % y al nal del experimento el porcentaje de supervivencia
baja hasta un 40 %.

53
54 Capítulo 6. Aplicación de los tiempos de vida en un inventario forestal

Time n.risk n.event survival std.err lower 95 % CI upper 95 % CI


12 108 1 0.991 0.00922 0.973 1
18 107 1 0.981 0.01297 0.956 1
24 106 25 0.75 0.04167 0.673 0.836
30 81 38 0.398 0.0471 0.316 0.502

Cuadro 6.3: Estimación de la función de supervivencia por el método de Kaplan-Meier


para ausencia de dosel. Tiempos de vida de Populus tremuloides Michx.

Time n.risk n.event survival std.err lower 95 % CI upper 95 % CI


6 82 9 0.89 0.0345 0.825 0.961
12 73 5 0.829 0.0416 0.752 0.915
18 68 9 0.72 0.0496 0.629 0.824
24 59 35 0.293 0.0502 0.209 0.41
30 24 5 0.232 0.0466 0.156 0.344

Cuadro 6.4: Estimación de la función de supervivencia por el método de Kaplan-Meier


para presencia de dosel. Tiempos de vida de Populus tremuloides Michx.

Para los datos obtenidos en los sitios con presencia de dosel, se comienza a obser-
var una mortalidad del 10 % desde el primer periodo de observación, y al nal del
experimento el porcentaje de supervivencia disminuyó hasta un 23 % .

Realizando la comparación de ambas tablas se podría decir que la ausencia o presencia


de dosel, sí es un factor que inuyen en la mortalidad forestal. Se observó una mayor
mortalidad en el sitio que presentaba dosel, por lo que un razonamiento lógico nos
haría pensar que la presencia de dosel acelera la mortalidad de esta especie arbórea.

De acuerdo al párrafo anterior, la mortalidad para esta especie puede disminuir si


se controla la presencia de dosel en las plantaciones. También se observa, en ambas
tablas, que hay mayor mortalidad en el último periodo del experimento (meses 24-
30) lo que también nos haría pensar, que los árboles jóvenes son más resistentes o
necesitan menos luz para sobrevivir. Cada vez que se realiza un análisis como este se
pueden encontrar más interrogantes y hacer conjeturas que serían de mucha utilidad
al momento de realizar un muestreo. Se puede levantar mayor información sobre
variables que no se habían considerado con anterioridad y que pueden estar inuyendo
en el proceso de evolución de la plantación, sería un inventario forestal más completo
y de mayor utilidad si se pudieran detectar la mayor cantidad de variables inuyentes
y de esa manera llevar un control más estricto de lo que sucede en las plantaciones
sin necesidad de monitoreo constante.

En la siguiente gráca se pueden apreciar la curva de supervivencia para los datos

54
6.4. Aplicación a un Problema Forestal 55

anteriores, donde la línea punteada representa la curva de supervivencia de los datos


levantados en el sitio con presencia de dosel.

1.0
0.8
Supervivencia

0.6
0.4
0.2
0.0

0 5 10 15 20 25 30

Meses

Figura 6.2: Comparación de las curvas de supervivencia para presencia y ausencia de


dosel. Tiempos de vida de Populus tremuloides Michx.

Se puede observar en esta gráca que la curva de supervivencia para los datos levan-
tados en los sitios con dosel presente permanece siempre por debajo de la curva de
supervivencia de los datos levantados en el sitio con dosel ausente. De igual manera
puede observarse que durante la cuarta observación, en el mes 24, la mortalidad en
ambos sitios experimentales fue mayor, por lo que también hace pensar que ocurrió
un evento que aceleró el proceso. Este evento pudo haber sido una tormenta invernal
o la incidencia de insectos, por lo que sería conveniente realizar una investigación
para ver que ocurrió durante este lapso de tiempo, siendo lo más extraño que fuera
un proceso normal de mortalidad.
Con estos datos se observa cierta diferencia entre las curvas de supervivencia, pero
para tener un sustento estadísticamente conable es necesario realizar una prueba de
hipótesis de igualdad de curvas utilizando el método visto en la sección 2.4, haciendo
énfasis en la ecuación (2.13).
Las hipótesis a contrastar son:
H0 :Las curvas de supervivencia son iguales vs H1 :Las curvas de supervivencia no

55
56 Capítulo 6. Aplicación de los tiempos de vida en un inventario forestal

son iguales.
Con un nivel de signicancia de α = 0,05 los resultados que arroja el programa de
análisis estadístico R se muestran en el cuadro 6.5.2.

Dosel N Observed Expected (O − E)2 /E (O − E)2 /V


CO=0 108 65 86.5 5.36 24.2
CO=1 82 63 41.5 11.17 24.2

Cuadro 6.5: Prueba de igualdad de curvas para presencia y ausencia de dosel. Tiempos
de vida de Populus tremuloides Michx.

χ21 = 24,2 y p = 8,49e − 07


Los resultados que son de interés para la prueba son el valor de la χ2 y el valor
del p − value. Como el p − value es menor que 0.05 hay evidencia suciente para
rechazar la hipótesis nula que enuncia que ambas curvas son iguales. Esta prueba es
de mucha ayuda cuando no existe mucha diferencia entre las curvas de supervivencia
y más aún cuando la cantidad de datos analizados es muy grande y la probabilidad
de supervivencia dieren por muy poco.

6.4.3. Ajuste del modelo paramétrico


El siguiente procedimiento consiste en ajustar alguna de las distribuciones proba-
bilísticas vistas en el capítulo 3 a los tiempos de vida que se están analizando. La
identicación del modelo paramétrico más adecuado es un asunto que requiere de
cierto entrenamiento, en muchos casos se haría comparando la función de riesgo em-
pírica contra la función de riesgo teórica (pueden usarse también las funciones de
distribuciones o las funciones de densidad). Estas funciones se encuentran gracadas
en algunos libros, como por ejemplo en [ME98]. Sin embargo, las comparaciones vi-
suales son a menudo riesgosas y en algunos casos no puede identicarse una única
distribución, por lo cual se requiere de técnicas más renadas como la de bondad de
ajuste o las grácas de probabilidad que también se presentan en [ME98].
El modelo paramétrico se puede encontrar de manera más fácil, utilizando el progra-
ma estadístico S el cual dio origen al lenguaje R. En S-PLUS (Insighful Corporation,
2001) [The09] existe una librería llamada SPLIDA desarrollada por Meeker y Esco-
bar , que permite construir con facilidad los grácos citados en el párrafo anterior.
Además se pueden realizar comparaciones de distribuciones directamente en papel de
probabilidad; con Splida se puede dar instrucciones para imprimir los logaritmos de
las verosimilitudes lo que facilita la elección de la distribución. En la paquetería Spli-
da viene integrado el analisis de tiempos de vida utilizando ocho de las distribuciones
de probabilidad las más comunes.

56
6.4. Aplicación a un Problema Forestal 57

En el siguiente cuadro se puede observar los log-verosimilitudes, así como la estimación


de los parámetros y los errores estándar estimados para las distribuciones de vida más
utilizadas.

Distribución Log likelihood mu se-mu sigma se-sigma


sev -490.8 29.89 0.46815 5.2281 0.41576
weibull -504.3 3.408 0.02273 0.2521 0.02058
exponential -594.5 3.644 0.08839 1 0
normal -502.7 27.682 0.65574 8.322 0.5508
lognormal -534.3 3.317 0.03873 0.4897 0.03207
logistic -497.2 27.951 0.56357 4.4068 0.3389
loglogistic -516.6 3.332 0.02746 0.2198 0.01765
lev -520.4 24.19 0.83748 10.5029 0.63785

Cuadro 6.6: Comparación de modelos paramétricos por el método del log-


verosimilitud para los tiempos de vida de Populus tremuloides Michx.

La denición de las etiquetas de las columnas del Cuadro 6.19 se presentan a conti-
nuación:
Distribución: Es la distribución utilizada para realizar las estimaciones.
Log likelihood: Representa el logaritmo de la función de verosimilitud para la distri-
bución correspondiente.
mu: Es el estimador de máxima verosilitud para el parámetro de localidad de la
distribución correspondiente.
se-mu: es el error estándar del parámtetro de localidad estimado.
sigma: Es el estimador de máxima verosilitud para el parámetro de escala de la dis-
tribución correspondiente.
se-sigma: es el error estándar del parámtetro de escala estimado.
De acuerdo con el cuadro anterior, de los logaritmos de la verosimilitud obtenidos para
las ocho distribuciones, el que mejor se ajusta a los datos es la distribución Gumbel
de valor extremo (sev) con un valor de -490.8, es decir se escoje la distribución que
tiene el logaritmo de la verosimilitud más grande, en este caso el que es más cercano a
cero. Posteriormente se encuentra la distribución logística con un valor de -497.2. Para
tener un argumento más sólido de que la distribución que mejor se ajusta a los datos
es la que tiene mayor logaritmo de la verosimilitud, se puede realizar la comparación
gráca de dos distribuciones; por ejemplo, en la gráca (6.5.3) se observa el ajuste que
realiza la distribución Gumbel de valor extremo (-490.8) y la distribución log-normal
(-534.3).
Esta gráca es una buena forma de corroborar los resultados obtenidos en el Cuadro
6.19.

57
58 Capítulo 6. Aplicación de los tiempos de vida en un inventario forestal

s data
Smallest Extreme Value Probability Plot

.9 Smallest Extreme Value Distribution ML Fit


Lognormal Distribution ML Fit
.7 95% Pointwise Confidence Intervals

.5

.3
Fraction Failing

.2

.1

.05

.03
.02

.01

.005

5 10 15 20 25 30

TI Tue Jun 16 14:48:34 Hdv 2009

Figura 6.3: Gráca de probabilidad para la distribución Gumbel de valor extremo y


la distribución Log-normal para los tiempos de vida de Populus tremuloides Michx.

En el capítulo 3, sección 3.4 se pueden revisar los atributos de la distribución Gumbel


de valor extremo.

Es de importante mecionar que el ajuste de la distribución paramétrica vista en esta


sección no toma en cuenta la información proporcionada por la covariable, sólo asocia
los datos de tiempos de vida con una distribución paramétrica. La información que
proporcionan las covariables se toman en cuenta hasta que se ajusta a un modelo de
regresión. En la siguiente sección se muestra este tipo de análisis.

6.4.4. El modelo de regresión


El siguiente paso corresponde al ajuste de un modelo de regresión paramétrico, que
incluya a la covariable que indica dosel presente o ausente. La distribución Gumbel
de valor extremo tiene la propiedad Y = log T por lo cual su función de supervivencia
se puede expresar de la forma
( y − u(x) ) ( ( y − β ′ x ))
P r(Y ≥ y | x) = S0 = exp − exp
b b
58
6.4. Aplicación a un Problema Forestal 59

donde el único parámetro que depende de la covariable es

[ ]
′ 1
u(x) = β x = [β0 β1 ] = β0 + β1 xi1
xi1
.
Utilizando la distribución Gumbel se estima un modelo de regresión lineal para incluir
la información presente en la covariable. Los resultados obtenidos se muestran en el
siguiente cuadro.

Inter. de Conanza Aprox.


Parámetros Est. Máx. Verosimilitud. Error Estándar
95 % Inferior 95 % Superior
β0 31.533 0.6352 30.288 32.778
β1 -4.386 0.9021 -6.154 -2.618
b 4.957 0.3851 4.256 5.772

Cuadro 6.7: Parámetros estimados utilizando la distribución Gumbel de valor extre-


mo, para los tiempos de vida de Populus tremuloides Michx.

Los coecientes de regresión obtenidos son βˆ0 = 31,53, βˆ1 = −4,386 y b = 4,957. Por
lo que el modelo de regresión ajustado sería

[ ]
′ 1
β̂ x = [βˆ0 βˆ1 ] = βˆ0 + βˆ1 xi1 = 31,53 − 4,386xi1
xi1
En la siguiente gráca se puede apreciar el ajuste realizado por el modelo de regresión.
La nueva función de supervivencia se obtiene sustituyendo el parámetro que depende
de la covariable, con los coecientes de regresión obtenidos.

( y − û(x) ) ( ( y − β̂ ′ x )) ( ( y − (31,53 − 4,386x ) ))


i1
S0 = exp − exp = exp − exp
b b 4,957

Esta función es mucho más precisa al momento de determinar el porcentaje de mor-


talidad presente en el sitio de muestreo Manitoba, MB, rodal 13. Cada covariable que
se incluya y que demuestre ser un factor que inuye en la mortalidad de la especie, va
a proporcionar información de interés que servirá para mejora continua del modelo,
haciendo cada vez más preciso.
Cómo se utilice esta función de supervivencia va a depender de los objetivos que se
tengan para con la plantación y de la habilidad que tengan los administradores para
analizar la información que el modelo les proporcione.

59
60 Capítulo 6. Aplicación de los tiempos de vida en un inventario forestal

s data Model MLE


COLinear, Dist:Smallest extreme value
Smallest Extreme Value Probability Plot

.9 0CO
1CO
.7
.5

.3
.2

Fraction Failing .1

.05
.03
.02

.01

.005
.003

.001

-10 0 10 20 30

TI Sun Jun 21 00:02:26 Hdv 2009

Figura 6.4: Modelo ajustado utilizando la distribución Gumbel de valor extremo para
los tiempos de vida de Populus tremuloides Michx. Sitio de muestreo Manitoba, MB,
rodal 13

6.4.5. Función de supervivencia entre sitios


Como ya se había comentado, realizar comparaciones de curvas de supervivencia es
de gran utilidad al momento que se están estableciendo los objetivos del inventario.
Tener un objetivo denido para un inventario forestal juega un papel importante en
su posterior diseño; es por ello que la determinación correcta del objetivo es condición
necesaria para el éxito. Si el objetivo ha sido erróneamente planteado, no tener un idea
clara de la información que es relevante, el inventario no dará la información esperada
y será un fracaso. Esto es así aunque técnicamente todas las tareas posteriores se hayan
llevado a cabo en forma impecable; en estos casos, podemos decir que el inventario
contestó preguntas distintas a las que debía responder.

Por cierto, el usuario de la información debe comprender con claridad sus alcances
y sus límites, ya que con los medios disponibles no siempre se puede averiguar todo
aquello que se pretende conocer. Es así, que en ocasiones se deben establecer priori-
dades y, eventualmente, sacricar una parte de la información obtenida.

Realizar una comparación de las funciones de supervivencia estimadas entre sitios


puede servir para determinar si la localización de los rodales (latitud, longitud, al-
titud) también son factores determinantes en la mortalidad de esta especie arbórea
Populus tremuloides, Michx.
Para ejemplicar lo anteriormente dicho se toma como punto de comparación el sitio

60
6.4. Aplicación a un Problema Forestal 61

experimental conocido como EMEND, AB localizado en el Noroeste de Canadá; el


rodal donde se recolectaron los datos fue etiquetado como EMEND, AB, rodal 13.
Los datos se muestran en el Cuadro 6.5.5.

Tiempo Censura Dosel Pesos


12 Failure 1 6
18 Failure 0 1
18 Failure 1 5
24 Failure 0 3
24 Failure 1 15
30 Censored 0 1
30 Failure 0 1
30 Failure 1 1
30 Censored 0 58
30 Censored 1 30

Cuadro 6.8: Tiempos de vida de Populus tremuloides Michx. en el sitio de muestreo


EMEND, AB, rodal 13.

La descripción de las variables y los análisis, van a ser los mismos que se realizaron
para el sitio Manitoba, MB, rodal 3.
Primero se calcula la función de supervivencia utilizando el método de Kaplan-Meier.

Time n.risk n.event survival std.err lower 95 % CI upper 95 % CI


12 126 6 0.952 0.019 0.916 0.99
18 120 6 0.905 0.0262 0.855 0.957
24 114 18 0.762 0.0379 0.691 0.84
30 96 2 0.746 0.0388 0.674 0.826

Cuadro 6.9: Estimación de la función de supervivencia a través del método de Kaplan-


Meier para los tiempos de vida de Populus tremuloides Michx. en el sitio de muestreo
EMEND, AB, rodal 13.

La función de supervivencia del Cuadro 6.9 muestra que para el sitio de muestreo
EMEN 23, el porcentaje de supervivencia al nal del periodo de observación 74.6 % es
un mucho mayor que para el sitio Manitoba, MB, rodal 3, que al nal del experimento
obtuvo un porcentaje de supervivencia del 32.6 %. De este resultado se puede especular
que existe otro factor en el sitio de muestreo Manitoba, MB, rodal 3, relacionado con
la localización geográca, que inuye en la mortalidad de esta especie, un ejemplo
rápido de este factor puede ser las condiciones climáticas, la variable horas luz ó
simplemente la temperatura del aire.

61
62 Capítulo 6. Aplicación de los tiempos de vida en un inventario forestal

En este caso se puede realizar la comparación de las curvas de supervivencia para


para detectar diferencias con respecto a la mortalidad arborea entre los dos sitios de
muestreo.

1.0
0.8
Supervivencia

0.6
0.4
0.2
0.0

0 5 10 15 20 25 30

Meses

Figura 6.5: Función de supervivencia para los tiempos de vida de Populus tremuloides
Michx. Sitios de muestreo Manitoba, MB, rodal 3 y EMEND, AB, rodal 13.

Se puede visualizar grácamente que para el sitio EMEND, AB, rodal 13, la curva
de supervivencia (líneas punteadas) no decrece tanto como para el sitio Manitoba,
MB, rodal 3. Con esta información se puede decir que la localización geográca de
las plantaciones también puede ser un factor que inuye en la mortalidad de Popu-
lus tremuloides . Para el inventario forestal también sería de importancia recolectar
información sobre los factores que predominan en los sitios donde se ubican las plan-
taciones, clima, suelo incidencia de plagas, etc.
Después de revisar la gráca y ver que existe cierta diferencia entre las curvas, es
recomendable realizar una prueba de hipótesis para descartar la posibilidad de que
las curvas sean iguales.
De igual manera haciendo referencia a los resultados visto en la sección 2.4, ecuación
(2.13), las hipótesis a contrastar son:
H0 :Las curvas de supervivencia son iguales vs H1 :Las curvas de supervivencia no
son iguales.

62
6.4. Aplicación a un Problema Forestal 63

Sitio N Observed Expected (O − E)2 /E (O − E)2 /V


s1 190 128 91.6 14.5 42.8
s2 126 32 68.4 19.4 42.8

Cuadro 6.10: Prueba de igualdad de curvas de supervivencia para los tiempos de vida
de Populus tremuloides Michx. Para los sitios Manitoba, MB, rodal 3 y EMEND,
AB, rodal 13.

Time n.risk n.event survival std.err lower 95 % CI upper 95 % CI


18 63 1 0.984 0.0157 0.954 1
24 62 3 0.937 0.0307 0.878 0.999
30 59 1 0.921 0.0341 0.856 0.99

Cuadro 6.11: Estimación de la función de supervivencia para dosel ausente. Tiempos


de vida de Populus tremuloides Michx. Sitio de muestreo EMEND, AB, rodal 13.

Con un nivel de signicancia de α = 0,05 los resultados obtenidos se muestran en el


Cuadro 6.10.

χ21 = 42,8 , p − value = 6,14e − 11


Como el p−value es menor que 0.05, entonces rechazamos la hipótesis nula y podemos
decir que las curvas no son iguales y que los factores relacionados con la localización
geográca de la plantación juegan un papel a considerar en la mortalidad de Populus
tremuloides .
Después se de haber realizado la comparación de ambas curvas de supervivencia para
ambos sitios, es importante realizar una comparación de las funciones de superviven-
cia, por separado para presencia y ausencia de dosel enel nuevo sitio de muestreo
EMEND, AB, 13, con el único n de ver si en éste sitio la covariable afecta de igual
manera la mortalidad de esta especie arbórea.
En las parcelas donde no hay presencia de dosel, se comienza a observar mortalidad de
algunos árboles hasta el décimo octavo mes y al nalizar el periodo de observación el
porcentaje de supervivencia aún es mayor del 90 %, comparado con un 40 % observado
en el sitio Manitoba, MB, rodal 3.
En el Cuadro 6.5.5 se puede observar que al concluir el periodo de observación, el
porcentaje de supervivencia en presencia de dosel es de un 43 % comparado con el
23 % observado en el sitio Manitoba, MB, rodal 3. Con este resultado se puede decir
que la presencia o ausencia de dosel si es un factor determinante en la mortalidad
de esta especie arbórea, pero al observarse que el porcentaje de supervivencia es más
alto que para el primer sitio de muestreo, se da un gran paso para determinar que las
condiciones geográcas también son relevantes y que se deben tomar en cuenta.

63
64 Capítulo 6. Aplicación de los tiempos de vida en un inventario forestal

Time n.risk n.event survival std.err lower 95 % CI upper 95 % CI


12 63 6 0.905 0.037 0.835 0.98
18 57 5 0.825 0.0478 0.737 0.925
24 52 15 0.587 0.062 0.477 0.722
30 37 1 0.571 0.0623 0.461 0.708

Cuadro 6.12: Estimación de la función de supervivencia para dosel presente. Tiempos


de vida de Populus tremuloides Michx. en el sitio de muestreo EMEN, AB, rodal 13.

Para respaldar los resultados se puede realizar la gráca de las curvas de supervivencia
y realizar una prueba de hipótesis para igualdad de curvas.
1.0
0.8
Supervivencia

0.6
0.4
0.2
0.0

0 5 10 15 20 25 30

Meses

Figura 6.6: Comparación de las curvas de supervivencia (dosel presente y ausente)


para los tiempos de vida de Populus tremuloides Michx. en el sitio de muestreo
EMEND, AB, rodal 13.

De igual manera se realiza una prueba de hipótesis para constatar que realmente las
curvas de supervivencia no sean iguales. Las hipótesis a contrastar son:
H0 :Las curvas de supervivencia son iguales vs H1 :Las curvas de supervivencia no
son iguales.

64
6.5. Aplicación a un Problema Forestal 65

Dosel N Observed Expected (O − E)2 /E (O − E)2 /V


CO=0 63 5 17.2 8.62 20.8
CO=1 63 27 14.8 9.98 20.8

Cuadro 6.13: Prueba de igualdad de curvas de supervivencia (dosel presente y ausente)


para los tiempos de vida de Populus tremuloides Michx. Sitio de muestreo EMEND,
AB, rodal 13.

Con un nivel de signicancia del 95 %, los resultados obtenidos son los siguientes.

χ21 = 20,8 , p − value = 5,23e − 06

Como el p − value es menor que 0.05, entonces rechazamos la hipótesis nula que
enuncia que ambas curvas son iguales.
De esta manera se tienen argumentos estadísticos para respaldar los siguientes dos
resultados:

Existe una mayor mortalidad de la especie arborea Populus tremuloides Michx,


bajo condiciones de presencia de dosel.

Las condiciones geográcas son un factor que inuyen en la mortalidad de Po-


pulus tremuloides Michx.

Antes de realizar el inventario es necesario denir claramente los objetivos para el cual
se está realizando dicho inventario y sí se cuenta con información previa de la situación
de la plantación, es recomendable realizar algunas pruebas estadísticas, como las que
se vieron en este ejemplo, para tratar de localizar las covariables que pueden afectar
la mortalidad de las especies arbóreas y por consiguiente afectar la producción.

6.5. Aplicación a un Problema Forestal


6.5.1. Los datos
En este apartado se verá el impacto que produce la presencia de dosel en la morta-
lidad de una plantación forestal, los datos tomados para este ejemplo provienen del
proyecto "Dierential growth and mortality of advance regeneration across the Cana-
dian boreal forest 2003/2004", publicado por la compañía SUSTAINABLE FOREST
MANAGEMENT NETWORK.
La metodología que se siguió para llevar a cabo el experimento, fue la siguiente: se
establecieron sitios experimentales para medir el crecimiento y la mortalidad de cinco

65
66 Capítulo 6. Aplicación de los tiempos de vida en un inventario forestal

especies arbóreas, a través de regeneración natural. Las especies arbóreas utilizadas


fueron Populus tremuloides (Michx), Abies balsamea (L.), Picea Glauca (Moench),
y Picea mariana (Mill). Los sitios experimentales se establecieron a lo largo de los
bosques boreales de Canadá asegurándose de que cada especie quedara distribuida de
forma uniforme en las regiones oriente, centro y occidente. Los sitios experimentales
fueron establecidos en la primavera del 2000 y desde entonces se realizaron mediciones
periódicas cada 6 meses, durante un periodo de tres años. Se monitoreó aproximada-
mente a 500 individuos por cada especie forestal en cada región. La variable utilizada
para esta ejemplicación es la condición de intensidad de luz, alta para ausencia de
dosel y baja para presencia de dosel (dosel abierto y dosel cerrado, respectivamente).
Los siguientes datos pertenecen a la especie arbórea, Populus tremuloides , Michx
y fueron levantados en el sitio de muestreo conocido como Manitoba, MB, rodal 3,
localizado en la región centro de Canadá.

Tiempo Censura Dosel Pesos


6 Failure 1 9
12 Failure 1 5
12 Failure 0 1
18 Failure 1 9
18 Failure 0 1
24 Failure 0 25
24 Failure 1 35
30 Failure 0 38
30 Failure 1 5
30 Censored 0 43
30 Censored 1 19

Cuadro 6.14: Tiempos de vida de Populus tremuloides Michx para el sitio de muestreo
Manitoba, MB, rodal 3.

En el cuadro (6.5.1).
Tiempo: Representa el tiempo en que ocurrieron las muertes o las censuras.
Censura: Es el indicador de muerte o de censura.
Dosel: Es la covariable que indica presencia o ausencia de dosel, el número 1 indica
dosel presente y el número 0 indica dosel ausente.
Peso: Representa el número de individuos muertos o censurados.
Las mediciones de las características de los sitios experimentales fueron realizadas
cada seis meses para que los cambios en las plantaciones pudieran ser observadas.
Como no se puede saber el instante preciso en que un árbol muere, es necesario que
las características que indican que el árbol realmente ha muerto sean notorias.

66
6.5. Aplicación a un Problema Forestal 67

6.5.2. Estimación de la función de supervivencia


La función de supervivencia no paramétrica se estimó utilizando el método de Kaplan-
Meier, la metodología de este procedimiento se muestra en el capítulo 3, sección 2.2.
Los resultados que arroja el programa de análisis estadístico R se muestra en el cuadro
6.5.2.

Time n.risk n.event survival std.err lower 95 % CI upper 95 % CI


6 190 9 0.953 0.0154 0.923 0.983
12 181 6 0.921 0.0196 0.883 0.96
18 175 10 0.868 0.0245 0.822 0.918
24 165 60 0.553 0.0361 0.486 0.628
30 105 43 0.326 0.034 0.266 0.4

Cuadro 6.15: Estimación de la función de supervivencia por método de Kaplan-Meier


para los tiempos de vida de Populus tremuloides Michx.

En dicho cuadro se puede apreciar que la probabilidad de supervivencia va disminu-


yendo con forme transcurre el tiempo, siendo de un 95 % en los primeros seis meses
y reduciéndose de manera importante a un 32 % al nal del experimento, en el mes
30. La curva de supervivencia para este cuadro se muestra en la gráca 6.5.2.
En esta gráca se puede notar una abrupta caída en la función de supervivencia en el
mes 24, pero no sabemos que produce este incremento tan notable en la mortalidad.
Para poder observar con más detalle los efectos que tienen la presencia de dosel en
la mortalidad de esta especie se puede realizar una comparación de las funciones de
supervivencia por separado, es decir, una curva de supervivencia para dosel presente
y otra para dosel ausente.
Primero se realiza la estimación de la función de supervivencia no paramétrica para el
conjunto de datos obtenidos en los sitios con dosel ausente y luego se aplica la misma
metodología a los datos obtenidos en los sitios con presencia de dosel.

Time n.risk n.event survival std.err lower 95 % CI upper 95 % CI


12 108 1 0.991 0.00922 0.973 1
18 107 1 0.981 0.01297 0.956 1
24 106 25 0.75 0.04167 0.673 0.836
30 81 38 0.398 0.0471 0.316 0.502

Cuadro 6.16: Estimación de la función de supervivencia por el método de Kaplan-


Meier para ausencia de dosel. Tiempos de vida de Populus tremuloides Michx.

Para datos que fueron recolectados en el sitio con dosel ausente, se comienza a ob-

67
68 Capítulo 6. Aplicación de los tiempos de vida en un inventario forestal

1.0
0.8
Supervivencia

0.6
0.4
0.2
0.0

0 5 10 15 20 25 30

Meses

Figura 6.7: Curva de supervivencia para los tiempos de vida de Populus tremuloides
Michx.

servar la muerte de algunos árboles a partir del mes doce con una probabilidad de
supervivencia mayor del 99 % y al nal del experimento el porcentaje de supervivencia
baja hasta un 40 %.

Time n.risk n.event survival std.err lower 95 % CI upper 95 % CI


6 82 9 0.89 0.0345 0.825 0.961
12 73 5 0.829 0.0416 0.752 0.915
18 68 9 0.72 0.0496 0.629 0.824
24 59 35 0.293 0.0502 0.209 0.41
30 24 5 0.232 0.0466 0.156 0.344

Cuadro 6.17: Estimación de la función de supervivencia por el método de Kaplan-


Meier para presencia de dosel. Tiempos de vida de Populus tremuloides Michx.

Para los datos obtenidos en los sitios con presencia de dosel, se comienza a obser-
var una mortalidad del 10 % desde el primer periodo de observación, y al nal del
experimento el porcentaje de supervivencia disminuyó hasta un 23 % .

68
6.5. Aplicación a un Problema Forestal 69

Realizando la comparación de ambas tablas se podría decir que la ausencia o presencia


de dosel, sí es un factor que inuye en la mortalidad forestal. Se observó una mayor
mortalidad en el sitio que presentaba dosel, por lo que un razonamiento lógico nos
haría pensar que la presencia de dosel acelera la mortalidad de esta especie arbórea.
De acuerdo al párrafo anterior, la mortalidad para esta especie puede disminuir si
se controla la presencia de dosel en las plantaciones. También se observa, en ambas
tablas, que hay mayor mortalidad en el último periodo del experimento (meses 24-
30) lo que también nos haría pensar, que los árboles jóvenes son más resistentes o
necesitan menos luz para sobrevivir. Cada vez que se realiza un análisis como este se
pueden encontrar más interrogantes y hacer conjeturas que serían de mucha utilidad
al momento de realizar un muestreo. Se puede levantar mayor información sobre
variables que no se habían considerado con anterioridad y que pueden estar inuyendo
en el proceso de evolución de la plantación, sería un inventario forestal más completo
y de mayor utilidad si se pudieran detectar la mayor cantidad de variables inuyentes
y de esa manera llevar un control más estricto de lo que sucede en las plantaciones
sin necesidad de monitoreo constante.
En la siguiente gráca se pueden apreciar las curvas de supervivencia para los datos
anteriores, donde la línea punteada representa la curva de supervivencia de los datos
levantados en el sitio con presencia de dosel.
Se puede observar en esta gráca que la curva de supervivencia para los datos levan-
tados en los sitios con dosel presente permanece siempre por debajo de la curva de
supervivencia de los datos levantados en el sitio con dosel ausente. De igual manera
puede observarse que durante la cuarta observación, en el mes 24, la mortalidad en
ambos sitios experimentales fue mayor, por lo que también hace pensar que ocurrió
un evento que aceleró el proceso. Este evento pudo haber sido una tormenta invernal
o la incidencia de insectos, por lo que sería conveniente realizar una investigación
para ver que ocurrió durante este lapso de tiempo, siendo lo más extraño que fuera
un proceso normal de mortalidad.
Con estos datos se observa cierta diferencia entre las curvas de supervivencia, pero
para tener un sustento estadísticamente conable es necesario realizar una prueba de
hipótesis de igualdad de curvas utilizando el método visto en la sección 2.4, haciendo
énfasis en la ecuación (2.13).
Las hipótesis a contrastar son:
H0 :Las curvas de supervivencia son iguales vs H1 :Las curvas de supervivencia no
son iguales.
Con un nivel de signicancia de α = 0,05 los resultados que arroja el programa de
análisis estadístico R se muestran en el cuadro 6.5.2.
Los resultados que son de interés son el valor de la χ2 y el valor del p − value.

χ21 = 24,2 y p = 8,49e − 07

69
70 Capítulo 6. Aplicación de los tiempos de vida en un inventario forestal

1.0
0.8
Supervivencia

0.6
0.4
0.2
0.0

0 5 10 15 20 25 30

Meses

Figura 6.8: Comparación de las curvas de supervivencia para presencia y ausencia de


dosel. Tiempos de vida de Populus tremuloides Michx.

Dosel N Observed Expected (O − E)2 /E (O − E)2 /V


CO=0 108 65 86.5 5.36 24.2
CO=1 82 63 41.5 11.17 24.2

Cuadro 6.18: Prueba de igualdad de curvas para presencia y ausencia de dosel. Tiem-
pos de vida de Populus tremuloides Michx.

Como el p−value es menor que 0.05 hay evidencia suciente para rechazar la hipótesis
nula que enuncia que ambas curvas son iguales. Esta prueba es de mucha ayuda cuando
no existe mucha diferencia entre las curvas de supervivencia y más aún cuando la
cantidad de datos analizados es muy grande y la probabilidad de supervivencia diere
por muy poco.

6.5.3. Ajuste del modelo paramétrico


El siguiente procedimiento consiste en ajustar alguna de las distribuciones proba-
bilísticas vistas en el capítulo 3 a los tiempos de vida que se están analizando. La

70
6.5. Aplicación a un Problema Forestal 71

identicación del modelo paramétrico más adecuado es un asunto que requiere de


cierto entrenamiento, en muchos casos se haría comparando la función de riesgo em-
pírica contra la función de riesgo teórica (pueden usarse también las funciones de
distribuciones o las funciones de densidad). Estas funciones se encuentran gracadas
en algunos libros, como por ejemplo en [ME98]. Sin embargo, las comparaciones vi-
suales son a menudo riesgosas y en algunos casos no puede identicarse una única
distribución, por lo cual se requiere de técnicas más renadas como la de bondad de
ajuste o las grácas de probabilidad que también se presentan en [ME98].
El modelo paramétrico se puede encontrar de manera más fácil, utilizando el progra-
ma estadístico S el cual dio origen al lenguaje R. En S-PLUS (Insighful Corporation,
2001) [The09] existe una librería llamada SPLIDA desarrollada por Meeker y Esco-
bar, que permite construir con facilidad los grácos citados en el párrafo anterior.
Además se pueden realizar comparaciones de distribuciones directamente en papel de
probabilidad; con Splida se puede dar instrucciones para imprimir los logaritmos de
las verosimilitudes lo que facilita la elección de la distribución. En la paquetería Spli-
da viene integrado el análisis de tiempos de vida utilizando ocho de las distribuciones
de probabilidad las más comunes.
En el siguiente cuadro se puede observar los log-verosimilitudes, así como la estimación
de los parámetros y los errores estándar estimados para las distribuciones de vida más
utilizadas.

Distribución Log likelihood mu se-mu sigma se-sigma


sev -490.8 29.89 0.46815 5.2281 0.41576
weibull -504.3 3.408 0.02273 0.2521 0.02058
exponential -594.5 3.644 0.08839 1 0
normal -502.7 27.682 0.65574 8.322 0.5508
lognormal -534.3 3.317 0.03873 0.4897 0.03207
logistic -497.2 27.951 0.56357 4.4068 0.3389
loglogistic -516.6 3.332 0.02746 0.2198 0.01765
lev -520.4 24.19 0.83748 10.5029 0.63785

Cuadro 6.19: Comparación de modelos paramétricos por el método del log-


verosimilitud para los tiempos de vida de Populus tremuloides Michx.

De acuerdo con el cuadro anterior, de los logaritmos de la verosimilitud obtenidos para


las ocho distribuciones, el que mejor se ajusta a los datos es la distribución Gumbel
de valor extremo (sev) con un valor de -490.8, es decir se escoge la distribución que
tiene el logaritmo de la verosimilitud más grande, en este caso el que es más cercano a
cero. Posteriormente se encuentra la distribución logística con un valor de -497.2. Para
tener un argumento más sólido de que la distribución que mejor se ajusta a los datos
es la que tiene mayor logaritmo de la verosimilitud, se puede realizar la comparación

71
72 Capítulo 6. Aplicación de los tiempos de vida en un inventario forestal

gráca de dos distribuciones; por ejemplo, en la gráca (6.5.3) se observa el ajuste que
realiza la distribución Gumbel de valor extremo (-490.8) y la distribución log-normal
(-534.3).

s data
Smallest Extreme Value Probability Plot

.9 Smallest Extreme Value Distribution ML Fit


Lognormal Distribution ML Fit
.7 95% Pointwise Confidence Intervals

.5

.3
Fraction Failing

.2

.1

.05

.03
.02

.01

.005

5 10 15 20 25 30

TI Tue Jun 16 14:48:34 Hdv 2009

Figura 6.9: Gráca de probabilidad para la distribución Gumbel de valor extremo y


la distribución Log-normal para los tiempos de vida de Populus tremuloides Michx.

Esta gráca es una buena forma de corrobora los resultados obtenidos en la tabla de
logaritmos (6.19).
En el capítulo 3, sección 3.4 se pueden revisar los atributos de la distribución Gumbel
de valor extremo.
Es de importante mencionar que el ajuste de la distribución paramétrica vista en esta
sección no toma en cuenta la información proporcionada por la covariable, sólo asocia
los datos de tiempos de vida con una distribución paramétrica. La información que
proporcionan las covariable se toman en cuenta hasta que se ajusta a un modelo de
regresión.

6.5.4. El modelo de regresión


El siguiente paso corresponde al ajuste de un modelo de regresión paramétrico, que
incluya a la covariable que indica dosel presente o ausente. La distribución Gumbel

72
6.5. Aplicación a un Problema Forestal 73

de valor extremo tiene la propiedad Y = log T por lo cual su función de supervivencia


se puede expresar de la forma
( y − u(x) ) ( ( y − β ′ x ))
P r(Y ≥ y | x) = S0 = exp − exp
b b
donde el único parámetro que depende de la covariable es
[ ]
′ 1
u(x) = β x = [β0 β1 ] = β0 + β1 xi1
xi1
.
Utilizando la distribución Gumbel se estima un modelo de regresión lineal para incluir
la información presente en la covariable. Los resultados obtenidos se muestran en el
siguiente cuadro.

Approx Conf. Interval


Parameters MLE Std.Err.
95 % Lower 95 % Upper
(Intercept) 31.533 0.6352 30.288 32.778
g(CO) -4.386 0.9021 -6.154 -2.618
sigma 4.957 0.3851 4.256 5.772

Cuadro 6.20: Parámetros estimados utilizando la distribución Gumbel de valor extre-


mo, para los tiempos de vida de Populus tremuloides Michx.

Los coecientes de regresión obtenidos son βˆ0 = 31,53, βˆ1 = −4,386 y b = 4,957. Por
lo que el modelo de regresión ajustado sería

[ ]
′ 1
β̂ x = [βˆ0 βˆ1 ] = βˆ0 + βˆ1 xi1 = 31,53 − 4,386xi1
xi1
En la siguiente gráca se puede apreciar el ajuste realizado por el modelo de regresión.
La nueva función de supervivencia se obtiene sustituyendo el parámetro que depende
de la covariable, con los coecientes de regresión obtenidos.

( y − û(x) ) ( ( y − β̂ ′ x )) ( ( y − (31,53 − 4,386x ) ))


i1
S0 = exp − exp = exp − exp
b b 4,957
Esta función es mucho más precisa al momento de determinar el porcentaje de mor-
talidad presente en el sitio de muestreo Manitoba, MB, rodal 13. Cada covariable que
se incluya y que demuestre ser un factor que inuye en la mortalidad de la especie, va
a proporcionar información de interés que servirá para mejora continua del modelo,
haciendo cada vez más preciso.
Cómo se utilice esta función de supervivencia va a depender de los objetivos que se
tengan para con la plantación y de la habilidad que tengan los administradores para
analizar la información que el modelo les proporcione.

73
74 Capítulo 6. Aplicación de los tiempos de vida en un inventario forestal

s data Model MLE


COLinear, Dist:Smallest extreme value
Smallest Extreme Value Probability Plot

.9 0CO
1CO
.7
.5

.3
.2

Fraction Failing .1

.05
.03
.02

.01

.005
.003

.001

-10 0 10 20 30

TI Sun Jun 21 00:02:26 Hdv 2009

Figura 6.10: Modelo ajustado utilizando la distribución Gumbel de valor extremo


para los tiempos de vida de Populus tremuloides Michx. Sitio de muestreo Manitoba,
MB, rodal 13

6.5.5. Función de supervivencia entre sitios


Como ya se había comentado, realizar comparaciones de curvas de supervivencia es
de gran utilidad al momento que se están estableciendo los objetivos del inventario.
Tener un objetivo denido para un inventario forestal juega un papel importante en
su posterior diseño; es por ello que la determinación correcta del objetivo es condición
necesaria para el éxito. Si el objetivo ha sido erróneamente planteado, no tener una
idea clara de la información que es relevante, el inventario no dará la información
esperada y será un fracaso. Esto es así aunque técnicamente todas las tareas poste-
riores se hayan llevado a cabo en forma impecable; en estos casos, podemos decir que
el inventario contestó preguntas distintas a las que debía responder.
Por cierto, el usuario de la información debe comprender con claridad sus alcances
y sus límites, ya que con los medios disponibles no siempre se puede averiguar todo
aquello que se pretende conocer. Es así, que en ocasiones se deben establecer priori-
dades y, eventualmente, sacricar una parte de la información obtenida.
Realizar una comparación de la función de supervivencia entre sitios puede servir para
determinar si la localización de los rodales (latitud, longitud, altitud) también son
factores determinantes en la mortalidad de esta especie arbórea Populus tremuloides,
Michx.
Para ejemplicar lo anteriormente dicho se toma como punto de comparación el sitio

74
6.5. Aplicación a un Problema Forestal 75

experimental conocido como EMEND, AB localizado en el Noroeste de Canadá; el


rodal donde se recolectaron los datos fue etiquetado como EMEND, AB, rodal 13.
Los datos colectados se muestran en el Cuadro6.5.5.

Tiempo Censura Dosel Pesos


12 Failure 1 6
18 Failure 0 1
18 Failure 1 5
24 Failure 0 3
24 Failure 1 15
30 Censored 0 1
30 Failure 0 1
30 Failure 1 1
30 Censored 0 58
30 Censored 1 30

Cuadro 6.21: Tiempos de vida de Populus tremuloides Michx. en el sitio de muestreo


EMEND, AB, rodal 13.

La descripción de las variables y los análisis, van a ser los mismos que se realizaron
para el sitio Manitoba, MB, rodal 3.
Primero se calcula la función de supervivencia utilizando el método de Kaplan-Meier.

Time n.risk n.event survival std.err lower 95 % CI upper 95 % CI


12 126 6 0.952 0.019 0.916 0.99
18 120 6 0.905 0.0262 0.855 0.957
24 114 18 0.762 0.0379 0.691 0.84
30 96 2 0.746 0.0388 0.674 0.826

Cuadro 6.22: Estimación de la función de supervivencia a través del método de


Kaplan-Meier para los tiempos de vida de Populus tremuloides Michx. en el sitio
de muestreo EMEND, AB, rodal 13.

La función de supervivencia de la tabla anterior muestra que para el sitio de muestreo


EMEN 23, el porcentaje de supervivencia al nal del periodo de observación 74.6 % es
un mucho mayor que para el sitio Manitoba, MB, rodal 3, que al nal del experimento
obtuvo un porcentaje de supervivencia del 32.6 %. De este resultado se puede especular
que existe otro factor en el sitio de muestreo Manitoba, MB, rodal 3, relacionado con
la localización geográca, que inuye en la mortalidad de esta especie, un ejemplo
rápido de este factor puede ser las condiciones climáticas, la variable horas luz ó
simplemente la temperatura del aire.

75
76 Capítulo 6. Aplicación de los tiempos de vida en un inventario forestal

En este caso se puede realizar la comparación de las curvas de supervivencia pa-


ra detectar diferencias con respecto a la mortalidad arbórea entre los dos sitios de
muestreo.

1.0
0.8
Supervivencia

0.6
0.4
0.2
0.0

0 5 10 15 20 25 30

Meses

Figura 6.11: Función de supervivencia para los tiempos de vida de Populus tremuloides
Michx. Sitios de muestreo Manitoba, MB, rodal 3 y EMEND, AB, rodal 13

Se puede visualizar grácamente que para el sitio EMEND, AB, rodal 13, la curva
de supervivencia (líneas punteadas) no decrece tanto como para el sitio Manitoba,
MB, rodal 3. Con esta información se puede decir que la localización geográca de
las plantaciones también puede ser un factor que inuye en la mortalidad de Popu-
lus tremuloides . Para el inventario forestal también sería de importancia recolectar
información sobre los factores que predominan en los sitios donde se ubican las plan-
taciones, clima, suelo incidencia de plagas, etc.
Después de revisar la gráca y ver que existe cierta diferencia entre las curvas, es
recomendable realizar una prueba de hipótesis para descartar la posibilidad de que
las curvas sean iguales.
De igual manera haciendo referencia a los resultados visto en la sección 2.4, ecuación
(2.13), las hipótesis a contrastar son:
H0 :Las curvas de supervivencia son iguales vs H1 :Las curvas de supervivencia no
son iguales.

76
6.5. Aplicación a un Problema Forestal 77

Sitio N Observed Expected (O − E)2 /E (O − E)2 /V


s1 190 128 91.6 14.5 42.8
s2 126 32 68.4 19.4 42.8

Cuadro 6.23: Prueba de igualdad de curvas de supervivencia para los tiempos de vida
de Populus tremuloides Michx. Para los sitios Manitoba, MB, rodal 3 y EMEND,
AB, rodal 13.

Time n.risk n.event survival std.err lower 95 % CI upper 95 % CI


18 63 1 0.984 0.0157 0.954 1
24 62 3 0.937 0.0307 0.878 0.999
30 59 1 0.921 0.0341 0.856 0.99

Cuadro 6.24: Estimación de la función de supervivencia para dosel ausente. Tiempos


de vida de Populus tremuloides Michx. Sitio de muestreo EMEND, AB, rodal 13.

Con un nivel de signicancia de α = 0,05 los resultados obtenidos se muestran en el


Cuadro 6.5.2.

χ21 = 42,8 , p − value = 6,14e − 11


Como el p−value es menor que 0.05, entonces rechazamos la hipótesis nula y podemos
decir que las curvas no son iguales y que los factores relacionados con la localización
geográca de la plantación juegan un papel a considerar en la mortalidad de Populus
tremuloides .
Después se de haber realizado la comparación de ambas curvas de supervivencia para
ambos sitios, es importante realizar una comparación de las funciones de superviven-
cia, por separado para presencia y ausencia de dosel en el nuevo sitio de muestreo
EMEND, AB, 13, con el único n de ver si en éste sitio la covariable afecta de igual
manera la mortalidad de esta especie arbórea.
En las parcelas donde no hay presencia de dosel, se comienza a observar mortalidad de
algunos árboles hasta el décimo octavo mes y al nalizar el periodo de observación el
porcentaje de supervivencia aún es mayor del 90 %, comparado con un 40 % observado
en el sitio Manitoba, MB, rodal 3.
En el Cuadro anterior (6.5.5) se puede observar que al concluir el periodo de observa-
ción, el porcentaje de supervivencia en presencia de dosel es de un 43 % comparado
con el 23 % observado en el sitio Manitoba, MB, rodal 3. Con este resultado se puede
decir que la presencia o ausencia de dosel si es un factor determinante en la mortalidad
de esta especie arbórea, pero al observarse que el porcentaje de supervivencia es más
alto que para el primer sitio de muestreo, se da un gran paso para determinar que las
condiciones geográcas también son relevantes y que se deben tomar en cuenta.

77
78 Capítulo 6. Aplicación de los tiempos de vida en un inventario forestal

Time n.risk n.event survival std.err lower 95 % CI upper 95 % CI


12 63 6 0.905 0.037 0.835 0.98
18 57 5 0.825 0.0478 0.737 0.925
24 52 15 0.587 0.062 0.477 0.722
30 37 1 0.571 0.0623 0.461 0.708

Cuadro 6.25: Estimación de la función de supervivencia para dosel presente. Tiempos


de vida de Populus tremuloides Michx. en el sitio de muestreo EMEN, AB, rodal 13.

Para respaldar los resultados se puede realizar la gráca de las curvas de supervivencia
y realizar una prueba de hipótesis para igualdad de curvas.
1.0
0.8
Supervivencia

0.6
0.4
0.2
0.0

0 5 10 15 20 25 30

Meses

Figura 6.12: Comparación de las curvas de supervivencia (dosel presente y ausente)


para los tiempos de vida de Populus tremuloides Michx. en el sitio de muestreo
EMEND, AB, rodal 13.

De igual manera se realiza una prueba de hipótesis para constatar que realmente las
curvas de supervivencia no sean iguales. Las hipótesis a contrastar son:
H0 :Las curvas de supervivencia son iguales vs H1 :Las curvas de supervivencia no
son iguales.

78
6.5. Aplicación a un Problema Forestal 79

Dosel N Observed Expected (O − E)2 /E (O − E)2 /V


CO=0 63 5 17.2 8.62 20.8
CO=1 63 27 14.8 9.98 20.8

Cuadro 6.26: Prueba de igualdad de curvas de supervivencia (dosel presente y ausente)


para los tiempos de vida de Populus tremuloides Michx. Sitio de muestreo EMEND,
AB, rodal 13.

Con un nivel de signicancia del 95 %, los resultados obtenidos son los siguientes.

χ21 = 20,8 , p − value = 5,23e − 06

Como el p − value es menor que 0.05, entonces rechazamos la hipótesis nula que
enuncia que ambas curvas son iguales.
De esta manera se tienen argumentos estadísticos para respaldar los siguientes dos
resultados:

Existe una mayor mortalidad de la especie arborea Populus tremuloides Michx,


bajo condiciones de presencia de dosel.

Las condiciones geográcas son un factor que inuyen en la mortalidad de Po-


pulus tremuloides Michx.

Como una sugerencia para cuando se realicen inventarios forestales, se debe denir
claramente los objetivos para el cual se está realizando dicho inventario y que si se
cuenta con información previa de la situación de las plantaciones, se deben realizar
pruebas estadísticas, como las que se vieron en este ejemplo, para tratar de locali-
zar las covariables que pueden afectar la mortalidad de las especies arbóreas y por
consiguiente afectar la producción.

79
Apéndice A
Uso del Leguaje R para el análisis de
tiempos de vida

A.1. Introducción al Lenguaje R


El lenguaje R poco a poco se va haciendo presente en el ámbito de la estadística y
actualmente represente una importante herramienta. Actualmente se pueden encon-
trar muchos manuales a cerca de este software libre, ya sea en la página de CRAN o
en los blogs de algunos investigadores. Para esta sección se utilizaron dos manuales
que explican de forma detallada las funciones más utilizadas para el análisis de los
tiempos de vida ([The09] y [Peñ05]).

El lenguaje computacional R fue desarrollado en 1996 por Robert Gentleman y Ross


Ihaka de la Universidad de Auckland de Nueva Zelandia, basándose en el ambiente del
lenguaje S. El lenguaje S tuvo sus inicios a nales de los ochenta por personas ligadas a
los Laboratorios Bell (Chambers, Becker y otros) y fue comercializado con el nombre
de S-PLUS por la compañía de software de Seattle, STATSCI. Posteriormente fue
comercializado por MATHSOFT, por LUCENT TECNOLOGY y más recientemente
por INSIGHTFUL CORPORATION.

El 18 de Abril de 2005, se liberó la versión 2.1.0 del lenguaje R, la cual sólo incorporaba
el sistema básico y más de 25 paquetes considerados como estándares y recomendados.
El acceso a la base del lenguaje R puede hacerse a través de la página principal del
proyecto R (http://www.r-project.org) o a través de los servidores espejos (mirror
sites) de la red Comprehensive R Archive Network (http://cran.r-project.org).

Otra ventaja del lenguaje R es la gran cantidad de paquetes con atribuidos disponibles
en la página de CRAN, actualmente hay disponibles más de 500 páginas de donde
se puede acceder a este programa. Un aspecto muy importante de resaltar es que
cada paquete viene acompañado de su manual en formato pdf, lo cual hace que R sea
un lenguaje que se aprende rápidamente. Los manuales de las diferentes paqueterías

80
A.2. Instalación de R 81

pueden descargarse de la página de CRAN.

R fue diseñado para ser utilizado para la manipulación y análisis de datos, ya que
posee una serie de facilidades grácas, además de ser un programa de licencia gratuita.

Este lenguaje se considera orientado a objetos, debido a que el resultado de la eva-


luación de cada función genera un objeto que posee a su vez una serie de atributos.
R puede ser utilizado de manera iterativa, pudiéndose obtener resultados con cada
línea de comandos, esta característica la hace diferente de otros paquetes estadísticos
como son SAS y el SPSS en su versión de programación.

El programa R es un lenguaje con mucho potencial para el desarrollo de dispositivos


grácos y posee además un buen nivel de manipulación de datos, pero quizás en
este aspecto no es tan poderoso como por ejemplo SAS, lo cual no constituye un
problema ya que la importación y exportación de datos desde y hacia otros sistemas
está completamente resuelta, porque existe la posibilidad de comunicarse con otros
lenguajes poderosos como lo son PERL y PYTHON.

A.2. Instalación de R
R para Windows se instala ejecutando el archivo de instalación (por ejemplo, R-
2.6.0-win32.exe) y siguiendo paso a paso las instrucciones sencillas que aparecen en
la ventana de instalación. Los requerimientos de equipo no son muy exigentes, puede
ser instalado en equipos familiares x86 o superiores y funcionan con los sistemas
operativos Microsoft Windows superior a la versión 3.11.

A.3. Instalación de paquetes adicionales


Los paquetes se distribuyen gratuitamente en la página de CRAN, y se pueden instalar
directamente desde la plataforma de R, utilizando el menú P ackages.
Este proceso puede hacerse de dos maneras:

1) Directamente de las páginas de CRAN, para lo cual hay que estar conectado al
internet.

2) A través de los archivos ejecutables previamente bajados en formato zip, en esta


opción no es necesario estar conectado a internet.

Un aspecto interesante es que los paquetes que han sido instalados previamente pue-
den ser actualizados vía internet, directamente de la página de CRAN.

81
82 Capítulo A. Apéndice A

A.4. Ayudas y documentación de R


R es un lenguaje que ofrece varios niveles de ayuda y que pueden activarse a través de
la línea de comandos o por medio del menú Help. En la línea de comandos ese puede
escribir help(tópico) para obtener ayuda acerca de un tópico especico, el inconve-
niente de esta instrucción es que hay que colocar exactamente el nombre del tópico.
La instrucción help.search(tópico) es más exible porque realiza una búsqueda del
tópico en todas las paqueterías de R que han sido instalados en el ordenador.
Las dos opciones anteriores también están disponibles a través del menú Help (R fun-
ctions (text)... y, Search help..., respectivamente). En el menú Help se puede acceder
a las ayudas en formato HTML de los paquetes que se van incorporando.
La forma más rápida de familiarizarse con este lenguaje es a través de los manuales en
formato pdf que están disponibles en el menú Help y contienen información suciente
para comenzar a trabajar con el lenguaje R, además que cada vez que se instala una
paquetería, se guardan también los manuales.
Existe también una serie de documentación no ocial de R que están disponible a tra-
vés de la página de CRAN. Esta documentación es considerada como contribuciones
y hay material en diversos idiomas, incluyendo el español.

A.5. Acceso a datos internos y Externos


La mayoría de las paqueterías tiene disponible una serie de datos que pueden usarse,
sobre todo en la etapa de aprendizaje. La vericación de los datos disponibles en los
paquetes puede hacerse mediante la instrucción data( ) y para ver los datos de un
paquete en especíco con la instrucción data(nombre del paquete).
La forma más sencilla de acceder a datos externos es mediante la función read.table
para lo cual se recomienda tener los datos en un archivo de texto delimitado por algún
carácter, como por ejemplo un espacio. Se recomienda además tener los nombres de las
variables en la primera la en cuyo caso hay que colocar la instrucción header=TRUE,
para que se reconozca, por defecto, éstas no se incluyen.
Existen otras facilidades para importar y exportar datos hacia otros sistemas, una
opción es el paquete foreign, que permite importar y exportar datos de Minitab, S,
SAS, SPSS y Stata, entre otros.

A.6. Asignación y Vericación de objetos


Todo comando que se ejecuta en R produce un resultado que proviene de un proceso
de asignación, estas asignaciones se hace mediante los caracteres ( < ), ( > ) y un
guión (  ), generando el efecto visual de una echa ( <  ),( > ) el proceso consiste
en asignar un valor o un objeto que se encuentra antes o después de la punta de la

82
A.7. Especicaciones de caracteres 83

echa, por ejemplo:

Objeto < Valores

Valores >Objeto

En el nombre del objeto al cual se le hace la asignación, se puede incluir cualquier


carácter alfanumérico, incluyendo puntos, pero se recomienda que comience con una
letra.
Los objetos disponibles pueden vericarse mediante la instrucción objects( ).
Cada proceso de asignación genera un nuevo objeto, que en caso de no necesitarse
más, puede ser borrado utilizando la instrucción rm(Nombre del objeto). En el caso
de que se quieran eliminar varios objetos, pueden colocarse todos ellos dentro del
paréntesis separado por comas.
Algunas funciones de R, necesitan tener accesible el objeto que contiene las variables
a analizar, la carga en la plataforma se hace mediante la instrucción attach(objeto)
y la descarga mediante la instrucción dettach(objeto).

A.7. Especicaciones de caracteres


Un aspecto que debe considerarse cuando se trabaja con R es que el lenguaje diferencía
entre mayúsculas y minúsculas, por lo que cada comando u objeto debe escribirse de
manera exacta.

A.8. Datos faltantes y Comentarios en R


Los datos faltantes, para variables numéricas se especican con el valor NA. No todas
las funciones admiten la presencia de datos faltantes por lo que hay que revisar primero
la documentación disponible para la función o efectuar las pruebas correspondientes.
Se puede comentar una instrucción utilizando el carácter numeral (#), considerándose
como comentario a todo lo que aparezca en la línea de comando a la derecha de #.

A.9. Creación de datos en R


El lenguaje R permite la creación de diversas estructuras de datos, para el caso en
que se tengan pocas variables y pocos individuos el proceso de creación puede hacerse
a través de una lista de combinaciones por columna, mediante la instrucción:

83
84 Capítulo A. Apéndice A

list(cbind(var1=c(valor1,...,valorn),...,vark=c(valor1,...,valorn))) .

También se puede crear una matriz a través de vectores separados, que pueden ser
unidos por columnas mediante la función cbind y luego eliminar los objetos de las
variables (vectores) pero este procedimiento es menos eciente que el anterior. Otra
forma de crear datos es crearlos con un software externo, por ejemplo Microsoft Excel
y guardarlos como archivos de texto delimitados, teniendo cuidado de que el separador
de enteros y decimales debe ser un punto, luego copiarlos en el subdirectorio de R y
leerlos mediante la función read.table.

A.10. Envío de grácos a otros programas


El envío de grácos a otros programas se hace colocando el gráco en el portapape-
les. Existen varias formatos para guardar los grácos, como por ejemplo Enhanced
metales (*.emf ), Encapsulate Postcript le (*.eps), Postcript le (*.ps), PDF le
(*.pdf ), Png les (*.png), Windows bitmap les (*.bmp), TIFF les (*.ti, *.tif ) y
Jpeg les (*.jpeg, *.jpg) con calidad de 50 %, 75 % y 100 %; el icono de la cámara lo
coloca automáticamente como metale, pero la extensión más utilizada es (*.eps), ya
que la calidad de los imagen es mayor.

A.11. Salir del programa R


Para salir del lenguaje R se debe escribir la instrucción q( ) o seleccionar la opción
Exit en el menú File o hacer clic en la x colocada en el extremo superior derecho de
la ventana. En este momento se pregunta si se desea guardar el espacio de trabajo,
en caso de seleccionar si se graban de manera denitiva los objetos y los comandos
que se han generado durante la sesión y si se selecciona no, se pierde la información
de la sesión por lo que debe estar muy atento para tomar la decisión al momento de
cerrar la sesión de R.

A.12. Análisis de supervivencia utilizando el lengua-


je R
El análisis de tiempos de vida con el lenguaje R puede hacerse a través de un conjunto
de paquetes especializados que se detallan a continuación:

bayesSurv: Modelos de Regresión Bayesianos.

84
A.12. Análisis de supervivencia utilizando el lenguaje R 85

cmprsk: Análisis de riesgos en competencia por subdistribuciones.

dblcens: Calcula estimadores máximo verosimilitud no paramétricos para datos con


doble censura.

eha: Su sigla signica event history analysis y contiene funciones que permiten ajustar
modelos de regresión en análisis de supervivencia.

emplink: Contiene test de razón de verosimilitudes empíricos para datos censurados


y truncados.

Icens: Calcula estimadores máximo verosimilitud no paramétricos para datos censu-


rados y truncados.

intcox: Contiene un algoritmo convexo iterado de aminoramiento para datos con cen-
sura por intervalos.

kinship: Contiene funciones para modelos de Cox de efectos mixtos.

msm: Que trabaja con modelos de Markov de múltiple estados continuos en el tiempo
y que son útiles para algunos modelos de supervivencia multivariados.

muhaz: Contiene funciones que permiten hacer estimaciones de las funciones de riesgo.

relsurv: Contiene funciones que permiten ajustar modelos de regresión relativos en


análisis de supervivencia.

smoothSurv: Trabaja con modelos de regresión con distribuciones de errores suaviza-


das.

survBayes: Permite ajustar modelos de riesgos proporcionales bajo un enfoque Baye-


siano.

survival: Es el principal paquete para realiza Análisis de supervivencia.

survnnet: Dedicado a Análisis de supervivencia a través de redes neuronales.

survrec: Contiene funciones que permiten estimar funciones de supervivencia para


datos de eventos recurrentes.

85
86 Capítulo A. Apéndice A

zicount: Contiene funciones que permiten ajustar modelos de regresión para datos de
conteo censurados.

Existen otros paquetes que aunque no están orientados exclusivamente al Análisis


de supervivencia, contienen funciones útiles, uno de ellos es la miscelánea de Harrel
(Hmisc).

A.13. El paquete survival


De los paquetes mencionados anteriormente, el más utilizado, es survival, cuya versión
2.17 está disponible desde el 6 de Abril de 2005. El paquete survival es una librería
desarrollada por Thomas Lumley a partir del código para S desarrollado inicialmente
por Terry Therneau (S original by Terry Therneau and ported by Thomas Lumley,
2005), puede verse también el texto de Therneau y Grambsch (2000).
El paquete survival permite llevar a cabo análisis de supervivencia para datos que
presentan diversos mecanismos de censura. Este paquete tiene la característica de
ser recomendado por lo cual ya viene incorporado en el programa. Para ejecutar
cualquiera de las funciones de este paquete es necesario cargar la librería mediante la
instrucción: library(survival).

A.14. La función Surv


La función Surv permite crear objetos del tipo survival, la estructura para los datos
censurados por la derecha se realiza con el comando:

Surv(time, event).

En la cual time representa el tiempo y event representa el estatus de censura, con-


siderado como cero (0) para datos censurados y como uno (1) cuando el evento es
observado. Una estructura más completa de la función Surv, que es útil para otros
tipos de censuras es:

Surv(time, time2, event, type=, origin=0)

en donde time representa el tiempo de inicio de la observación, time2 el tiempo de


nalización, se asume que los intervalos de tiempos son abiertos en su extremo inferior
y cerrados en su tiempo superior, es decir (time, time2], event es la condición de
ocurrencia del evento que depende del tipo de censura (type), que por defecto toma la
censura por la derecha, y origin es una utilidad que permite trabajar bajo el enfoque
de los procesos de conteo.

86
A.15. La función survt y survdi 87

A.15. La función survt y survdi


La función survt permite obtener la estimación de la función de supervivencia utili-
zando el método de Kaplan y Meier (opción por defecto) o de Fleming y Harrington,
también permite predecir la función de supervivencia para modelos de Cox.
La estructura de la función survt es:

survt(formula, data, weights, subset, na.action,newdata, individual=F, conf.int=.95,


se.t=T, type=c(kaplan-meier,eming-harrington, fh2), error=c(greenwood, stia-
tis), conf.type=c(log, log-log, plain, none), conf.lower=c(usual, peto, mo-
difed))
la cual posee una serie de opciones que pueden ser revisadas en el manual S original by
Terry Therneau and ported by Thomas Lumley (2005) o en la ayuda (help(survt)).
Con la función survt puede obtenerse diversa información:

print(survt( . . . )) o directamente con survt( . . . ) se obtienen un resumen de las


medidas.

summary(survt( . . . )) genera la función de sobrevida estimada.

plot(survt( . . .)) genera el gráco de la función de supervivencia estimada. En esta


función pueden controlarse un serie de opciones grácas, se recomienda ver la ayuda
correspondiente para más detalles.

names(survt( . . . )) genera el nombre de cada uno de los atributos de la función


survt. Esta función es útil para seleccionar atributos por separados o para realizar
cálculos posteriores cuando sea necesario.
La función survdi permite efectuar contrastes de hipótesis para vericar la igualdad
o diferencia de dos o más curvas de supervivencias, basado en las familias de prue-
bas G-rho propuestas por Harrington y Fleming (1982). La estructura de la función
survdi es:

survdi(formula, data, subset, na.action, rho=0)

Para más detalles ver la ayuda correspondiente (help(survdi )).

A.16. La función coxph


La función coxph permite ajustar modelos de regresión de Cox y también permite
ajustar modelos con variables dependientes del tiempo, modelos estraticados, mo-

87
88 Capítulo A. Apéndice A

delos de múltiples eventos por individuo y otras extensiones derivadas del enfoque
basado en los procesos de conteo.
La estructura de la función coxph es:

coxph(formula, data=parent.frame(), weights, subset,na.action, init, control, method=c(efron,


breslo, exact`),singular.ok=TRUE, robust=FALSE, model=FALSE, x=FALSE, y=TRUE,...)

Para mayores detalles puede consultar la ayuda correspondiente.


La función coxph puede combinarse con otras funciones para generar mayor informa-
ción:

print(coxph( . . . )) o directamente con coxph( . . . ) se obtienen los contrastes para


vericar si el modelo de Cox ajustado es adecuado.

summary(coxph( . . . )) genera más detalles de los contrastes.

summary(survt(coxph( . . . ))) obtiene la función de supervivencia ajustada por el


modelo de Cox.

plot(survt(coxph( . . .))) obtiene el gráco de la función de supervivencia ajustada


por el modelo de Cox, con esta función se puede controlar una serie de opciones grá-
cas, se recomienda ver la ayuda correspondiente para más detalles.

names(coxph( . . . )) genera el nombre de cada uno de los atributos de la función


coxph. Esta función es útil para seleccionar atributos por separados o para realizar
cálculos posteriores cuando sea necesario.

Otras funciones importantes que funcionan con el comando coxph son las funciones
cox.zph y la función residuals (o resid).

A.17. La función cox.zph


La función cox.zph permite llevar a cabo el contraste de hipótesis de riesgos pro-
porcionales, las salidas directas presentan el contraste global y de cada una de las
covariables en el modelo. La hipótesis nula es el cumplimiento del supuesto de riesgos
proporcional, asociado a que los betas son ceros. La estructura de esta función es:

cox.zph(t, transform=km, global=TRUE)

88
A.18. La función residuals 89

Esta función puede combinarse con el comando plot para obtener la distribución de
los betas, para lo cual se utiliza la siguiente estructura:

plot(x, resid=TRUE, se=TRUE, df=4, nsmo=40, var, ...)

donde x es un objeto de tipo cox.zph y var permite identicar la covariable que se


va a representar de forma gráca, en S-PLUS no es necesario hacer esta declaración
porque se genera un gráco compuesto donde se representan los grácos para cada
una de las covariables, para más ayuda se puede consultar el manual de S.

A.18. La función residuals


Otra función importante asociada a los objetos del tipo coxph es la función residuals,
o en su formato más corto resid. Esta función permite calcular los residuos de mar-
tingala, de puntajes (score), de tipo desvío (deviance) y de Schoenfeld. La estructura
de esta función es:

residuals(object, type=c(martingal, deviance, score, schoenfeld, dfbeta, sca-


ledsch, partial), collapse=FALSE,weighted=FALSE, ...)

donde object es un objeto de tipo coxph.

A.19. La función survreg y la función survreg.distributions


La función survreg permite ajustar modelos de regresión paramétricos utilizados en
análisis de supervivencia y conabilidad.
La estructura de la función survreg es:

survreg(formula=formula(data), data=parent.frame(), weights, subset,na.action, dist=weibull,


init=NULL, scale=0, control=survreg.control(), parms=NULL, model=FALSE, x=FALSE,
y=TRUE, robust=FALSE, ...),

la cual posee una serie de opciones que pueden ser revisadas en el manual [The09] o
en la ayuda (help(survreg)).
Las distribuciones que se pueden modelar directamente a través de la función survreg
son la Weibull, Exponencial, Gaussiana o Normal, Log-normal, Logística, y Log-
logística.
Con la función survreg puede obtenerse diversa información:

89
90 Capítulo A. Apéndice A

Con print(survreg( . . . )) o directamente con survreg( . . .) se obtiene una informa-


ción bastante completa del ajuste.

names(survreg( . . . )) se obtiene el nombre de cada uno de los atributos de la función


survreg. Esta función es útil para seleccionar atributos por separados o para realizar
cálculos posteriores cuando sea necesario.

summary(survreg( . . . )) genera la información general acerca de los atributos del


objeto tipo survreg.

La función survreg.distributions es una función que permite declarar otros modelos


paramétricos, principalmente los pertenecientes a la familia de localidad y escala.

90
Bibliografía
[Agr02] A. Agresti. Categorical Data Analysis. John Wiley and Sons, Inc, Hobo-
ken, New Jersey, 2002.

[All95] P.D. Allison. Survival analysis using the sas system, a practical guide.
SAS Institute, page 300, 1995.

[CERJB06] Barry D. Shiver Michael L. Clutter Charles E. Rose Jr., Daniel B. Hall
and Bruce Borders. A multilevel approach to individual tree survival
prediction. Forest Science, pages 3143, 2006.

[CMJo91] Kimber A. C. Crowder M. J. and otros. Statistical Analysis of Reliability


Data. Chapman and Hall, London, 1991.

[CW05] W. Thomas C.W. Woodall, P.L. Grambsch. Applaying survival analy-


sis to a large-scale forest inventory for assessment of tree mortality in
minnesota. ELSEVIER B. V., pages 1992008, 2005.

[F.94] Jerald Lawless F. Statistical Models and Methods for Lifetime Data.
Wiley-Intercience, Massachusetts, 1994.

[Gar87] Higinio Padilla García. Glosario práctico de téminos forestales. Limusa,


Balderas 95, Primer piso, 06040, México, D.F., 1987.

[HRA02] Armando Torres-Lezama y Julio Serrano Hirma Ramírez-Angulo. Morta-


lidad y reclutamiento de árboles en un bosque nublado de la cordillera de
los andes, venezuela. ECOTROPICOS, Sociedad Venezolana de Ecología,
pages 177183, 2002.

[JB65] Clutter J.L. and F.A. Bennett. Diameter distributions in old-eld slash
pine plantations. Georgia For. Res. Course Rep., page 13:9, 1965.

[LMo03] Norm Kendel Lisa Matthias and otros. Dierential growth and mortality
of advance regeneration across the canadian boreal forest. Sustainable
Forest Management Network, 2003.

91
92 BIBLIOGRAFÍA

[ME98] W. Q. Meeker and L. A. Escobar. Statistical Methods for Reliability Data.


Jonh Wiley and Sons, New York, 1998.

[Mon07] Fidel Ulín Montejo. Análisis de datos censurados para ingeniería y cien-
cias biológicas. Revista de Matemáticas: Teoría y Aplicaciones 2007,
pages 239250, 2007.

[P.05] Rafael Eduardo Borges P. Análisis de supervivencia de pacientes con


diálisis peritoneal. Revista Colombiana de Estadística, pages 243259,
2005.

[Peñ05] Rafael Eduardo Borges Peña. Análisis de Sobrevivencia utilizando el


lenguaje R. Paipa, Boyacá, Colombia, 2005.

[RdlV87] C.F Romahn de la V. Formulario de Medición Forestal. UACh. Chapin-


go, Méx., 1987.

[RdlVG94] H. Ramírez M. Romahn de la V., C.F. and J.L. Treviño G. Dendrometría.


Universidad Autónoma Chapingo, Carretera México-Texcoco, Kilometro
38.5; Chapingo, México, 1994.

[Tea05] R Development Core Team. R: A language and environment for statistical


computing., 2005.

[The09] Terry Therneau. Survival analysis, including penalized likelihood. 2009.

[Wab03] Enrique Wabo. Consultor forestal. Universidad Nacional de La Plata,


pages 1923, 2003.

[ZM03] Peart D.R Zens M.S. Dealing with death data: individual hazard, mor-
tality, and bias. Trends Ecol., pages Evol. 18, 366373, 2003.

92

También podría gustarte