Documentos de Académico
Documentos de Profesional
Documentos de Cultura
TESIS
LICENCIADO EN ESTADÍSTICA
PRESENTA:
Agradezco el respaldo que he tenido por parte de mi familia, mis padres abuelos y
hermanos.
Agradezco a mis amigos y profesores, quienes de una u otra forma me han acompaña-
do y ayudado; en especial a mis amigos María de los Ángeles Soriano Luna y Felipe
Valentín López Figueroa y a los profesores Carlos Cíntora González, Gerardo Terra-
zas González, Margarito Soriano Montero, Ángel Leyva Ovalle y Alejandro Corona
Ambris por su apoyo incondicional en la elaboración de la presente tesis.
Índice General
iii
iv ÍNDICE GENERAL
A. Apéndice A 80
A.1. Introducción al Lenguaje R . . . . . . . . . . . . . . . . . . . . . . . 80
A.2. Instalación de R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
A.3. Instalación de paquetes adicionales . . . . . . . . . . . . . . . . . . . 81
A.4. Ayudas y documentación de R . . . . . . . . . . . . . . . . . . . . . . 82
A.5. Acceso a datos internos y Externos . . . . . . . . . . . . . . . . . . . 82
A.6. Asignación y Vericación de objetos . . . . . . . . . . . . . . . . . . . 82
iv
ÍNDICE GENERAL v
v
Índice de cuadros
vi
ÍNDICE DE CUADROS vii
vii
Índice de guras
viii
ÍNDICE DE FIGURAS ix
ix
Resumen
La presente tesis muestra la forma en la que se pueden usar los tiempos de vida para
crear modelos de predicción de mortalidad forestal de tal forma que se haga uso de
la información que es recolectada en los inventarios forestales. Se utiliza la variable
intensidad de luz para mostrar que la intensidad de luz es un factor inuyente en
la mortalidad de la especie arbórea Populus tremuloides (Michx). Posteriormente se
realiza una comparación de las curvas de supervivencia, para la misma especie, man-
teniendo las condiciones de intensidad luz y cambiado la localización geográca con
la nalidad de detectar variaciones en el comportamiento de las curvas de supervi-
vencia y asignarla de esta manera como factor inuyente en la mortalidad de Populus
tremuloides (Michx).
x
Summary
This thesis shows how you can use the lifetime to create prediction models of forest
mortality using the information that is collected in forest inventories. We used the
variable intensity of light to teach that the intensity of light is an inuence factor in
mortality of the tree species em Populus tremuloides (Michx). After that, we realized
a comparison of survival curves for the same species, under similar conditions of light
intensity, but with dierent geographical location in order to detect variations in the
behavior of the survival curves and thus assign it as a inuence factor in the mortality
of em Populus tremuloides (Michx).
xi
Introducción General
Generar modelos de predicción preciso para estimar mortalidad forestal usando varia-
bles de tiempo de vida, se ha convertido en una herramienta necesaria para el desa-
rrollo de mejores modelos de producción. El empleo de la estadística en el modelaje
de diferentes comportamientos de crecimiento y mortalidad se ha venido utilizando
desde hace ya algunas décadas; los primeros modelos de crecimiento y producción
aplicados a las ciencias forestales hacían uso de las distribuciones de probabilidad
para estimar la distribución del diámetro de los árboles [JB65].
xii
ÍNDICE DE FIGURAS xiii
proceso de muerte debido a factores que no puedan ser controlados por el ser humano.
Es frecuente que en un bosque se presente el problema de muerte o destrucción de
árboles forestales como resultado de la lucha por la existencia, enfermedades, daños
de insectos, sequía, viento, fuego y otros factores [CERJB06].
Se pueden utilizar una o varias variables explicativas (covariables) para obtener una
descripción del impacto de los factores no controlables en la producción en un tiempo
determinado. Con esta información se puedan realizar cálculos más precisos sin la
necesidad de invertir mucho tiempo y dinero en muestreos continuos.
xiii
Objetivo General
Mostrar el conjunto de procedimientos a seguir en la elaboración de modelos de tiem-
pos de vida para modelar mortalidad forestal.
Objetivos Particulares
Mostrar que los tiempos de vida pueden aplicarse a las ciencias forestales para la
creación de mejores de predicción de mortalidad forestal.
Contribuir en las ciencias forestales a través de la creación de métodos alternativos
de predicción de mortalidad forestal.
Ejemplicar la forma de utilizar los datos recolectados en los inventarios forestales
para crear modelos de supervivencia para las plantaciones forestales.
Ejemplicar la forma de encontrar variables que inuyen en el proceso de mortalidad
forestal.
xiv
Metodología
La metodología a seguir se fundamenta principalmente en la revisión bibliográca
de autores expertos en el tema de conabilidad como [ME98], [F.94], y [CMJo91].
Se revisaron algunos libros estrictamente relacionados con el tema de análisis de
tiempos de vida, artículos relacionados con la modelación de mortalidad forestal y
algunos manuales para el programa R y S-Plus. Se comienza con una introducción
de los tiempos de vida y sus aplicaciones en otras ciencias para dar a conocer los
términos usados en conabilidad, posteriormente se desarrollan algunas propiedades
que cumple la función de supervivencia. Se dene que es un dato censurado y los tipos
de censura, para introducir la metodología de estimación no paramétrica a través del
estimador de Kaplan-Meier. Se hace referencia a la teoría de Máxima Verosimilitud y
se detalla la forma de incluir los datos de tiempos de vida dentro de las estimaciones.
Se dan a conocer algunas formas para identicar las distribuciones de vida que se
ajustan a los datos de forma gráca o a través de paquetes estadísticos. Finalmente
se ajusta un modelo de regresión usando la información contenida en las covariables
el cual servirá para una mejor predicción de mortalidad forestal.
xv
Capítulo 1
Introducción a los modelos de
tiempos de vida
1.1. Introducción
El análisis estadístico de los tiempos de vida es de gran importancia en muchas
áreas de investigación, entre las que destacan la medicina, la ingeniería y las ciencias
sociales. En la actualidad se hace uso de las distribuciones de tiempos de vida en
investigaciones sobre tratamientos para el control de enfermedades, la durabilidad y
la manufactura de los productos en la industria, los movimientos demográcos, para
expedir una garantía, etc. Se está generando nuevos métodos que sean aplicables en
otros campos como es la agronomía y dentro de esta se pone especial interés en el
manejo forestal.
2
1.2. Ejemplos de tiempos de vida 3
3
4 Capítulo 1. Introducción a los modelos de tiempos de vida
Denición 2. Productos reparables son aquellos productos que pueden fallar más
de una vez. En este caso es importante considerar la disponibilidad del producto
reparado que dependerá de la ocurrencia de fallas y del tiempo de mantenimiento,
por ejemplos automóviles, lavadoras, computadoras, etc.
F (t) = P (T ≤ t) (1.1)
1. 0 ≤ F (t) ≤ 1.
2. Es monótona no decreciente.
4
1.4. Medidas de conabilidad 5
4. lı́m F (t) = 1 .
t→∞
5. lı́m F (t) = 0 .
t→0
1. 0 ≤ S(t) ≤ 1 .
2. Monótona decreciente.
3. lı́m S(t) = 0 .
t→∞
4. lı́m S(t) = 1 .
t→0
No en todos los casos es fácil de encontrar la función de densidad f (t), pero en caso
de existir puede obtenerse de S(t) como sigue:
d d
f (t) = F (t) = − S(t) (1.3)
dt dt
f (t) proporciona una cuanticación de la dispersión de la distribución de vida.
La función h(t) se denomina función de riesgo y algunos también suelen llamarla como
la función de tasa de fallas o función de intensidad. La función h(t) es la probabilidad
condicional de falla en cualquier instante y como tal, es útil para caracterizar el
comportamiento del tiempo de vida de los dispositivos.
La construcción de la función de riesgo se ilustrará con el siguiente ejemplo: supóngase
que en una muestra, todos los dispositivos comienzan a funcionar al mismo tiempo, al
cual se le denominará t = 0. Si transcurrido algún tiempo se observa nuevamente esta
muestra, se puede dar el caso de que algunos hayan fallado mientras que otros todavía
funcionan. Lo que se necesita es evaluar la probabilidad de supervivencia (o falla)
para aquellos dispositivos que han sobrevivido hasta el momento en que se realiza
la observación, es decir, se determina la probabilidad condicional de supervivencia.
Ahora supóngase que la edad de los dispositivos que funcionan hasta el momento de
ser observados se designa por τ, de forma que la probabilidad condicional de falla
durante las próximas unidades de tiempo t es F (t | τ ), en donde
5
6 Capítulo 1. Introducción a los modelos de tiempos de vida
F (t + τ ) − F (τ )
F (t + τ | τ ) =
1 − F (τ )
F (t + τ ) − F (τ )
= .
S(τ )
Al dividir entre el tiempo t y tomar el límite cuando este tiende a 0, se obtiene la
tasa instantánea de falla h(t), siempre que f (t) exista:
1 F (t + τ ) − F (τ )
h(τ ) = lı́m
t→0 t S(τ )
1 F (t + τ ) − F (τ )
= lı́m
S(τ ) t→0 t
1 d
= F (τ )
S(τ ) dτ
f (τ )
= .
S(τ )
Los cuatros descriptores básicos usados describir el tiempo de vida de cualquier dis-
positivos del tiempo de vida son la función de distribución F (t), la función de super-
vivencia S(t), la función de densidad f (t) y la función de riesgo h(t).
Obsérvese que el conocimiento de cualquiera de las cuatro implica el conocimiento de
todas ellas.
En general, las expresiones
S(t) = 1 − F (t)
d
f (t) = F (t)
dt
f (t)
h(t) =
S(t)
pueden invertirse de tal modo que cualquiera de las cuatro cantidades se pueden
utilizar para encontrar a las otras.
Por ejemplo
[ ∫ t ]
S(t) = exp − h(u)du (1.4)
0
6
1.4. Medidas de conabilidad 7
1.0
0.9
0.8
0.7
h(t)
0.6
0.5
0.4
0.3
5 10 15 20
tiene una bañera"; esta función forma la base conceptual para gran parte del estudio
de conabilidad.
La idea de la curva en forma de bañera"se sustenta en la siguiente lógica. Al comenzar
el funcionamiento de los dispositivos, los más débiles fallan a una tasa relativamente
alta, quizá debido a una fabricación defectuosa. Como los primeros fallan, retiran las
copias débiles de los dispositivos y la tasa de riesgo decrece. De modo parecido, al
nal de la vida de los dispositivos, los supervivientes fallan como consecuencia del
desgaste", de modo que aumenta la tasa de riesgo. En el intervalo trascurrido entre
estos dos comportamientos, los dispositivos exhiben un riesgo relativamente bajo y
aproximadamente constante. Este intervalo se denomina frecuentemente como la vida
funcional del dispositivo [CMJo91].
7
8 Capítulo 1. Introducción a los modelos de tiempos de vida
decreciente si:
d( )
h(t) ≤ 0 0 ≤ t < ∞.
dt
∫ t
1
h(t) > h(u)du 0≤t<∞
t 0
y es una distribución de tasa de fallas decreciente en promedio si:
∫ t
1
h(t) < h(u)du 0 ≤ t < ∞.
t 0
8
Capítulo 2
Tipos de Censura e Inferencia
Es común que el valor exacto del tiempo de vida de una unidad no sea observado pero
se sabe que excede de un tiempo C, entonces estas observaciones reciben el nombre
de censuradas por la derecha. Una observación de este tipo ocurre cuando la unidad
aún no ha fallado una vez que ha terminado el tiempo previsto para la prueba.
Un mecanismo de censura, conocido como del tipo I, ocurre cuando se ponen a prueba
n unidades y a priori se ja un periodo de duración t0 , de esta manera los tiempos
de vida Ti , i = 1, ..., n que se observan son aquellos, tal que Ti ≤ t0 , mientras que
hay otros de los que sólo se sabe que T i > t0 . Este tipo de censura es fácil de tratar
estadísticamente.
9
10 Capítulo 2. Tiempos de vida con datos censurados
Número de observaciones ≥t
Ŝ(t) = t ≥ 0. (2.1)
n
Esta es una función escalonada que decrece en proporción 1/n después de cada tiempo
de vida observado si todas las observaciones son distintas; si hay d tiempos de vida
10
2.2. El estimador de Kaplan-Meier 11
∏ ( di )
Ŝ(t) = 1− (2.2)
i:ti ≤t
ni
donde ni denota el número de componentes que no han fallado hasta ti y di denota
el número de componentes que han fallado en el intervalo (ti , ti+1 ]. Si un tiempo
de censura y un tiempo de vida son registrados de la misma manera, entonces son
incluidos en el conjunto de los individuos que no han fallado ni ; por lo tanto, el
estimador de Kaplan-Meier para la función de densidad (asociada al i-ésimo intervalo
de tiempo) es
Ŝ(ti ) − Ŝ(ti−1 )
fˆi = − (2.3)
∆i
donde ∆i denota la amplitud del i-ésimo intervalo (ti−1 , ti ).
El estimador de Kaplan-Meier para la tasa de fallas (asociada al i-ésimo intervalo de
tiempo) es
2fˆi
ĥi = (2.4)
Ŝ(ti ) − Ŝ(ti−1 )
El estimador de Kaplan-Meier para la tasa de fallas acumulada es
Ĥ = − log(Ŝ(t)) (2.5)
∑ di
V ˆar[Ŝ(t)] = Ŝ(t)2 , (2.6)
ti ≤t
ni (ni − di )
11
12 Capítulo 2. Tiempos de vida con datos censurados
y como es sabido, el error estándar está dado por la raíz cuadrada de la varianza.
∫ t ∫ t
dN.(u)
Ĥ(t) = dĤ(u) = , (2.7)
0 0 Y.(u)
donde dNi (t) = I(ti = t, δi = 1) y Yi (t) = I(ti ≥ t),asumiendo que Y (u) > 0 para
0 ≤ u ≤ t. A ésta ecuación algunas veces la llaman Función de Riesgo Acumulada
empírica pero comúnmente es conocida como el estimador de Nelson-Aalen, por haber
sido propuesta por Nelson (1969) y por Aalen en 1972 [F.94].
∑ di
Ĥ(t) = , (2.8)
n
i:t ≤t i
i
donde t1 , ..., tk representan los diferentes tiempos en los cuales se observaron las fallas
y los di se denen como en (2.2).
∑ dj (nj − dj )
ˆ [Ĥ(t)]
Var = . (2.9)
3
i:t ≤t
n j
i
∑ dj
ˆ [Ĥ(t)]
Var = . (2.10)
n2
i:t ≤t j
i
Aunque (2.10) no es muy conveniente para muestras pequeñas, para muestras grandes
ambos estimadores tienden a ser similares.
Los estimadores Ŝ(t) y Ĥ(t) son no paramétricos ya que Ŝ(t) y Ĥ(t) son discretas y no
satisfacen la relación H(t) = − log S(t), la cual sí se satisface para las distribuciones
continuas.
12
2.4. Comparación de funciones de supervivencia 13
Cuadro 2.1: Cuadro usado para contrastar dos funciones de supervivencia en el tiempo
de observación ti .
n1 (ti )d(ti )
Ê1 (ti ) = (2.11)
n(ti )
La varianza estimada para d(ti ) se basa en la distribución hipergeométrica, y que
para el grupo 1 se va a denir de la forma:
[∑ ]2
n
wi [d1 (ti ) − Ê1 (ti )]
i=1
Q= ∑n 2
, (2.13)
w
i=1 i V̂ (d1 (ti ))
donde wi denota los pesos, que toman valores distintos dependiendo de la prueba
utilizada; por ejemplo si se usa la prueba de log-rank los pesos son iguales a 1, es
decir, wi = 1 para i = 1, 2, ..., m, pero si se utiliza la prueba de Peto, wi se dene de
la siguiente forma
n(ti )
wi = Ŝ(ti−1 ) ,
n(ti ) − 1
13
14 Capítulo 2. Tiempos de vida con datos censurados
14
Capítulo 3
Distribuciones de vida
3.1. Introducción
La inferencia sobre el análisis de datos requiere de supuestos a cerca del mecanismo de
aleatoriedad que generó esos datos. Se puede utilizar cualquier función de distribución
para crear un modelo de tiempos de vida. En la práctica, las funciones de distribución
que tienen funciones de riesgo monótonas parecen más realistas y dentro de esta
clase están aquellas que proporcionan los modelos más razonables de conabilidad.
En los libros como [ME98] y [F.94] se pueden encontrar las distribuciones que son
frecuentemente utilizadas en el análisis de tiempos de vida.
15
16 Capítulo 3. Modelos paramétricos para tiempos de vida
f (t) λe−λt
h(t) = = −λt = λ (3.4)
S(t) e
la cual es constante con respecto al tiempo. Lo atractivo de este resultado radica en
su simplicidad de manipulación algebraica, pero surgen problemas con el modelo de
riesgo constante que giran en torno a la propiedad de falta de memoria"que exhibe y
el hecho asociado de que la probabilidad de supervivencia condicional es independiente
de la edad. Es decir:
La notación T ∼ exp(θ)
se utiliza para indicar que la variable aleatoria tiene función
2
de densidad (3.6). La media y la varianza de esta distribución son θ y θ respectiva-
mente, y el j -ésimo cuantil es tj = − log(1 − j). La distribución en la cual θ=1 es
llamada la distribución Exponencial Estándar.
16
3.3. Distribución Weibull 17
{ ( t − δ )β }
F (t) = 1 − exp − (3.7)
θ−δ
donde δ es un parámetro de vida mínima o umbral que con frecuencia se supone cero;
si se da este caso, la función de distribución es:
{ ( t )β }
F (t) = 1 − exp − (3.8)
θ
donde θ es el parámetro de escala y β es el parámetro de forma. El parámetro de
escala determina el intervalo de dispersión. Cuando t = θ, el valor de la distribución
se conoce como vida característica, y está dado por:
F (t = θ) = 1 − e−1 = 0,632
el cual es independiente del valor de β.
Una expresión alternativa y conveniente de la función de distribución es:
F (t) = 1 − e−αt
β
(3.9)
que se obtiene reemplazando θ−β con α. Las dos formas son claramente equivalentes,
por lo que se puede utilizar la expresión anterior.
Para la distribución Weibull, el parámetro β determina la forma de la función de
riesgo. La expresión general de la función de riesgo es:
17
18 Capítulo 3. Modelos paramétricos para tiempos de vida
S(t) = e−αt
β
para t > 0. (3.11)
1 {y − u}
f (y) = exp S(y) ∞<y<∞ (3.13)
b b
{ ( y − u )}
S(y) = exp − exp ∞<y<∞ (3.14)
b
donde u es un parámetro de localidad , b es un parámetro de escala y∞ < u < ∞.
Si Ttiene distribución Weibull con función de densidad (3.12) entonces Y = log T
−1
tiene distribución de valor extremo con b = β y u = log α.
Para realizar el análisis de algunos datos es conveniente trabajar con los logaritmos
de los tiempos de vida, es por ello que la distribución de Valor Extremo es usada
frecuentemente.
Se usará la notación T ∼ EV(u, b) para indicar que la variable aleatoria T tiene
función de densidad (3.13). La distribución de Valor Extremo EV (0, 1) con µ = 0
y σ = 1 se denomina la distribución de Valor Extremo Estándar. Claramente si
T ∼ EV(u, b) entonces (y − u)/b ∼ EV(0, 1).
18
3.5. Distribución Normal 19
e−(y−µ) /2σ
2 2
∫ x
1
e−u /2 du
2
Φ(x) = 1/2
(3.17)
−∞ (2π)
de manera que la función de supervivencia está dada por
( log t − µ )
S(t) = 1 − Φ (3.18)
σ
mientras que la función de riesgo va a estar dada por h(t) = f (t)/S(t). Se utiliza la
notación T ∼ LogN(µ, σ ) para denotar que T tiene la función de densidad (3.16).
2
19
20 Capítulo 3. Modelos paramétricos para tiempos de vida
(β/α)(t/α)β−1
f (t) = t > 0, (3.19)
[1 + (t/α)β ]2
donde α>0 y β>0 son parámetros.
La función de supervivencia y la función de riesgo son, respectivamente,
(β/α)(t/α)β−1
h(t) = . (3.21)
1 + (t/α)β ]
El nombre de distribución Log-logística proviene de que Y = log T tiene distribución
Logística con función de densidad
λβ β−1 −λt
f (t) = t e t>0 (3.23)
Γ(β)
donde β > 0 y λ > 0 son parámetros, λ−1 es un parámetro de escala y β algunas
veces es llamado el parámetro de forma. Esta distribución, al igual que la Weibull,
incluye a la distribución Exponencial como un caso particular cuando β = 1.
La función de distribución puede expresarse analíticamente sólo cuando el parámetro
β es entero, en cuyo caso la función de distribución se representa por
∑
∞
(λt)k
F (t) = e−λt (3.24)
k=β
k!
20
3.9. Modelos Log-Localidad-Escala 21
∫ x
1
I(β, x) = uβ−1 e−u du. (3.25)
Γ(β) 0
Integrando (3.23) encontramos que la función de supervivencia está dado por
tβ−1 e−t
f (t) = t > 0. (3.27)
Γ(β)
La notación Y ∼ Gama(β) será usada para indicar que la variable aleatoria Y tiene
la función de densidad (3.27).
1 (y − u)
f (y) = f0 − ∞ < y < ∞, (3.28)
b b
donde (−∞ < u < ∞) y b > 0 son parámetros de localidad y escala respectivamente
y f0 (z) es una función de densidad denida en el intervalo (−∞, ∞). La distribución
y función de supervivencia para Y son F0 [(y − u)/b] y S0 [(y − u)/b], respectivamente,
donde
∫ z
F0 (z) = f0 (w)dw = 1 − S0 (z).
−∞
La variable aleatoria estandarizada Z = (y − u)/b claramente tiene función de densi-
dad f0 (z) y función de supervivencia S0 (z). Cuando u = 0 y b = 1 suele llamarse la
forma estándar de la distribución.
21
22 Capítulo 3. Modelos paramétricos para tiempos de vida
( log t − u )
P r(T ≥ t) = S0 (3.29)
b
[( t )β ]
= S0∗ = (3.30)
α
donde α = exp(u), β = b−1 y S0∗ (x) es una función de supervivencia denida en el
∗
intervalo (0, ∞) por la relación S0 (x) = S0 (log x).
La familia de distribuciones de tres o más parámetros se pueden obtener generalizando
(3.28) para f0 (z), F0 (z) o S0 (z) y puede incluir uno o más parámetros de forma.
22
3.10. Grácos que permiten identicar modelos paramétricos 23
Existen algunos grácos sencillos que permiten identicar algunos modelos paramé-
tricos. A continuación se presentan los más conocidos:
Modelo exponencial: El modelo exponencial puede identicarse si al gracar la función
de riesgo estimada λ(t) contra el tiempo t se observa aproximadamente una línea recta
horizontal.
El modelo Weibull puede identicarse al
1) Observar una línea recta que corta en el origen al gracar − log Ŝ(t) contra el
tiempo t, donde Ŝ(t) es la función de supervivencia estimada.
2) Obtener una línea recta al gracar log[− log Ŝ(t)] contra el logaritmo del tiempo
log(t).
1) Observar una línea recta al gracar Φ−1 [1 − Ŝ(t)] contra el logaritmo del tiempo
log(t), donde Φ( ) es la función de distribución de una normal estándar.
2) Observar una línea recta al gracar log[1 − Ŝ(t)/Ŝ(t)] contra el logaritmo del
tiempo log(t).
23
24 Capítulo 3. Modelos paramétricos para tiempos de vida
Una técnica relacionada con los modelo P-P y Q-Q es usada para los modelos paramé-
tricos cuya función de supervivencia puede linealizarse. Esto consiste en transformar
S(t, θ) en una función lineal de t o en alguna función g1 [S(t, θ)] que sea una función
lineal de g2 (t) para algunas funciones g1 y g2 . En este caso se gracaría g1 [Ŝ(t)] contra
g2 (t) y si la familia paramétrica es apropiada, entonces la gráca resultaría una línea
recta, este procedimiento tiene la ventaja de no requerir de un estimador de θ.
Por ejemplo, para la distribución exponencial su función de supervivencia satisface
de forma tal que una gráca de log S(t) contra t asemejará una línea recta que pasará
por el origen, si el modelo es el apropiado. Para esta gráca no se necesita estimar λ,
pero una estimación de ella puede ser obtenida cuando la gráca es una línea recta.
Para la distribución Weibull, S(t) satisface
Así la gráca de log[− log S(t)] contra el log t, debe de aproximarse a una línea recta
si el modelo Weibull es apropiado. Cuando la gráca se aproxima a una línea recta
pueden obtenerse estimaciones de λ y β calculando la pendiente y la interceptada, la
pendiente es una estimación de β y la interceptada sobre el eje horizontal (log t) es
una estimación de − log λ.
El procedimiento de linealización es aplicable a los modelos para los cuales se puede
usar una transformación Y = g(T ) de los tiempos de vida; un ejemplo de estos
modelos son las distribuciones paramétricas de localidad y escala vistos en la sección
3.9, para los cuales Y tiene función de supervivencia, asumiendo que Y es una función
creciente de T, de la forma
(y − u)
P r(Y ≥ y) = S0
b
= P r(T ≥ t) = S(t)
24
3.10. Grácos que permiten identicar modelos paramétricos 25
25
Capítulo 4
Inferencia para tiempos de vida
censurados
∏
n
L(θ) = f (ti ; θ). (4.1)
i=1
ϕ = g(θ)
donde g es una función uno a uno. Entonces el estimador de máxima verosimilitud
de ϕ es ϕ̂ denotado por
ϕ̂ = g(θ̂).
Esta propiedad es conocida como propiedad de invarianza para los estimadores de
máxima verosimilitud
26
4.1. Función de Verosimilitud 27
En la mayoría de los casos es conveniente trabajar con l(θ) = log L(θ) el cual, aplican-
do la propiedad de invarianza para los estimadores de máxima verosimilitud, también
es maximizado por θ̂ . El estimador de los parámetros θ̂ frecuentemente puede en-
contrarse resolviendo la ecuación de máxima verosimilitud Uj (θ) = 0, (j = 1, ..., n),
donde
∂l(θ)
Uj (θ) = j = 1, ..., n. (4.2)
∂θj
Las Uj (θ) son llamadas scores o funciones score, y el vector U k×1 (θ) = [U1 (θ), ..., Un (θ)]′
es conocido como el vector score. El vector score es una suma de variables aleatorias
independientes, dado que
∑
l(θ) = log f (ti ; θ).
La matriz n×n
( −∂ 2 log L(θ) )
I(θ) = (4.3)
∂θi ∂θj
es conocida como la matriz de información observada.
La matriz Ψ(θ) es llamada la matriz de información de Fisher o matriz de información
esperada, con entradas
( −∂ 2 log L(θ) )
Ψij(θ) = E i, j = 1, ..., n. (4.4)
∂θi ∂θj
En Cox and Hinkley 1974 ([F.94]) se muestra que θ̂ de manera asintóticamente sigue
−1
una distribución Nn [θ, Ψ (θ)]; como resultado U (θ) se distribuye asintóticamente
de manera normal con vector de medias 0 y matriz de varianzas y covarianzas Ψ(θ).
Considérese la matriz I(θ) evaluada en θ̂ , la inversa de I va a ser la matriz estimada
−1
de varianzas y covarianzas para θ̂ . De esta forma, si V = I tiene entradas vij
(∑
n ∑
n )1/2
se(θ̂) = (∂g/∂θi )(∂g/∂θj )vij , (4.5)
i=1 j=1
27
28 Capítulo 4. Inferencia para tiempos de vida censurados
dg √
se(θ̂) = v11 , (4.6)
dθ
donde dg/dθ es evaluado en θ̂.
Otro resultado estadístico importante es que θ̂ es un estimador consistente para θ
−1
por lo cual n I(θ) va a ser un estimador consistente para Ψ(θ)/n.
2
asintóticamente se aproxima a una χ(n) .
−1
Dado que n I(θ) es un estimador consistente para Ψ(θ)/n, un estadístico equivalente
a (4.7) es
que se distribuye asintóticamente como una χ2(n) . Este estadístico es más fácil de
encontrar que (4.7) y frecuentemente esa es la razón teórica para preferirlo.
Una región de conanza 1−α para θ consta de vectores θ0 que satisfacen
[ L(θ ) ]
0
Λ(θ 0 ) = −2 log = 2l(θ̂) − 2l(θ 0 ) (4.10)
L(θ̂)
asintóticamente sigue una distribución χ2(n) .
La correspondiente región de conanza 1 − α para θ satisface
28
4.2. Prueba de Hipótesis y Regiones de Conanza 29
Las pruebas basadas en aproximaciones asintóticas χ2 como (4.7) y (4.10) proveen evi-
dencia en contra de los valores hipotéticos de los parámetros cuando las observaciones
estadísticas son grandes. Por ejemplo, para el estadístico W (θ 0 ) de (4.7), el p-value
(nivel de signicancia) basados en los valores observados w(θ 0 ) es aproximadamente
P r(χ2(n) ) ≥ w(θ 0 ).
Ahora supóngase que el vector de parámetros θ se particiona para formar subvectores
′
de parámetros tal que θ = (θ 1 , θ 2 ) . Si se quiere realizar pruebas de hipótesis y
encontrar regiones de conanza para θ 1 se siguen los mismos métodos anteriores.
Sean (θˆ1 , θˆ2 ) los estimadores de máxima verosimilitud para (θ 1 , θ 2 ) y I(θ) = I(θ 1 , θ 2 )
la matriz de información para (θˆ1 , θˆ2 ). Bajo la hipótesis nula H0 : θ 1 = θ 10 el
estadístico de prueba (4.8) queda de la siguiente forma
[ L(θ , θ ) ]
10 2
Λ(θ 10 ) = −2 log = 2l(θˆ1 , θˆ2 ) − 2l(θ 10 , θˆ2 ) (4.14)
ˆ ˆ
L(θ 1 , θ 2 )
2
que asintóticamente sigue una distribución χ(m) . Valores grandes de Λ(θ 10 ) en com-
2
paración con χ(m) proveen evidencia suciente en contra de la hipótesis nula.
La correspondiente región de conanza 1 − α para θ 1 satisface
−1/2
θ 1 ± Zα/2 I 1 (4.16)
29
30 Capítulo 4. Inferencia para tiempos de vida censurados
∏
n ∏
∞
L= h(t)dNi (t) [1 − h(t)]Yi (t)[1−dNi (t)] . (4.17)
i=1 t=0
∏
∞
L= h(t)dt (1 − h(t))nt −dt (4.18)
t=0
donde
∑
n ∑
n
dt = dNi (t), nt = Yi (t) (4.19)
i=1 i=1
30
4.5. Censura tipo I 31
De esta manera los datos observados van a ser los pares (ti , δi ), i = 1, ..., n. Para
observaciones censuradas por la derecha, la función de verosimilitud va a estar dada
por
∏
n
L= f (ti )δi S(ti )1−δi . (4.20)
i=1
donde δi = 1 si Ti ≤ Ci y δi = 0 si Ti > Ci .
La función de verosimilitud está basada en la distribución de probabilidad de (ti , δi ), i =
1, 2, ..., n, donde las ti y δi son las variables aleatorias dadas en (4.21) y su correspon-
diente función de densidad probabilística es
Nótese que en este caso los Ci son constantes jas y que ti puede tomar valores
menores e igual a Ci con
∏
n
L= f (ti )δi S(ti +)1−δi . (4.23)
i=1
El término S(ti +) es igual a P r(Ti > ti ), de esta manera si S(t) es continua para ti
entonces S(ti +) = S(ti ). Cuando se jan covariables xi , estas se pueden representar
en el modelo reemplazando S(t) y f (t) con Si (t) = P r(T ≥ t | xi ) y fi (t) = f (t | xi ).
31
32 Capítulo 4. Inferencia para tiempos de vida censurados
Supóngase que los tiempos de vida Ti son independientes y siguen una distribución
exponencial con función de densidad f (t) = λ exp(−λt) y función de supervivencia
S(t) = exp{−λt}. Entonces (4.23) va a estar dado por
∏
n ∑
n ) (
−λt δi −λt 1−δi
L(λ) = (λe ) (e ) = λ exp − λ
r
ti (4.24)
i=1 i=1
∑
donde r= δi es el número de observaciones de tiempos de vida no censurados o
fallas.
La función log-verosimilitud se denota como l(λ) = log L(λ), la cual es
∑
n
l(λ) = r log λ − λ ti . (4.25)
i=1
∑
n
λ̂ = r/ ti .
i=1
32
4.7. Censura Tipo II 33
∏
n
[f (ti )G(ti )]δi [g(ti )S(ti )]1−δi .
i=1
Dado que G(t) y g(t) no dependen de ningún parámetro de f (t), la función de vero-
similitud queda de la siguiente manera:
∏
n
L= f (ti )δi S(ti )1−δi (4.26)
i=1
la cual tiene la misma forma de (4.23). El resultado obtenido para la censura tipo I
es considerado un caso especial de ésta si las Ci tienen distribución degenerada.
n! { ∏ }
n
f (t(i) ) S(t(r) )n−r (4.27)
(n − r)! i=1
33
34 Capítulo 4. Inferencia para tiempos de vida censurados
[∑
n ]
l(λ) = r log λ − λ t(i) + (n − r)t(r) (4.28)
i=1
λ̂ = r/W
con
∑
n
W = t(i) + (n − r)t(r) (4.29)
i=1
∑
n
l(λ) = r log λ − λ ti ,
i=1
∑
donde r= δi es el número de tiempos de vida no censurados. La matriz de infor-
mación va a estar dada por
−d2 l r
I(λ) = 2
= 2 (4.30)
dλ λ
2
y la matriz de información esperada es ψ(λ) = E(r)/λ . Tanto para la censura del
∑n
tipo I como para la del tipo II, se puede evaluar la E(r) sustituyendo r = i=1 δi .
(y − u)
S(y; u, b) = S0 − ∞ < y < ∞, (4.31)
b
donde (−∞ < u < ∞) es un parámetro de localidad y b > 0 es un parámetro de
escala, y S0 () es una función de supervivencia especicada en (−∞, ∞). Si T es la
variable de tiempo de vida y Y = log T tiene distribución (4.31), entonces decimos que
34
4.8. Inferencia para las Distribuciones Log-Localidad-Escala 35
( log t − u )
S ∗ (t; α, β) = S0 = S0∗ [(t/α)β ], (4.32)
b
donde α = exp(u), β = b−1 y para 0 < w < ∞, S0∗ (w) = S0 (log w). Las distribuciones
Weibull, Log-logística y Log-normal tienen ésta forma.
Para una muestra censurada de tiempos de vida (ti , δi ) i = 1, ..., n, la función de
verosimilitud es
n [
∏ 1 ( yi − u )]δi ( yi − u )1−δi
L(u, b) = f0 S0 , (4.33)
i=1
b b b
∑
n
l(u, b) = −r log b + [δi log f0 (zi ) + (1 − δi ) log S0 (zi )], (4.34)
i=1
−1
donde ∂zi /∂u = −b y ∂zi /∂b = −zi b−1 , las funciones score son
r 1 ∑[ ∂ log S0 (zi ) ]
n
∂l ∂ log f0 (zi )
=− − δi zi + (1 − δi )zi . (4.36)
∂b b b i=1 ∂zi ∂zi
2 ∑[ ∂ log S0 (zi ) ]
n
∂2l r ∂ log f0 (zi )
= + δ z
i i + (1 − δ )z
i i
∂b2 b2 b2 i=1 ∂zi ∂zi
1 ∑ [ 2 ∂ 2 log f0 (zi ) ]
n 2
2 ∂ log S0 (zi )
+ δ z
i i + (1 − δ )z
i i (4.38)
b2 i=1 ∂zi2 ∂zi2
35
36 Capítulo 4. Inferencia para tiempos de vida censurados
1 ∑[ ∂ 2 log S0 (zi ) ]
n
∂ 2 log f0 (zi )
+ δ z
i i + (1 − δ )z
i i (4.39)
b2 i=1 ∂zi2 ∂zi2
Por lo tanto la matriz de información observada es
( )
−∂ 2 l/∂u2 −∂ 2 l/∂u∂b
I(u, b) = . (4.40)
−∂ 2 l/∂b∂u −∂ 2 l/∂b2
La matriz de información esperada de Fisher la encontramos con ψ(u, b) = E[I(u, b)].
En muchas ocasiones la varianza asintótica del estimador de máxima verosimilitud θ̂
coincide con 1/I(θ).
Pruebas de hipótesis para los parámetros u y b se pueden llevar a cabo usando el
coeciente de verosimilitudes (4.14). Supóngase que se quiere probar la hipótesis
H0 : u = u 0 , entonces el estadístico a utilizar es
Λ(u0 ) ≤ χ2(1),α
.
Usualmente para muestras grandes se utiliza la aproximación normal para la distri-
bución conjunta de los estimadores û y b̂. se puede obtener un intervalo de conanza
1−α para u con
u ± Zα/2 I −1/2
,
donde Zα/2 es el cuantil superior 100α/2 de la ditribución normal estándar y I −1/2 es
el error estándar de u que puede ser calculado usando (4.6).
36
4.8. Inferencia para las Distribuciones Log-Localidad-Escala 37
n ( )δ i ( )1−δi ( 1 )r (
∏ 1∑ )
n
1
L(θ) = e(−t/θ)
e(−t/θ)
= exp − ti (4.42)
i=1
θ θ θ i=1
1∑
n
l(θ) = −r log θ − ti , (4.43)
θ i=1
donde
∑
donde r = δi es el número de tiempos de vida no censurados, δi=1 si ti es una
observación del tiempo de vida o δi=0 si es una observación censurada.
La ecuación de verosimilitud ∂l/∂θ = 0 da como resultado
∑
n
θ̂ = ti /r, (4.44)
i=1
el valor
2 ∑
n
−r
I(θ) = 2 + 3 ti . (4.45)
θ θ i=1
θ̂ − θ
Z= ∼ N (0, 1). (4.46)
I −1/2 (θ̂)
Si I −1/2 (θ̂) = (θ̂)1/2 , r > 0 es el error estándar para θ̂, entonces
37
38 Capítulo 4. Inferencia para tiempos de vida censurados
θ̂ − θ0
Z= (4.47)
I −1/2 (θ̂)
cuando el tamaño de muestra sea los sucientemente grande (n ≥ 30). De esta manera
se rechaza H0 si Z < −Zα/2 o si Z > Zα/2 .
La aproximación (4.46) no es adecuada para muestra pequeñas, esto se debe a que
l(θ) tiende a ser asimétrica cuando el número de observaciones censuradas es pequeña
[All95].
Cuando se tienen pocas observaciones censuradas, se puede utilizar alguno de los dos
métodos siguientes
Método 1: Sprott (1973) y otros ([F.94]), mostraron que si utilizaban la repara-
−1/3
metrización ϕ = θ , entonces la función log-verosimilitud se va a aproximar a
−3
l1 (θ) = l(ϕ ), de esta manera
ϕ̂ − ϕ
Z= −1/2
∼ N (0, 1) (4.48)
I1 (ϕ̂)
es bastante precisa, además que el valor I1 (ϕ̂) = 9r/ϕ̂2 es más fácil de encontrar.
Método 2: El cociente de verosimilitud estadístico
L(ti , δi ) ≤ θ ≤ U (ti , δi ))
38
4.8. Inferencia para las Distribuciones Log-Localidad-Escala 39
β ( t )β−1
f (t; α, β) = exp[−(t/α)β ], t ≥ 0 (4.50)
α α
donde α > 0 y β > 0 son los parámetros de escala y de forma, respectivamente.
Equivalentemente si se quiere trabajar con la distribución de valor extremo Y = log T ,
la cual pertenece a los modelos de localidad-escala, se utiliza la función de densidad
probabilística
1
f (y; u, b) = e(y−u)/b exp[−e(y−u)/b ], −∞ < y < ∞, (4.51)
b
donde u = log α y b = β −1 .
Sean (ti , δi ), y (yi , δi ), i = 1, ..., n con yi = log ti muestras aleatorias con tiempos de
vida censurados y funciones de densidad dadas por (4.50); y (4.51), respectivamente.
Para aplicar los resultados de la sección 4.8 se debe expresar la distribución de valor
extremo de la misma forma que la ecuación (4.31)
∑
n
l(u, b) = −r log b + (δi zi − ezi ), (4.53)
i=1
∑
donde r= δi .
Las derivadas parciales de primer y segundo orden son:
( ∑n ẑi
)
1
I(û, b̂) = ∑n r ∑
i=1 ẑ i e
. (4.54)
b̂2 i=1 ẑi e
ẑi
r + ni=1 ẑi2 eẑi
39
40 Capítulo 4. Inferencia para tiempos de vida censurados
(1 ∑
n )
û = b log eyi /b
r i=1
1∑
n ∑n /∑n
yi + b̂ − yi exp(yi /b̂) exp(yi /b̂) = 0 (4.55)
r i=1 i=1 i=1
nótese que la ecuación (4.55) no involucra a û, por lo cual para encontrar û primero
se debe encontrar b̂. Esto se puede realizar numéricamente utilizando algún lenguaje
de programación.
Para llevar a cabo una prueba de hipótesis H0 : b = b0 se puede usar el cociente de
verosimilitudes
40
Capítulo 5
Tiempos de Vida y Modelos de
Regresión
5.1. Introducción
El uso de covariables en un modelo de regresión es importante para representar la
heterogeneidad de una población. En este capítulo se explicará la forma en que puede
relacionarse la información contenida en las covariables con los tiempos de vida. Por
ejemplo, en un estudio de supervivencia para pacientes de cáncer pulmonar, factores
como la edad, la condición general de los pacientes y el tipo de tumor, realizan el
papel de covariables. En experimentos que involucran tiempos de falla de circuitos
eléctricos, un factor importante es el voltaje al cual es sometido el circuito ya que
este puede acelerar o retardar la falla de los componentes [ME98].
Los modelos de regresión para tiempos de vida pueden ser formulados de muchas
maneras. Algunos de los modelos paramétricos discutidos en el capítulo 2 pueden
introducirse a un modelo de regresión especicando la relación que existe entre el
modelo paramétrico y las covariables. En los libros como [F.94], [CMJo91] y [ME98],
se puede encontrar información más detallada a cerca de los modelos de regresión y
sus aplicaciones en los tiempos de vida.
El análisis de regresión de tiempos de vida desarrolla especicaciones para la distri-
bución de un tiempo de vida T dado un vector de covariables x.
Supóngase que cada individuo en un población tiene un tiempo de vida T y que un
vector columna x
= (x1 , ..., xp )′ representa a las covariables. Entonces, para un modelo
de distribución exponencial, dado el vector x, la distribución de T es exponencial con
función de supervivencia
La especicación del modelo también involucra una forma funcional dado por λ(x),
41
42 Capítulo 5. Tiempos de Vida y Modelos de Regresión
cuya forma más común es λ(x) = exp(β ′ x) donde β es un vector columna p×1 de
coecientes de regresión, la cual tiene la propiedad de que λ(x) ≥ 0 para cualquier
vector β y x.
Frecuentemente sólo ciertos parámetros en una distribución de tiempos de vida son
dependientes de las covariables. Por ejemplo, en los modelos log-localidad-escala so-
lamente se usa u como dependiente de x ′
. La especicación u(x) = β x dado a un
modelo donde Y = log T tiene función de supervivencia de la forma
( y − β′x )
P r(Y ≥ y | x) = S0 (5.2)
b
donde b>0 es un parámetro de escala. Tales modelos son familiares en un análisis
de regresión ordinaria, particularmente para el caso donde S0 (z) es la función de
supervivencia de la distribución normal estándar.
( y − u(x) )
S(y | x) = S0 − ∞ < y < ∞, (5.3)
b
donde S0 (z) es independiente de x. Otra forma de expresarlo sería
Y = u(x) + bZ, (5.4)
42
5.3. Inferencia para modelos de regresión Log-Localidad-Escala 43
donde α(x) = exp(u(x)), δ = b−1 y S0∗ (t) = S0 (log t). Las covariables efectivamente
alteran la escala de tiempo y (5.5) es frecuentemente tomado como un modelo de
tiempos de falla acelerado. En particular, si α(x) > 1 el efecto del vector de covariables
desacelera el tiempo, y si α(x) < 1 el tiempo es acelerado.
Vectores diferentes de covariables x1 y x2 , dan funciones que son traslaciones, una
de otra; éstas pueden tener la misma forma pero están separadas por una distancia
u(x1 ) − u(x2 ). Tales modelos son especialmente utilizados cuando los tiempos de vida
para individuos diferentes pueden variar por orden de magnitud. Por ejemplo algunos
modelos ingenieriles en los cuales los tiempos de fallas son acelerados por temperatura,
′
voltaje u otro acelerador, tienen especicaciones lineales u(x) = β x.
Por ejemplo, considérese la distribución Weibull con parámetro de escala α y pará-
metro de forma δ , el modelos de regresión para el cual α y δ dependen de x necesita
′ ′
que, α(x) = exp(β ) y δ(x) = exp(γ ) donde β y γ son vectores de coecientes de
regresión del tamaño de x, en este caso α(x) > 0 y δ(x) > 0 sin restricciones para β
o γ.
En el modelo Weibull utilizado en muchas situaciones, solamente α depende de x de
forma tal que la función de supervivencia de T es
[ ( y − u(x) )]
S(y | x) = exp − exp − ∞ < y < ∞, (5.7)
b
donde u(x) = log α(x) y b = δ −1 . Esta es una distribución paramétrica de localidad-
escala (distribución Gumbel de valor extremo) con u = u(x). En términos de T el
modelo (5.6) se reere a un modelo de tiempo de falla acelerado log-localidad-escala.
43
44 Capítulo 5. Tiempos de Vida y Modelos de Regresión
∑
n
l(β, b) = −r log b + [δi log fo (zi ) + (1 − δi ) log S0 (zi )], (5.9)
i=1
con zi = (yi − ui )/b, ui = u(xi ,∑β), f0 (z) = −S0′ (z) la función de densidad probabilís-
tica de Zi = (Yi − ui )/b y r = δi el número de tiempos de vida no censurados.
′
Sea xi = (xi1 , ..., xip ) y X la matriz n×p con xij la entrada (i, j). Entonces ∂zi /∂βj =
−xij b−1 , ∂zi /∂b = −zi b−1 y las primeras derivadas de l(β, b) son
44
5.3. Inferencia para modelos de regresión Log-Localidad-Escala 45
( )
−∂ 2 l/∂β∂β ′ −∂ 2 l/∂β∂b
I(β, b) = . (5.15)
−∂ 2 l/∂b∂β ′ −∂ 2 l/∂b2
De manera asintótica se considera la aproximación normal para la distribución de los
coecientes de regresión,
( )
V11 V12
V =
V21 V22
donde V11 es la matriz de covarianzas asintótica para x × k . Para mues-
β̂ 1 de tamaño
2
tras grandes y bajo H0 , Λ1 se distribuye aproximadamente como una χ(k) . Los estadís-
ticos (5.16) y (5.17) son asintóticamente equivalentes, pero para muestras pequeñas
es preferible utilizar (5.16). Para los coecientes de regresión individuales βj , los es-
timadores y los errores estándar son usados para la prueba de hipótesis H0 : β j = 0
vía Zj = (β̂j − 0)/(Var(β̂j ))
1/2
, considerando la distribución de Zj aproximadamente
N (0, 1) si H0 es verdadera.
45
46 Capítulo 5. Tiempos de Vida y Modelos de Regresión
Y = β ′ x + bZ (5.18)
∑
n
l(β, b) = −r log b + [δi zi − ezi ]. (5.19)
i=1
′
donde zi = (yi − β xi )/b.
De acuerdo con los resultados (5.12) al (5.15), la matriz de información observada,
evaluada en (β̂, b̂), tiene la forma particionada
( ∑n ẑ bf x bf x′ ∑n ẑi
)
1 e i i i ẑ e bf x
I(β̂, b̂) = ∑n
i=1
ẑi ′ ∑n 2 ẑi
i=1 i i
(5.20)
β̂ 2 i=1 ẑi e bf xi i=1 ẑi e
46
Capítulo 6
El Inventario Forestal y los Tiempos
de Vida
6.1. Introducción
Durante décadas recientes, los gobiernos, grupos ambientalistas y agencias de desa-
rrollo han participado en una amplia variedad de actividades y han gastado cientos de
millones de dólares para apoyar el manejo sostenible de los bosques. A pesar de estos
esfuerzos, actualmente casi ningún tipo de extracción maderera de bosques naturales
puede considerarse sostenible. La mayoría de los proyectos han fracasado o nunca
se han adoptado, debido a que los rendimientos de inversiones en manejo forestal
sostenible (MFS) por lo general son más bajos que aquellos obtenidos mediante la
extracción convencional u otros usos de la tierra. Por lo tanto, no es probable que
las compañías madereras inviertan en MFS a menos que el gobierno las obligue a
hacerlo. Aún si el MFS fuese económicamente atractivo, desde la perspectiva de la
conservación, las circunstancias que garantizarían su implementación con motivos de
conservación son limitadas [CERJB06].
47
48 Capítulo 6. Aplicación de los tiempos de vida en un inventario forestal
48
6.3. El inventario forestal y los tiempos de vida 49
49
50 Capítulo 6. Aplicación de los tiempos de vida en un inventario forestal
Como se vio, el sólo hecho de contestar esas dos preguntas implica un arduo trabajo en
campo y por consiguiente la utilización de muchos recursos. La propuesta de utilizar
modelos de regresión con distribuciones de vida puede simplicar el trabajo en campo
y el ahorro de recursos. En la actualidad se han utilizado los tiempos de vida para
muchas investigaciones, siendo las de mayor importancia la industria y la medicina,
pero aún faltan muchos campos más donde pueden ser de utilidad, incluyendo el
ámbito forestal. Los modelos de tiempos de vida, como se había mencionado, pueden
incorporan muchas covariables que inuyen en la mortalidad y realizar una predicción
más precisa del número de árboles que hay o habrá en un bosque sin la necesidad de
realizar censos o muestreos constantes.
Se pueden utilizar una o varias variables explicativas (covariables) para obtener una
descripción del impacto de los factores no controlables en la producción en un tiempo
determinado. Con esta información se puedan realizar cálculos más precisos sin la
necesidad de invertir mucho tiempo y dinero en muestreos continuos. Se puede co-
menzar a usar los modelos de regresión con tiempos de vida como complemento de
las técnicas estadísticas que se han venido utilizando.
Para mostrar el funcionamiento de los modelos de regresión para los tiempos de vida,
en la siguiente sección se presenta un ejemplo de aplicación para modelar mortalidad
forestal en presencia y ausencia de dosel.
50
6.4. Aplicación a un Problema Forestal 51
Cuadro 6.1: Tiempos de vida de Populus tremuloides Michx para el sitio de muestreo
Manitoba, MB, rodal 3.
51
52 Capítulo 6. Aplicación de los tiempos de vida en un inventario forestal
En el Cuadro 6.5.1,
Tiempo: Representa el tiempo en que ocurrieron las muertes o las censuras.
Censura: Es el indicador de muerte o de censura.
Dosel: Es la covariable que indica presencia o ausencia de dosel, el número 1 indica
dosel presente y el número 0 indica dosel ausente.
Peso: Representa el número de individuos muertos o censurados.
Las mediciones de las características de los sitios experimentales fueron realizadas
cada seis meses para que los cambios en las plantaciones pudieran ser observadas.
Como no se puede saber el instante preciso en que un árbol muere, es necesario que
las características que indican que el árbol realmente ha muerto sean notorias.
52
6.4. Aplicación a un Problema Forestal 53
0.6
0.4
0.2
0.0
0 5 10 15 20 25 30
Meses
Figura 6.1: Curva de supervivencia para los tiempos de vida de Populus tremuloides
Michx.
Para datos que fueron recolectados en el sitio con dosel ausente, se comienza a ob-
servar la muerte de algunos árboles a partir del mes doce con una probabilidad de
supervivencia mayor del 99 % y al nal del experimento el porcentaje de supervivencia
baja hasta un 40 %.
53
54 Capítulo 6. Aplicación de los tiempos de vida en un inventario forestal
Para los datos obtenidos en los sitios con presencia de dosel, se comienza a obser-
var una mortalidad del 10 % desde el primer periodo de observación, y al nal del
experimento el porcentaje de supervivencia disminuyó hasta un 23 % .
54
6.4. Aplicación a un Problema Forestal 55
1.0
0.8
Supervivencia
0.6
0.4
0.2
0.0
0 5 10 15 20 25 30
Meses
Se puede observar en esta gráca que la curva de supervivencia para los datos levan-
tados en los sitios con dosel presente permanece siempre por debajo de la curva de
supervivencia de los datos levantados en el sitio con dosel ausente. De igual manera
puede observarse que durante la cuarta observación, en el mes 24, la mortalidad en
ambos sitios experimentales fue mayor, por lo que también hace pensar que ocurrió
un evento que aceleró el proceso. Este evento pudo haber sido una tormenta invernal
o la incidencia de insectos, por lo que sería conveniente realizar una investigación
para ver que ocurrió durante este lapso de tiempo, siendo lo más extraño que fuera
un proceso normal de mortalidad.
Con estos datos se observa cierta diferencia entre las curvas de supervivencia, pero
para tener un sustento estadísticamente conable es necesario realizar una prueba de
hipótesis de igualdad de curvas utilizando el método visto en la sección 2.4, haciendo
énfasis en la ecuación (2.13).
Las hipótesis a contrastar son:
H0 :Las curvas de supervivencia son iguales vs H1 :Las curvas de supervivencia no
55
56 Capítulo 6. Aplicación de los tiempos de vida en un inventario forestal
son iguales.
Con un nivel de signicancia de α = 0,05 los resultados que arroja el programa de
análisis estadístico R se muestran en el cuadro 6.5.2.
Cuadro 6.5: Prueba de igualdad de curvas para presencia y ausencia de dosel. Tiempos
de vida de Populus tremuloides Michx.
56
6.4. Aplicación a un Problema Forestal 57
La denición de las etiquetas de las columnas del Cuadro 6.19 se presentan a conti-
nuación:
Distribución: Es la distribución utilizada para realizar las estimaciones.
Log likelihood: Representa el logaritmo de la función de verosimilitud para la distri-
bución correspondiente.
mu: Es el estimador de máxima verosilitud para el parámetro de localidad de la
distribución correspondiente.
se-mu: es el error estándar del parámtetro de localidad estimado.
sigma: Es el estimador de máxima verosilitud para el parámetro de escala de la dis-
tribución correspondiente.
se-sigma: es el error estándar del parámtetro de escala estimado.
De acuerdo con el cuadro anterior, de los logaritmos de la verosimilitud obtenidos para
las ocho distribuciones, el que mejor se ajusta a los datos es la distribución Gumbel
de valor extremo (sev) con un valor de -490.8, es decir se escoje la distribución que
tiene el logaritmo de la verosimilitud más grande, en este caso el que es más cercano a
cero. Posteriormente se encuentra la distribución logística con un valor de -497.2. Para
tener un argumento más sólido de que la distribución que mejor se ajusta a los datos
es la que tiene mayor logaritmo de la verosimilitud, se puede realizar la comparación
gráca de dos distribuciones; por ejemplo, en la gráca (6.5.3) se observa el ajuste que
realiza la distribución Gumbel de valor extremo (-490.8) y la distribución log-normal
(-534.3).
Esta gráca es una buena forma de corroborar los resultados obtenidos en el Cuadro
6.19.
57
58 Capítulo 6. Aplicación de los tiempos de vida en un inventario forestal
s data
Smallest Extreme Value Probability Plot
.5
.3
Fraction Failing
.2
.1
.05
.03
.02
.01
.005
5 10 15 20 25 30
[ ]
′ 1
u(x) = β x = [β0 β1 ] = β0 + β1 xi1
xi1
.
Utilizando la distribución Gumbel se estima un modelo de regresión lineal para incluir
la información presente en la covariable. Los resultados obtenidos se muestran en el
siguiente cuadro.
Los coecientes de regresión obtenidos son βˆ0 = 31,53, βˆ1 = −4,386 y b = 4,957. Por
lo que el modelo de regresión ajustado sería
[ ]
′ 1
β̂ x = [βˆ0 βˆ1 ] = βˆ0 + βˆ1 xi1 = 31,53 − 4,386xi1
xi1
En la siguiente gráca se puede apreciar el ajuste realizado por el modelo de regresión.
La nueva función de supervivencia se obtiene sustituyendo el parámetro que depende
de la covariable, con los coecientes de regresión obtenidos.
59
60 Capítulo 6. Aplicación de los tiempos de vida en un inventario forestal
.9 0CO
1CO
.7
.5
.3
.2
Fraction Failing .1
.05
.03
.02
.01
.005
.003
.001
-10 0 10 20 30
Figura 6.4: Modelo ajustado utilizando la distribución Gumbel de valor extremo para
los tiempos de vida de Populus tremuloides Michx. Sitio de muestreo Manitoba, MB,
rodal 13
Por cierto, el usuario de la información debe comprender con claridad sus alcances
y sus límites, ya que con los medios disponibles no siempre se puede averiguar todo
aquello que se pretende conocer. Es así, que en ocasiones se deben establecer priori-
dades y, eventualmente, sacricar una parte de la información obtenida.
60
6.4. Aplicación a un Problema Forestal 61
La descripción de las variables y los análisis, van a ser los mismos que se realizaron
para el sitio Manitoba, MB, rodal 3.
Primero se calcula la función de supervivencia utilizando el método de Kaplan-Meier.
La función de supervivencia del Cuadro 6.9 muestra que para el sitio de muestreo
EMEN 23, el porcentaje de supervivencia al nal del periodo de observación 74.6 % es
un mucho mayor que para el sitio Manitoba, MB, rodal 3, que al nal del experimento
obtuvo un porcentaje de supervivencia del 32.6 %. De este resultado se puede especular
que existe otro factor en el sitio de muestreo Manitoba, MB, rodal 3, relacionado con
la localización geográca, que inuye en la mortalidad de esta especie, un ejemplo
rápido de este factor puede ser las condiciones climáticas, la variable horas luz ó
simplemente la temperatura del aire.
61
62 Capítulo 6. Aplicación de los tiempos de vida en un inventario forestal
1.0
0.8
Supervivencia
0.6
0.4
0.2
0.0
0 5 10 15 20 25 30
Meses
Figura 6.5: Función de supervivencia para los tiempos de vida de Populus tremuloides
Michx. Sitios de muestreo Manitoba, MB, rodal 3 y EMEND, AB, rodal 13.
Se puede visualizar grácamente que para el sitio EMEND, AB, rodal 13, la curva
de supervivencia (líneas punteadas) no decrece tanto como para el sitio Manitoba,
MB, rodal 3. Con esta información se puede decir que la localización geográca de
las plantaciones también puede ser un factor que inuye en la mortalidad de Popu-
lus tremuloides . Para el inventario forestal también sería de importancia recolectar
información sobre los factores que predominan en los sitios donde se ubican las plan-
taciones, clima, suelo incidencia de plagas, etc.
Después de revisar la gráca y ver que existe cierta diferencia entre las curvas, es
recomendable realizar una prueba de hipótesis para descartar la posibilidad de que
las curvas sean iguales.
De igual manera haciendo referencia a los resultados visto en la sección 2.4, ecuación
(2.13), las hipótesis a contrastar son:
H0 :Las curvas de supervivencia son iguales vs H1 :Las curvas de supervivencia no
son iguales.
62
6.4. Aplicación a un Problema Forestal 63
Cuadro 6.10: Prueba de igualdad de curvas de supervivencia para los tiempos de vida
de Populus tremuloides Michx. Para los sitios Manitoba, MB, rodal 3 y EMEND,
AB, rodal 13.
63
64 Capítulo 6. Aplicación de los tiempos de vida en un inventario forestal
Para respaldar los resultados se puede realizar la gráca de las curvas de supervivencia
y realizar una prueba de hipótesis para igualdad de curvas.
1.0
0.8
Supervivencia
0.6
0.4
0.2
0.0
0 5 10 15 20 25 30
Meses
De igual manera se realiza una prueba de hipótesis para constatar que realmente las
curvas de supervivencia no sean iguales. Las hipótesis a contrastar son:
H0 :Las curvas de supervivencia son iguales vs H1 :Las curvas de supervivencia no
son iguales.
64
6.5. Aplicación a un Problema Forestal 65
Con un nivel de signicancia del 95 %, los resultados obtenidos son los siguientes.
Como el p − value es menor que 0.05, entonces rechazamos la hipótesis nula que
enuncia que ambas curvas son iguales.
De esta manera se tienen argumentos estadísticos para respaldar los siguientes dos
resultados:
Antes de realizar el inventario es necesario denir claramente los objetivos para el cual
se está realizando dicho inventario y sí se cuenta con información previa de la situación
de la plantación, es recomendable realizar algunas pruebas estadísticas, como las que
se vieron en este ejemplo, para tratar de localizar las covariables que pueden afectar
la mortalidad de las especies arbóreas y por consiguiente afectar la producción.
65
66 Capítulo 6. Aplicación de los tiempos de vida en un inventario forestal
Cuadro 6.14: Tiempos de vida de Populus tremuloides Michx para el sitio de muestreo
Manitoba, MB, rodal 3.
En el cuadro (6.5.1).
Tiempo: Representa el tiempo en que ocurrieron las muertes o las censuras.
Censura: Es el indicador de muerte o de censura.
Dosel: Es la covariable que indica presencia o ausencia de dosel, el número 1 indica
dosel presente y el número 0 indica dosel ausente.
Peso: Representa el número de individuos muertos o censurados.
Las mediciones de las características de los sitios experimentales fueron realizadas
cada seis meses para que los cambios en las plantaciones pudieran ser observadas.
Como no se puede saber el instante preciso en que un árbol muere, es necesario que
las características que indican que el árbol realmente ha muerto sean notorias.
66
6.5. Aplicación a un Problema Forestal 67
Para datos que fueron recolectados en el sitio con dosel ausente, se comienza a ob-
67
68 Capítulo 6. Aplicación de los tiempos de vida en un inventario forestal
1.0
0.8
Supervivencia
0.6
0.4
0.2
0.0
0 5 10 15 20 25 30
Meses
Figura 6.7: Curva de supervivencia para los tiempos de vida de Populus tremuloides
Michx.
servar la muerte de algunos árboles a partir del mes doce con una probabilidad de
supervivencia mayor del 99 % y al nal del experimento el porcentaje de supervivencia
baja hasta un 40 %.
Para los datos obtenidos en los sitios con presencia de dosel, se comienza a obser-
var una mortalidad del 10 % desde el primer periodo de observación, y al nal del
experimento el porcentaje de supervivencia disminuyó hasta un 23 % .
68
6.5. Aplicación a un Problema Forestal 69
69
70 Capítulo 6. Aplicación de los tiempos de vida en un inventario forestal
1.0
0.8
Supervivencia
0.6
0.4
0.2
0.0
0 5 10 15 20 25 30
Meses
Cuadro 6.18: Prueba de igualdad de curvas para presencia y ausencia de dosel. Tiem-
pos de vida de Populus tremuloides Michx.
Como el p−value es menor que 0.05 hay evidencia suciente para rechazar la hipótesis
nula que enuncia que ambas curvas son iguales. Esta prueba es de mucha ayuda cuando
no existe mucha diferencia entre las curvas de supervivencia y más aún cuando la
cantidad de datos analizados es muy grande y la probabilidad de supervivencia diere
por muy poco.
70
6.5. Aplicación a un Problema Forestal 71
71
72 Capítulo 6. Aplicación de los tiempos de vida en un inventario forestal
gráca de dos distribuciones; por ejemplo, en la gráca (6.5.3) se observa el ajuste que
realiza la distribución Gumbel de valor extremo (-490.8) y la distribución log-normal
(-534.3).
s data
Smallest Extreme Value Probability Plot
.5
.3
Fraction Failing
.2
.1
.05
.03
.02
.01
.005
5 10 15 20 25 30
Esta gráca es una buena forma de corrobora los resultados obtenidos en la tabla de
logaritmos (6.19).
En el capítulo 3, sección 3.4 se pueden revisar los atributos de la distribución Gumbel
de valor extremo.
Es de importante mencionar que el ajuste de la distribución paramétrica vista en esta
sección no toma en cuenta la información proporcionada por la covariable, sólo asocia
los datos de tiempos de vida con una distribución paramétrica. La información que
proporcionan las covariable se toman en cuenta hasta que se ajusta a un modelo de
regresión.
72
6.5. Aplicación a un Problema Forestal 73
Los coecientes de regresión obtenidos son βˆ0 = 31,53, βˆ1 = −4,386 y b = 4,957. Por
lo que el modelo de regresión ajustado sería
[ ]
′ 1
β̂ x = [βˆ0 βˆ1 ] = βˆ0 + βˆ1 xi1 = 31,53 − 4,386xi1
xi1
En la siguiente gráca se puede apreciar el ajuste realizado por el modelo de regresión.
La nueva función de supervivencia se obtiene sustituyendo el parámetro que depende
de la covariable, con los coecientes de regresión obtenidos.
73
74 Capítulo 6. Aplicación de los tiempos de vida en un inventario forestal
.9 0CO
1CO
.7
.5
.3
.2
Fraction Failing .1
.05
.03
.02
.01
.005
.003
.001
-10 0 10 20 30
74
6.5. Aplicación a un Problema Forestal 75
La descripción de las variables y los análisis, van a ser los mismos que se realizaron
para el sitio Manitoba, MB, rodal 3.
Primero se calcula la función de supervivencia utilizando el método de Kaplan-Meier.
75
76 Capítulo 6. Aplicación de los tiempos de vida en un inventario forestal
1.0
0.8
Supervivencia
0.6
0.4
0.2
0.0
0 5 10 15 20 25 30
Meses
Figura 6.11: Función de supervivencia para los tiempos de vida de Populus tremuloides
Michx. Sitios de muestreo Manitoba, MB, rodal 3 y EMEND, AB, rodal 13
Se puede visualizar grácamente que para el sitio EMEND, AB, rodal 13, la curva
de supervivencia (líneas punteadas) no decrece tanto como para el sitio Manitoba,
MB, rodal 3. Con esta información se puede decir que la localización geográca de
las plantaciones también puede ser un factor que inuye en la mortalidad de Popu-
lus tremuloides . Para el inventario forestal también sería de importancia recolectar
información sobre los factores que predominan en los sitios donde se ubican las plan-
taciones, clima, suelo incidencia de plagas, etc.
Después de revisar la gráca y ver que existe cierta diferencia entre las curvas, es
recomendable realizar una prueba de hipótesis para descartar la posibilidad de que
las curvas sean iguales.
De igual manera haciendo referencia a los resultados visto en la sección 2.4, ecuación
(2.13), las hipótesis a contrastar son:
H0 :Las curvas de supervivencia son iguales vs H1 :Las curvas de supervivencia no
son iguales.
76
6.5. Aplicación a un Problema Forestal 77
Cuadro 6.23: Prueba de igualdad de curvas de supervivencia para los tiempos de vida
de Populus tremuloides Michx. Para los sitios Manitoba, MB, rodal 3 y EMEND,
AB, rodal 13.
77
78 Capítulo 6. Aplicación de los tiempos de vida en un inventario forestal
Para respaldar los resultados se puede realizar la gráca de las curvas de supervivencia
y realizar una prueba de hipótesis para igualdad de curvas.
1.0
0.8
Supervivencia
0.6
0.4
0.2
0.0
0 5 10 15 20 25 30
Meses
De igual manera se realiza una prueba de hipótesis para constatar que realmente las
curvas de supervivencia no sean iguales. Las hipótesis a contrastar son:
H0 :Las curvas de supervivencia son iguales vs H1 :Las curvas de supervivencia no
son iguales.
78
6.5. Aplicación a un Problema Forestal 79
Con un nivel de signicancia del 95 %, los resultados obtenidos son los siguientes.
Como el p − value es menor que 0.05, entonces rechazamos la hipótesis nula que
enuncia que ambas curvas son iguales.
De esta manera se tienen argumentos estadísticos para respaldar los siguientes dos
resultados:
Como una sugerencia para cuando se realicen inventarios forestales, se debe denir
claramente los objetivos para el cual se está realizando dicho inventario y que si se
cuenta con información previa de la situación de las plantaciones, se deben realizar
pruebas estadísticas, como las que se vieron en este ejemplo, para tratar de locali-
zar las covariables que pueden afectar la mortalidad de las especies arbóreas y por
consiguiente afectar la producción.
79
Apéndice A
Uso del Leguaje R para el análisis de
tiempos de vida
El 18 de Abril de 2005, se liberó la versión 2.1.0 del lenguaje R, la cual sólo incorporaba
el sistema básico y más de 25 paquetes considerados como estándares y recomendados.
El acceso a la base del lenguaje R puede hacerse a través de la página principal del
proyecto R (http://www.r-project.org) o a través de los servidores espejos (mirror
sites) de la red Comprehensive R Archive Network (http://cran.r-project.org).
Otra ventaja del lenguaje R es la gran cantidad de paquetes con atribuidos disponibles
en la página de CRAN, actualmente hay disponibles más de 500 páginas de donde
se puede acceder a este programa. Un aspecto muy importante de resaltar es que
cada paquete viene acompañado de su manual en formato pdf, lo cual hace que R sea
un lenguaje que se aprende rápidamente. Los manuales de las diferentes paqueterías
80
A.2. Instalación de R 81
R fue diseñado para ser utilizado para la manipulación y análisis de datos, ya que
posee una serie de facilidades grácas, además de ser un programa de licencia gratuita.
A.2. Instalación de R
R para Windows se instala ejecutando el archivo de instalación (por ejemplo, R-
2.6.0-win32.exe) y siguiendo paso a paso las instrucciones sencillas que aparecen en
la ventana de instalación. Los requerimientos de equipo no son muy exigentes, puede
ser instalado en equipos familiares x86 o superiores y funcionan con los sistemas
operativos Microsoft Windows superior a la versión 3.11.
1) Directamente de las páginas de CRAN, para lo cual hay que estar conectado al
internet.
Un aspecto interesante es que los paquetes que han sido instalados previamente pue-
den ser actualizados vía internet, directamente de la página de CRAN.
81
82 Capítulo A. Apéndice A
82
A.7. Especicaciones de caracteres 83
Valores >Objeto
83
84 Capítulo A. Apéndice A
list(cbind(var1=c(valor1,...,valorn),...,vark=c(valor1,...,valorn))) .
También se puede crear una matriz a través de vectores separados, que pueden ser
unidos por columnas mediante la función cbind y luego eliminar los objetos de las
variables (vectores) pero este procedimiento es menos eciente que el anterior. Otra
forma de crear datos es crearlos con un software externo, por ejemplo Microsoft Excel
y guardarlos como archivos de texto delimitados, teniendo cuidado de que el separador
de enteros y decimales debe ser un punto, luego copiarlos en el subdirectorio de R y
leerlos mediante la función read.table.
84
A.12. Análisis de supervivencia utilizando el lenguaje R 85
eha: Su sigla signica event history analysis y contiene funciones que permiten ajustar
modelos de regresión en análisis de supervivencia.
intcox: Contiene un algoritmo convexo iterado de aminoramiento para datos con cen-
sura por intervalos.
msm: Que trabaja con modelos de Markov de múltiple estados continuos en el tiempo
y que son útiles para algunos modelos de supervivencia multivariados.
muhaz: Contiene funciones que permiten hacer estimaciones de las funciones de riesgo.
85
86 Capítulo A. Apéndice A
zicount: Contiene funciones que permiten ajustar modelos de regresión para datos de
conteo censurados.
Surv(time, event).
86
A.15. La función survt y survdi 87
87
88 Capítulo A. Apéndice A
delos de múltiples eventos por individuo y otras extensiones derivadas del enfoque
basado en los procesos de conteo.
La estructura de la función coxph es:
Otras funciones importantes que funcionan con el comando coxph son las funciones
cox.zph y la función residuals (o resid).
88
A.18. La función residuals 89
Esta función puede combinarse con el comando plot para obtener la distribución de
los betas, para lo cual se utiliza la siguiente estructura:
la cual posee una serie de opciones que pueden ser revisadas en el manual [The09] o
en la ayuda (help(survreg)).
Las distribuciones que se pueden modelar directamente a través de la función survreg
son la Weibull, Exponencial, Gaussiana o Normal, Log-normal, Logística, y Log-
logística.
Con la función survreg puede obtenerse diversa información:
89
90 Capítulo A. Apéndice A
90
Bibliografía
[Agr02] A. Agresti. Categorical Data Analysis. John Wiley and Sons, Inc, Hobo-
ken, New Jersey, 2002.
[All95] P.D. Allison. Survival analysis using the sas system, a practical guide.
SAS Institute, page 300, 1995.
[CERJB06] Barry D. Shiver Michael L. Clutter Charles E. Rose Jr., Daniel B. Hall
and Bruce Borders. A multilevel approach to individual tree survival
prediction. Forest Science, pages 3143, 2006.
[F.94] Jerald Lawless F. Statistical Models and Methods for Lifetime Data.
Wiley-Intercience, Massachusetts, 1994.
[JB65] Clutter J.L. and F.A. Bennett. Diameter distributions in old-eld slash
pine plantations. Georgia For. Res. Course Rep., page 13:9, 1965.
[LMo03] Norm Kendel Lisa Matthias and otros. Dierential growth and mortality
of advance regeneration across the canadian boreal forest. Sustainable
Forest Management Network, 2003.
91
92 BIBLIOGRAFÍA
[Mon07] Fidel Ulín Montejo. Análisis de datos censurados para ingeniería y cien-
cias biológicas. Revista de Matemáticas: Teoría y Aplicaciones 2007,
pages 239250, 2007.
[ZM03] Peart D.R Zens M.S. Dealing with death data: individual hazard, mor-
tality, and bias. Trends Ecol., pages Evol. 18, 366373, 2003.
92