Está en la página 1de 17

Statgraphics - Rev.

4/9/2018

Ajuste de Distribución (Datos Arbitrariamente Censurados)

Resumen.......................................................................................................................................... 1
Introducción de Datos ..................................................................................................................... 3
Opciones de Análisis....................................................................................................................... 5
Tablas y Gráficos ............................................................................................................................ 6
Resumen del Análisis ...................................................................................................................... 6
Gráfico de Dispersión ..................................................................................................................... 7
Ajuste de Distribución .................................................................................................................... 8
Gráfico de Distribución Ajustada ................................................................................................... 9
Estimaciones no paramétricas ....................................................................................................... 11
Gráfico de Caja y Bigotes ............................................................................................................. 12
Gráfico Cuantil-Cuantil ................................................................................................................ 13
Distribución Acumulada ............................................................................................................... 14
Función de supervivencia ............................................................................................................. 15
Guardar Resultados ....................................................................................................................... 16
Cálculos......................................................................................................................................... 17
Referencias .................................................................................................................................... 17

Resumen

El procedimiento Ajuste de Distribución (Datos Arbitrariamente Censurados) analiza los


datos en los que no se conocen exactamente una o más observaciones. En particular, las
observaciones pueden ser:

1. Izquierda-censurados: sólo se sabe que es inferior a un valor establecido.


2. Derecha-censurados: sólo se sabe que es mayor que un valor establecido.
3. Intervalo censurados: sólo se sabe que entra dentro de un intervalo establecido.

El procedimiento calcula el resumen de estadísticos, ajusta distribuciones, crea gráficos, y


calcula una estimación no paramétrica de la función de supervivencia.

StatFolio Muestra: censored onevar.sgp

 2018 por Statgraphics Technologies, Inc. Ajuste de Distribución (Datos Censurados) -1


Statgraphics - Rev. 4/9/2018
Datos de Muestra

El archivo bcos.sgd contiene los datos de un estudio sobre el cáncer de mama reportados por
Finkelstein y Wolfe (1985). Se compone de los datos de 94 pacientes con cáncer de mama
recibieron al azar radioterapia con quimioterapia o radioterapia sola. La variable a analizar es el
tiempo entre el tratamiento y el inicio de la retracción de mama. Los tiempos observados para los
pacientes con retracción de mama en su primera visita a la clínica son izquierda-censurados. Los
tiempos observados para los pacientes sin retracción de mama en su última visita a la clínica son
derecha-censurados. Los tiempos observados para los pacientes sin retracción de mama en una
visita a la clínica y con retracción de mama en la próxima visita a la clínica son intervalo-
censurados.

A continuación se muestra una parte del archivo:

patient days left right treatment


1 >45 45 Rad
2 [6;10] 6 10 Rad
3 <7 0 7 Rad
4 >46 46 Rad
5 >46 46 Rad
6 [7;16] 7 16 Rad
7 >17 17 Rad
8 [7;14] 7 14 Rad
9 [37;44] 37 44 Rad
10 <8 0 8 Rad

El tiempo hasta que se observó la retracción de mama se muestra de 2 maneras:

1. La columna Días es una columna numérica censurado que representa los datos utilizando
una notación tal como:

a. > 45 para datos derecha-censurados, significa que la retracción no se observó


hasta la última visita a la clínica a los 45 días.

b. [6,10] para datos intervalo-censurados, significa que la retracción no se observó


durante una visita a los 6 días después del tratamiento, pero se observó durante
una visita a los 10 días.

c. <7 para los datos izquierda-censurados, significa que la retracción se observó en


la primera visita que se produjo 7 días después del tratamiento.

2. Las columnas Izquierda y Derecha son los extremos del intervalo durante el cual se
produjo la retracción para cada paciente.

Los datos pueden introducirse en cualquier formato.

 2018 por Statgraphics Technologies, Inc. Ajuste de Distribución (Datos Censurados) -2


Statgraphics - Rev. 4/9/2018

Introducción de Datos

Cuando se selecciona por primera vez el procedimiento, se visualiza un cuadro de diálogo que
solicita el formato de los datos a analizar:

 Columna individual con indicadores de censura: los datos a analizar están en una sola
columna de tipo “numérico censurado”.

 Dos columnas con límites inferior y superior: se suministran dos columnas con los límites
inferior y superior para cada observación. Para los datos izquierda-censurados, el límite
inferior puede estar en blanco. Para datos derecha-censurados, el límite superior puede estar
en blanco.

Columna individual con indicadores de censura

Para una sola columna con indicadores de censura, un segundo cuadro de diálogo pide el nombre
de la columna:

La columna de datos debe tener el tipo “numérico censurado”.

 2018 por Statgraphics Technologies, Inc. Ajuste de Distribución (Datos Censurados) -3


Statgraphics - Rev. 4/9/2018
Dos columnas con límites inferior y superior

Si los datos constan de límites inferior y superior, un segundo cuadro de diálogo solicita dos
columnas que contienen los límites:

 2018 por Statgraphics Technologies, Inc. Ajuste de Distribución (Datos Censurados) -4


Statgraphics - Rev. 4/9/2018

Opciones de Análisis

Una vez especificados los datos, se muestra el cuadro de diálogo Opciones de Análisis:

 Distribución asumida: seleccione una distribución para ajustar los datos.

 Umbral inferior: cuando ajuste distribuciones que tienen un umbral más bajo que no se
estima a partir de los datos, se puede especificar un umbral distinto de 0. Las distribuciones
relevantes son:

o exponencial
o gamma
o normal-mitad
o log logística
o log normal
o Maxwell
o Pareto
o Rayleigh
o Weibull

En casos tales como la distribución gamma, donde hay 2 formas (2-parámetro y 3-parámetro), al
seleccionar el formato de parámetro más alto, el umbral inferior se calculará a partir de los datos
en lugar de ser especificado por el usuario.

 Aplicar corrección de sesgo Efron: si se selecciona y la observación más pequeña está


izquierda-censurada, define el CDF no paramétrico KMT en que la observación a 0 a efectos

 2018 por Statgraphics Technologies, Inc. Ajuste de Distribución (Datos Censurados) -5


Statgraphics - Rev. 4/9/2018
de calcular la media y la desviación estándar. De lo contrario, el CDF se supone que irá a 0
en el umbral inferior linealmente.

 Número de submuestras de arranque: número de submuestras

 para ser utilizado en la estimación de límites de confianza para los parámetros de distribución
y otras cantidades. El establecimiento de un valor mayor dará una estimación más exacta,
pero puede aumentar significativamente el tiempo de ejecución.

 Nivel de confianza para intervalos: nivel de confianza utilizado para crear los límites de
confianza para los parámetros de distribución y otras cantidades.

Tablas y Gráficos
Pueden crearse las siguientes tablas y gráficos:

Resumen del Análisis

El Resumen del Análisis muestra los datos que se van a analizar:

Ajuste de Distribución (Datos Censurados Arbitrariamente) (treatment="Rad")


Datos/Variable: days
Selección de la Variable: treatment="Rad"

Observaciones
Valor Frecuencia
No Censurados 0
Censurado a la izquierda 3
Intervalo censurado 18
Censurado a la derecha 25

Muestra el número de observaciones con cada tipo de censura. Para los pacientes en el conjunto
de datos del ejemplo que se les dio sólo radiación, hay 3 observaciones izquierda-censuradas, 18
observaciones intervalo-centradas, y 25 observaciones derecha-censuradas.

 2018 por Statgraphics Technologies, Inc. Ajuste de Distribución (Datos Censurados) -6


Statgraphics - Rev. 4/9/2018

Gráfico de Dispersión

Este gráfico muestra cada una de las observaciones. Las observaciones exactas están
representadas como puntos. Las observaciones censuradas están representadas por líneas que
cubren la gama de valores posibles para esta observación.

Gráfico de dispersión

100

80

60
days

40

20

0
0 10 20 30 40 50
Fila

Las 3 observaciones izquierda-censuradas se muestran como líneas verticales que se extienden


hacia arriba desde 0. Las 18 observaciones intervalo-censuradas se extienden desde sus límites
inferiores a sus límites superiores. Las 25 observaciones derecha-censuradas se extienden desde
sus límites inferiores hasta la parte superior del gráfico.

 2018 por Statgraphics Technologies, Inc. Ajuste de Distribución (Datos Censurados) -7


Statgraphics - Rev. 4/9/2018
Ajuste de Distribución

Esta tabla muestra los resultados de ajuste de la distribución seleccionada para los datos:

Ajuste de distribución

Distribución ajustada: Lognormal


Parámetro Estimar 95% LIC 95% LSC
Media 100,514 49,1371 363,873
Desv. Est. 214,7 58,8241 1995,17

Propiedades de distribución
Estimado 95% LIC 95% LSC
Media 100,514 49,1371 363,873
Desviación Estándar 214,7 58,8241 1995,17
Mediana 42,6171 27,5051 71,7931
Cuartil Inferior 17,6137 11,2009 27,8808
Cuartil Superior 103,114 57,537 228,469
Recorrido Intercuartílico 85,5001 41,6777 208,37

Número de submuestras bootstrap: 1000

Las estimaciones de los parámetros se obtienen numéricamente usando máxima verosimilitud de


estimación (MLE), donde la función de probabilidad viene dada por

n
L   l ( xi ) (1)
i 1

donde

l(xi) = f(xi) si la observación xi no está censurada (2)

l(xi) = F(Li) si la observación es izquierda-censurad en Li (3)

l(xi) = 1-F(Ui) si la observación es derecha-censurada en Ui (4)

l(xi) = F(Ui) -F(Li) si la observación es intervalo-censurada entre [Li , Ui] (5)

Los límites de confianza inferior y superior para los parámetros y cantidades relacionadas se
estiman utilizando arranques basados en el número de submuestras que se muestran.

 2018 por Statgraphics Technologies, Inc. Ajuste de Distribución (Datos Censurados) -8


Statgraphics - Rev. 4/9/2018
Gráfico de Distribución Ajustada

La distribución ajustada puede trazarse seleccionando Gráfico de Distribución Ajustada de la


lista de tablas y gráficos seleccionada.

Lognormal Distribución (Media=100,514;Desv. Est.=214,7)

(X 0,001)
18

15

12
densidad

0
0 200 400 600 800 1000 1200
X

Opciones del Panel

Utilice este cuadro de diálogo para sombrear áreas bajo la función de densidad:

Especificar un límite inferior, límite superior, y el área a sombrear.

Por ejemplo, el gráfico siguiente sobrea el área por encima de 50:

 2018 por Statgraphics Technologies, Inc. Ajuste de Distribución (Datos Censurados) -9


Statgraphics - Rev. 4/9/2018

Lognormal Distribución (Media=100,514;Desv. Est.=214,7)


Probabilidad = 0,451463
(X 0,001)
18

15

12
densidad

0
0 200 400 600 800 1000 1200
X: 50,0

El área de la región sombreada, que es igual a la probabilidad de observar un valor en ese


margen, se muestra en la parte superior del gráfico.

 2018 por Statgraphics Technologies, Inc. Ajuste de Distribución (Datos Censurados) -10
Statgraphics - Rev. 4/9/2018

Estimaciones no paramétricas

También se calcula una estimación no paramétrica alternativa usando el procedimiento de


Kaplan-Meier-Turnbull (1976):

Estimaciones no paramétricas

Estimaciones de Kaplan-Meier-Turnbull
days Distribuciones Acumuladas Supervivencia 95% LIC 95% LSC
4,0 0,0 1,0 0,891313 1,0
6,0 0,0463468 0,953653 0,826087 1,0
7,0 0,0797102 0,92029 0,782609 1,0
11,0 0,168378 0,831622 0,685386 1,0
24,0 0,23913 0,76087 0,599359 0,869565
33,0 0,331776 0,668224 0,470669 0,800272
38,0 0,413562 0,586438 0,332921 0,730274
46,0 0,534442 0,465558 0,283185 0,66923

Estadísticos
Media 33,5093
Desviación Estándar 15,9287
Error Estándar 2,34855

Si los datos no contienen observaciones intervalo-censuradas, también se muestran la media


estimada, la desviación estándar y el error estándar de la media.

Nota: La media estimada y la desviación estándar se calcularon a partir de la CDF estimada por
integración contra la función de densidad implícita. Si la observación más grande es derecha-
censurada, la CDF se supone que es igual a 1 en ese punto. El error estándar se obtiene
dividiendo la desviación estándar estimada por √𝑛 donde n es el número total de observaciones
en los datos.

 2018 por Statgraphics Technologies, Inc. Ajuste de Distribución (Datos Censurados) -11
Statgraphics - Rev. 4/9/2018
Gráfico de Caja y Bigotes

Un gráfico de caja y bigotes se crea para mostrar los percentiles calculados utilizando el
procedimiento KMT. Toma la forma mostrada a continuación:

Gráfico de Caja y Bigotes para la estimación KMT

0 10 20 30 40 50
days

La caja central se extiende desde el cuartil inferior (percentil 25) hasta el cuartil superior
(percentil 75). Los bigotes se extienden desde el percentil 1 hasta el percentil 99. Hay una línea
vertical en la mediana estimada y un signo más en la media estimada. En el ejemplo anterior, los
percentiles estimados 75 y 99 son los mismos, por lo que no aparece ningún bigote superior.

Para mostrar una tabla de percentiles de los estimados, seleccione Valores Críticos de la lista de
tablas y gráficos.

 2018 por Statgraphics Technologies, Inc. Ajuste de Distribución (Datos Censurados) -12
Statgraphics - Rev. 4/9/2018
Gráfico Cuantil-Cuantil

El gráfico cuantil-cuantil o gráfico Q-Q se pueden usar para comparar la distribución ajustada
con el ajuste no paramétrico.

Gráfico de Cuantil-Cuantil

120

100
Cuantil ajustado

80

60

40

20

0
0 20 40 60 80 100 120
cuantil KMT

Hay un punto del gráfico para cada observación no censurada o intervalo-censuradas. La


ubicación horizontal del punto es el valor observado si el punto no está censurado o la mitad del
intervalo para las observaciones intervalo-censuradas. La ubicación vertical es la función de
distribución de probabilidad inversa para la distribución paramétrica ajustada evaluada en el
método de Kaplan-Meier-Turnbull CDF. (Para los valores intervalo-censurados, el KMT CDF se
evalúa en el centro del intervalo. Para valores no censurados, se usa el promedio de CDF antes y
después del salto de paso.) Si los puntos se sitúan cerca de la línea diagonal, los 2 estimados son
similares. En el ejemplo anterior, existe una buena correspondencia entre la distribución ajustada
y el estimado KMT excepto para la última observación, que no es tan grande como se esperaba si
los datos provienen de una distribución lognormal.

 2018 por Statgraphics Technologies, Inc. Ajuste de Distribución (Datos Censurados) -13
Statgraphics - Rev. 4/9/2018
Distribución Acumulada

La distribución acumulada ajustada F(X) se representa mediante la distribución ajustada y/o el


estimado no paramétrico:

Distribución acumulada
Lognormal:Media=100,514,Desv. Est.=214,7

1
Lognormal
Distribuciones Acumuladas

KMT
0,8 95% límites KMT

0,6

0,4

0,2

0
0 20 40 60 80 100
X

Opciones del Panel

 Estimado paramétrico: si se selecciona, se trazará la CDF de la distribución ajustada.

 Estimado no paramétrico: si se selecciona, se trazará el estimado de Kaplan-Meier-


Turnbull.

 Límites de confianza no paramétricos: si se selecciona, se trazan los límites de confianza


superior e inferior para el estimado KMT. El nivel de confianza es controlado por el cuadro
de diálogo Opciones de Análisis.

 2018 por Statgraphics Technologies, Inc. Ajuste de Distribución (Datos Censurados) -14
Statgraphics - Rev. 4/9/2018

Función de supervivencia

La distribución acumulada ajustada 1 - F(X) se traza usando la distribución ajustada:

Función de Supervivencia
Lognormal:Media=100,514,Desv. Est.=214,7

1
Lognormal
KMT
Función de Supervivencia

0,8 95% límites KMT

0,6

0,4

0,2

0
0 20 40 60 80 100
X

Opciones del panel

 Estimación paramétrico: si está marcada, se trazará la función de supervivencia de la


distribución ajustada.

 Estimado no paramétrico: si se selecciona, se trazará el estimado de Kaplan-Meier-


Turnbull.

 Límites de confianza no paramétricos: si se selecciona, se trazan los límites de confianza


superior e inferior para el estimado KMT. El nivel de confianza es controlado por el cuadro
de diálogo Opciones de Análisis.
 2018 por Statgraphics Technologies, Inc. Ajuste de Distribución (Datos Censurados) -15
Statgraphics - Rev. 4/9/2018

Guardar Resultados

Los resultados de los cálculos seleccionados se pueden guardar en una hoja de datos Statgraphics
pulsando el botón Guardar Resultados en la barra de herramientas de análisis. Se presentará el
siguiente cuadro de diálogo:

 Guardar: selecciona los elementos que desea guardar.


o X y Áreas de Cola – de la tabla Áreas de Cola.
o P, Valores Críticos y Valores Críticos KMT - de la tabla Valores Críticos.
o Ubicaciones KMT, KMT CDF y Supervivencia KMT – de la tabla Estimados no
paramétricos.

 Variables Objetivo: introducir nombres para que se creen las columnas.

 Hoja de datos: la hoja de datos en la que se guardarán los resultados.

 Autoguardar: si está marcada, los resultados se guardan automáticamente cada vez que se
carga un StatFolio guardado.

 Guardar comentarios: si se selecciona, los comentarios para cada columna se guardarán en


la segunda línea del encabezado de la hoja de datos.

 2018 por Statgraphics Technologies, Inc. Ajuste de Distribución (Datos Censurados) -16
Statgraphics - Rev. 4/9/2018
Cálculos

El paquete intervalo R se utiliza para calcular el estimado no paramétrico de Kaplan-Meier-


Turnbull de la CDF y la función de supervivencia. Si hay datos intervalo-censurados, hay
márgenes de valores dentro de los intervalos en los que el estimado no es exacto. En esos casos,
los valores censurados se suponen que tienen la misma probabilidad de situarse en cualquier
lugar del intervalo si no se aplica la corrección de sesgo Efron.

Referencias

Finkelstein, D.M. and Wolfe, R.A. (1985). “A semiparametric model for regression analysis of
interval-censored failure time data.” Biometrics 41, 731-740.

Helsel, D.R. (2012). Statistics for Censored Environmental Data using Minitab and R, second
edition. Wiley, Hoboken, N.J.

Lee, E.T. and Wang, J.W. (2003). Statistical Methods for Survival Data Analysis, 3rd edition.
Wiley, New York.

R Package “interval” - https://cran.r-project.org/web/packages/interval/interval.pdf

Turnbull BW (1976). “The Empirical Distribution Function with Arbitrarily Grouped, Censored
and Truncated Data.” Journal of the Royal Statistical Society. Series B, 38(3), 290–295.

 2018 por Statgraphics Technologies, Inc. Ajuste de Distribución (Datos Censurados) -17

También podría gustarte