Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Satellite PDF
Satellite PDF
por
JUAN GÓMEZ GARCÍA
Departamento de Métodos Cuantitativos para la Economía. Universidad de Murcia
RESUMEN
1. INTRODUCCIÓN Y OBJETIVOS
Hasta hace relativamente poco, los únicos métodos generalmente utilizados pa-
ra tratar el problema de los datos perdidos eran métodos como la eliminación del
caso con valores perdidos, la sustitución/imputación de éstos por valores plausibles
como la media de la variable o la predicción obtenida mediante regresión sobre las
demás variables del vector, etc. Este tipo de métodos clásicos no suelen tener una
base teórica sólida y, aunque fáciles de implementar y adecuados en situaciones
concretas, presentan en general importantes inconvenientes y carencias, especial-
mente en contextos multivariantes. Los principales problemas inferenciales asocia-
dos son ineficiencia, aparición de sesgos, distorsión de la estructura de covarian-
zas; además de no incorporar la incertidumbre asociada a los datos faltantes.
1.1 Objetivos
2. MECANISMOS DE NO RESPUESTA
Cuando en una muestra aparecen valores perdidos por razones fuera del control
del investigador, es necesario establecer unos supuestos sobre el proceso que los
ha generado. Estos supuestos serán en general no verificables, y por ello deberán
hacerse explícitos y analizar la sensibilidad del procedimiento general de estima-
ción frente a desviaciones de los mismos.
(1) Se habla de patrón univariante cuando los valores perdidos sólo aparecen en una de
las variables del vector aleatorio.
(2) Se habla de patrón arbitrario o general cuando los valores perdidos pueden aparecer
en cualquier variable y observación de la muestra.
MÉTODOS DE INFERENCIA ESTADÍSTICA CON DATOS FALTANTES. ESTUDIO DE SIMULACIÓN SOBRE LOS EFECTOS … 245
Dada una muestra Χ de k variables y n casos, supongamos que nper < n de es-
tos casos presentan al menos un valor perdido para alguna de las k variables.
Como su propio nombre indica, mediante este método se descartan los nper casos y
sólo se aplica la técnica o análisis sobre aquellos con valores observados para todas
las variables. De este modo se pasa a trabajar con una muestra de datos completa de
tamaño n - nper. Las consecuencias de esta medida dependerán fundamentalmente de
la cantidad de información que se pierda al descartar los casos con faltantes, del
mecanismo según el cual faltan los datos y de la relación entre los casos completos e
incompletos. La pérdida de información relevante se traducirá en sesgo y falta de
precisión de las estimaciones si los faltantes no son una muestra aleatoria de la mues-
tra completa, es decir, si no se verifica la hipótesis MCAR. Como ventajas destacare-
mos su simplicidad y el hecho de que todos los estadísticos se calculan utilizando el
mismo tamaño muestral, lo que permite su comparación.
Dada una variable Xi que presenta valores perdidos, mediante este método se
reemplaza cada uno de ellos por x iobs , la media de los valores observados de Xi.
Aunque esta estrategia es sencilla y puede resultar intuitivamente satisfactoria,
presenta un importante defecto, y es que, como veremos en la sección 8, tiende a
subestimar la variabilidad real de la muestra al sustituir los faltantes por valores
centrales de la distribución.
x̂ li = βˆ 0⋅obs + ∑ βˆ
j≠i
j⋅obs x lj [4.1]
x̂ li = βˆ 0⋅obs + ∑ βˆ
j≠i
j⋅obs x lj + εli [4.2]
∫
P[X obs ; θ] = P[X; θ]dXper [5.1]
las condiciones para que así sea, estableciendo que basta con que se verifique la
hipótesis MAR como comprobamos a continuación.
Según se ha formalizado el problema de las muestras incompletas, es necesario
especificar un modelo para X, P[X; θ] , y un modelo para la no respuesta,
[ ] [ ]
P R | X obs , Xper , ξ . Mediante el producto P R | X obs , Xper , ξ P[X; θ] obtenemos la
distribución conjunta P[X, R; θ, ξ] . La verosimilitud basada en la parte observada
puede expresarse como
∫ ∫[ ]
P[X obs , R; θ, ξ] = P[X, R; θ, ξ]dXper = P R | X obs , Xper , ξ P[X; θ]dXper [5.2]
∫
P[X obs , R; θ, ξ] = P[R | X obs , ξ] P[X; θ]dXper = P[R | X obs , ξ]P[X obs ; θ] [5.3]
Por otro lado, desde una perspectiva bayesiana, todas las inferencias se basan
en la distribución de probabilidad a posteriori de los parámetros desconocidos, que
puede escribirse utilizando el Teorema de Bayes como
(3) En la práctica este supuesto implica que ε proporciona poca información sobre θ , y
viceversa.
MÉTODOS DE INFERENCIA ESTADÍSTICA CON DATOS FALTANTES. ESTUDIO DE SIMULACIÓN SOBRE LOS EFECTOS … 249
∫ ∫
P[θ | X obs , R] = P[θ, ξ | R, X obs ]dξ α P[X obs | θ]ϕ θ (θ) P[R | X obs , ξ]ϕ ξ (ξ)dξ
5.2 El algoritmo EM
[
P[X; θ] = P[X obs ; θ]P Xper | X obs , θ , ]
de donde es sencillo deducir que
siendo log L(θ | X obs ) la log-verosimilitud para los datos observados y logL(θ | X) la
log-verosimilitud para los datos completos X. En presencia de datos faltantes, el
objetivo es estimar θ mediante la maximización de log L(θ | X obs ) con respecto a θ
dada Xobs. Como vemos a continuación, el algoritmo EM relaciona el EMV de θ a
partir de logL(θ | X obs ) con el EMV de θ a partir de logL(θ | X) . Tomando esperan-
[ ]
zas respecto a P Xper | X obs , θ a ambos lados de [5.5] y dado un estimador θ( t) de
θ , tenemos que
donde
∫ [ ]
Q(θ; θ( t) ) = log L(θ | X)P Xper | X obs , θ(t) dXper
250 ESTADÍSTICA ESPAÑOLA
∫ [ ][
H(θ; θ(t) ) = log P Xper | X obs , θ P Xper | X obs , θ( t) dX per ]
El paso E (expectation) del algoritmo EM calcula Q(θ; θ( t) ) , reemplazando los
valores perdidos, o una función de ellos, por su esperanza condicionada dados Xobs
y θ( t) . El paso M (maximization) simplemente determina el EMV θ( t+1) que maximi-
za Q(θ; θ(t) ) como si no hubiera datos perdidos. Los pasos E y M se repiten alterna-
{ }
tivamente generando una sucesión de estimadores θ( t) . La diferencia en el valor de
la log-verosimilitud log L(θ | X obs ) en dos iteraciones sucesivas viene dada por
log L(θ( t +1) | X obs ) − log L(θ( t) | X obs ) = Q(θ(t +1) ; θ(t) ) − Q(θ( t) ; θ( t) )
+ H(θ(t) ; θ(t) ) − H(θ( t +1) ; θ(t) )
[ ] ∫ [ ]
P Xper | X obs = P Xper | X obs , θ P[θ | X obs ]dθ [5.6]
Dado θn
Repetir
Generar +1
Xnper [
~ P Xper | X obs , θn ]
θn +1 ~ P[θ | X n +1
obs , Xper ]
Incrementar n
252 ESTADÍSTICA ESPAÑOLA
Puede demostrarse (véase p. ej. Robert y Casella, 1999) que este algoritmo ge-
[
nera una cadena de Markov que converge hacia la distribución P Xper | X obs y, en ]
consecuencia, tras un número suficientemente grande de iteraciones se estarán
generando valores de Xper condicionados a Xobs que se emplearan para reemplazar
los valores perdidos.
∑Q̂ ⎛
1 1⎞
Qm = i y Tm = Um + ⎜1 + ⎟Bm [5.7]
m i=1 ⎝ m⎠
∑
m
donde Um = Ui m representa la variabilidad intra-imputaciones y
i=1
∑
m
Bm = (Q̂i − Q)(Q̂i − Q )' (m − 1) la variabilidad entre-imputaciones. Sin datos
i=1
⎛ 1 0.8 − 0.5 ⎞
⎜ ⎟
ρ = ⎜ 0.8 1 − 0.2 ⎟
⎜ − 0.5 − 0.2 1 ⎟⎠
⎝
Una vez generadas las muestras nos disponemos a eliminar artificialmente valo-
res de cada una de ellas según los distintos mecanismos de no respuesta descritos
en la sección 2 y siguiendo un patrón arbitrario. Como resultado tendremos tres
conjuntos de 5.000 muestras con datos faltantes, uno para cada una de las hipóte-
sis MCAR, MAR y NMAR.
(4) En ningún caso se han empleado valores imputados de una variable como predicto-
res para las demás, siempre se parte de la matriz original.
MÉTODOS DE INFERENCIA ESTADÍSTICA CON DATOS FALTANTES. ESTUDIO DE SIMULACIÓN SOBRE LOS EFECTOS … 255
Una vez alcanzada la convergencia se toman de la cadena los valores con los
que se imputan los datos faltantes. Se extraen m conjuntos de valores simulados
para generar las m matrices imputadas que requiere el método. Es sencillo com-
probar que el valor m no necesita ser muy elevado para obtener estimaciones
eficientes, suelen bastar 4 ó 5 simulaciones. Nosotros realizaremos 5 imputaciones
para cada valor perdido. Dada la estructura de dependencias de una cadena de
Markov, para asegurar la independencia de los valores simulados éstos se extrae-
rán de la cadena cada cierto número de transiciones. Para fijar este número se
suelen utilizar las funciones de autocorrelación (FAC). De nuevo, tras observar
algunas de las FAC, adoptamos una postura conservadora y tomamos valores cada
1000 iteraciones. Finalmente, obtenemos las estimaciones mediante las ecuaciones
[5.7] a partir de las 5 matrices imputadas para cada muestra.
∑
t
y para cada mecanismo de no respuesta como 1t (θˆ i − θ)2 , siendo θ y θ̂ , el
i =1
parámetro y su estimación respectivamente, y t el número de muestras.
(5) Porcentaje de intervalos de confianza que contienen el verdadero valor del pa-
rámetro.
256 ESTADÍSTICA ESPAÑOLA
[ ( ( ) )]
v = (m − 1) 1 + Um / 1 + m −1 Bm
2
Una vez construidos los intervalos obtenemos la cobertura real a lo largo de ca-
da conjunto de muestras MCAR, MAR y NMAR, y la comparamos con la cobertura
nominal (en este caso, el 95%). Hemos calculado también las amplitudes medias
MÉTODOS DE INFERENCIA ESTADÍSTICA CON DATOS FALTANTES. ESTUDIO DE SIMULACIÓN SOBRE LOS EFECTOS … 257
8. RESULTADOS
En la situación MCAR presentan un sesgo casi nulo con cualquiera de los méto-
dos, aunque también hay que tener en cuenta la varianza de los estimadores. Por
ejemplo, la subestimación de las desviaciones típicas obtenidas con los métodos
IME, IRE y IEM, llevará a sobrevalorar la precisión de sus estimadores para las
medias. Bajo la hipótesis MAR los métodos IMU, IEM, IRE y IRS siguen proporcio-
nando una estimación promedio ajustada, mientras que con el resto el sesgo se
hace patente. En la situación NMAR todos los métodos producen estimaciones
sesgadas, siendo de nuevo IMU, IEM, IRE y IRS los que ofrecen los mejores
(6) Se han utilizado las siguientes abreviaturas: ACC (análisis de casos completos), ACD
(análisis de casos disponible), IME (imputación mediante la media), IRE (imputación median-
te regresión), IRS (imputación mediante regresión estocástica), IEM (imputación mediante
algoritmo EM), IMU (imputación múltiple).
258 ESTADÍSTICA ESPAÑOLA
apenas afectado por la subcobertura. En un escalón más abajo se sitúan los méto-
dos IRS, IRE, IEM.
Tabla 1
Tabla 1
Tabla 1
Tabla 1
Tabla 1
Tabla 1
Tabla 1
CONCLUSIONES
REFERENCIAS
DEMPSTER, A.P., LAIRD, N.M., Y RUBIN, D.B., (1977), «Maximum likelihood estimation
from incomplete data via the EM algorithm (with discusion)», J. of the Royal
Statistical Society, 39, 1-38.
GELMAN, A., CARLIN, J.B., STERN, H.S. Y RUBIN, D.B., (1995), «Bayesian Data Analy-
sis», Chapman & Hall.
MENG, X.L. Y RUBIN, D.B., (1992), «Performing likelihood ratio tests with multiply
imputed data sets», Biometrika, 79, 103-111.
MENGERSEN, K. Y ROBERT, C.P., (1999), «MCMC convergence diagnostics: a re-
vieWWW», en Bayesian Statistics, eds. J. Berger, J. Bernardo, A.P. Dawid y
A.F.M. Smith, Oxford Sciencies Publications.
MOLENBERGHS, G., KENWARD, M.G. Y GOETGHEBEUR, E., (2001), «Sensitivity analysis
for incomplete contingency tables: the Slovenian plebiscite case», Applied Sta-
tistics, 50 (1), 15-29.
PALAREA, J., (2003), «Algoritmos Monte Carlo basados en cadenas de Markov.
Aplicación a la inferencia mediante imputación múltiple», Trabajo de investiga-
ción de tercer ciclo, Universidad de Murcia.
ROBERT, C.P. Y CASELLA, G., (1999), «Monte Carlo Statistical Methods», Springer.
ROBINS, J.M. Y WANG, N., (2000), «Inference for imputation estimators», Biometrika,
87, 113-124.
RUBIN, D.B., (1976), «Inference and missing data», Biometrika, 63, 581-592.
RUBIN, D.B., (1987), «Multiple Imputation for Nonresponse in Surveys», Wiley & Sons.
RUBIN, D.B., (1996), «Multiple imputation after 18+ years», J. of the American
Statistical Association, 91, 473-489.
SERRAT, C., (2001), «Study and validation of data structures with missing values.
Application to survival analysis», doctoral thesis, Universitat Politècnica de
Catalunya, Barcelona.
SCHAFER, J.L., (1997), «Analysis of Incomplete Multivariate Data», Chapman & Hall.
MÉTODOS DE INFERENCIA ESTADÍSTICA CON DATOS FALTANTES. ESTUDIO DE SIMULACIÓN SOBRE LOS EFECTOS … 269
SCHAFER, J.L. Y GRAHAM, J. W., (2002), «Missing data: our view of the state of the
art», Psychological Methods, 7, 147-177.
TROXEL, A.B., MA, G. Y HEITJAN, D.F., (2004), «An index of local sensitivity to nonig-
norability», Statistica Sinica, 14, 1221-1237.
ZHANG, P., (2003), «Multiple imputation: theory and method», International Statistical
Review, 71, 3, 581-592.
270 ESTADÍSTICA ESPAÑOLA
ABSTRACT