Está en la página 1de 14

Actualidades en Psicologa, 29(119), 2015, 29-42 ISSN 2215-3535

http://revistas.ucr.ac.cr/index.php/actualidades DOI: http://dx.doi.org/10.15517/ap.v29i119.18812

No le tema a los datos perdidos: enfoques modernos


para el manejo de datos perdidos
Do not Be Afraid of Missing Data: Modern
Approaches to Handle Missing Information
Esteban Montenegro Montenegro1
Youngha Oh2
Texas Tech University, United States
Steven Chesnut3
University of Southern Mississippi, United States

Resumen. La mayora de los datos en ciencias sociales y educacin presentan valores perdidos debido al abandono del
estudio o la ausencia de respuesta. Los mtodos para el manejo de datos perdidos han mejorado dramticamente en los ltimos
aos, y los programas computacionales ofrecen en la actualidad una variedad de opciones sofisticadas. A pesar de la amplia
disponibilidad de mtodos considerablemente justificados, muchos investigadores e investigadoras siguen confiando en tcnicas
viejas de imputacin que pueden crear anlisis sesgados. Este artculo presenta una introduccin conceptual a los patrones de
datos perdidos. Seguidamente, se introduce el manejo de datos perdidos y el anlisis de los mismos con base en los mecanismos
modernos del mtodo de mxima verosimilitud con informacin completa (FIML, siglas en ingls) y la imputacin mltiple
(IM). Asimismo, se incluye una introduccin a los diseos de datos perdidos as como nuevas herramientas computacionales
tales como la funcin Quark y el paquete semTools. Se espera que este artculo incentive el uso de mtodos modernos para el
anlisis de los datos perdidos.
Palabras clave. datos perdidos, mxima verosimilitud con informacin completa, imputacin mltiple, diseos de datos
perdidos, psicometra.
Abstract. Most of the social and educational data have missing observations due to either attrition or nonresponse.
Missing data methodology has improved dramatically in recent years, and popular computer programs as well as software
now offer a variety of sophisticated options. Despite the widespread availability of theoretically justified methods,
many researchers still rely on old imputation techniques that can create biased analysis. This article provides conceptual
introductions to the patterns of missing data. In line with that, this article introduces how to handle and analyze the missing
information based on modern mechanisms of full-information maximum likelihood (FIML) and multiple imputation (MI).
An introduction about planned missing designs is also included and new computational tools like Quark function, and
semTools package are also mentioned. The authors hope that this paper encourages researchers to implement modern
methods for analyzing missing data.
Keywords. missing data, maximum likelihood estimation, full-information maximum likelihood, multiple imputation,
planned missingness, psychometrics.

1
Esteban Montenegro-Montenegro. Institute for Measurement, Methodology, Analysis and Policy, Texas Tech University. Direccin
postal: Texas Tech University - National Wind Institute 1009 Canton Ave. Room Number 211 Lubbock, TX 79409, United States.
Email: esteban.montenegro@ttu.edu
2
Youngha Oh. Institute for Measurement, Methodology, Analysis and Policy, Texas Tech University, United States. Email: youngha.oh@ttu.edu
3
Steven Chesnut. University of Southern Mississippi, United States. Email: steven.chesnut@usm.edu

Esta obra est bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional.
30 Montenegro-Montenegro, Oh & Chesnut

Introduccin de estudios con datos perdidos previamente planificados


y su uso en la investigacin en psicologa y educacin,
La presencia de datos perdidos ha sido siempre
especialmente para la indagacin de las propiedades
considerada un problema en el campo de la medicin, psicomtricas de los tems utilizando muestras numerosas.
especialmente en psicologa y educacin, debido a que Por ltimo, se pretende introducir nuevas herramientas
disminuye el poder estadstico. Asimismo, el enfoque computacionales que pueden ser de ayuda para el manejo
clsico de manejo de datos perdidos plantea una serie de los datos perdidos o para su previa planificacin.
de medidas poco efectivas como la eliminacin de casos
cuyos tems fueron no respondidos o la sustitucin por Es importante resaltar que el tema ser tratado en
la media (Enders, 2010; Baraldi & Enders, 2010). el contexto del modelado de ecuaciones estructurales
debido a su amplio uso en ciencias sociales y en especial
En la actualidad se puede contar con enfoques para para la medicin en psicologa y educacin (Little,
el manejo de datos perdidos ms eficientes y fciles 2013; Kline, 2010)
de implementar gracias a los avances en computacin
(Enders, 2010; Graham, 2012), permitiendo as Mecanismos de datos perdidos
recuperar los valores perdidos y restablecer el poder La mayora de datos en ciencias sociales y educacin
estadstico. Debido a esto, el principal problema ya presentan datos perdidos debido a la ausencia de
no es la presencia de valores perdidos, el verdadero respuesta por parte de los participantes o debido a
problema es como lidiamos con los datos perdidos que los y las participantes abandonan el estudio. De
(Little, Jorgensen, Lang, & Moore, 2014). acuerdo a Rubin (1976), los patrones de datos perdidos
Es frecuente en los tiempos actuales, encontrar pueden clasificarse; segn la relacin entre los datos
investigadores e investigadoras que consideran los perdidos y los datos, en datos perdidos completamente
mtodos modernos de manejo de datos perdidos como al azar (missing completely at random [MCAR]),
un engao o incluso inmoral tal como lo relata datos perdidos al azar (missing at random [MAR]) y
Little (2013). Esto demuestra el escaso conocimiento datos perdidos no aleatorios (missing not at random
acerca del alcance de estas tcnicas modernas y la [MNAR]). Los datos perdidos pueden considerarse
existencia de programas de computadora; incluso completamente perdidos al azar cuando no estn
gratuitos, para el manejo de valores perdidos. relacionados con ninguna variable presente o no en
los datos (Little, et al., 2014). Supongamos que solo la
Asimismo, los datos perdidos no son ms un variable Y contiene valores perdidos, y tenemos otro
problema que debe ser prevenido, ya que es posible grupo de variables representadas por el vector X. Los
utilizar diseos que contemplen perder datos de manera datos podran considerarse perdidos completamente
deliberada en aras de economizar tiempo y dinero sin al azar si la probabilidad de valores perdidos en Y no
arriesgar en gran medida el poder estadstico (Graham, depende de X o Y en s misma; y si no depende de otra
2006; Rhemtulla & Little, 2012). As, es factible abarcar variable no presente en los datos. (Rubin, 1976). Para
muestras numerosas con instrumentos extensos sin representar esto formalmente, consideremos R como
agotar las energas y recursos cognitivos de los y las la respuesta que puede adoptar un valor de 1 si Y
participantes (Little et al., 2014). tiene datos perdidos y 0 si Y tiene datos completos.
El propsito de la presente revisin es difundir los As, datos perdidos completamente al azar significara:
hallazgos ms actuales en el manejo de datos perdidos,
Pr( R 1 | X , Y ) Pr( R 1) (1)
asimismo, ante la escasa literatura al respecto en espaol,
se busca crear un texto sencillo y de fcil comprensin Un ejemplo ms simple, siguiendo la anterior
acerca de los supuestos que subyacen los procedimientos afirmacin, sera suponer que Y es una medida de
ms utilizados para la sustitucin y manejo de datos delincuencia y X sera aos de escolaridad, en este caso
perdidos. Otro de los objetivos es introducir el diseo MCAR se cumplira si la probabilidad de encontrar

Actualidades en Psicologa, 29(119), 2015, 29-42


No le tema a los datos perdidos 31

datos perdidos en la medida de delincuencia no est su nivel depresin, sino ms bien; con otras variables
relacionada con aos de escolaridad o con la variable de socializacin (Little et al., 2014).
en s misma (u otra variable no presente en los datos).
Finalmente, el tercer mecanismo de datos perdidos
Esto es de especial relevancia, ya que la mayora de
sera los datos perdidos no aleatorios (MNAR). Cuando
tcnicas tradicionales para el manejo de datos perdidos
una variable cumple el supuesto de MNAR, la razn para
requieren el cumplimiento de este supuesto. Si bien la existencia de datos perdidos subyace en la variable
es difcil cumplir el supuesto de MCAR en contextos en s misma, lo cual significa que este mecanismo
de escaso control, hay ciertas situaciones en las que ocurre cuando los datos perdidos, en una determinada
MCAR es posible de sostener. El mecanismo de datos variable, ocurren debido a los niveles de los sujetos
perdidos MCAR es considerado el escenario ideal de en esa variable (Little et al., 2014). En este caso, no
datos perdidos debido que es un proceso totalmente habra mayor informacin disponible para estimarlos,
aleatorio donde los valores perdidos son totalmente si lo que se desea es recuperar dichos valores. Un buen
arbitrarios y no habra sesgo alguno (Little, et al., 2014; ejemplo sera un estudio acerca de consumo de tabaco
Little, 2013; Rhemtulla & Little, 2012). en adolescentes quienes no suelen reportar cuantos
Otro de los mecanismos de datos perdidos; MAR cigarros consumen. En este ejemplo, el hecho de que
supone que los datos perdidos existen por una fumar sea ilegal si no se cumple la mayora de edad
razn predecible, de esta forma los datos perdidos aceptada, hace que los y las participantes teman algn
son causados por un efecto aleatorio fcilmente tipo de represalia por parte de sus padres o problemas
estimable. Siguiendo el ejemplo anterior, supongamos legales. De esta forma, la pregunta en si misma sera la
que tenemos una variable Y la cual contiene valores causa de los datos perdidos y esto hara difcil la labor de
perdidos, y a su vez tenemos una variable X que no recuperar la informacin ya que la causa de los valores
contiene valor perdido alguno. En este caso podramos perdidos no podra ser usada para corregir el sesgo de
afirmar que los datos perdidos en Y fueron perdidos los parmetros estimados, como si podra ser posible si
aleatoriamente si la probabilidad de que Y tenga valores se cumple el supuesto de MCAR o MAR.
perdidos no depende de Y, una vez que controlamos el
Tratamiento de datos perdidos
efecto de X. De manera formal, podemos expresar esta
afirmacin como: Tal como se sugiri anteriormente, existen
diferentes supuestos acerca de la relacin de los valores
Pr( R 1 | X , Y ) Pr( R 1 | X ) (2) perdidos en un estudio y los datos recolectados. El
As, el supuesto de MAR permitira que los datos cumplimiento de los supuestos MCAR o MAR son
perdidos en Y dependan de otra variable, pero los los requisitos necesarios para realizar la recuperacin
datos perdidos en Y no pueden depender de la variable de los datos perdidos. Asimismo, existen tcnicas
en s misma. Asimismo, continuando con el ejemplo de sustitucin de datos de ms larga data tales como
anterior, si Y fuera una medida de delincuencia y sustitucin por la media o regresin, que requeriran el
X fuera aos de escolaridad, el criterio de MAR se cumplimiento del supuesto de MCAR, lo cual es una
cumplira si los datos perdidos de la variable sobre condicin difcil de cumplir al menos que los datos
delincuencia dependiera en aos de escolaridad. perdidos hayan sido incluidos como parte del diseo
En principio, bajo el supuesto de MAR, los valores (tema abordado ms adelante). Si se procede con
perdidos dependeran de variables observadas, y no un enfoque clsico sin tener datos perdidos con un
dependera en la nocin intuitiva de efecto aleatorio patrn MCAR, estimaciones tales como correlaciones,
(Little et al., 2014). Otro ejemplo posible, para diferencias de medias, etc., sern muy grandes o se
entender el supuesto MAR, es la tendencia de los veran atenuados, asimismo los errores estndar de las
varones a negarse a responder estudios acerca de pruebas de significancia seran menores al introducir
depresin, pero esta tendencia no tiene relacin con valores artificiales tales como la media de la variable

Actualidades en Psicologa, 29(119), 2015, 29-42


32 Montenegro-Montenegro, Oh & Chesnut

o la media del grupo (Enders 2010; Graham, 2009, Z b0 b1 X + b2Y + sE (4)


2012; Little et al., 2014; Little, 2013).
Donde E es un valor seleccionado aleatoriamente
Para evitar este tipo de errores y aprovechar las de una distribucin normal estndar (con media
bondades de los datos perdidos al azar, existen cero y desviacin estndar 1) y s es la desviacin
diferentes enfoques modernos para el tratamiento estndar estimada del error en la regresin (en
de los valores perdidos, uno de ellos es el mtodo este caso la media cuadrtica del error). Al aadir
de mxima verosimilitud con informacin completa esta seleccin aleatoria, la varianza de los valores
(FIML, siglas en ingls) e imputacin mltiple (IM) sustituidos incrementa y previene los sesgos
(Arbuckle, 1996; Enders & Bandalos, 2001). causados usualmente por el mtodo convencional
Imputacin mltiple de imputacin (Allison, 2001).

La imputacin1 mltiple consiste en hacer copia El sesgo en la estimacin de los parmetros no es


de la base de datos original y reemplazar los valores el nico problema por solucionar, de ser ese el caso,
perdidos con estimaciones probables de los valores una sola copia de la base de datos sera suficiente.
que hubieran existido en las celdas vacas, si fueran Sin embargo, una sola base de datos con valores
valores observados (Rubin, 1987). La aplicacin de sustituidos slo estimara los errores estndar
esta tcnica requiere de tres pasos: imputacin, anlisis reducidos, adems los parmetros estimados no
y pooling (integracin de los valores correspondientes seran estadsticamente eficientes debido a que la
a todas las copias generadas) (Allison, 2001). El primer variacin aleatoria introducida agrega variabilidad
paso de la imputacin mltiple es el ms complicado muestral. Para hacer frente a esta dificultad, se
del proceso y adems existen varias formas para producen varios conjuntos de bases de datos a
realizarlo. Una de las estrategias ms populares es la partir de la base de datos original. Cada nueva base
sustitucin de valores perdidos utilizando regresin de de datos contiene diferentes valores imputados a
imputacin. Supongamos que una base datos tiene un partir de la seleccin aleatoria producida en E. As,
conjunto de variables X, Y y Z. Tambin, asumamos el modelo deseado es estimado en cada base de
que X y Y no poseen ningn valor perdido, sin datos, y los parmetros estimados son promediados
embargo Z presenta un 20% de casos perdidos. Para a travs de las mltiples bases de datos. Este proceso
sustituir los datos perdidos en la variable Z, se efecta conlleva una estimacin de parmetros ms estable
una regresin de las variables X y Y en Z, la siguiente con mayor eficiencia (Allison, 2001).
ecuacin representara este primero paso: Con esta estrategia, tambin se resuelve el
problema de los errores estndar al calcular la
Z b0 b1 X +b2Y (3) varianza de cada parmetro entre las diferentes bases
La regresin convencional de imputacin de datos generadas. Esta varianza entre las bases
simplemente introducira valores para X y Y para los de datos es la estimacin de la variabilidad producida
casos con datos perdidos y estimara valores para la por el proceso de imputacin. La varianza intra
variable Z. No obstante, estos valores introducidos base de datos sera la media de los errores estndar
tendran una varianza muy pequea, lo cual causara al cuadrado extrada del anlisis en cada base de
sesgo en otros parmetros estimados. Para corregir este datos. Posteriormente, se obtiene el error estndar
problema, se puede utilizar la siguiente ecuacin: ajustado por imputacin al estimar la raz cuadrada
de la suma de las varianzas entre e intra. De esta
1
La palabra imputacin se utilizar como sinnimo de forma, la frmula para la estimacin del error
sustitucin de valores perdidos debido a su frecuente uso estndar de la media de parmetro de inters ( a )
con ese sentido en el espaol. sera (Rubin 1987):

Actualidades en Psicologa, 29(119), 2015, 29-42


No le tema a los datos perdidos 33

con los valores perdidos, permiten la estimacin de


EE a = 1
M
1 1 M
M

k 1
Sk2 1 ( ak a )
M M 1 k 1
2 (5) parmetros menos sesgados y errores estndar ms
exactos y las diferencias en comparacin a IM son
En la anterior formula, M es el nmero de bases de menores (Enders, 2010; Schafer & Graham, 2002)
datos generados, Sk es el error estndar en ksima base
Por otra parte, sin importar el mecanismo de datos
de datos, aksera la estimacin del parmetro en la ksima
perdidos es importante utilizar el mejor mtodo posible
base de datos, y a es la media de los parmetros disponible, por ejemplo cuando los datos perdidos
estimados y el factor (1+1/M) corrige la ecuacin siguen un patrn MAR, enfoques ad hoc que intentan
debido a que el nmero de bases de datos es finito. solucionar la existencia de valores perdidos sin tomar
Respecto a la cantidad de bases de datos necesarias, en cuenta la estructura de los datos (listwise, pairwise,
con una cantidad moderada de datos perdidos, cinco sustitucin por la media, imputacin condicional
bases de datos son suficientes para producir parmetros media, etc.) deben ser evitados en todas las situaciones.
eficientes. No obstante, se necesitan ms de cinco
En el contexto del modelado de ecuaciones
bases de datos para generar buenas estimaciones de
estructurales (SEM, por sus siglas en ingls), FIML ha
los errores estndar y otros estadsticos asociados,
demostrado producir parmetros no sesgados y una
especialmente cuando la fraccin de datos perdidos es
estimacin menos sesgada de los errores estndar bajo
grande (Allison, 2001; Enders, 2010).
el supuesto de datos perdidos MCAR y MAR (Graham
Mtodo de mxima verosimilitud con informacin 2003), haciendo la salvedad de que bajo el supuesto de
completa MAR debe incluirse la o las variables relacionadas con
la presencia de valores perdidos ya sea en el modelo
El mtodo de mxima verosimilitud con
o como variables auxiliares. En este caso el proceso
informacin completa (de ahora en adelante FMIL por
estima la funcin de probabilidad para cada individuo
sus siglas en ingls) es otra estrategia moderna para el
tratamiento de datos perdidos en ciencias sociales. Si basado en las variables que han sido incluidas as toda
aplicamos un cuestionario, pero algunos de los tems la informacin disponible es utilizada. De acuerdo a
presentan valores perdidos, igual podramos estimar Graham (2003) un ejemplo podra ser una base datos
un modelo que nos permita obtener conclusiones con 389 casos pero algunas variables solo tienen
acertadas acerca de la totalidad de la muestra. Este informacin para 320 casos. La informacin acerca
mtodo permite ejecutar el anlisis deseado al utilizar del ajuste del modelo es obtenida al sumar la funcin
los valores observados para ayudar a recuperar la de ajuste para cada caso, y as la informacin de ajuste
informacin perdida debido a los datos perdidos obtenida se basara en la totalidad de los 389 casos.
(Little et al., 2014). La estimacin FMIL estima En el marco del modelado de ecuaciones
el logaritmo de verosimilitud para cada individuo estructurales, FMIL no estima solo un valor de chi
basado en las variables presentes en el modelo. Al cuadrado (2), sino ms bien, estimara dos valores
utilizar solo la informacin conocida a partir de los distintos de 2 correspondientes a dos modelos
datos observados, FMIL puede inferir como debera distintos. El primero correspondera al modelo
lucir el modelo sin necesidad de conocer cul podra nulo o sin restriccin (modelo H0), en este modelo
ser el valor perdido (Little et al., 2014). De esta forma, las variables no estn correlacionadas, mientras el
FMIL puede ser utilizado con bases de datos con segundo modelo, sera el modelo especificado por
datos perdidos y producir estimaciones que describen el o la investigadora (modelo H1). La diferencia en
correctamente toda la muestra. el logaritmo de verosimilitud (log-likelihood) de
Este mtodo ha demostrado en numerosos estudios los dos modelos es utilizada para estimar el 2 del
de simulacin que al incluir las variables relacionadas modelo (Graham, 2003).

Actualidades en Psicologa, 29(119), 2015, 29-42


34 Montenegro-Montenegro, Oh & Chesnut

Aunado a lo anterior, existe bastante evidencia de esto no sera un problema a tomar en cuenta si se
que utilizar FMIL o incluso IM es una ptima solucin emplea un modelo de ecuaciones estructurales donde
cuando los datos perdidos no cumplen el supuesto de los tems formaran parte de un constructo latente,
MAR y se incluyen variables auxiliares en el modelo que evitando el uso de la sumatoria de tems.
daran cuenta de los valores perdidos (Enders, 2010;
Graham, 2003). La inclusin de variables auxiliares Inclusin de variables auxiliares
tiene un mayor impacto cuando su relacin con los Tanto en el enfoque de IM y de FMIL es siempre
valores perdidos es alta (r < 0.4) y cuando la proporcin deseable incorporar variables auxiliares en el proceso
de valores perdidos es elevada (25%) (Collins, Schafer, de imputacin o en el modelo. Las variables auxiliares
& Cam, 2001; Graham, 2003). son aquellas que no se planea incluir en el modelo pero
Existen dos formas de modelar las variables estn, al menos, moderadamente correlacionadas con
auxiliares, la primera puede ser incluirlas como las variables que poseen valores perdidos. Al incluir
variables dependientes o la segunda, como variables este tipo de variables en el modelo de imputacin, se
correlacionadas. Ambos enfoques son equivalentes puede reducir la incertidumbre y la variabilidad de los
en efectividad reduciendo el sesgo en los parmetros, valores imputados. Esto a su vez, puede reducir los
no obstante al incluir las variables auxiliares como errores estndar de los parmetros estimados en el
correlaciones, se obtiene un mejor correccin en los modelo final (Allison, 2001).
sesgos de ajuste en el modelo (Graham, 2003). Para exponer los beneficios de las variables
Finalmente, ambos mtodos IM y FMIL tienden auxiliares, un ejemplo ser de utilidad. Asumamos que
a generar resultados muy similares. La decisin de tenemos una medida W de ingreso anual y tomemos
cul mtodo utilizar depende en gran medida de el vector X como un conjunto de variables observadas
la complejidad del modelo que se desea trazar o la que sern incluidas en el modelo final en conjunto
pregunta que se desea responder una vez los datos con W. Asimismo, supongamos que 30% de los casos
han sido recuperados. Una ventaja del manejo de presentan valores perdidos en la variable W (ingreso
datos perdidos utilizando FMIL es la estimacin de anual), adems asumamos que tenemos evidencia para
la interaccin de variables (por ejemplo hiptesis de sospechar que las personas con ingreso econmico
moderacin) ya que al ser un alcance basado en las alto son aquellas que no respondieron acerca de su
variables incluidas en el modelo, la interaccin sera ingreso anual (Allison, 2001). Asumiendo que R es la
una variable ms en el modelo. En cambio, si se desea respuesta en W, este planteamiento se puede expresar
utilizar IM es necesario especificar un modelo de de manera formal:
imputacin que conserve la interaccin, por ejemplo
centrar la variable por su media (Enders, 2010), lo cual Pr( R 1|X ,W ) ( X ,W ) (6)
hace de FMIL un mtodos ms sencillo de utilizar. Esto sera, la probabilidad de encontrar valores
Por otra parte, FMIL es limitado en la cantidad de perdidos en W depende de X y W en s misma, lo
variables auxiliares que pueden ser utilizadas, mientras cual representa un claro incumplimiento del supuesto
IM es ms flexible y permite mayor uso de variables MAR. Ante esto, supongamos que podemos tener
auxiliares que pueden dar cuenta de los valores acceso a otro conjunto de variables Z que estn
perdidos. No obstante, si se desea trazar modelos que relacionadas en conjunto con W. Este nuevo vector
incluyan puntajes totales de escalas, como es comn en Z puede incluir variables tales como coeficiente
psicologa, el mtodo ms flexible sera la imputacin intelectual, sexo, prestigio laboral, etc. (Allison,
mltiple, ya que FMIL no permitira estimar una nueva 2001). Al introducir estas variables, se espera que la
variable a partir de la suma de otras variables (Enders, dependencia de la probabilidad de datos perdidos en
2010; Gottschall, West, & Enders, 2012). Sin embargo, W desaparezca, tal que:

Actualidades en Psicologa, 29(119), 2015, 29-42


No le tema a los datos perdidos 35

Pr( R 1|X ,W,Z ) ( X , Z ) (7) tambin mayor posibilidad de reducir los sesgos de
En resumen, para reducir el sesgo de estimacin y estimacin. Sin embargo, no existe hasta el momento,
los errores estndar, la inclusin de variables auxiliares alguna gua para lidiar cantidades grandes de variables
es siempre una estrategia recomendada en modelos auxiliares siguiendo la estrategia inclusiva (Howard,
de imputacin mltiple y la implementacin de FMIL Rhemtulla & Little, 2015).
(Graham, 2003; Allison 2001). Para resolver este problema existe una nueva
Componentes principales como variables auxiliares estrategia que propone reducir las variables auxiliares
utilizando anlisis de componentes principales (ACP)
Tal como se mencion anteriormente, el uso de para reducir el nmero de variables auxiliares. Para
variables auxiliares conlleva varias ventajas para el ello, se representara las variables auxiliares como una
proceso de imputacin de datos y estimacin de los fuente combinada de informacin predictiva en lugar
modelos. Estas variables auxiliares no forman parte de un conjunto de variables individuales (Howard,
del modelo terico pero incrementan la probabilidad Rhemtulla & Little, 2015).
de recuperar la informacin faltante e incrementan
el acercamiento del modelo de imputacin al criterio La idea principal detrs de ACP es encontrar, a
de MAR. De esta forma, las variables mejoraran la travs de una descomposicin por valores propios
exactitud de las estimaciones del modelo (Collins et (eigenvalues), un conjunto k de componentes
al., 2001; Graham, 2003). principales (c1, c2,, ck) que contengan la mayor
cantidad de varianza posible extrada del grupo
De acuerdo a Howard, Rhemtulla y Little (2015)
original de variables p (v1, v2,, vp) donde k < p sera
las variables auxiliares son incluidas de manera
la combinacin lineal de p variables que resultan en
diferente en el proceso de MI y FMIL pero producen
una variable con la varianza mxima, y donde c2 es la
resultados similares. La imputacin mltiple introduce
combinacin lineal que resulta en la mxima varianza
las variables auxiliares en un primero paso donde las
que es ortogonal a c1, y as hasta ck componentes.
imputaciones son generadas con base en el modelo
Para elegir la cantidad de componentes a conservar
de imputacin y en un segundo momento los datos
son analizados, sin embargo en el modelo FMIL, solo segn la varianza explicada, se suele utilizar la regla
hay un modelo, as que las variables que predicen los de componentes con valores propios mayores a 1
datos perdidos deben ser incorporados en el modelo (Kaiser, 1970; Johnson & Wichern, 2002).
como variables auxiliares. La ventaja de ACP es que ayudara a generar un
Asimismo, existen dos estrategias para incluir nmero reducido de variables auxiliares que pueden
variables auxiliares: la primera es la estrategia representar la varianza de los datos en conjunto.
restrictiva mientras la segunda se considera una Otra fortaleza de este enfoque es la capacidad de
estrategia inclusiva. La primera consiste en aadir solo incorporar informacin no lineal sin problemas
un nmero reducido de variables auxiliares mientras de estimacin originados por la multicolinealidad
la estrategia inclusiva conlleva aadir tantas variables en las variables auxiliares. Como se mencion
auxiliares como sea posible. Para someter a prueba anteriormente, los componentes principales son
las bondades de ambas estrategias; Collins et al. en principio ortogonales por tanto no existiran
(2001) efectuaron un estudio de simulacin donde se problemas de multicolinealidad. As, ACP resulta
demostr que la estrategia inclusiva ayuda a obtener en un conjunto de variables manejable y eficiente
resultados ms eficientes debido a que hay menor que maximizan la informacin contenida en el
probabilidad de omitir accidentalmente una causa conjunto original de posibles variables auxiliares y
importante de datos perdidos, es decir; hay mayor sus elementos no lineales (Howard, Rhemtulla &
certeza de cumplir el criterio de MAR, adems hay Little, 2015).

Actualidades en Psicologa, 29(119), 2015, 29-42


36 Montenegro-Montenegro, Oh & Chesnut

De esta forma esta estrategia permite usar Diseo de datos perdidos para la implementacin de
un conjunto de componentes principales como instrumentos en psicologa
variables auxiliares utilizando adems la informacin
Hasta el momento se ha abordado el tema de la
lineal y no lineal (polinomios, tales como relaciones
presencia de valores perdidos como un hecho comn
cuadrticas) de las variables incluidas en la extraccin
y a veces no controlable en la labor de medir un
de los componentes principales.
constructo o conducta. Asimismo, la perspectiva ms
Para llevar a cabo este enfoque a la prctica Chesnut, frecuente es creer que los datos perdidos deben ser
Squire, Little, y Wang (2014) han desarrollado evitados en favor de tener toda la informacin completa
una funcin dentro del paquete semTools (0.4-6) y disponible para realizar nuestras estimaciones. No
(Pornprasertmanit, Miller, Schoemann & Rosseel, obstante, no siempre los valores perdidos son una
2015) para el programa de cdigo abierto R (R Core situacin indeseable o negativa. Es posible disear una
Team, 2014) llamada Quark. El objetivo de esta investigacin o implementacin de varios instrumentos
funcin es hacer este mtodo fcil y comprensible de medicin contemplando la presencia de valores
para usuarios de R (R Core Team, 2014) basado en perdidos como una estrategia para ahorrar tiempo y
los resultados obtenidos por Howard, Rhemtulla y dinero (Little et al. 2014; Enders, 2010).
Little (2015) en sus estudio de simulacin. Los diseos de datos perdidos han sido
La funcin Quark brinda a los y las investigadoras ampliamente recomendados durante dcadas como
los componentes principales que pueden ser utilizados forma eficiente para reducir los costos, mejorar la
para imputar los valores faltantes. La informacin calidad de los datos y mantener el poder estadstico
extrada son los puntajes de componentes principales para detectar los posibles efectos (Popham, 1993;
que representan los datos. Sin embargo, antes de Shoemaker, 1973; Sirotnik, 1974). Investigadores en
extraer los componentes principales, la base de el tratamiento de datos perdidos han argumentado
datos original es imputada en el caso de que existan que este tipo de diseos pueden tambin mejorar la
valores perdidos (se genera un conjunto de datos validez de un instrumento en muchas circunstancias
con valores perdidos sustituidos). Posteriormente, donde factores como la fatiga, dificultad o reactividad
los valores de componentes principales para cada frente al test pueden ser una amenaza a la validez de
sujeto son salvados y combinados con la base de una medida (Enders 2010; Graham, 2009, 2012; Little
datos original para ser utilizados como variables et al., 2014; van Buuren, 2012).
auxiliares en el proceso de imputacin de datos. Al planificar la presencia de datos perdidos se
Como puede apreciarse la funcin Quark puede asegurar el cumplimiento del supuesto de datos
representa una opcin prctica para llevar acabo perdidos completamente al azar o MCAR. Como se
el enfoque de componentes principales como mencion anteriormente, cuando los datos perdidos
variables auxiliares. No obstante, el mtodo obedecen al mecanismo de MCAR, no se introduce
an est en constante prueba y son necesarios sesgo en la estimacin de los parmetros del modelo,
ms estudios de simulacin para determinar el no obstante el poder estadstico puede ciertamente,
nmero ideal de componentes principales a ser verse impactado. De esta forma, al sustituir los datos
incluidos en IM y FMIL para facilitar la eficiencia perdidos, las estimaciones no son diferentes de los
y disminuir el sesgo de estimacin. Asimismo, valores que hubiera sido estimados si no existiera
es necesario someter a prueba este proceso valores perdidos (Graham, 2009; Little et al., 2014).
en diferentes escenarios aun no simulados en Con la ayuda de los mtodos modernos para la
la literatura disponible tales como modelos recuperacin de datos (IM y FMIL) es posible recobrar
multinivel (Howard, Rhemtulla & Little, 2015). el poder estadstico que puede perderse y reducir

Actualidades en Psicologa, 29(119), 2015, 29-42


No le tema a los datos perdidos 37

el sesgo las estimaciones. Para la utilizacin de IM y cada formulario podra tener hasta un 60% de datos
de FIML, el cumplimiento de MCAR es ideal para la perdidos (Raghunathan & Grizzle, 1995).
recuperacin de valores debido a que su impacto sobre
En el diseo de tres formularios se garantiza el
la naturaleza de los datos es menor.
cumplimiento del supuesto MCAR ya que cada uno
Existen diferentes diseos de datos perdidos de los tres formularios es asignado aleatoriamente a
(ver Graham, 2006) que pueden ser utilizados en la cada participante. La Tabla 1 muestra un esquema
medicin en psicologa y educacin, no obstante el de los patrones de datos completos y datos perdidos
objetivo del presente artculo es describir las principales esperados al implementar este diseo, de esta forma;
caractersticas de los protocolos multi formulario y el se perdera de un 25% a un 30% de datos dependiendo
diseo de datos perdidos para dos medidas. del nmero de tems asignados a los bloques A, B y C
(Little et al., 2014).
Protocolos multi formulario
Para utilizar este diseo es tambin importante
Tal como menciona Little et al. (2014) el diseo
tomar en cuenta varias recomendaciones, en
multi formulario ms simple sera el diseo de
primera instancia es valioso incluir las variables
tres formularios. En este protocolo se crean tres
sociodemogrficas y las variables que puedan predecir
diferentes formularios y stos se asignan de manera
el patrn de datos perdidos MAR en el bloque X, el cual
aleatoria a los participantes. El objetivo del diseo de
ser administrado a todos los participantes. Asimismo,
tres formularios es asignar tems en cuatro diferentes
dado que puede haber otros valores perdidos no
bloques o sets, los cuales son designados con las letras
contemplados en el diseo es recomendable incluir
X, A, B y C. El bloque X contiene tems que sern
al menos un tem de cada constructo en el bloque
administrados a todos y todas las participantes. Los
X. Este tem debera ser el mejor indicador del
restantes bloques de tems A, B y C son pareados para
constructo, por ejemplo el tem con la mejor carga
crear los distintos formularios: X+A+B, X+A+C y
factorial en un anlisis de factores confirmatorio.
X+B+C. Esto significa, que uno de los bloques
Los restantes reactivos que representan el constructo
de tems es intencionalmente omitido. En este
pueden ser distribuidos de manera equitativa en los
protocolo, cada formulario contiene el 75% de los
restantes bloques A, B y C (Little et al., 2014).
tems del protocolo completo, asimismo ms bloques
de tems pueden ser aadidos para crear formularios La clave de este diseo subyace en la correlacin
que tenga menos cantidad de tems. As, los diseos entre los bloques, conforme ms relacionados estn
multi-formulario puede ser diseados para generar los bloques, ms eficiente ser la recuperacin
formularios con alrededor del 40% de los tems de de la informacin lo cual conlleva mayor poder
la batera completa de tems, esto quiere decir, que estadstico y proporciones de cobertura elevadas

Tabla 1
Esquema de un diseo de datos perdidos con tres formularios
Formulario Bloque comn X Bloque A Bloque B Bloque C

1 25% de los items 25% de los items 25% de los items Perdidos
2 25% de los items 25% de los items Perdidos 25% de los items
3 25% de los items Perdidos 25% of items 25% de los items
Nota. Las proporciones de los tems deben ser las sealadas.
Adaptado a partir de Little et al. (2014).

Actualidades en Psicologa, 29(119), 2015, 29-42


38 Montenegro-Montenegro, Oh & Chesnut

cuando los datos sean analizados (Little et al., 2014; sin embargo ambas escalas pueden representar el
Graham, 2006). constructo con diferentes unidades de medida o en
diferentes escalas, y por ultimo; d) la investigacin
Los diseos multi-formulario son especialmente
debe centrar sus hiptesis a nivel grupal (Rhemtulla
adecuados para estudios con muestras numerosas
& Little, 2012; Little et al., 2014).
que sern analizadas en el contexto del modelado de
ecuaciones estructurales. Segn estudios de simulacin, Este enfoque es idneo en el contexto del
este tipo de diseos requiere muestras de al menos modelado de ecuaciones estructurales ya que el
180 o ms participantes para sostener la cobertura y anlisis de variables latentes permitira corregir el
convergencia adecuadas (Jia, Moore, Kinai, Crowe, sesgo de la medida menos costosa en vez de realizar
Schoemann, & Little, 2014), cantidad adecuada para alguna correccin segn el sesgo previo anlisis del
la estimacin de modelos de ecuaciones estructurales modelo. Debido a esto, el nmero de participantes
(Little, 2013). Asimismo, ha demostrado ser una debe ser suficientemente numeroso aunque no se han
opcin apropiada para diseos longitudinales como el realizado estudios especficos acerca del tamao de
anlisis de crecimiento latente (Rhemtulla, Jia, Wu & la muestra (Rhemtulla & Little, 2012). Por lo general,
Little, 2014) una muestra mnima de 125 casos completos sern
suficientes para realizar estimaciones de covarianza
Diseo de datos perdidos para dos medidas estables para trazar el modelo de ecuaciones
En la planificacin de datos perdidos es posible estructurales (Rhemtulla & Little, 2012).
adems de aleatorizar la presentacin de los tems, La principal ventaja de este diseo es la
asignar al azar la implementacin de instrumentos posibilidad de obtener un modelo con mayor poder
o medidas. El diseo de datos perdidos para dos estadstico, que si implementramos solamente la
medidas contempla el uso de dos medidas: una medida costosa, as mismo garantiza mayor validez
medida econmica en tiempo y dinero, con baja de constructo en comparacin a un estudio que
validez y una segunda medida, costosa en tiempo y solo incluyera la medida menos costosa. Esto es
dinero con la las ms elevada validez y confiabilidad as, debido a que la medida ms costosa y confiable
posible para representar el mismo constructo puede ser usada para modelar el sesgo asociado con
(Rhemtulla & Little, 2012). La idea principal en este la medida menos costosa, afirmacin que encuentra
protocolo es asignar aleatoriamente la utilizacin respaldo en estudios de simulacin previos donde se
de la medida costosa entre los y las participantes, ha hallado que este diseo produce errores estndar
mientras la medida menos costosa y ms ruidosa reducidos y cantidades de muestra altamente
psicomtricamente sera completada por la totalidad efectivos para someter a prueba los parmetros del
de los y las participantes. estudio (Graham, 2006).
Para la ejecucin de este diseo es importante tener El diseo de datos perdidos para dos medidas es
en cuenta ciertos criterios tales como: (a) la medida en la actualidad uno de los mtodos ms utilizados
menos costosa es una medida sistemticamente y poderosos, con bajo costo econmico y es
sesgada as que es probable que este instrumento ideal para la recoleccin de datos de estudios con
pueda representar tambin otros constructos, por muestras numerosas controlando el efecto de la
el contrario (b) la medida ms costosa debe ser fatiga de los y las participantes (Little et al., 2014).
una medida no sesgada, o si lo est, debe serlo en Adems, ha demostrado ser una estrategia eficiente
menor grado que la medida menos costosa para en diseos longitudinales disminuyendo el sesgo
poder realizar la recuperacin de datos de la manera en las estimaciones de los errores estndar con una
ms apropiada, adems lo ms importante es que eficiencia aceptable (Garnier-Villarreal, Rhemtulla
(c) ambas medidas midan el mismo constructo, & Little, 2014)

Actualidades en Psicologa, 29(119), 2015, 29-42


No le tema a los datos perdidos 39

Poder estadstico y tamao de la muestra en diseos con proporcin de muestras que rechazan la hiptesis nula
datos perdidos (Schoemann et al., 2014).
La prdida de poder estadstico es una de las A pesar de las dificultades sealadas para el anlisis
dificultades asociadas al diseo de datos perdidos. de poder estadstico en los diseos de datos perdidos,
Segn Enders (2010), la prdida de poder en estos existe un estudio de simulacin que busca responder a la
diseos no es necesariamente proporcional a la pregunta del nmero mnimo necesario de participantes
disminucin en el tamao de la muestra, por el para la ejecucin de un diseo de datos perdidos con
contrario es ms dependiente de la correlacin entre tres formularios. Esta investigacin realizada por Jia et
las medidas o entre los formularios. Esta caracterstica al. (2014) demuestra que un mnimo de 90 participantes
hace difcil obtener estimaciones precisas del poder puede ser suficiente para estimar un modelo de factores
estadstico con las estrategias de anlisis comunes. No confirmatorio en un diseo transversal, cuando se
obstante, existen diferentes enfoques para estimar el utiliza FMIL y bajo las condiciones especificadas por
poder estadstico a priori suponiendo la presencia de los autores. Asimismo, si se desea trazar un modelo de
datos perdidos. factores confirmatorio con dos puntos de medicin la
La estimacin del poder estadstico es an ms muestra debera estar integrado por un mnimo de130
complejo si se realiza en el contexto del modelado participantes cuando se utiliza FMIL y 175 personas
de ecuaciones estructurales donde un solo modelo cuando se implementa IM.
puede tener una cantidad numerosa de parmetros, Si bien estudios como los de Jia et al (2014) son
medias, intercepto, varianzas y covarianzas. Debido a rigurosos, es poco probable realizar simulaciones en
esto, es tambin difcil estimar el tamao de la muestra todas las condiciones y combinaciones posibles en el
necesaria tomando en cuenta la presencia de valores modelado de ecuaciones estructurales para estimar el
perdidos. Asimismo, en un modelo de ecuaciones poder estadstico o el tamao de la muestra necesario
estructurales, el poder estadstico de un parmetro para ejecutar diseos de valores perdidos. Para sortear
puede estar relacionado con la estimacin de otro esta desventaja, existen varios programas estadsticos
parmetro (Davey & Savla, 2009). que pueden ser utilizados para realizar simulaciones
Existen esfuerzos previos para realizar estimaciones de Monte Carlo (Enders, 2010).
del tamao muestral con datos perdidos (Muthn & Uno de los ms populares es MPLUS (Muthn
Muthn, 2002; Mooijaart, 2003; Yuan & Hayashi, & Muthn, 1998-2013), sin embargo existe otra
2003) y cada investigacin ha propuesto diferentes alternativa gratuita y de acceso abierto llamado
alcances al problema. Sin embargo ninguno de estos simsem (Pornprasertmanit, Miller, & Schoemann,
estudios se centra en la estimacin especfica del 2013), ste es un paquete que puede ser descargado en
tamao de la muestra en el diseo de investigaciones el entorno del programa R (R Core Team, 2014). La
con datos perdidos. finalidad de este paquete es facilitar el uso de grandes
Una de las estrategias ms utilizadas para la simulaciones de Monte Carlo en el contexto del
estimacin del poder y tamao de la muestra en modelado de ecuaciones estructurales. Actualmente,
ecuaciones estructurales son las simulaciones Monte simsem es capaz de generar datos y utilizar el paquete
Carlo (Muthn & Muthn, 2002; Enders, 2010). lavaan (Rosseel, 2012) o el paquete OpenMx (Boker,
El propsito de este enfoque es extraer un nmero et al., 2012) para analizar los datos simulados.
grande de muestras aleatorias (e.g., 1000) de una Adems, simsem fue especialmente diseado para
poblacin definida por la hiptesis alternativa y estimar simular valores perdidos cumpliendo los supuestos de
el modelo planeado en las distintas muestra. De esta MCAR, MAR y diseos de datos perdidos especficos
forma, el poder estadstico puede ser calculado como la (Schoemann et al., 2014).

Actualidades en Psicologa, 29(119), 2015, 29-42


40
40 Montenegro-Montenegro, Oh & Chesnut

Conclusin implementacin de instrumentos de auto reporte


(Little et al. 2014).
Es evidente como la presencia de datos perdidos
no significa una amenaza para evaluacin de una En resumen, es importante cambiar la actitud de
medida o la ejecucin de una investigacin. Siempre los y las investigadoras frente a enfoques modernos
que se cumpla el supuesto de datos perdidos MCAR para el manejo de datos perdidos (Little, 2013).
o el ms comn MAR. Asimismo, se expuso la Estas herramientas representan una oportunidad
fortaleza de las variables auxiliares como una de mejorar la calidad de los anlisis estadsticos
solucin para la recuperacin de la informacin realizados y los modelos trazados en psicologa y
bajo del supuesto de MAR. educacin. Teniendo en cuenta que las herramientas
computacionales lo permiten, es posible cambiar
Las variables auxiliares pueden ser tratadas siguiendo
el acercamiento que los y las investigadores poseen
el enfoque de componentes principales propuesto
hacia el tema de los valores perdidos.
por Howard, Rhemtulla y Little (2015) no obstante,
es una estrategia de reciente data y requiere de mayor Referencias
investigacin acerca de las posibles ventajas de los
componentes principales en otros escenarios posibles Allison, P. D. (2001). Missing data. Thousand Oaks:
y precisar la cantidad de componentes principales CA: Sage.
mnimos necesarios para mejorar las estimaciones Arbuckle, J.L. (1996). Full information estimation
de IM y FMIL bajo el supuesto de MAR (Howard, in the presence of incomplete data. In G. A.
Rhemtulla & Little, 2015). Marcoulides & R. E. Schumacker (Eds.), Advanced
Aunado a lo anterior, la funcin Quark (Chesnut et structural equation modeling: Issues and techniques (pp.
al., 2014) supone una herramienta til para someter a 243-277). Mahwah, NJ: Lawrence Erlbaum.
prueba el enfoque de componentes principales como Baraldi, A. N., & Enders, C. K. (2010). An introduction
variables auxiliares. Al ser una funcin en etapas to modern missing data analyses. Journal of School
iniciales ms investigacin y pruebas son requeridas Psychology, 48(1), 537.
para garantizar la estabilidad de la estimacin (Chesnut
Boker, S., Neale, M., Maes, H. H., Wilde, M., Spiegel,
et al., 2014) para lo cual, usuarios alrededor del mundo
M., Brick, T., . . Fox, J. (2011). OpenMx:Anopensour
puede colaborar al usar esta funcin con sus propias
ceextendedstructuralequation modeling framework.
bases de datos.
Psychometrika, 76, 306317
En esta misma lnea, el paquete simsem
Chesnut, S. R., Squire, D., Little, T. D., & Wang, E.
(Pornprasertmanit et al., 2014) ofrece la ventaja de
W. (2014). Quark: An R library for preparing large
estimar el poder estadstico de los diseos de datos
datasets for multiple imputation with auxiliary variables.
perdidos para complementar la fase de desarrollo de un
[SOFTWARE ADD-ON], USA, Texas Tech
diseo de este tipo. Su principal ventaja es su capacidad
University, Institute of Measurement, Methodology,
para simular modelos complejos con datos perdidos y
and Policy (IMMAP).
su interaccin con otros paquetes para el anlisis de la
informacin simulada (Schoemann et al., 2014). Collins, L. M., Schafer, J. L., & Cam, C. M. (2001). A
comparison of inclusive and restrictive strategies
Es necesario acuar mayor evidencia acerca de
in modern missing data procedures. Psychol Methods,
diseos con datos perdidos con mayor cantidad de
6(4). 330-51.
datos perdidos como lo puede ser un diseo de datos
perdidos con 10 formularios, especialmente en diseos Davey, A., & Savla, J. (2009). Estimating Statistical
longitudinales. Sin embargo no existe evidencia Power With Incomplete Data. Organizational
para dudar de su efectividad y su utilidad para la Research Methods, 12(2), 320346.

Actualidades en Psicologa, 29(119), 2015, 29-42


No le tema a los datos perdidos 41

Enders, C. K. & Bandalos, D. L. (2001). The Relative Jia, F., Moore, E. W. G., Kinai, R., Crowe, K. S.,
Performance of Full Information Maximum Schoemann, A. M., & Little, T. D. (2014). Planned
Likelihood Estimation for Missing Data in missing data design on small sample size: How
Structural Equation Models. Structural Equation small is too small? International Journal of Behavioral
Modeling, 8(3), 430457. Development, 38(5), 435-452.
Enders, C. (2010). Applied Missing Data Analysis- Johnson, R. A., & Wichern, D. W. (2002). Applied
Methodology in Social Sciences. New York: Guilford Press. multivariate statistical analysis (5th ed.). Upper Saddle
Garnier-Villarreal, M., Rhemtulla, M., & Little, T. River, NJ: Prentice Hall.
D. (2014). Two-method planned missing designs Kaiser, H. F. (1970). A second generation little jiffy.
for longitudinal research. International Journal of Psychometrika, 35, 401-415.
Behavioral Development, 38(5), 411422.
Kline, R. B. (2010). Principles and Practice of Structural
Gottschall, A. C., West, S. G., & Enders, C. K. Equation Modeling. (3rd edition). New York: The
(2012). A comparison of item-level and scale-level Guilford Press.
multiple imputation for questionnaire batteries.
Multivariate Behavioral Research, 47(1), 125. doi: Little, R. K. A., & Rubin, D. B. (2002). Statistical
10.1080/00273171.2012.640589 Analysis with Missing Data (2nd ed.). Hoboken, NJ:
Wiley-Interscience.
Graham, J. W., Hofer, S. M., & MacKinnon, D.
P. (1996). Maximizing the usefulness of data Little, T. D. (2013). Longitudinal structural equation
obtained with planned missing value patterns: An modeling. New York, NY: Guilford.
application of maximum likelihood procedures. Little, T.D., Jorgensen, T.D., Lang, K.M., & Moore,
Multivariate Behavioral Research, 31, 197218. E.W. (2014).On the Joys of Missing Data. Journal
Graham, J. W. (2003). Adding missing-data relevant of Pediatric Psychology, 39(2), 151-162.
variables to FIML-based structural equation Mooijaart, A. (2003). Estimating the statistical power
models. Structural Equation Modeling , 10, 80-100. in small samples by empirical distributions. En:
Graham, J. W., Taylor, B. J., & Olchowski A. E. (2006). H. Yanai, A. Okada, K. Shigemasu,Y. Kano & J.J.
Planned missing data designs in psychological Meulman (Eds.), New developments in psychometrics (
research. Psychological Methods, 11(4), 323-343. pp. 149-156). Japan: Springer-Verlag.
Graham, J.W. (2009). Missing data analysis: making it Muthn, L. K., & Muthn, B. O. (1998-2013). Mplus
work in the real world. Annual Review of Psychology, Users Guide. Los Angeles, CA: Muthen & Muthen.
60, 549-76. Muthn, L. K., & Muthn, B.O. (2002). How to use
Graham, J. W. (2012) Missing data: Analysis and design. a Monte Carlo Study to decide on sample size and
New York: Springer. determine power. Structural Equation Modeling, 9,
599-620.
Harel, O., Stratton, J., & Aseltine, R. (2011). Designed
missingness to better estimate efficacy of behavioral studies Pornprasertmanit, S., Miller, P., & Schoemann,
(Technical Report 11-15). Storrs, CT: Department A. (2014). SIMSEM: Simulated structural equation
of Statistics, University of Connecticut. modeling. R package version 0.58. Recuperado de:
http://www.simsem.org
Howard, W. J., Rhemtulla, M. & Little, T. D. (2015).
Using Principal Components as Auxiliary Variables Pornprasertmanit, S., Miller, P., Schoemann, A.
in Missing Data Estimation. Multivariate Behavioral & Rosseel, Y. (2015). semTools: Useful tools for
Research, 50(3), 285-299. structural equation modeling. R package version 0.46.

Actualidades en Psicologa, 29(119), 2015, 29-42


42
42 Montenegro-Montenegro, Oh & Chesnut

Recuperado de: http://CRAN.R-project.org/ Rubin, D. B. (1987). Multiple imputation for nonresponse in


package=semTools. surveys. New York: Wiley.
Popham, W. J. (1993). Circumventing the high costs of Schafer, J. L. (1997). Analysis of incomplete multivariate
authentic assessment. Phi Delta Kappan, 74(6), 470-473. data. New York: Chapman & Hall.
R Core Team (2014). R: A language and environment Schafer, J. L., & Graham, J. W. (2002). Missing Data:
for statistical computing. R Foundation for Statistical Our View of the State of the Art. Psychological
Computing, Vienna, Austria. Recuperado de http:// Methods, 7(2), 147177.
www.R-project.org/. Shoemaker, D. M. (1973). Principles and procedures of
Raghunathan, T. E., & Grizzle, J. E. (1995). A split multiple matrix sampling. Cambridge, MA: Ballinger.
questionnaire survey design. Journal of the American Schoemann, A. M., Miller, P., Pornprasertmanit, S.,
Statistical Association, 90, 5463. & Wu, W. (2014). Using Monte Carlo simulations
to determine power and sample size for planned
Rhemtulla, M., Jia, F., Wu, W., & Little, T. D. (2014).
missing designs. International Journal of Behavioral
Planned missing designs to optimize the efficiency
Development, 38(5), 471-479.
of latent growth parameter estimates. International
Journal of Behavioral Development, 38(5), 423434. Sirontnik, K.A. (1974). Introduction to matrix
sampling for the practitioner. In W.J. Pophan (ed.),
Rhemtulla, M. & Little, T. (2012). Tools of the Trade: Evaluation in Education (pp.453-529). Berkeley, CA:
Planned Missing Data Designs for Research McCurtchau Publishing Corp.
in Cognitive Development. Journal of Cognitive
Development, 13(4), 425-438 van Buuren, S. (2012). Flexible imputation of missing data.
Boca Raton, FL: CRC Press.
Rosseel, Y. (2012). lavaan: An R package for structural
Yuan, K., & Hayashi, K. (2003). Bootstrap approach
equation modeling. Journal of Statistical Software, 48,
to inference and power analysis based on three
136. Disponible en: http://lavaan.ugent.be/
statistics for covariance structure models. British
Rubin, D.B. (1976). Inference and Missing Data. Journal of Mathematical and Statistical Psychology, 56,
Biometrika, 63(3), 581-592. 93110.

Recibido: 20 de Mayo de 2015


Aceptado: 14 de Setiembre de 2015

Actualidades en Psicologa, 29(119), 2015, 29-42

También podría gustarte