Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Valores perdidos
Existen múltiples causas por las que se pueden tener registros sin información en
una base de datos, o bien, el registro contiene un valor infactible o fuera de rango
que debe eliminarse para no afectar o sesgar los estudios que se apoyen en esa
información; cuando esto sucede se dice que existen datos faltantes ó valores
perdidos en el archivo estadístico.
4
Esta manera de proceder significa trabajar únicamente con las observaciones que
disponen de información completa para todas las variables, tal como se ilustra en
la figura 1 que se muestra a continuación:
1 Mujer 40 16 4 500 ? 50
2 Hombre 35 15 ? 1 75
3 Mujer 65 ? 1 200 1 100
4 Hombre 23 12 2 200 2 80
5 Mujer 25 ? ? 3 250
6 Hombre 38 15 1 800 4 140
….
4 Hombre 23 12 2 200 2 80
6 Hombre 38 15 1 800 4 140
Utilizar datos incompletos puede ser válido en algunos casos, por ejemplo si se
requiere calcular sólo algunas medidas globales de las variables (medias,
varianzas); o bien si el tamaño de muestra retenida es lo suficientemente grande
5
para que no afecte demasiado la precisión. No es lo mismo que falten 25% de los
datos en una muestra objetivo de 400 datos que en una de 20,000.
Imputación de datos
Por ejemplo, si el propósito es conocer los determinantes del nivel de vida de las
familias, es probable que distintos métodos sean equivalentes desde la óptica
estadística. No obstante, se debe tener presente que pequeñas diferencias en el
ingreso per cápita pueden generar cambios significativos en el volumen de
personas en situación de indigencia y pobreza.
Si los datos serán utilizados para diseñar políticas públicas, el número de familias
en pobreza es relevante en el presupuesto del proyecto, a pesar de que se
demuestre que estadísticamente no existan diferencias significativas en el
estimador generado a partir de procedimientos de imputación alternativos.
7
Ventajas y Desventajas de imputar
Cuando imputamos, logramos obtener una base de datos completa, la cual
permitirá llevar a cabo metodologías de análisis de datos comunes y el uso de
software tradicionales para su manejo. Si una imputación se lleva a cabo de
manera adecuada, podría disminuir el sesgo, en caso de existir.
Por otra parte, el investigador debe estar consciente que el uso de imputación
también puede llevar a afectar las distribuciones conjuntas, o incluso,
distribuciones marginales de las variables, aunque el problema es menor si la
distribución de los casos ausentes es la misma que la de los casos completos
(patrón de pérdida ignorable), como se mencionó anteriormente. Si la técnica no
es la adecuada, posiblemente, aumenta el sesgo, subestima o sobrestima la
varianza, se obtienen datos imputados inconsistentes produciendo una base de
datos no confiables, llevando a la interpretación errónea de los resultados por
parte de los usuarios.
8
Para el patrón de omisión de datos univariado a), la ausencia de respuesta se
concentra en la variable Y, mientras que en b) la omisión sigue un “patrón
escalonado o monótono”, que es característico de estudios longitudinales, en
donde Yj representa el valor de la variable en la j-ésima ronda. Finalmente, en el
patrón c) se muestra un “patrón aleatorio”, donde en cualquier celda pueden
existir datos faltantes; es decir, las omisiones no están dispuestas en una forma
predeterminada.
Los datos están perdidos al azar (Missing At Random, MAR) cuando la ausencia
de datos está asociada a variables presentes en la matriz de datos. Por ejemplo, si
se supone que los ingresos totales de un hogar son independientes del ingreso
individual de sus miembros pero si puede depender de la edad, en este caso se
trata de un modelo MAR.
Este método tiene por objetivo llenar los registros vacíos (receptores) con
información obtenida de bases de datos competas (donantes). Se asume que el
patrón de datos faltantes es de tipo aleatorio (MAR) y los datos faltantes se
reemplazan a partir de una selección aleatoria de valores observados, los cuales
no introducen sesgos a la varianza del estimador.
11
Tiene la ventaja de que si se elije adecuadamente el donante, se mantiene la
distribución de la variable imputada y su relación con otras variables, pero no
siempre es fácil definir un criterio de distancia o similitud entre los posibles
donantes y receptores.
Tiene el inconveniente de que requiere del ajuste de un modelo para cada variable
a imputar, y si el ajuste no es bueno, puede producir valores improbables o
imposibles de la variable imputada.
Los métodos de imputación por máxima verosimilitud tienen como objetivo realizar
estimaciones máximo verosímiles de los parámetros de una distribución cuando
existen datos faltantes. Se asume que los datos faltantes siguen un patrón MAR y
que la distribución marginal de los registros observados está asociada a una
función de verosimilitud para un parámetro desconocido, siempre que el modelo
sea adecuado para el conjunto de datos completos.
12
Una desventaja del procedimiento, es que su tasa de convergencia puede ser de
un crecimiento muy lento cuando existe gran cantidad de información perdida;
además de que tiene cierto grado de complejidad su aplicación, ya que
generalmente es necesario programar el algoritmo que se desee utilizar.
f) Imputación múltiple
sustituir los valores faltantes, de modo que el valor de se construye como una
media condicionada de las covariables x`s (Devore, 2007) (Walpole, Raymond, &
Myers, 2005).
13
Los parámetros β0 y β1 se denominan coeficientes de regresión y por lo general
son desconocidos, pero se pueden estimar a partir de una muestra de n datos, de
la siguiente manera:
1 = y 0 = -
Donde:
2
= ∑
∑ = ∑
Por ejemplo, considere que se tienen los datos que aparecen en la tabla, donde el
símbolo “¿” corresponde a valores perdidos:
Tabla 1: Datos de Muestra
Unidad Y X
1 6,5 6,9
2 5,4 4,5
3 8,4 12,2
4 6,2 5,3
5 6,5 6,6
6 ¿ 2,6
7 6,2 3,4
8 ¿ 11
9 7,4 10,2
10 ¿ 9,7
Eliminando los valores perdidos, se obtiene lo siguiente:
Tabla 2: Datos de Muestra Procesados
Unidad Yi Xi Xi- (Xi- )2 Yi(Xi- )
1 6.5 6.9 -0.11429 0.01306 -0.74286
2 5.4 4.5 -2.51429 6.32163 -13.57714
3 8.4 12.2 5.18571 26.89163 43.56000
4 6.2 5.3 -1.71429 2.93878 -10.62857
5 6.5 6.6 -0.41429 0.17163 -2.69286
7 6.2 3.4 -3.61429 13.06306 -22.40857
9 7.4 10.2 3.18571 10.14878 23.57429
Ῡ=6.657143 =7.014286 =59.54857 =17.08429
14
Con estos datos, se procede a realizar la regresión lineal, obteniéndose los
siguientes parámetros:
= 4.64 + 0.29 xi
6.5
6
5.5
5
0 2 4 6 8 10 12 14
X
15
En la tabla 4 se presenta un resumen comparativo de medias, desviaciones
estándar y correlaciones, donde puede observarse que después de aplicar el
procedimiento se sobreestima ligeramente la correlación entre las variables, como
ya se había mencionado anteriormente.
Y 7 6,66 0,97
X 7 7,01 3,15
Y 7 6,66 0,97
X 10 7,24 3,36
Y 10 6,72 1,00
X 10 7,24 3,36
16
Para la selección de la técnica de imputación adecuada, no hay reglas específicas,
dependerá entonces del tipo del conjunto de datos, tamaños del archivo, tipo de
no respuesta, patrón de pérdida de respuesta, de los objetivos de la investigación,
características específicas de la población, características generales de la
organización del estudio, software disponible, importancia de los valores
agregados o de los valores puntuales (microdato), distribuciones de frecuencias de
cada variable, marginal o conjunta, etcétera. Entilge (1996) citado por (Useche &
Mesa, 2006).
17
3. Tasas de no respuesta y exactitud necesaria: cuando el porcentaje de no
respuesta es alto en una base de datos, se considera que no hay confiabilidad en
los resultados que se obtengan con el análisis de esta base.
Los pasos que se debieran llevar a cabo para realizar una imputación según
(Goicoechea, 2002) son los siguientes:
Paso 1: una vez que se dispone de un archivo con datos faltantes, se recopila y
valida toda la información auxiliar disponible que pueda ser de ayuda
para la imputación.