Está en la página 1de 15

FUNDAMENTOS TEÓRICOS

Valores perdidos

Existen múltiples causas por las que se pueden tener registros sin información en
una base de datos, o bien, el registro contiene un valor infactible o fuera de rango
que debe eliminarse para no afectar o sesgar los estudios que se apoyen en esa
información; cuando esto sucede se dice que existen datos faltantes ó valores
perdidos en el archivo estadístico.

Los continuos avances de la informática han hecho posible el surgimiento y puesta


en práctica de nuevas metodologías para el tratamiento de información con datos
faltantes, los cuales, en su mayoría, producen resultados aceptables cuando hay
pocos valores perdidos.

A pesar de la variedad de métodos existentes, el problema permanece abierto, sin


que hasta ahora parezca habérsele hallado una solución definitiva. Las
alternativas de solución propuestas, siguen dos enfoques fundamentales (Little,
2002):

a) Descartar o eliminar los individuos o variables con valores perdidos


b) Estimar los valores perdidos utilizando algún método de imputación.

Cuando la cantidad de datos faltantes es muy pequeña, se acostumbra descartar


u omitir los datos en el estudio; esto resulta atractivo por su simplicidad, ya que es
posible analizar los datos sin necesidad de modificar el método estadístico
utilizado.

4
Esta manera de proceder significa trabajar únicamente con las observaciones que
disponen de información completa para todas las variables, tal como se ilustra en
la figura 1 que se muestra a continuación:

Figura 1: Ejemplo de utilización de registros con información completa

Folio Sexo Edad Escolaridad Salario Ocupación Ponderación

1 Mujer 40 16 4 500 ? 50
2 Hombre 35 15 ? 1 75
3 Mujer 65 ? 1 200 1 100
4 Hombre 23 12 2 200 2 80
5 Mujer 25 ? ? 3 250
6 Hombre 38 15 1 800 4 140
….

4 Hombre 23 12 2 200 2 80
6 Hombre 38 15 1 800 4 140

Al eliminar información se asume que la submuestra de datos excluidos tiene las


mismas características que los datos completos, y que la falta de respuesta se
generó de manera aleatoria lo cual en la mayoría de las situaciones prácticas no
se cumple.

El tratamiento que la mayoría de los paquetes estadísticos dan a los datos


faltantes es el de omitirlos del estudio, trabajan sólo con información completa
(criterio preestablecido), a pesar de que se reconoce que esta práctica no es la
más apropiada, ya que genera sesgos en los parámetros poblacionales, lo que
podría invalidar las conclusiones (Medina & Galván, 2007).

Utilizar datos incompletos puede ser válido en algunos casos, por ejemplo si se
requiere calcular sólo algunas medidas globales de las variables (medias,
varianzas); o bien si el tamaño de muestra retenida es lo suficientemente grande

5
para que no afecte demasiado la precisión. No es lo mismo que falten 25% de los
datos en una muestra objetivo de 400 datos que en una de 20,000.

Cuando la pérdida de información es grande, puede resultar más conveniente


estimar el dato faltante utilizando la información contenida en los datos
observados para completar el archivo; de tal forma que éste se pueda analizar con
los métodos estadísticos estándar.

Desafortunadamente no existen criterios objetivos para decidir la cantidad ó el


porcentaje máximo de omisiones que pueden aceptarse, esto depende del tipo de
información que contenga el archivo y la aplicación que se vaya a realizar; habrá
estudios que sean más sensibles que otros a los datos ausentes y para los cuales
se deba asignar valores confiables a registros incompletos (Medina & Galván,
2007).

Imputación de datos

Imputar significa sustituir observaciones, ya sea porque se carece de información


(valores perdidos) o porque se detecta que algunos de los valores recolectados no
corresponden con el comportamiento esperado. En esta situación es común que
se desee reponer las observaciones y se decida aplicar algún método de
sustitución de datos y de imputación.

Para algunos procesos estadísticos como la regresión lineal, el análisis de


componentes principales, ó el análisis de varianza, entre otros, se requieren de
datos completos y producir algoritmos para estos modelos con datos faltantes
puede ser demasiado complicado y costoso. Además, las bases de datos serán
utilizadas por especialistas en diferentes campos; por tanto, dejar la imputación de
datos al libre albedrío de los usuarios puede ser muy peligroso, puesto que se
podrían generar múltiples resultados e interpretaciones a partir de una “base de
datos oficial”.
6
Objetivos teóricos y prácticos de la imputación

El objetivo de la imputación es obtener un archivo de datos completos y


consistentes para que puedan ser analizados mediante técnicas estadísticas
tradicionales, que permitan generar inferencias válidas.

La imputación debe considerarse parte del proceso de investigación con el


propósito de arribar a conclusiones sustentadas en evidencia empírica sólida. Si
una variable analizada (S) contiene datos faltantes, esta situación debe tenerse en
cuenta en el proceso de construcción del estimador ( ). Si la imputación que se
hace es adecuada, el estimador ( ) será cercano al verdadero valor del parámetro
S en muestras repetidas. De esta forma, se logra minimizar el sesgo, la varianza,
la desviación estándar y el error cuadrático medio (ECM) del estimador.

No se trata únicamente de obtener estimadores insesgados y de mínima varianza,


ni tampoco ajustar modelos para sustituir de cualquier forma la información
faltante. Aunque se reconoce que los criterios estadísticos son fundamentales
para la elección del método de imputación, es necesario tener claridad sobre el
uso que se hará de la información.

Por ejemplo, si el propósito es conocer los determinantes del nivel de vida de las
familias, es probable que distintos métodos sean equivalentes desde la óptica
estadística. No obstante, se debe tener presente que pequeñas diferencias en el
ingreso per cápita pueden generar cambios significativos en el volumen de
personas en situación de indigencia y pobreza.

Si los datos serán utilizados para diseñar políticas públicas, el número de familias
en pobreza es relevante en el presupuesto del proyecto, a pesar de que se
demuestre que estadísticamente no existan diferencias significativas en el
estimador generado a partir de procedimientos de imputación alternativos.

7
Ventajas y Desventajas de imputar
Cuando imputamos, logramos obtener una base de datos completa, la cual
permitirá llevar a cabo metodologías de análisis de datos comunes y el uso de
software tradicionales para su manejo. Si una imputación se lleva a cabo de
manera adecuada, podría disminuir el sesgo, en caso de existir.

Por otra parte, el investigador debe estar consciente que el uso de imputación
también puede llevar a afectar las distribuciones conjuntas, o incluso,
distribuciones marginales de las variables, aunque el problema es menor si la
distribución de los casos ausentes es la misma que la de los casos completos
(patrón de pérdida ignorable), como se mencionó anteriormente. Si la técnica no
es la adecuada, posiblemente, aumenta el sesgo, subestima o sobrestima la
varianza, se obtienen datos imputados inconsistentes produciendo una base de
datos no confiables, llevando a la interpretación errónea de los resultados por
parte de los usuarios.

Patrones de datos faltantes

Antes de decidir sobre el procedimiento de imputación a utilizar, se debe tener en


cuenta el comportamiento de los datos omitidos. Si la base de datos se interpreta
como una matriz, en donde los renglones son las unidades de observación y las
columnas representan a las variables de interés, un análisis visual permite
identificar patrones como los que se muestran en la figura 2.

Figura 2: Patrones de omisión de datos

8
Para el patrón de omisión de datos univariado a), la ausencia de respuesta se
concentra en la variable Y, mientras que en b) la omisión sigue un “patrón
escalonado o monótono”, que es característico de estudios longitudinales, en
donde Yj representa el valor de la variable en la j-ésima ronda. Finalmente, en el
patrón c) se muestra un “patrón aleatorio”, donde en cualquier celda pueden
existir datos faltantes; es decir, las omisiones no están dispuestas en una forma
predeterminada.

Los datos están perdidos completamente al azar (Missing Completely At Random,


MCAR) cuando la probabilidad de que el valor de una variable Yj, sea observado
para un individuo i no depende ni del valor de esa variable yij, ni del valor de las
demás variables consideradas. Es decir la ausencia de la información no está
originada por ninguna variable presente en la matriz de datos.

Los datos están perdidos al azar (Missing At Random, MAR) cuando la ausencia
de datos está asociada a variables presentes en la matriz de datos. Por ejemplo, si
se supone que los ingresos totales de un hogar son independientes del ingreso
individual de sus miembros pero si puede depender de la edad, en este caso se
trata de un modelo MAR.

La mayoría de los algoritmos de imputación asumen el supuesto de que los datos


faltantes siguen un patrón completamente aleatorio (MCAR). Sin embargo, es
frecuente que en la práctica, particularmente en encuestas, esta hipótesis no se
satisfaga, ya que la falta de respuesta suele estar asociada a características de los
sectores, familias y personas.

Métodos de Imputación de datos

Se le llama método de imputación a cualquier procedimiento mediante el cual se


busca eliminar los datos perdidos de un archivo con información estadística,
asignándoles un valor válido.
9
Existen múltiples procedimientos o técnicas de imputación, entre las más
utilizadas se pueden mencionar las siguientes:

a) Imputación por medias no condicionadas,


b) Imputación por medias condicionadas para datos agrupados,
c) Imputación aleatoria “Hot Deck”
d) Imputación por regresión lineal
e) Imputación por Máxima verosimilitud
f) Imputación múltiple

En el anexo 1 se presenta un resumen propuesto por Medina y Galván (2007)


donde aparecen las principales características de los métodos de imputación que
se utilizan con mayor frecuencia y los paquetes estadísticos más comunes según
(Acock, 2005).

A continuación se describen brevemente los procedimientos mencionados, sus


ventajas y limitaciones.

a) Imputación por medias no condicionadas

La sustitución de datos utilizando promedios es una vieja práctica entre


investigadores de diversas disciplinas, a pesar de que por sus limitaciones teóricas
no se considera un procedimiento apropiado.

En su aplicación se asume que los datos faltantes siguen un patrón MCAR, y ha


sido ampliamente documentado que su aplicación afecta la distribución de
probabilidad de la variable imputada, atenúa la correlación con el resto de las
variables y subestima la varianza, entre otras cosas.

Este procedimiento tiene la ventaja de que es muy sencillo de realizar y el valor


medio de la variable se preserva, pero los estadísticos que definen la forma de la
10
distribución como la varianza, covarianza, sesgo, curtosis, etc. se ven afectados.
También tiene el inconveniente de que no toma en cuenta las relaciones de la
variable imputada con otras variables del estudio.

b) Imputación por medias condicionadas para datos agrupados

Una variante del caso anterior consiste en formar categorías a partir de


covariables correlacionadas con la variable de interés, y posteriormente imputar
los datos faltantes con observaciones provenientes de una submuestra que
comparte características comunes.

En este procedimiento también se asume que el patrón de datos es MCAR.


Además se debe considerar que existirán tantos promedios como categorías se
formen lo que contribuye a atenuar el sesgo en cada celda pero de ninguna
manera a eliminarlo. Tiene las mismas desventajas del caso anterior, pero en
menor proporción por estar agrupados; igualmente es de fácil de aplicación.

c) Imputación aleatoria “Hot Deck”

Este método tiene por objetivo llenar los registros vacíos (receptores) con
información obtenida de bases de datos competas (donantes). Se asume que el
patrón de datos faltantes es de tipo aleatorio (MAR) y los datos faltantes se
reemplazan a partir de una selección aleatoria de valores observados, los cuales
no introducen sesgos a la varianza del estimador.

El algoritmo ubica los registros completos e incompletos, identifica características


comunes de los donantes y receptores y decide los valores que se emplearán para
imputar los datos omitidos. Es fundamental para la aplicación del procedimiento
generar agrupaciones que garanticen que la imputación se llevará a cabo entre
observaciones con características comunes.

11
Tiene la ventaja de que si se elije adecuadamente el donante, se mantiene la
distribución de la variable imputada y su relación con otras variables, pero no
siempre es fácil definir un criterio de distancia o similitud entre los posibles
donantes y receptores.

d) Imputación por Regresión

Si la presencia de los datos faltantes es MCAR, es factible emplear modelos de


regresión para imputar información en la variable Y, a partir de covariables
(X1,X2,……..Xp) correlacionadas.

Tiene la ventaja de que es relativamente sencillo de implementar y toma en cuenta


las relaciones entre variables; es particularmente útil para variables continuas.

Tiene el inconveniente de que requiere del ajuste de un modelo para cada variable
a imputar, y si el ajuste no es bueno, puede producir valores improbables o
imposibles de la variable imputada.

No sería adecuado aplicar este método cuando el análisis secundario de datos


involucra análisis de correlaciones, pues sobreestima la asociación entre
variables.

e) Imputación por Máxima verosimilitud

Los métodos de imputación por máxima verosimilitud tienen como objetivo realizar
estimaciones máximo verosímiles de los parámetros de una distribución cuando
existen datos faltantes. Se asume que los datos faltantes siguen un patrón MAR y
que la distribución marginal de los registros observados está asociada a una
función de verosimilitud para un parámetro desconocido, siempre que el modelo
sea adecuado para el conjunto de datos completos.

12
Una desventaja del procedimiento, es que su tasa de convergencia puede ser de
un crecimiento muy lento cuando existe gran cantidad de información perdida;
además de que tiene cierto grado de complejidad su aplicación, ya que
generalmente es necesario programar el algoritmo que se desee utilizar.

f) Imputación múltiple

El procedimiento de imputación múltiple se refiere a reemplazar cada valor


ausente con más de un valor imputado. La imputación múltiple utiliza métodos de
Monte Carlo y sustituye los datos faltantes a partir de un número (m>1) de
simulaciones, por lo que a cada valor ausente se asignan m > 1 valores extraídos
de una distribución predictiva, lo que produce m bases de datos.
La metodología consta de varias etapas, y en cada simulación se analiza la matriz
de datos completos a partir de métodos estadístico convencionales y
posteriormente se combinan los resultados para generar estimadores robustos, su
error estándar e intervalos de confianza.

Técnica de imputación por regresión lineal

Este procedimiento consiste en eliminar las observaciones con datos incompletos


y ajustar la ecuación de la regresión para predecir los valores de que permitirá

sustituir los valores faltantes, de modo que el valor de se construye como una
media condicionada de las covariables x`s (Devore, 2007) (Walpole, Raymond, &
Myers, 2005).

El modelo de regresión lineal simple es:


y = β0 + β1x

donde β0 es la intersección y β1 corresponde a la pendiente.

13
Los parámetros β0 y β1 se denominan coeficientes de regresión y por lo general
son desconocidos, pero se pueden estimar a partir de una muestra de n datos, de
la siguiente manera:

1 = y 0 = -

Donde:
2
= ∑
∑ = ∑

Por ejemplo, considere que se tienen los datos que aparecen en la tabla, donde el
símbolo “¿” corresponde a valores perdidos:
Tabla 1: Datos de Muestra
Unidad Y X
1 6,5 6,9
2 5,4 4,5
3 8,4 12,2
4 6,2 5,3
5 6,5 6,6
6 ¿ 2,6
7 6,2 3,4
8 ¿ 11
9 7,4 10,2
10 ¿ 9,7
Eliminando los valores perdidos, se obtiene lo siguiente:
Tabla 2: Datos de Muestra Procesados
Unidad Yi Xi Xi- (Xi- )2 Yi(Xi- )
1 6.5 6.9 -0.11429 0.01306 -0.74286
2 5.4 4.5 -2.51429 6.32163 -13.57714
3 8.4 12.2 5.18571 26.89163 43.56000
4 6.2 5.3 -1.71429 2.93878 -10.62857
5 6.5 6.6 -0.41429 0.17163 -2.69286
7 6.2 3.4 -3.61429 13.06306 -22.40857
9 7.4 10.2 3.18571 10.14878 23.57429
Ῡ=6.657143 =7.014286 =59.54857 =17.08429

14
Con estos datos, se procede a realizar la regresión lineal, obteniéndose los
siguientes parámetros:
= 4.64 + 0.29 xi

Utilizando la herramienta de Análisis de datos de Excel, con la función de


Regresión se obtienen los siguientes resultados para los mismos datos.

Tabla 3: Estadística Descriptiva de los datos de la tabla 2


Coeficientes Error típico Estadístico t Probabilidad

Término Independiente 4.64 0.38 12.30 6.3E-05

X 0.29 0.05 5.77 0.0022

Como puede observarse, la ecuación de la regresión lineal resultante es la misma


que en el procedimiento manual:
= 4.64 + 0.29 xi

A continuación se sustituyen los valores perdidos de la variable Y, a través de la


regresión lineal y se obtienen los valores que se ilustran en la figura 3.

Figura 3: Gráfica de valores reales e imputados.


9
8.5
8
7.5
7
Y

6.5
6
5.5
5
0 2 4 6 8 10 12 14
X

X 6.9 4.5 12.2 5.3 6.6 2.6 3.4 11 10.2 9.7


Y 6.5 5.4 8.4 6.2 6.5 5.4 6.2 7.8 7.4 7.4

15
En la tabla 4 se presenta un resumen comparativo de medias, desviaciones
estándar y correlaciones, donde puede observarse que después de aplicar el
procedimiento se sobreestima ligeramente la correlación entre las variables, como
ya se había mencionado anteriormente.

Tabla 4: Resumen de media, desviación estándar y correlaciones

CASO ELIMINANDO VALORES PERDIDOS

VARIABLES N MEDIA Desv. Estándar

Y 7 6,66 0,97

X 7 7,01 3,15

Correlación (X,Y) 0,93

CASO COMPLETO CON VALORES PERDIDOS

VARIABLES N MEDIA Desv. Estándar

Y 7 6,66 0,97

X 10 7,24 3,36

CASO CON REEMPLAZO DE VALORES PERDIDOS

CON REGRESIÓN LINEAL

VARIABLES N MEDIA Desv. Estándar

Y 10 6,72 1,00

X 10 7,24 3,36

Correlación (X,Y) 0,96

Selección de la técnica de imputación adecuada

Seleccionar un método de imputación adecuado es una decisión de gran


importancia, ya que para un conjunto de datos determinado, algunas técnicas de
imputación podrían dar mejores aproximaciones a los valores verdaderos que
otras.

16
Para la selección de la técnica de imputación adecuada, no hay reglas específicas,
dependerá entonces del tipo del conjunto de datos, tamaños del archivo, tipo de
no respuesta, patrón de pérdida de respuesta, de los objetivos de la investigación,
características específicas de la población, características generales de la
organización del estudio, software disponible, importancia de los valores
agregados o de los valores puntuales (microdato), distribuciones de frecuencias de
cada variable, marginal o conjunta, etcétera. Entilge (1996) citado por (Useche &
Mesa, 2006).

Hay que tomar en cuenta que muchas veces la técnica de imputación


seleccionada puede ser adecuada para algunas variables pero para otras no y
será decisión del investigador seleccionar la técnica que menos afecte las
estimaciones de las variables.

Los criterios a considerar para seleccionar la técnica adecuada para imputar,


según (Useche & Mesa, 2006) son los siguientes:

1. Tipo de variable a imputar: si es continua, tomar en cuenta el intervalo para la


cual se define, y si es cualitativa, tanto nominal como ordinal, las categorías de las
variables.

2. Parámetros que se desean estimar: si deseamos conocer sólo valores


agregados como la media y el total, se pueden aplicar métodos sencillos como
imputación con la media o moda, sin embargo, puede haber subestimación de la
varianza. En caso de que se requiera mantener la distribución de frecuencia de la
variable y las asociaciones entre las distintas variables, se deben emplear
métodos más elaborados aplicando imputación de todas las variables faltantes del
registro.

17
3. Tasas de no respuesta y exactitud necesaria: cuando el porcentaje de no
respuesta es alto en una base de datos, se considera que no hay confiabilidad en
los resultados que se obtengan con el análisis de esta base.

4. Información auxiliar disponible: es bueno hacer uso de la información auxiliar


disponible, ya que con ella podemos deducir información de los valores ausentes
de una variable o hallar grupos homogéneos respecto a una variable auxiliar que
se encuentre altamente correlacionada con la variable a imputar, y de esta manera
encontrar un donante adecuado que sea similar al registro receptor.

Pasos para llevar a cabo un proceso de imputación

Los pasos que se debieran llevar a cabo para realizar una imputación según
(Goicoechea, 2002) son los siguientes:

Paso 1: una vez que se dispone de un archivo con datos faltantes, se recopila y
valida toda la información auxiliar disponible que pueda ser de ayuda
para la imputación.

Paso 2: se estudia el patrón de pérdida de respuesta. Posteriormente se observa


si hay un gran número de registros que simultáneamente tienen no
respuesta en un conjunto de variables.

Paso 3: se seleccionan varios métodos de imputación posibles y se contrastan


los resultados.

Paso 4: se calculan las varianzas para los distintos métodos de imputación


seleccionados con el objetivo de obtener estimaciones con el mínimo
sesgo y la mejor precisión.

Paso 5: se concluye a partir de los resultados obtenidos


18

También podría gustarte