Está en la página 1de 4

2.

3 Valores faltantes

Son aquellos que no constan debido a cualquier acontecimiento,


como por ejemplo errores en la transcripción de los datos o la
ausencia de disposición a responder a ciertas cuestiones de una
encuesta. Los datos pueden faltar de manera aleatoria o no
aleatoria.

Los datos faltantes aleatorios pueden perturbar el análisis de


datos dado que disminuyen el tamaño de las muestras y en
consecuencia la potencia de las pruebas de contraste de
hipótesis. Los datos faltantes no aleatorios ocasionan, además,
disminución de la representatividad de la muestra.

Tratamiento

De casos completos o eliminación por lista

Este procedimiento consiste en incluir en el análisis los casos


que presentan observaciones completas en todas las variables.
Este método solo debe utilizarse cuando el proceso de recogida
de datos es aleatorio, porque en otro caso introduce sesgo. Otro
inconveniente es que el tamaño muestral puede llegar a sufrir
una gran reducción y afectar a la representatividad de la
muestra.

Selección por variables

Se mantienen en la base de datos los casos con tal que tengan


datos en las variables que van a ser utilizadas para el análisis.
Este procedimiento tiene el inconveniente de generar muestras
heterogéneas.

Métodos de imputación

Los métodos de imputación consisten en estimar los valores


ausentes en base a los valores válidos de otras variables y/o
casos de la muestra. La estimación se puede hacer a partir de la
información del conjunto completo de variables o bien de
algunas variables especialmente seleccionadas. Usualmente los
métodos de imputación se utilizan con variables métricas (de
intervalo o de razón), y deben aplicarse con gran precaución
porque pueden introducir relaciones inexistentes en los datos
realas.

Principales procedimientos:

Sustitución por la Media. Consiste en sustituir el valor ausente


por la Media de los valores válidos. Este procedimiento plantea
inconvenientes como:

Dificulta la estimación de la Variáncia.

Distorsiona la verdadera distribución de la variable,

Distorsiona la correlación entre variables dado que añade


valores constantes.

Sustitución por constante. Consiste en sustituir los valores


ausentes por constantes cuyo valor viene determinado por
razones teóricas o relacionadas con la investigación previa.
Presenta los mismos inconvenientes que la sustitución por la
Media, y solo debe ser utilizado si hay razones para suponer que
es más adecuado que el método de la media.

Imputación por regresión. Este método consiste en estimar los


valores ausentes en base a su relación con otros variables
mediante Análisis de Regresión.

Inconvenientes:

- Incrementa artificialmente las relaciones entre variables.

- Hace que se subestime la Variáncia de las distribuciones.

- Asume que las variables con datos ausentes tienen relación de


alta magnitud con las otras variables.

 
Ejemplos

El siguiente conjunto de datos consta de tres variables y diez


casos. El conjunto es incompleto porque en la variable 1 faltan
los datos de los casos cinco y ocho. En la variable 2 faltan los
datos de los casos uno, cinco, siete y nueve. En la variable 3
faltan los datos de los casos tres, siete y nueve.

Estadísticos descriptivos (Medias) obtenidos excluyendo los


casos incompletos (selección por lista):

La muestra original ha quedado reducida a cuatro casos.

Casos excluidos por variables (por parejas):

La tabla de la izquierda muestra el número de parejas con datos


en ambas variables. Por ejemplo, el número de parejas
completas en las variables 1 y 2 es cinco, etc.
En la tabla de la derecha aparecen las Medias de cada variable
obtenidas incluyendo los casos con datos completas por parejas.
Como ejemplo, la Media de la variable 1 obtenida con los datos
de la variable 1 que tienen pareja en la variable 2 es 5.2

Sustitución por imputación de la Media:

Los valores ausentes de la siguiente tabla han sido sustituidos


por las Medias de las respectivas variables:

Imputación por Regresión:

Los valores ausentes de la siguiente tabla han sido han sido


sustituidos por valores estimados mediante Análisis de
Regresión:

También podría gustarte