Está en la página 1de 4

Métodos de imputación de datos brechas de inequidad que incluyen causas básicas

faltantes. Estimación la edad promedio como la desigualdad de oportunidades, la exclusión y


la discriminación por razones de sexo, raza o credo
de embarazo en Perú. político; causas subyacentes como baja
escolaridadprácticas inadecuadas de crianza; el
Missing data imputation methods. limitado acceso a servicios básicos y a servicios de
Estimate the mean age of pregnancy in salud, asociados con costumbres y prácticas
Perú. inadecuadas de alimentación; estilos de vida,
algunos ancestrales y otros adquiridos, por el cada
Resumen vez más importante de la madre; el embarazo
La aparición de datos faltantes en encuestas adolescente; los cuidados insuficientes de la mujer a
llevadas a cabo en distintos ámbitos es un problema la niña y niño; las proceso de urbanización, y causas
común cuya solución es un tema muy tratado al cual directas como desnutrición materna, alimentación o
se le ha dado distintas soluciones que dependen de ingesta inadecuada, e infecciones repetidas y
las características de los valores de las variables severas.
presentes en la encuesta. Una técnica tradicional y La DCI y la anemia por deficiencia de hierro en las
muy conocida para el tratamiento de datos faltantes niñas y niños menores de 3 años, tienen
es la imputación. La mayoría de los estudios consecuencias adversas en el desarrollo cognitivo,
relacionados con los métodos de imputación se principalmente si se presenta en un periodo crítico
centran en el problema de la estimación de la media como el crecimiento y diferenciación cerebral, cuyo
y su varianza y están basados en diseños muestrales pico máximo se observa en los niños menores de
simples tales como el muestreo aleatorio simple. En dos años, periodo en el que el daño puede ser
este trabajo se compararan los resultados obtenidos irreversible, constituyéndose en los principales
al imputar una muestra de dos diferentes maneras, la problemas de salud pública que afectan el desarrollo
muestra original contiene registros completos, y la infantil temprano.
muestra a imputar será el resultado de eliminar de En el Perú, el abordaje de la DCI y anemia se ha
manera aleatoria una cantidad determinada de dado a través de la implementación de
registros de manera que se obtenga un índice de intervenciones desarrolladas por el Ministerio de
respuesta del 80%. En ambos casos utilizaremos la Salud y los diferentes sectores involucrados, en el
imputación por moda para las variables del tipo marco delPrograma Articulado Nutricional, que a la
cualitativo, en el primer caso además, se usara la luz del análisis de indicadores de resultado, producto
imputación por media y en el segundo la imputación y cobertura ha generado la necesidad de un
por regresión para variables del tipo cualitativo alineamiento, ordenamiento y fortalecimiento
Palabras clave: Imputación, media, moda, regresión. intrasectorial e intersectorial de las intervenciones
para el logro de resultados.
Abstract En este marco, el Ministerio de Salud definió la
The appearance of missing data in surveys carried conformación de una comisión sectorial de
out in different areas is a common problem whose naturaleza temporal, encargada de elaborar un plan
treatment is a subject of broad study which has been de alcance nacional, que contenga las acciones
given different solutions that depend on the destinadas a promover la reducción de la
characteristics of the values of the variables present desnutrición crónica infantil, denominado “Plan
in the survey. A traditional and well-known technique Nacional para laReducción de la Desnutrición
for the processing of missing data is imputation. Most Crónica Infantil y la Prevención de la Anemia en el
studies related to imputation methods focus on the País”, a través de laResolución Ministerial 675 -2013-
problem of estimating the mean and its variance and MINSA, presidida por el Despacho Ministerial e
are based on simple sampling designs such as integrada por un representante del Despacho
simple random sampling. In this work we compare Viceministerial, por las direcciones de línea,
the results obtained by imputing a sample in two direcciones de apoyo, órganos desconcentrados y el
different ways, the original sample contains complete Programa de Apoyo a la Reforma de Salud
records, and the sample to be imputed will be the (PARSALUD II).
result of randomly eliminating a certain number of
records in order to obtain an index of 80% response El método utilizado en el Perú para imputar datos
In both cases we will use the imputation by fashion según el INEI es el método Hot Deck, que implica
for the variables of the qualitative type, in the first básicamente duplicar un valor registrado en un valor
case also, the imputation will be used by means and faltante de una muestra, donde ambos valores
in the second the imputation by regression for (faltante y registrado) pertenecen a la misma
variables of the qualitative type muestra. ESTO NO TIENE NADA QUE VER CON
Keywords: Imputation, mean, mode, regression. LO PRESENTADO EN EL RESUMEN DONDE SE
HABLA DE IMPUTACION DE MEDIA ,moda
Introducción regresión)
En general, el embarazo a temprana edad es un La razón principal para usar el procedimiento Hot
problema de salud y social en el Perú, condicionado Deck es que reduce el sesgo de norespuesta. Para
por determinantes expresados como factores reducir este sesgo, el procedimiento Hot Deck por lo
sociales y de desarrollo asociados con la pobreza y general tiene un proceso de clasificación asociada a
ella. Todas las unidades de la muestra están Cajama 99 15 22 62 1 300 150 220
rca
clasificadas en grupos disjuntos así que las unidades Provinc 130 130 0 0 1 300 1300 0
son tan homogéneas como sea posible dentro de ia
cada grupo. Para cada valor faltante, un valor Constit
registrado es imputado el cual está en el mismo ucional
del
grupo de clasificación. Así la suposición se basa en Callao
que dentro de cada grupo de clasificación las Cusco 107 36 25 46 1 300 360 250
unidades que no responden siguen la misma Huanca 96 13 15 68 1 300 130 150
distribución como aquellos que responden. velica
Huánuc 118 28 26 64 1 500 280 260
o
Marco Muestral Ica 125 33 82 10 1 300 330 820
El marco muestral, para la selección de la muestra, Junín 114 34 48 32 1 300 340 480
lo constituye la información estadística y cartográfica La 118 54 40 24 1 300 540 400
Liberta
proveniente de los Censos Nacionales XI de d
Población y VI de Vivienda del año 2007 y la Lamba 122 56 50 16 1 300 560 500
Actualización SISFOH 2012-2013, y el material yeque
cartográfico actualizado para tal fin en el proceso de Provinc 280 280 0 0 2 810 2 810 0
ia de
actualización cartográfica realizado para la ejecución Lima 1/
de la ENDES. Región 117 0 91 26 1 300 0 910
Lima 2/
Loreto 114 55 27 32 1 300 550 270
Unidades de Muestreo Madre 117 70 21 26 1 300 700 210
- En el Área Urbana: El Conglomerado y la de Dios
Vivienda Particular Moque 121 50 53 18 1 300 500 530
- En el Área Rural: El Área de Empadronamiento gua
Pasco 113 33 46 34 1 300 330 460
Rural y la Vivienda Particular. Piura 119 30 67 22 1 300 300 670
Puno 104 11 41 52 1 300 110 410
Tipo de Muestra San 114 33 49 32 1 300 330 490
La muestra se caracteriza por ser bietápica, Martín
Tacna 123 104 5 14 1 300 1 040 50
probabilística de tipo equilibrado, estratificada e Tumbe 125 57 58 10 1 300 570 580
independiente, a nivel departamental y por área s
Urbana y Rural. Ucayali 119 82 15 22 1 300 820 150

Tamaño Muestral
El tamaño de la muestra de la ENDES 2016 (anual)
es de 35 mil 910 viviendas, correspondiendo:
- 14 mil 160 viviendas al área sede (Capitales de Distribución de la muestra
departamento y los 43 distritos que conforman la La distribución de la muestra de la Encuesta
Provincia de Lima). Demográfica y de Salud Familiar para el periodo
- 9 mil 300 viviendas al resto Urbano 2016, fue estimada previa evaluación de los
- 12 mil 450 viviendas al área rural. resultados obtenidos con la implementación de las
Para este estudio nos centramos en la región de encuestas ENDES ejecutadas en los periodos 2009
Puno que consta de: a 2011 y 2012 a 2014 y los lineamientos del tipo de
- 110 viviendas en el área sede. diseño previamente establecidos para este fin.
- 410 viviendas en el resto Urbano. Estos lineamientos enfatizan que la muestra se
- 780 viviendas en el área rural. constituya en la muestra maestra con tres años de
- horizonte, del 2015 al 2017. Asimismo, la muestra
- PERÚ: TAMAÑO DE LA MUESTRA ANUAL está constituida por cuatro submuestras semestrales:
DE CONGLOMERADOS Y VIVIENDAS Los detalles y características de la muestra se
POR Total de Conglomer Total de presentan en la siguiente tabla:
conglomerados ados viviendas
ÁMBITO,
SEGÚN
DEPARTAME
NTO Número de
Departamento Conglomerados Viviendas Viviendas x
Sede Resto Rural Sede Resto Conglomerado
Urbano Urbano
Perú 3 175 1 415 930 830 Sede 11 110 10
Amazo 119 14 43 62 1 500 140 430
nas Resto
Ancash 110 52 18 40 1 300 520 180
41 410 10
Urbano
Apurím 102 18 28 56 1 300 180 280
ac Rural 52 780 15
Arequip 124 87 25 12 1 300 870 250
a
Ayacuc 125 40 35 50 1 500 400 350 TOTAL 104 1300
ho
Métodos Sons at home 33135 0.00%
Se tomó tres métodos de imputación: imputación Daughters at home 33135 0.00%
simple, Callback Hot Deck, y ColdDeck. Sons elsewhere 33135
Para el método simple con se realizo primero 0.00%
analizando si la variable es cuantitativa o cualitativa Daughters elsewhere 33135 0.00%
para saber si la imputación se haría con respecto a la Sons who have died 33135 0.00%
media o a la moda, la edad de las madres son Daughters who have died 33135
cuatitarivas se procedio a imputar con respecto a la 0.00%
media Births in last five years 33135 0.00%
Para el método de Callbacks se volvió a realizar la Births in past year 33135 0.00%
encuesta en las “” casas de las cuales no se pudo Births in month of interview 33135
obtener los datos necesarios para realizar las 0.00%
Date of first birth (CMC) 25955 21.67%
estimaciones, en este trabajo se consideró adecuado
repetir solo una vez la encuesta debido a que los Age of respondent at 1st birth 25955 21.67%
costos y el tiempo que implicaría realizar una tercera Currently pregnant 33135 0.00%
no conllevaría a una reducción significativa en el
Time since last menstrual perd 33135 0.00%
sesgo debido a que el índice de respuesta es del “”%
lo cual indica que es poco probable que la cantidad Menstruated in last six weeks 33135 0.00%
de observaciones adicionales obtenidas por una Knowledge of ovulatory cycle 33135 0.00%
tercera encuesta sea significativa y produzca una Number of living children 33135
mejor estimación. Al realizar la segunda encuesta se 0.00%
obtuvo una submuestra de tamaño “” dentro de la Living children + current preg 33135 0.00%
cual se obtuvo respuesta en “” viviendas, y se tuvo Living children + curr preg 6+ 33135 0.00%
ausencia de respuesta en las “” viviendas restantes. Marriage to first birth int. 24600
Consideramos a las viviendas de las cuales se 25.76%
Last birth to interview 25955 21.67%
obtuvo respuesta, como una muestra significativa de
las viviendas con ausencia de respuesta, y luego se Entries in birth history 33135 0.00%
dividió a la muestra en dos estratos: Time since last period (comp) 33135
- Estrato 1 que reúne a las viviendas de las cuales 0.00%
Flag for last period 33135 0.00%
se obtuvo respuesta en la primera encuesta.
- Estrato 2 que reúne a las viviendas de las cuales Ever had a terminated preg. 33135 0.00%
se obtuvo respuesta en la segunda encuesta. Index last child prior to cal. 33135 0.00%
Luego se procedió a realizar los cálculos para Birth between last & interview 12052
estimar la proporción de niños con anemia tomando 63.63%
encuenta primero la estratificación en base a la Births in last three years 33135 0.00%
ausencia o no de respuesta, y luego a las divisiones Knowledge of any method 33135 0.00%
planteadas en del diseño muestral de la encuesta Ever use of any method 33135
ENDES. 0.00%
Para el método de ColdDeck se duplico los datos de Living children at first use 28312 14.56%
la encuesta ENDES del semestre anterior para luego Children at first use (grpd) 33135 0.00%
reemplazarlos en los datos faltantes de nuestra Current contraceptive method 33135
muestra para realizar las estimaciones, 0.00%
Current use by method type 33135 0.00%
Luego se procedio a realizar los cálculos para
estimar la proporción de niños con anemia tomando Month of start of use of method 19860 40.06%
en cuenta primero la estratificación en base a la Year of start of use of method 19860 40.06%
ausencia o no de respuesta, y luego a las divisiones
Date of start of use of method 19860
planteadas en del diseño muestral de la encuesta (CMC) 40.06%
ENDES. Completeness of information 19860
Para el método de Hot Deck se duplico los datos 40.06%
Last source for users by type 14719 55.58%
dentro de cada división establecida en el diseño de la
muestra, de manera que los datos a duplicar fueron Months of use of current 19860
seleccionados de manera aleatoria dentro de cada method 40.06%
estrato/conglomerado hasta imputar la totalidad de Last method disc. last 5 years 20840 37.11%
los datos que presentaron ausencia de respuesta en Reason of last discontinuation 20840 37.11%
la muestra. Luego se procedió a realizar los cálculos Intention to use 13272
para estimar media de las mujeres cuando tuvieron 59.95%
Preferred future method 10883 67.16%
su primer hijo tomando en cuenta el diseño muestral
de la encuesta ENDES. Contraceptive use & intention 33135 0.00%
Wanted last child 18087 45.41%
Resultados Heard FP on radio last months 33135
Descriptive Statistics 0.00%
Heard FP on TV last months 33135 0.00%
  N porcentaje Heard FP newspaper last 33135
Total children ever born 33135 0.00% months 0.00%
Visited by FP worker last 12m 33135 0.00% Alguna vez ha usado 33135 0.00%
Visited health facil. last 12m 33135 0.00% Metodo usado actualmente 12700 61.67%
At health facility, told of FP 16814 49.26% Metodo usado actualmente 18825 43.19%
Told about side effects 9911 70.09% Metodo usado actualmente 16685 49.65%
Told how to deal with side 7382 Metodo usado actualmente 12884 61.12%
effects 77.72% Metodo usado actualmente 15387
Told about other FP methods 9911 53.56%
70.09% Metodo usado actualmente 7264
First source for current method 14793 78.08%
55.36% Valid N (listwise) 0  
Reason not using: Not married 10103 69.51%
Reason not using: Not having 10103 Se obtienen los datos perdidos de las muestras en
sex 69.51% porcentaje se manda las cuales sean mayores al
Reason not using: 10103 80% serán eliminadas y no se tomaran en cuenta en
Menopausal/hysterectomy 69.51% el procedimiento de calculo
Reason not using: 10103 Media con método simple 21años
Subfecund/infecund 69.51% Media con calback 23 años
Reason not using: Postpartum 10103 Media con hot deck 22 años
amenorrheic 69.51%
Reason not using: 10103
Breastfeeding 69.51%
Reason not using: Fatalistic 10103 Conclusión
69.51% El método de hot deck es una alternativa muy
Reason not using: Respondent 10103
interesante y muy economica para la estimación de
opposed 69.51%
Reason not using: 10103
la media de edad que tuvieron las madres al tener su
Husband/partner opposed 69.51% primer hijo es una buena opción para saber los
Reason not using: Others 10103 lugares donde se encuentra las madres de familias
opposed 69.51% mas jovenes y asi prevenir estos casos¿Cómo
Reason not using: Religious 10103 saben que es la mejor? Se debe mejorar este
prohibition 69.51% punto
Reason not using: Knows no 10103
method 69.51%
Reason not using: Knows no 10103
source 69.51%
Reason not using: Health 10103 Bibliografía
concerns 69.51% - Análisis de valores faltantes con SPSS
Reason not using: Fear of side 10103 (http://www.ugr.es/~diploeio/documentos/TEMA_
effects 69.51% SPSS_PERDIDOS.pdf)
Reason not using: Lack of 10103 - Métodos de inferencia estadística con datos
access/too far 69.51% faltantes. Estudio de simulación sobre los efectos
Reason not using: Costs too 10103 en las estimaciones - ESTADÍSTICA ESPAÑOLA
much 69.51% Vol. 48, Núm. 162, 2006, págs. 241 a 270
Reason not using: 10103
Inconvenient to use 69.51% - Una comparación de métodos de imputación de
Reason not using: Interferes 10103 variables categóricas con patrón univariado
with bodys processes 69.51% (http://www.redalyc.org/pdf/2331/233131398003.p
Reason not using: man 10103 df)
infertility 69.51% - Comparativa de análisis de imputación de datos
Reason not using: Other 10103 69.51% faltantes con análisis de casos completos en
Reason not using: Don't know 10103 pruebas diagnósticas
69.51% (http://eprints.ucm.es/43961/1/TFM_PlanchueloG
Alguna vez ha usado 33135 0.00% omez.pdf)
Alguna vez ha usado 33135 0.00% - Métodos de imputación para el tratamiento de
Alguna vez ha usado 33135 datos faltantes: aplicación mediante R/Splus -
0.00%
Alguna vez ha usado 33135
REVISTA DE METODOS CUANTITATIVOS
0.00% PARA LA ECONOMÍA Y LA EMPRESA (7).
Alguna vez ha usado 33135 0.00% Páginas 3–30. Junio de 2009
Alguna vez ha usado 33135 0.00%
Alguna vez ha usado 33135 0.00%
Alguna vez ha usado 33135 0.00%
Alguna vez ha usado 33135 0.00%
Alguna vez ha usado 33135 0.00%
Alguna vez ha usado 33135 0.00%
Alguna vez ha usado 33135 0.00%
Alguna vez ha usado 33135 0.00%

También podría gustarte