Está en la página 1de 4

AUDITORIA DEL CONJUNTO DE DATOS

Alicia López - UNMDP


alicia.lopez@educ.ar - octubre de 2017

En este documento se ofrece una guía para asegurar la calidad de los datos
antes y después de su carga. Se toma como punto de partida la encuesta apli-
cada a los alumnos en la primera clase de la asignatura1.

CONTROLES PREVIOS A LA CARGA DE DATOS


Cuando el encuestado entrega al encuestador la ficha, éste debe asegurarse de
que todos los campos estén completos (sin espacios en blanco). Prestar aten-
ción a las respuestas de opción múltiple. Si en el diseño de la encuesta no se
permite elegir más de una opción, asegurarse la unicidad de la respuesta. Se
recomienda invitar a los encuestados a prestar atención a expresiones del tipo
“la principal razón”, “con mayor frecuencia”, etc.
Colocamos el número de ficha para poder identificar la fuente en futuras búsque-
das y referencias.

CONTROLES POSTERIORES A LA CARGA DE DATOS


Creamos un archivo 0Encuesta.sav donde volcaremos la primera carga de datos
con las encuestas a la vista. Seguramente encontraremos datos faltantes y otros
ambiguos. A continuación mostramos algunos ejemplos de irregularidades en-
contradas y el tipo de solución que se aplicó. Al finalizar los controles, guardamos
los cambios en el archivo 1Encuesta.sav, que será el punto de partida de los
ejercicios y actividades.

SE ESPERA UNA RESPUESTA NUMÉRICA Y SE OBTIENE UN INTERVALO

Por ejemplo, en la pregunta 10 (cantidad de horas al trabajo) y en la pregunta 11


(cantidad de horas dedicadas al estudio) se espera como respuesta un número
natural. Pero podemos encontrar algo del tipo “entre 3 y 4 horas”. Como regla
general podemos adoptar la media aritmética. Si no queremos trabajar con deci-
males, podemos redondear hacia arriba si se trata de trabajo y redondear hacia

1
Ver el archivo Encuesta.pdf

Auditoría de datos. Versión 2017.03 - Alicia López Página 1 de 4


abajo si se trata de estudio. Esta es una decisión que nace del consenso del
equipo de investigación y depende del estudio que se esté realizando.

SE ESPERA RESPUESTA ÚNICA Y SE OBTIENE UNA MÚLTIPLE

En la pregunta 8, ante opciones múltiples, acordamos asignar el valor 2 (“para


tener experiencia laboral) si el encuestado tiene menos de 25 años, mientras que
asignaremos el valor 3 (para manutención familiar) si tiene 25 años o más.
Los casos de opciones múltiples para indicar el medio usado con mayor frecuen-
cia para informarse sobre cuestiones políticas se resolvieron en el marco de una
cultura digital. De ahí que los medios digitales tienen prioridad respecto de los
medios analógicos. También puede afinarse considerando la edad del encues-
tado (millenial, Generación Z, Generación Y, etc.)

LA RESPUESTA NO SE AJUSTA A LAS CATEGORÍAS DEFINIDAS

En la pregunta 9 (cantidad de días a la semana que trabaja) es frecuente encon-


trar respuestas del tipo “soy cuentapropista”, “hago changas” y similares. Si no
se hizo la consulta al momento de recibir la encuesta, no hay forma de obtener
el dato. Por lo tanto, se considera que el dato está perdido. En una sección más
adelante explicamos cómo tratar estos casos.

PREGUNTAS QUE ENCADENAN RESPUESTAS

La pregunta 7 (sobre si estudia o trabaja) define una bifurcación en el cuestiona-


rio. Si la respuesta es “sólo estudio”, los resultados de las preguntas 8, 9 y 10 no
corresponde informarlas. En el cuestionario queda explícito para la pregunta 8.
Para las preguntas 9 y 10 asignamos el código 98 (no corresponde informar).
Pero si la respuesta es “estudio y trabajo”, el resultado de la pregunta 8 debe ser
cualquier opción distinta de 6. Si faltan los datos de las preguntas 9 y 10, asig-
namos el código 99 (ausencia de medición).
En ninguno de los casos optamos por el valor 0 (cero) porque en algunos casos
podría ser un dato. No es lo mismo trabajar 0 horas que no informar la cantidad
de horas que trabaja.

MODIFICACIONES REALIZADAS EN CASOS REALES

1. Ficha 3 pregunta 11: “alrededor de 7” se registró 7.


2. Ficha 7 pregunta 14: menor de 20 años, se adoptó 3 (Generación Z).

Auditoría de datos. Versión 2017.03 - Alicia López Página 2 de 4


3. Ficha 13 pregunta 8: entre "para pagar estudios" y "otros motivos" se
adoptó la primera.
4. Ficha 24 pregunta 10: se registró 7 como el media aritmética entre 6 y 8
5. Ficha 24 pregunta 11: la media aritmética entre 2 y 3 se redondeó a 2
6. Ficha 26 pregunta 14: entre "internet" y "otros", optamos por la primera.
7. Ficha 27 pregunta 12: responde "una, a veces dos o tres", optamos por 1
8. Ficha 28 pregunta 11: responde "entre 3 y 4", la media aritmética es 3,5 y
redondeamos a 3.
9. Ficha 31 pregunta 6: marcó dos opciones, "carrera universitaria" y "carrera
terciaria". Se evidencia un error en el diseño porque no se consideró esta
posibilidad. Para este análisis, optamos por la opción 1.
10. Ficha 32 pregunta 11: escribió "entre 4 y 6", se calculó la media aritmética
y se registró 5.
11. Ficha 34 pregunta 12: no escribió respuesta, asumimos que vive solo y
registramos 0.
12. Fichas 10, 11, 24, 26 y 30 pregunta 8: entre "para pagar estudios" y "para
ganar experiencia". Se tuvo en cuenta la edad del encuestado.
13. Fichas 14 y 23 pregunta 14: entre "televisión", "internet", “diarios impresos”
y "radio". Optamos por Internet.
14. Fichas 17, 18, 19, 20 y 27 pregunta 11 no registraron respuesta y consi-
deramos que son datos perdidos.
15. Ficha 23 preguntas 9 y 10: En la pregunta 7, indicó que estudia y trabaja.
En la pregunta 8, indicó que trabaja para pagarse sus estudios. Pero en
las siguientes indica que es cuentapropista y que su empleo es no formal.
Ante la imposibilidad de consultar al encuestado, los consideramos datos
perdidos.

TRATAMIENTO DE DATOS PERDIDOS


Es importante distinguir los siguientes casos, ya que indican situaciones diferen-
tes y pueden conducir a interpretaciones diferentes de los resultados obtenidos:
1. No Sabe o No Contesta (NS/NC): el encuestado no sabe la respuesta o
no tiene interés en contestar. Pero marcó la opción y por eso es un dato
válido para el análisis estadístico. Le corresponde una categoría en la de-
finición de la variable.

Auditoría de datos. Versión 2017.03 - Alicia López Página 3 de 4


2. No corresponde informar: La respuesta está encadenada a una pre-
gunta anterior. En nuestro ejemplo, la pregunta 7 (Estudia y trabaja) está
“encadenada” a las preguntas 8, 9 y 10. Si en la pregunta 7 respondió que
sólo estudia, no corresponde informar en las preguntas 8, 9 y 10. No son
datos perdidos. Podemos asignar el valor 98 para cada una de estas va-
riables en los casos que sólo estudia.
3. Falta el dato: el encuestado omitió responder a la pregunta. No hay am-
bigüedades que puedan salvarse mediante acuerdos, ni tampoco corres-
ponde a una pregunta encadenada. Simplemente se perdió ese dato y no
puede reconstruirse o recuperarse. Es costumbre asignar el valor 99 para
los datos perdidos.

Auditoría de datos. Versión 2017.03 - Alicia López Página 4 de 4

También podría gustarte