Está en la página 1de 25

Recolección de la

información
El ordenamiento de los
resultados de la investigación
Después de planear, y ejecutar un proceso de investigación por medio de un método,
se tiene la información obtenida, la cual se debe presentar de forma ordenada y
fácilmente interpretativa.

Las empresas usan herramientas avanzadas como la presentación


de resultados en bases de datos, tablas dinámicas y de gráficos.

Pero para hacer un correcto informe, se debe depurar la información


obtenida para presentarla ya sea en observaciones cualitativas o
cuantitativas, y así evitar errores como duplicidad de datos, datos
incompletos, errores de transcripción, errores de presentación.

Por ello las preguntas deben ser muy bien planeadas junto con sus respuestas para
evitar este faltante que implicaría un error típico frente a la media de los datos
obtenidos.

Si presento unos datos mal encaminados, la respuesta puede estar lejos de la media
deseada.
Codificación
Ordenar la información para
presentarla de una forma
representativa
Codificación
Codificar datos es asignar números a las modalidades observadas o registradas de las
variables que constituyen la base de datos, así como asignar código (valor numérico)
a los valores faltantes (aquellos que no han sido registrados u observados). Ejemplo:
Si la base de datos incluye la variable Sexo, hay que asignar un número a las mujeres
y otro a los hombres. Si se trata de variables cuantitativas, hay que definir el número
de decimales que van a ser registrados.

Introducción de datos
La primera cuestión a considerar es la disposición las variables y las unidades de
observación (generalmente los individuos de los que se recoge los datos). Hay dos
grandes disposiciones generales, la más frecuente consiste en disponer los casos
(generalmente los individuos) por filas y las variables por columnas.
Tabulación de datos
Valores atípicos
Son observaciones cuyos valores son muy diferentes a las otras observaciones del
mismo grupo de datos. Los datos atípicos son ocasionados por:
a) Errores de procedimiento.
b) Acontecimientos extraordinarios.
c) Valores extremos. Por ejemplo, una muestra de datos del número de cigarrillos
consumidos a diario contiene el valor 60 porque hay un fumador que fuma sesenta
cigarrillos al día.
d) Causas no conocidas.
Los datos atípicos distorsionan los resultados de los análisis, y por esta razón hay que
identificarlas y tratarlos de manera adecuada, generalmente excluyéndolos del
análisis.
Valores faltantes
El manejo de los valores faltantes
debe ser muy claro, debe
obedecer a las mismas políticas de
investigación o corporativas.

No se puede obviar fácilmente un


dato, que al querer desechar
repentinamente puede afectar la
misma investigación.
Valores faltantes

Son aquellos que no constan debido a cualquier acontecimiento, como por


ejemplo errores en la transcripción de los datos o la ausencia de disposición a
responder a ciertas cuestiones de una encuesta. Los datos pueden faltar de
manera aleatoria o no aleatoria.

Los datos faltantes aleatorios pueden perturbar el análisis de datos dado que
disminuyen el tamaño de las muestras y en consecuencia la potencia de las
pruebas de contraste de hipótesis. Los datos faltantes no aleatorios ocasionan,
además, disminución de la representatividad de la muestra.

Tratamiento:
Valores faltantes
De casos completos o eliminación por lista
Este procedimiento consiste en incluir en el análisis los casos que presentan observaciones
completas en todas las variables. Este método solo debe utilizarse cuando el proceso de
recogida de datos es aleatorio, porque en otro caso introduce sesgo.
Selección por variables
Se mantienen en la base de datos los casos con tal que tengan datos en las variables que van
a ser utilizadas para el análisis. Este procedimiento tiene el inconveniente de generar
muestras heterogéneas.
Métodos de imputación
Los métodos de imputación consisten en estimar los valores ausentes en base a los valores
válidos de otras variables y/o casos de la muestra. La estimación se puede hacer a partir de
la información del conjunto completo de variables o bien de algunas variables
especialmente seleccionadas.
Valores faltantes
Principales procedimientos:
Sustitución por la Media. Consiste en sustituir el valor ausente por la Media de los valores
válidos. Este procedimiento plantea inconvenientes como:
Dificulta la estimación de la Variáncia.
Distorsiona la verdadera distribución de la variable,
Distorsiona la correlación entre variables dado que añade valores constantes.
Sustitución por constante. Consiste en sustituir los valores ausentes por constantes cuyo
valor viene determinado por razones teóricas o relacionadas con la investigación previa.
Presenta los mismos inconvenientes que la sustitución por la Media, y solo debe ser
utilizado si hay razones para suponer que es más adecuado que el método de la media.
Imputación por regresión. Este método consiste en estimar los valores ausentes en base a
su relación con otros variables mediante Análisis de Regresión.
Valores faltantes
El manejo de los valores faltantes
debe ser muy claro, debe
obedecer a las mismas políticas de
investigación o corporativas.

No se puede obviar fácilmente un


dato, que al querer desechar
repentinamente puede afectar la
misma investigación.
Organización
de los datos
Tabulación de la
información
La ordenación de los datos en que son el resultado de una encuesta o
trabajo de investigación, debe presentarse en forma concisa y
ordenada.

La herramienta ofimática Excel, puede dar al usuario un beneficio muy


claro en la presentación de datos organizados. Esta potente
herramienta, además de clasificar la información en un eje de “X” o de
“Y”, permite hacer reconteos exactos, sumas, promedios y además de
esto general el resultado de estadísticos claros como la media, la
mediana, la moda, la varianza, y otros como los cuartiles, los deciles y
los percentiles, dentro de los resultados estadísticos más conocidos.
Podemos resumir las diferentes respuestas
de una encuesta en una tabla.
Imaginemos un salón de clases con
diferentes edades, y que algunas de ellas se
repitan, podemos presentar esa Como podemos apreciar, la tabla nos
información de la siguiente forma muestra que dos personas tienen 12
años, 3 personas tienen 23, 5 personas
VARIABLE FRECUENCIA ABSOLUTA
tienen 45, 8 personas tienen 34 y 8
Valor Simple Acumulada
personas tienen 20 años.
12 2 2

23 3 5 Por otra parte, la tabla nos muestra


45 5 10 una sumatoria de las observaciones
34 8 18 dadas (frecuencia acumulada).
20 8 26
Podemos también organizar la información desde las preguntas para obtener
las respuestas deseadas. Imaginemos que tenemos una tabla que quiere
mostrar las edades por regiones. Ejm.: de 0 a 10, de 11 a 20, de 21 a 30

VARIABLE FRECUENCIA ABSOLUTA

Mínimo Máximo Simple Acumulada

0 10 5 5

11 20 6 11

21 30 4 15

Como podemos apreciar, la tabla nos muestra que 5 personas tienen entre o y 10 años;
6 personas tienen entre 11 y 20; 4 personas tienen entre 21 y 30
Una correcta organización de la información me permite en consecuencia
generar datos, conclusiones y posibles análisis adicionales a la información
principal.
Ejm.:
  VARIABLE FRECUENCIA ABSOLUTA FRECUENCIA RELATIVA
No. Valor Simple Acumulada Simple Acumulada
1 12 2 2 7,69% 7,69%
2 23 3 5 11,54% 19,23%
3 45 5 10 19,23% 38,46%
4 34 8 18 30,77% 69,23%
5 20 8 26 30,77% 100,00%

  VARIABLE FRECUENCIA ABSOLUTA FRECUENCIA RELATIVA


  Mínimo Máximo Simple Acumulada Simple Acumulada
1 0 10 5 5 33,33% 33,33%
2 11 20 6 11 40,00% 73,33%
3 21 30 4 15 26,67% 100,00%
De las observaciones anterior podemos ver que la organización de la
información es muy importante, incluso desde el punto de vista de la
planeación.
Si una pregunta está mal elaborada. Las respuestas obtenidas pueden
generar un desgaste en la clasificación de la información solicitada.

Imaginemos una sola pregunta para


generar una observación y tabular
una respuesta.
Pregunta:
En que colegio estudia?

Posibles respuestas:

Institución educativa Departamental Jorge Emilio Sánchez


Institución educativa departamental jorge emilio sanchez
IDE Jorge Emilio Sánchez
Jorge Emilio Sánchez de Cundinamarca
JES Cundinamarca
IDE Jorge emilio Sánchez Cundinamarca
Colegio Jorge Emilio Sánchez
Jorge Emilio sanches

La organización de las respuestas dadas puede generar una complicación en


tiempo para el analizador de la información
Si organizo mi pregunta muy estructurada así (pregunta de selección):

En que colegio estudia?

o IDE Jorge Emilio Sánchez


o IDE Pascual Benigno
o IDE Monseñor Gutiérrez

Si estoy realizando mi encuesta de forma automatizada con este tipo de


respuesta, podré organizar los resultados de una forma muy rápida sin
contemplación a errores o valores atípicos o faltantes.

Por ello, desde la planeación es más concebible realizar preguntas con


respuesta cerrada (si – no; Blanco – negro; día – noche); que permiten
ordenar la información para una mejor interpretación.
Tabla de datos organizados sobre unas preguntas específicas
CUENTA CON LOS SIGUIENTES EQUIPOS? TIENE INTERNET? TIENE DATOS EN EL CELULAR? ZONA EN LA QUE VIVE
CELULAR SI NO RURAL
CELULAR SI NO URBANA
CELULAR SI NO URBANA
CELULAR, COMPUTADOR SI NO URBANA
CELULAR, COMPUTADOR SI NO RURAL
CELULAR, COMPUTADOR SI NO URBANA
CELULAR, COMPUTADOR SI NO URBANA
CELULAR, COMPUTADOR NO SI RURAL
CELULAR SI NO URBANA
CELULAR NO NO RURAL
CELULAR NO NO URBANA
CELULAR NO NO RURAL
CELULAR, COMPUTADOR NO NO RURAL
CELULAR, COMPUTADOR SI NO URBANA
CELULAR NO NO RURAL
CELULAR NO SI RURAL
CELULAR NO NO RURAL
COMPUTADOR SI NO RURAL
CELULAR SI NO URBANA
CELULAR NO NO RURAL
CELULAR SI NO RURAL
CELULAR, COMPUTADOR SI NO RURAL
SI NO RURAL
CELULAR NO NO URBANA
De la tabla anterior podemos ver que la información está inicialmente
organizada y que nos genera a simple vista la presentación de la
información.

La misma tabla no nos dice nada, simplemente tiene organizada la


información desde la primera observación hasta la última (para un total
de 24 observaciones)

Tenemos unos resultados de la observación que no nos dicen


absolutamente nada, es preciso por tanto organizar la información de
una forma tal que puede ser interpretada por cualquier lector.

Veamos esa información presentada en una tabla dinámica


Tabla de datos organizados en una tabla dinámica
ZONA EN LA QUE VIVE TIENE INTERNET? Cuenta de TIENE INTERNET?
RURAL NO 8
SI 6
URBANA NO 2
SI 8
Total general 24

CUENTA CON LOS SIGUIENTES EQUIPOS? Cuenta de CUENTA CON LOS SIGUIENTES EQUIPOS?
CELULAR 14
CELULAR, COMPUTADOR 8
COMPUTADOR 1
(en blanco)
Total general 23

CUENTA CON LOS SIGUIENTES EQUIPOS? ZONA EN LA QUE VIVE Cuenta de CUENTA CON LOS SIGUIENTES EQUIPOS?
CELULAR RURAL 8
URBANA 6
CELULAR, COMPUTADOR RURAL 4
URBANA 4
COMPUTADOR RURAL 1
(en blanco) RURAL
Total general 23
De la tabla anterior podemos ver que la información está organizada
de una mejor forma y aunque no es el tipo de presentación más
optimizada, si me da una razón más cuadriculada o matemática de los
resultados.
Esta información si nos dice cuantos, y es tan clara que me muestra
hasta el número de personas que no respondieron a una pregunta.

Podría inclusive ver esa información en un gráfica que me muestre


participación por número de observaciones.

Veamos algunas de estas gráficas de las tablas anteriores:


Chart Title Chart Title
9
8 1
7
6 CELULAR
5 CELULAR, COMPUTADOR
8 COMPUTADOR
4
(en blanco)
3
14
2
1
0
RURAL NO RURAL SI URBANA NO URBANA SI
Chart Title

4
1 8 CELULAR RURAL
CELULAR URBANA
CELULAR, COMPUTADOR
RURAL
CELULAR, COMPUTADOR
URBANA
COMPUTADOR RURAL
4 (en blanco) RURAL
6

También podría gustarte