Documentos de Académico
Documentos de Profesional
Documentos de Cultura
6 La Recolección de La Información
6 La Recolección de La Información
información
El ordenamiento de los
resultados de la investigación
Después de planear, y ejecutar un proceso de investigación por medio de un método,
se tiene la información obtenida, la cual se debe presentar de forma ordenada y
fácilmente interpretativa.
Por ello las preguntas deben ser muy bien planeadas junto con sus respuestas para
evitar este faltante que implicaría un error típico frente a la media de los datos
obtenidos.
Si presento unos datos mal encaminados, la respuesta puede estar lejos de la media
deseada.
Codificación
Ordenar la información para
presentarla de una forma
representativa
Codificación
Codificar datos es asignar números a las modalidades observadas o registradas de las
variables que constituyen la base de datos, así como asignar código (valor numérico)
a los valores faltantes (aquellos que no han sido registrados u observados). Ejemplo:
Si la base de datos incluye la variable Sexo, hay que asignar un número a las mujeres
y otro a los hombres. Si se trata de variables cuantitativas, hay que definir el número
de decimales que van a ser registrados.
Introducción de datos
La primera cuestión a considerar es la disposición las variables y las unidades de
observación (generalmente los individuos de los que se recoge los datos). Hay dos
grandes disposiciones generales, la más frecuente consiste en disponer los casos
(generalmente los individuos) por filas y las variables por columnas.
Tabulación de datos
Valores atípicos
Son observaciones cuyos valores son muy diferentes a las otras observaciones del
mismo grupo de datos. Los datos atípicos son ocasionados por:
a) Errores de procedimiento.
b) Acontecimientos extraordinarios.
c) Valores extremos. Por ejemplo, una muestra de datos del número de cigarrillos
consumidos a diario contiene el valor 60 porque hay un fumador que fuma sesenta
cigarrillos al día.
d) Causas no conocidas.
Los datos atípicos distorsionan los resultados de los análisis, y por esta razón hay que
identificarlas y tratarlos de manera adecuada, generalmente excluyéndolos del
análisis.
Valores faltantes
El manejo de los valores faltantes
debe ser muy claro, debe
obedecer a las mismas políticas de
investigación o corporativas.
Los datos faltantes aleatorios pueden perturbar el análisis de datos dado que
disminuyen el tamaño de las muestras y en consecuencia la potencia de las
pruebas de contraste de hipótesis. Los datos faltantes no aleatorios ocasionan,
además, disminución de la representatividad de la muestra.
Tratamiento:
Valores faltantes
De casos completos o eliminación por lista
Este procedimiento consiste en incluir en el análisis los casos que presentan observaciones
completas en todas las variables. Este método solo debe utilizarse cuando el proceso de
recogida de datos es aleatorio, porque en otro caso introduce sesgo.
Selección por variables
Se mantienen en la base de datos los casos con tal que tengan datos en las variables que van
a ser utilizadas para el análisis. Este procedimiento tiene el inconveniente de generar
muestras heterogéneas.
Métodos de imputación
Los métodos de imputación consisten en estimar los valores ausentes en base a los valores
válidos de otras variables y/o casos de la muestra. La estimación se puede hacer a partir de
la información del conjunto completo de variables o bien de algunas variables
especialmente seleccionadas.
Valores faltantes
Principales procedimientos:
Sustitución por la Media. Consiste en sustituir el valor ausente por la Media de los valores
válidos. Este procedimiento plantea inconvenientes como:
Dificulta la estimación de la Variáncia.
Distorsiona la verdadera distribución de la variable,
Distorsiona la correlación entre variables dado que añade valores constantes.
Sustitución por constante. Consiste en sustituir los valores ausentes por constantes cuyo
valor viene determinado por razones teóricas o relacionadas con la investigación previa.
Presenta los mismos inconvenientes que la sustitución por la Media, y solo debe ser
utilizado si hay razones para suponer que es más adecuado que el método de la media.
Imputación por regresión. Este método consiste en estimar los valores ausentes en base a
su relación con otros variables mediante Análisis de Regresión.
Valores faltantes
El manejo de los valores faltantes
debe ser muy claro, debe
obedecer a las mismas políticas de
investigación o corporativas.
0 10 5 5
11 20 6 11
21 30 4 15
Como podemos apreciar, la tabla nos muestra que 5 personas tienen entre o y 10 años;
6 personas tienen entre 11 y 20; 4 personas tienen entre 21 y 30
Una correcta organización de la información me permite en consecuencia
generar datos, conclusiones y posibles análisis adicionales a la información
principal.
Ejm.:
VARIABLE FRECUENCIA ABSOLUTA FRECUENCIA RELATIVA
No. Valor Simple Acumulada Simple Acumulada
1 12 2 2 7,69% 7,69%
2 23 3 5 11,54% 19,23%
3 45 5 10 19,23% 38,46%
4 34 8 18 30,77% 69,23%
5 20 8 26 30,77% 100,00%
Posibles respuestas:
CUENTA CON LOS SIGUIENTES EQUIPOS? Cuenta de CUENTA CON LOS SIGUIENTES EQUIPOS?
CELULAR 14
CELULAR, COMPUTADOR 8
COMPUTADOR 1
(en blanco)
Total general 23
CUENTA CON LOS SIGUIENTES EQUIPOS? ZONA EN LA QUE VIVE Cuenta de CUENTA CON LOS SIGUIENTES EQUIPOS?
CELULAR RURAL 8
URBANA 6
CELULAR, COMPUTADOR RURAL 4
URBANA 4
COMPUTADOR RURAL 1
(en blanco) RURAL
Total general 23
De la tabla anterior podemos ver que la información está organizada
de una mejor forma y aunque no es el tipo de presentación más
optimizada, si me da una razón más cuadriculada o matemática de los
resultados.
Esta información si nos dice cuantos, y es tan clara que me muestra
hasta el número de personas que no respondieron a una pregunta.
4
1 8 CELULAR RURAL
CELULAR URBANA
CELULAR, COMPUTADOR
RURAL
CELULAR, COMPUTADOR
URBANA
COMPUTADOR RURAL
4 (en blanco) RURAL
6