Está en la página 1de 5

4.

- MATRIZ DE DATOS
Conceptos datos primarios y secundarios datos directos e indirectos datos cualitativos y cuantitativos datos agrupados y derivados distribucin muestral y distribucin normal

4.1 CLASIFICACIN DE LOS DATOS


Los datos son valores que puede adoptar una variable, mediante la operacionalizacin de la variable se aclara debidamente como se va a proceder para obtener esa informacin. Por ejemplo si fuera una variable cuantitativa como peso un dato podra ser 56 kilos, si fuera una variables ordinal como una escala del 1 al 5 sobre intensidad del dolor, el dato sera por ejemplo 4 y si fuera una variable nominal como sexo , un dato podra ser sexo femenino. Se pueden clasificar de acuerdo al propsito para el cual se recolectaron los datos Datos primarios: son aquellos que se obtienen especficamente con el fin de satisfacer las necesidades inmediatas de la investigacin, y no han sido an procesados.. Son los que el investigador recoge por si mismos durante el proceso de la investigacin actual Datos secundarios: son registros ya escritos que ya han sido recogidos y muchas veces procesados por otros investigadores o durante otra investigacin Una segunda clasificacin, en base a la elaboracin o no del dato obtenido. Datos directos: Se recolectan de una manera simple, no existen mayores supuestos en el proceso de recoleccin. Ej: peso Datos indirectos: Son obtenidos por medio de operaciones matemticas de los datos directos. Ej: IMB

4.4.1 Volcado de datos


Para que los datos puedan ser analizados fcilmente, necesitamos organizarlos, de modo que podamos distinguir patrones y llegar a conclusiones lgicas. El primer paso es el volcado de datos o sea su pasaje a una matriz Habitualmente, la informacin primaria sobre los individuos, es decir, la forma ms elemental en la que se expresan los datos es la de una matriz, en la que aparecen en la primera columna los individuos identificados de alguna manera (el nombre, las iniciales, el n de historia Clnica, el n en n de registro, etc) y en las siguientes columnas las observaciones de los diferentes caracteres en estudio o variables para cada uno de las unidades de estudio tal y como aparece en la tabla. Ejemplo unidad 1 unidad 2 ... unidad n Variables 1 * * ... * variables 2 * * ... * ... ... ... ... ... variables p * * ... * 28

As, los datos correspondientes a una investigacin llevada a cabo para el estudio de una posible contaminacin radioactiva en un determinado lugar produjeron como resultado la matriz de datos, en donde se recogen las observaciones de los caracteres "edad", "sexo", "cncer", "cada anormal del cabello" y "profesin" en los 100 individuos seleccionados en la muestra. edad 32 29 ... 61 sexo masculino femenino ... masculino cncer no no ... si cada cabello poco no ... mucho profesin agricultor maestra ... agricultor

unidad 1 unidad 2 ... unidad 100

Para los datos cuantitativos simplemente se coloca dentro la matriz el nmero correspondiente, las unidades sern las mismas para todos los datos de esa variable, por lo cual no hace falta agregrsela a cada uno Por ejemplo: edad (aos) = 32 o peso (kilos)= 80 Para los datos cualitativos se podra proceder como en la matriz anterior en el caso de sexo y profesin y cada de cabello, colocando simplemente la palabra que indica la informacin. Esto puede ser muy engorroso para el llenado de la matriz y adems es muy comn que se cometan errores y no se utilice exactamente el mismo trmino, con los cual luego sern analizados como si fueran datos diferentes. Estas razones hacen que lo ms til sea codificar previamente los datos Por ejemplo: sexo masculino = 1 y sexo femenino = 2 Consejos para el armado de una base de datos No deje lneas en blanco, ni lneas donde coloque algn ttulo, los paquetes estadsticos no trabajan as. Revise el sistema si utiliza coma o puntos para los decimales, y escriba todos los datos de igual manera. Si luego va a transportar sus datos a un paquete estadstico use en su base la misma manera que el paquete utiliza Revise como escribe la fecha en el sistema espaol o americano. Fecha dd/mm/aa 25/05/1810 o mm/dd/aa 05/25/1810 y escriba todas las fechas de igual modo Utilice siempre las mismas unidades, todo en cm. o todo en metros, etc., etc. No ponga dos datos en la misma celda, cree una celda para cada uno. Sera un error colocar de esta manera la presin sangunea 150/80 En este caso deberan armar dos columnas una que dijera presin diastolita y sistlica y en cada uno colocar el dato correspondiente

4.4.2 Organizacin y revisin de datos


Datos agrupados: En ocasiones, en los datos cuantitativos que pueden tomar muchos valores, con objeto de facilitar la toma de los datos, el investigador podra agruparlos en intervalos. Puede ser que haya tomado los datos en forma precisa debido al proceso de medicin. Por ejemplo, coloco marcas en la pared cada 10 cm. y tome el dato rpidamente a una gran cantidad de alumnos, porque no me interesa mayor precisin. Si se debe expresar todos los datos con un solo nmero se utilizara en este caso el intervalo de clase o sea el valor medio

29

Datos derivados: Suponga que usted quiere obtener diferencia de peso luego de una dieta; para ellos deber armar dos columnas una que diga peso anterior y otra que diga peso actual. Luego una tercera que llamar diferencia cuya informacin obtendr luego de restar los datos de la segunda columna al de la primera. Siempre que esto sea posible no haga usted la cuenta hgala utilizando la misma base que puede ser un Excel, as no habr error, pero recuerde que ese ser un dato derivado de las otras celdas. Eso tiene algo bueno, no bien cambie usted un datos en las otras columnas se cambiar en la tercera, pero no olvide este detalle, si usted, luego de hacer las cuentas decidiera borrar las columnas anteriores, se borraran tambin la tercera. A pesar de los consejos anteriores es muy comn cometer errores en el volcado de datos, por eso antes de comenzar a trabajar con los datos, se debe ser muy riguroso en su revisin. Los errores encontrados se pueden deber a un inadecuado registro de los datos en las planillas previas, y otras veces en el pasaje a la base de datos. Se pueden evitar con acciones previas y / o posteriores Prevencin: Para evitar estos inconvenientes se puede actuar antes poniendo lmites en la base, para que no acepte valores mayores que los posibles Por ejemplo: no permitiendo que se acepten valores que excedan el valor mximo que puede tomar la variable. Por ejemplo, en los datos sobre edad no permitir que se coloque un valor que exceda las dos cifras Posteriormente: De todas formas siempre se debe proceder a una limpieza de datos corroborando de acuerdo a conceptos lgicos de datos imposibles Verificacin visual: a veces es muy til simplemente mirar toda la base de datos y rpidamente corregir los errores muy llamativos que se observan, inclusive verificar si las celdas vacas se deben a datos faltantes en los registros o aun dficit en el volcado de datos Verificacin de rangos La verificacin de rango compara cada dato con un conjunto de valores permitidos y usuales para esa variable. La verificacin de rango se usa para: -Detectar y corregir valores no vlidos: por ejemplo si codifique sexo en valores 1 y 2 no puede parecer el valor 11 -Identificar e investigar valores inusuales: revisar datos de kilos muy altos o de alturas extremas Verificacin de la consistencia La verificacin de la consistencia examina cada par (a veces ms) de datos relacionados, en relacin con el conjunto de valores habituales y permitidos de las variables como par. Por ejemplo, los hombres no pueden tener datos sobre nmero de abortos Los estudiantes universitarios habitualmente tienen por lo menos 18 aos aunque podra haber alguno menor excepcionalmente. La verificacin de la consistencia se usa para: - Detectar y corregir las combinaciones no permitidas: hombres y abortos - Sealar e investigar combinaciones inusuales: estudiantes menores de 18 aos

30

4.2 DISTRIBUCIN DE DATOS


Luego de la obtencin y volcado de datos en la matriz habindose asegurado de que son los correctos, es importante graficar el comportamiento de estas variables, para observar su comportamiento, sobre todo si son datos cuantitativos. Supongamos que obtuvimos datos de la presin sangunea de una determinada poblacin de pacientes, como tienen infinitos valores posibles los agrupamos en intervalos y armamos un grfico consignando en el eje de las Y, la cantidad de personas que tienen ese valor de presin o frecuencia. Si los intervalos fueran pequeos probablemente nos encontraramos con un grfico de este tipo, donde el eje de las X se graficaran los valores de presin sangunea y en el eje de las Y las frecuencias o sea la cantidad de personas que tienen valores de presin dentro de ese rango

Si se traza una lneas uniendo los puntos medios de cada intervalos (intervalo medio de clase), en este caso, quedara dibujada una figura con forma de campana invertida simtrica, que representara la distribucin de esos datos. Existen diversos tipo de curvas que pueden adoptar una distribucin de datos pero este formato es el ms conocido y se llama distribucin normal, distribucin de Gauss o distribucin gaussiana, porque es una de las distribuciones de probabilidad de variable continua que con ms frecuencia aparece en fenmenos reales. La importancia de esta distribucin radica en que permite modelizar numerosos fenmenos naturales, sociales y psicolgicos. Algunos ejemplos de variables asociadas a fenmenos naturales que siguen el modelo de la normal son: variables biolgicas como el peso, la altura, la presin sangunea, etc. 1. 2. 3. 4. 5. Los valores de la curva son positivos ya que son frecuencias. La curva tiene un valor mximo representado por el valor central. La curva es simtrica con respecto al valor central La curva tiene puntos de inflexin a partir de los cuales disminuye notablemente su rea Las dos colas (extremos) de la curva se extienden de manera indefinida y nunca tocan el eje horizontal, o sea en el eje de las abscisas es asntota horizontal. 6. El rea bajo la curva es la unidad. 7. Para definir una curva de gauss se necesitan dos medida que indique cual es el valor central (la media) y otra que indique la dispersin de los datos (el desvo standard) Igual medida central y diferentes dispersin Igual dispersin y diferente medida central 31

Esta curva tiene una particularidad muy utilizada en estadstica El desvo estndar es una medida de dispersin muy utilizado por tener la siguiente cualidad. En un curva gaussiana el 100% de los datos se encuentran localizados debajo de la curva Y en el rea comprendida: -entre la media y +/- aproximadamente un desvo estndar se encuentra el 68 % de los datos -entre la media y +/- aproximadamente dos desvos estndar se encuentra el 95% de los datos -entre la media y+/- aproximadamente tres desvos estndar se encuentra el 99 % de los datos

Si la distribucin de datos no es simtrica porque tiene desplazado su valor central, se denomina curva sesgada .

Fig. A. Curva Sesgada a la derecha

Fig. B. Curva Sesgada a la izquierda

32