Está en la página 1de 47

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

(Universidad del Perú, DECANA DE AMÉRICA)

FACULTAD DE CIENCIAS BIOLÓGICAS

PROCESAMIENTO Y ANÁLISIS DE
DATOS

Mg. Ysela Agüero Palacios


Profesora Principal/UNMSM

1
OBTENCION DE DATOS
Los métodos utilizados para la obtención y el análisis
de datos dependen de :
• Los objetivos del estudio,
• El diseño de la investigación
• El instrumento utilizado (fichas, cuestionarios,
equipo de laboratorio, etc.)
INSTRUMENTO DE MEDICIÓN
Recolectar los datos implica tres actividades estrechamente
vinculadas entre si:
• Seleccionar un instrumento de medición o desarrollar uno
(Debe ser válido y confiable, de lo contrario no podemos
basarnos en sus resultados).
• Aplicar el instrumento de medición. Es decir, obtener las
observaciones y mediciones de las variables que son de
interés para el estudio.
• Preparar las mediciones obtenidas para que puedan analizarse
correctamente (a esta actividad se le llama codificación de
datos).
ESCALAS DE MEDICIÓN
Antes de aplicar cualquier técnica para resumir los datos es
importante verificar la escala en que han sido medidas las
variables estadísticas.
Variables categóricas:
- Nominal
- Ordinal

Variables cuantitativas ( discretas o continuas )


- - Discretas
- - Continuas
Base de datos de raíces de cebolla
IDENTIFICACIÓN RAÍZ REGIÓN DE LA RAIZ LONGITUD
1 1 Cima (Apical) 0,023
2 1 Cima (Apical) 0,030
3 1 Cima (Apical) 0,029
4 1 Alargada (Elongated) 0,105
5 1 Alargada (Elongated) 0,113
6 1 Alargada (Elongated) 0,058
7 2 Cima (Apical) 0,033
8 2 Cima (Apical) 0,021
9 2 Cima (Apical) 0,031
10 2 Alargada (Elongated) 0,107
11 2 Alargada (Elongated) 0,052
12 2 Alargada (Elongated) 0,127

Cada fila de la tabla contiene los datos de un individuo (cebolla)


Base de datos de raíces de cebolla
IDENTIFICACIÓN RAÍZ REGIÓN LONGITUD
DE LA
RAIZ Codificación
1 1 1 0,023
2 1 1 0,030 Raiz:
3 1 1 0,029 1= Raíz 1
4 1 2 0,105 2= Raíz 2
5 1 2 0,113
6 1 2 0,058 Región:
7 2 1 0,033 1= Cima
8 2 1 0,021 (Apical)
9 2 1 0,031 2= Alargada
(Elongated)
10 2 2 0,107
11 2 2 0,052
12 2 2 0,127
ORGANIZACIÓN Y PRESENTACIÓN
DE DATOS
Cuando la base de datos ya está digitada podemos importar los
datos a un programa (paquete) estadístico para proceder a
organizar y presentar con el fin de extraer la información.

- La primera tarea es realizar un análisis exploratorio con la


finalidad de encontrar y corregir posibles errores de
digitación, inconsistencias en los datos etc.
- Resumir los datos en tablas de frecuencias y gráficos
- Una vez que se han detectado y corregido los errores se
procede al análisis descriptivo.

7
ORGANIZACIÓN Y PRESENTACIÓN DE DATOS
Los procedimientos de organización y presentación de los datos
tienen por objetivo reducir el volumen de datos resumiéndolos de
manera que se puedan observar los comportamientos sistemáticos.

Tablas estadísticas
- Tablas de frecuencias (resumen una sola variable
- Tablas cruzadas o de contingencia (resumen dos o más
variables).

Gráficos estadísticos
EJEMPLO
Los datos mostrados a continuación corresponden al número de
células anormales en 50 cultivos.
0 2 2 3 3 4 4 0 0 2 0 1 3 2 2 2 2
1 4 2 0 1 2 4 2 0 2 2 0 4 0 1 2 1
1 1 3 0 1 4 1 4 5 3 0 3 0 0 3 1
Es necesario organizar y resumir los datos para extraer la
información.
Cultivo Número de células
Anormales (X)
1 0
2 2
::::
50 1

9
TABLAS DE FRECUENCIAS.
Son arreglos que resumen el conjunto de datos correspondientes
a una variable.
Ejemplo:
Tabla Nº 1 Número de células anormales en cultivos
Número de células Número de Porcentaje
anormales cultivos
(Frec. Relativas)
0 12 24.0
1 10 20.0
2 13 0.26
3 7 0.14
4 7 0.14
5 1 0.02
Total 50 100.0

10
GRÁFICOS PARA UNA VARIABLE CUANTITATIVA

Número de
cultivos Tallo y Hojas

12 0 |000000000000
10 1 |0000000000
13 2 |0000000000000
7 3 |0000000
7 4 |0000000
1 5 |0

Stem width: 1,00


Each leaf: 1 case(s

11
TABLAS DE CONTINGENCIA

▪ Son arreglos que resumen dos o mas variables.


▪ Se utilizan cuando las variables son categóricas.
▪ Muestran la distribución de frecuencias de cada una de las
variables y la frecuencia de cada combinación de categorías
de las variables

12
EJEMPLO
Un grupo de investigadores estudiaron la manifestación de los
antígenos de histocompatibilidad de clase I en el carcinoma de
células de trasmisión de la vejiga urinaria, mediante la técnica
de inmunoperoxidasa, y la correlacionaron con la diferenciación
tumoral y la supervivencia.
Los investigadores afirman que debido a que la microglobulina
ß2 siempre se manifiesta en la superficie de la célula con
antígeno de clase I, es un marcador seguro para la presencia de
antígenos de histocompatibilidad de clase I.
Seleccionaron una muestra de 69 pacientes con carcinoma
invasivo de células de transición. Los resultados se resumen en
la tabla Nº 2..

13
Tabla Nº 2 Diferenciación tumoral y Manifestaciones de microglobulina 2

Diferenciación Manifestaciones de
microglobulina B2 Total
tumoral
Positivo Negativo
Grado 1 15 8 23

Grado 2 18 9 27

Grado 3-4 7 12 19

Total 40 29 69

14
Tabla Nº 2 Diferenciación tumoral y Manifestaciones de microglobulina
2 (Porcentajes por Filas)

Manifestaciones de microglobulina B2
Diferenciación Total
Positivo Negativo
tumoral
n % n % n %
Grado 1 15 65,2 8 34,8 23 100,0
Grado 2 18 66,7 9 33,3 27 100,0
Grado 3-4 7 36,8 12 63,2 19 100,0
Total 40 58,0 29 42,0 69 100,0

Lo mismo se puede hacer por columnas y


con respecto al total

15
GRÁFICOS
Manifestaciones de
20
microglobulina B2 Manifestaciones de
30
Positivo microglobulina B2
Negativo Positivo
Negativo

15

20
Número de cultivos

Frecuencia
10

10

0
Grado 1 Grado 2 Grado 3-4

0
Diferencia de tumor
Grado 1 Grado 2 Grado 3-4
Casos ponderados por VAR00001
Diferencia de tumor

Figura Nº Diferenciación tumoral y Manifestaciones de


microglobulina 2

16
GRÁFICO DE BARRAS

17
GRÁFICO DE CAJAS
Figura 3.
Concentración de plomo en los dientes de Cada caja es equivalente a un
leche de niños y niñas, según edad. histograma de frecuencias.
- Permite resaltar datos atípicos
- No es afectado por datos extremos.
- Permite responder a las dos
preguntas
- ¿Alrededor de que valor se
encuentran los datos?
- ¿Cómo se distribuyen los datos
alrededor del valor central?
se construye a partir de:
• Observación con valor mínimo
• Observación con valor máximo
• Percentiles 25, 50 y 75
DISTRIBUCIÓN DE ABUNDANCIA DE
ESPECIES

19
GRÁFICO LINEAL

▪ ¿Cuál es la riqueza
de especies en la
comunidad? A?

▪ ¿Cuál de las
comunidades tiene
mayor diversidad?

Figura Nº Curvas de orden de abundancia

20
Figura Nº Peso y longitud de las alas de aves hembras
de las especies de la familia Phasianidae

5000,00

Wild-Turkey

4000,00

3000,00
masa

Caspian-Snowcock

Western-Capercaillie
2000,00

1000,00

0,00

100,00 200,00 300,00 400,00 500,00

alas
Figura Nº Longitud de alas, tarso y cola de aves hembras de las
especies de la familia Phasianidae
500

Wild-Turkey

400

Wild-Turkey

300 Western-Capercaillie

Caspian-Snowcock

Wild-turkey
200 Western-Capercaillie

Caspian-Snowcock

Wild-Turkey

100 Blue-Grouse

0
Western-Capercaillie
alas tarso cola

22
GRÁFICO DE DISPERSIÓN

23
MAPAS
Distribución espacial de una enfermedad

24
RECOMENDACIONES PARA ELABORAR GRÁFICOS
No es fácil dar consejos generales en cuanto a cómo elaborar un gráfico, sólo se
pueden dar normas básicas mínimas :
• El gráfico cumple una función estética, que fomenta la lectura del texto y ayuda a su
comprensión.
• Lograr consenso en el aspecto estético es donde será más complicado
• La única norma general es buscar sencillez y claridad,
• El uso del color debe ser moderado y bien elegido.
• En la imagen debe haber un adecuado balance entre el espacio en blanco y el que
contiene datos.
• Debe existir una adecuada relación entre el texto, las tablas y las imágenes,
• Deben ser fáciles de localizar , esto es deben estar próximas al texto donde son
referenciadas y de ser posible en la misma página.
En el gráfico ideal no será necesario acudir a las tablas para
la interpretación
INDICADORES RESUMEN

26
MEDIDAS O INDICADORES RESUMEN DE DATOS
Se calculan con el objetivo de dar respuesta a las
preguntas:

¿Alrededor de qué valor se agrupan los datos?


Si se agrupan alrededor de un número,
¿cómo se agrupan?
¿están concentrados?,
¿están dispersos?.
MEDIDAS DE TENDENCIA CENTRAL
se utilizan las medidas de tendencia central para responder a la
pregunta:
¿Alrededor de qué valor se agrupan los datos?
 Media aritmética
Las variables deben ser medidas en escala de intervalo o razón
(numéricas). Se denota como (media muestral) y  (media
poblacional) X
 Mediana.
Para su cálculo es necesario ordenar los datos de menor a mayor. Las
variables deben estar medidas como mínimo en escala ordinal (ordinal,
intervalo/ razón).
 Moda.
Se refiere al valor más frecuente de un grupo de observaciones. Se
puede calcular cuando las mediciones son numéricas o categórica
(cualesquiera de las cuatro escalas)
EJEMPLO.
Considerar los datos del número de células anormales en los cultivos

¿Alrededor de qué valor se agrupa el número de células


anormales ?
Número de Número de células anormales
Observaciones Media aritmética Mediana Moda
50 1,8 2 2

• El promedio el número de células anormales en los 50 cultivos es


dos
• 50% de los cultivos tienen 2 o menos células anormales
• El número más frecuente de células anormales en los 50 cultivos
es dos.).
EJEMPLO.
En un cultivo se encontraron 15 células anormales
¿Alrededor de qué valor se agrupan el número de células anormales?

Número de Número de células anormales


Observaciones Media aritmética Mediana Moda
50 2,6 2 2
MEDIDAS DE TENDENCIA CENTRAL
MEDIA GEOMÉTRICA
En algunos casos los datos pueden tener una variación geométrica
en lugar de crecer en progresión aritmética.
En estos casos un tipo de promedio que puede ser usado es la
media geométrica.
La media geométrica se puede expresar de dos formas:
a) Como la raíz n-esima del producto de las n observaciones

 x = (( x )( x )...(x ))
n

XG =
1/ n
n
i 1 2 n
i =1

b) Como la media aritmética de los logaritmos de las observaciones


n

log( x )
log( x ) + log( x ) + .... + log( x )
i

X G
= i =1
= 1 2 n

n n
OBSERVACIONES
 Los indicadores de tendencia central más utilizados son la media y la
mediana.
 La media es muy sensible a la variación de las observaciones por lo
que es aconsejable calcular ambos indicadores, si coinciden entonces
se opta por la media aritmética, en caso, contrario es necesario
realizar un análisis más exhaustivo de los datos para averiguar las
razones de esta diferencia, pero en estos casos la mediana puede ser
más confiable.
 La moda es utilizada principalmente cuando la variable es estudio es
categórica nominal ya sea con dos categorías (dicotómica) o con
varias categorías (politómica ) y los datos están dispuestas en tablas
de frecuencias.
 La media geométrica se utiliza cuando las observaciones varían en
progresión geométrica
MEDIDAS DE DISPERSIÓN

Una vez que se ha determinado el valor alrededor del cual se agrupan


los datos, ahora se tratará de responder a la segunda pregunta:
¿Cómo se agrupan las observaciones alrededor del valor central?
¿Están concentrados? , ¿son homogéneos?
¿están dispersos? , ¿son heterogéneos?

Esto da lugar a la necesidad de calcular indicadores de variación o


dispersión.
MEDIDAS DE DISPERSIÓN
 Rango :

Se obtienen los valores mínimo y máximo del total de datos

 Varianza

Son las desviaciones de las observaciones con respecto a la media


aritmética. Se denota como S2 (varianza muestral) y 2 (varianza
poblacional

 Desviación estándar o desviación típica (S, ).

Es la raíz cuadrada de la varianza


LOS VALORES MÁXIMO Y MÍNIMO COMO INDICADORES
DE DISPERSIÓN
El número promedio de células anormales fue de 1,8 , ¿Cuál es el grado de
variación de los datos alrededor de este promedio?

Número de Número de células anormales


Observaciones Media aritmética Mediana Mínima Máxima
50 1.8 2 0 5

• Se observaron 50 cultivos cuyo número de células anormales varía entre


0 y 5, el promedio fue de 1.8 células anormales..
• El 50 % de los cultivos tiene entre 2 y 5 células anormales .
LA VARIANZA Y LA DESVIACIÓN ESTÁNDAR
Número de Número de células anormales

cultivos Media aritmética varianza Desviación estándar

50 1,8 2,041 1,429

 El número promedio de células anormales de 1.8 con una desviación


estándar de 1,43, o también se puede escribir como el número
promedio de células anormales de 1,8 ± 1,43.
 La varianza (S2) no es fácil de interpretar pues las unidades están
expresadas al cuadrado (2,0429 número2), entonces se le aplica la
raíz cuadrada para eliminar el cuadrado, dando como resultado la
desviación estándar o desviación típica 1,423) que es más fácil de
interpretar en el análisis descriptivo.
LA VARIANZA

La varianza poblacional se calcula como:


n

(x − )
2

i
( x −  ) + ( x −  ) + ... + ( x −  )
2 2 2

 2
= i =1
= 1 2 n

n n

La varianza muestral se calcula como:


n

(x − x )
2

i
( x − x ) + ( x − x ) + ... + ( x − x )
2 2 2

S 2
= i =1
= 1 2 n

n n
OBSERVACIONES
 La varianza describe la variabilidad o dispersión, por tanto, cuando
los datos están muy alejados de la media, el numerador en la
fórmula será grande y la varianza y la desviación típica también
serán grandes.
 Al aumentar el tamaño de la muestra, disminuye la varianza y la
desviación típica
 Cuando todos los datos de la distribución son iguales (no hay
variabilidad) por lo tanto, la varianza y la desviación típica son
iguales a cero.
 Así como la media aritmética, la varianza no es resistente y puede
ser muy afectado por las observaciones atípicas..
 La varianza es especialmente útil para el cálculo de las estadísticas
usadas en la inferencia estadística.
COEFICIENTE DE VARIACIÓN
Se calcula como:

S
CV % = * 100
X

 Es una medida de variación relativa de los datos (no tiene unidades)


y se calcula dividiendo la desviación estándar entre la media
aritmética, expresada en porcentajes.
 Permite comparar la dispersión o variabilidad de dos o más grupos.

 Ejemplo: Comparación de la variación del número de células


anormales de las muestras de dos laboratorios diferentes..
EJEMPLO:

Comparación de la variación del número de células anormales de


los cultivos realizados bajo dos condiciones diferentes (A y B )
Número de Edad
Media Desviación CV (%)
Condiciones observaciones
aritmética estándar
A 50 1,6 0,89 55,6
B 50 1,8 1,43 79,4
LA FORMA DE LA DISTRIBUCIÓN DE FRECUENCIAS
ASIMETRIA
Un aspecto importante en el análisis de datos referidos a una variable
numérica es observar la forma de la distribución de frecuencias de los
datos. Las formas formas básicas son:

Distribución simétrica D. Asimétrica negativa D. Asimétrica positiva


La distribución simétrica (media=mediana=moda) es el modelo de referencia
para evaluar la distribución de cualquier conjunto de datos.
La mayoría de las técnicas de análisis de datos estadísticos están
construidas para distribuciones simétricas (Distribución normal). Esta es la
razón por la cual es importante analizar la forma de la distribución en el
análisis descriptivo de datos y posteriormente en la inferencia.
Gauss

LA FORMA DE LA DISTRIBUCIÓN DE FRECUENCIAS


CURTOSIS
La curtosis representa el grado de concentración o dispersión de la
distribución de frecuencias de los datos alrededor de su media.

D. Mesocúrtica D. Platocúrtica D. Leptocúrtica


Una variable que presenta una distribución de frecuencias normal
es mesocúrtica y simétrica.

Distribución normal
INDICADORES DE POSICIÓN

Percentiles
Una forma de observar la distribución de los datos es mediante los
gráficos (histogramas, polígonos de frecuencias, la otra es dividir la
distribución en varios segmentos, de igual tamaño. Así se tiene:
Los percentiles que dividen a la serie de datos en 100 partes iguales.
Los valores que delimitan los segmentos se representan por P1,P2..., P99.
Los deciles que dividen a la serie de datos en 10 partes iguales. Los
valores que delimitan los segmentos se representan por P10,P20..., P90.
Los quintiles que dividen a la serie de datos en 5 partes iguales. Los
valores que delimitan los segmentos se representan por P20, P40..., P80.
Los cuartiles que dividen a la serie de datos en 4 partes iguales. Los
valores que delimitan los segmentos se representan por P25, P50,..., P75.
Cuartiles
Los cuartiles dividen la distribución de frecuencias en cuatro partes
iguales de modo que en cada segmento se encuentra el 25% del total de
observaciones.

Polígono de
frecuencias

Diagrama de cajas
REPRESENTACIÓN GRÁFICA DE PERCENTILES
OTROS INDICADORES

➢ Abundancia.- Tamaño absoluto de la población (Total)


➢ Densidad poblacional.- Abundancia por unidad espacial
(área o volumen)
➢ Biomasa de individuos por unidad espacial.-
➢ Conteo de indicios por unidad espacial o temporal
➢ Cobertura (Ej % de suelo cubierto)

46
TAREA
I. En su área de especialización:
1. Describa las características de sus unidades de análisis que le
interesa observar (variables) y en que escala se suelen medir
estas variables (nominal/ordinal/ intervalo/razón).
2. Que uso le podría dar a:
- La media, mediana, media geométrica
- Rango, varianza, desviación estándar, coeficiente de
variación.
II. Elegir una investigación
Utilice la data de alguna de sus investigaciones indique cual fue
el objetivo del estudio, población, diseño del estudio, identifique
las variables e indique la escala de medición de cada una de ellas.
Describa los datos mediante, tablas, gráficos e indicadores
resumen.

47

También podría gustarte