Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Reducción de datos
Medidas descriptivas básicas y representaciones gráficas
A.T. Amplitud Total o Rango: diferencias entre las puntuaciones mayor y menor,
más uno
n nº total de casos de la muestra
fi frecuencia = nº de veces que aparece una determinada puntuación
Ejemplo
En una clase de 2º de la ESO 30 alumnos han obtenido las siguientes puntuaciones en
una prueba de Conocimientos Generales:
37, 38, 41, 42, 42, 42, 45, 45, 48, 48, 50, 52, 54, 54, 54, 54, 55, 55, 55, 57, 57, 60, 61,
62, 62, 67, 68, 72, 74, 75
AT = 75 - 37 + 1 = 39
2º) Determinar el nº de intervalos que se van a utilizar: una regla general (aunque
no la única) es la siguiente
nº I n 30 5'48 6
AT 39
i 6'5 7
nª I 6
4º) Determinar el límite superior del intervalo máximo y el inferior del
intervalo mínimo: si tenemos 6 intervalos con 7 puntuaciones en cada uno de ellos,
nos saldrá un total de 6 7 = 42 puntuaciones, aunque en nuestro caso real sólo
tenemos 39, por lo que nos sobran 3; para que la tabla no quede demasiado diferente
de los datos reales esas 3 puntuaciones sobrantes las vamos a repartir añadiéndolas, 2
por arriba y 1 por abajo. Por lo que la escala quedaría de la siguiente manera
I f X
71-77 3 74
64-70 2 67
57-63 6 60
50-56 9 53
43-49 4 46
36-42 6 39
AT = 18 - 7 + 1 = 12
nº I = n 15 4
AT 12
i= 3
nº I 4
I f X
16-18 2 17
13-15 3 14
10-12 6 11
7-9 4 8
MEDIA (X )
- Se puede definir como: la suma de todos los valores de una variable dividida por
el nº total de observaciones de la muestra.
- Es la medida de tendencia central más usada en cualquier análisis de datos, debido
a sus propiedades matemáticas.
- Como en el cálculo de la media se consideran todas y cada una de las
puntuaciones, cualquier variación en alguna de ellas repercute en el resultado
final. Es, en este sentido, más sensible que la mediana y la moda.
- Es el índice de tendencia central más estable, es decir, el que tiene menos
fluctuaciones en diferentes muestras de una población.
- No se debe aplicar en distribuciones asimétricas, abiertas o incompletas.
- Requiere que los datos tengan una medida de intervalo.
Cálculo de la Media
Datos no agrupados
X
X i
n
Ejemplo:las puntuaciones de 15 alumnos en una prueba de vocabulario son:
X
X
171
11'4
n 15
Datos agrupados
X
Xf
n
Siguiendo con el ejemplo anterior
I f X Xf
16-18 2 17 34
13-15 3 14 42
10-12 6 11 66
7-9 4 8 32
15 174
X
Xf
174
11'6
n 15
Podemos hallar también la Media con datos agrupados, pero sin escala de
intervalos
X f Xf
7 1 7
8 2 16
9 1 9
10 4 40
11 2 22
13 1 13
15 2 30
16 1 16
18 1 18
15 171
X
X i f
171
11'4
n 15
MEDIANA (Md)
La Mediana es otra medida de posición que, por definición, debe ser de tendencia
central.
Cálculo de la Mediana
Datos no agrupados
En una serie ordenada de medidas, es el valor correspondiente a la puntuación
que ocupa el número de orden igual a n /2
Ejemplo: siguiendo con el ejemplo que hemos venido utilizando para hallar la
media
Ordenamos las puntuaciones de menor a mayor:
7, 8, 8, 9, 10, 10, 10, 10, 11, 11, 13, 15, 15, 16, 18
Md
La mediana ocupará el lugar 15 /2 = 7’5, por lo tanto dejará 7 puntuaciones por
debajo y 7 por encima.
Datos agrupados
n f a 1
Md Li 2
a
fi
Li = límite inferior del intervalo donde se encuentra la mediana
fa-1= frecuencia acumulada del intervalo inferior
fi = frecuencia del intervalo donde se encuentra la mediana
a = amplitud del intervalo
I f fa
16-18 2 15
13-15 3 13
10-12 6 10 Md
7-9 4 4
Este intervalo se reparte entre 6 sujetos; si la Md deja 7'5 sujetos por debajo,
quiere decir que de este intervalo tiene que coger 7'5 - 4 (que se hallan en el intervalo
anterior)= 3'5 sujetos.
Por lo tanto, con una reglas de tres:
6 sujetos ---- 3 puntuaciones
3'5 sujetos -- x puntuaciones x = 3x3'5/6 = 1'75
Por lo tanto al intervalo inferior que es 9'5 habría que añadirle esta porción de
intervalo, 1'75, luego la Md
MODA (Mo)
Se denomina Moda a la frecuencia más repetida.
Es una medida muy imprecisa, utilizada únicamente para tener una aproximación
sobre los valores dominantes de la serie.
Cálculo de la Moda
Datos no agrupados: es la puntuación más repetida.
En el ejemplo que venimos analizando la Mo = 10
MEDIDAS DE VARIABILIDAD
DISPERSIÓN O VARIABILIDAD
Para poder describir bien las distribuciones de datos tenemos que recurrir, además
de los índices de tendencia central, a otros índices o medidas índices de dispersión
o variabilidad: nos indican el grado de concentración - dispersión de los sujetos
alrededor de sus promedios.
Los índices más importantes son: el recorrido(L), la amplitud total(AT),el
recorrido intercuartil o rango semi-intercuartl(Q), desviación media(DM), desviación
típica(s), varianza(s2),coeficiente de variación(CV)
X
24
DM
X-X
12
2
6 n 6
Tiene el inconveniente que cuando hay unos pocos valores extremos la desviación
media crece desmesuradamente.
Cálculo de la varianza
Datos sin agrupar
Puntuaciones Directas s 2 X 2
X2
n
X 2
Puntuaciones Directas X 2
n cuasivarianza
s2
n 1
x X X
2 2
Puntuaciones Diferenciales s 2
n n
X X2 x x2
1 1 -4 16
3 9 -2 4
5 25 0 0
6 36 1 1
10 100 5 25
25 171 46
X2
171
5 2 9'2
n 5
25
Siendo X 5
5
X 2
25 2
Cuasivarianza X 2
n
171
5 11'5
s2
n 1 4
Diferenciales s
x 2
46
9'2
n 5
Datos agrupados: seguimos con el ejemplo del tema anterior
I f X Xf X2f x x2 x2f
9-11 1 10 10 100 6 36 36
6-8 2 7 14 98 3 9 18
3-5 5 4 20 80 0 0 0
0-2 4 1 4 4 -3 9 36
12 48 282 90
X Xf
2
2
f 2
P. Directas s 2
282 48 7´5
n n 12 12
P. Diferenciales s 2 x 2
f
90
7'5
n 12
Cálculo de la desviación típica
La desviación típica es la raíz cuadrada de la varianza. Por lo tanto para hallarla sólo
tenemos que obtener la raíz cuadrada del valor de la varianza, o a cada una de las
fórmulas vista añadirle la raíz cuadrada
s
X 2
X2 s
X 2
f
X2
n n
s
x 2
s
x 2
f
n n
s
CV .100
X
3
Grupo A CV 100 42'86 43%
7
3
Grupo B CV 100 50 50%
6
Las variables dicotómicas son aquellas que sólo pueden tomar dos valores.
Ejemplo : supongamos que hemos hecho la siguiente pregunta en una encuesta → ¿te
gustan las matemáticas?......SI NO
Hemos codificado los SI como 1 y los NO como 0
Tenemos una muestra de 50 sujetos, 30 han contestado SI y 20 han contestado NO
¿Cuál es la media?: es el número de Si dividido entre el número total de sujetos → Media
= 30/50 = 0’6
Esta media indica la proporción de sujetos que han respondido con un SI a esta pregunta y
se representa por una p; la proporción de sujetos que han respondido NO, en nuestro
caso 20/30 = 0’4, se representa por una q,
siendo p+q = 1
¿Cuál es la desviación típica y la varianza?
- simétrica
Mo = Me = Media
- asimetría positiva: la mayoría de los individuos tienden a concentrarse en la parte
baja de las puntuaciones de la distribución de frecuencias
Mo < Me < Media
- asimetría negativa: los sujetos tienden a agruparse en torno a las puntuaciones altas de
la distribución
Media < Me < Moda
X X
4
1 .f
g2 3
N 4
REPRESENTACIONES GRÁFICAS
A partir de una distribución de frecuencias es muy fácil realizar una
representación gráfica; aunque no hay unas normas muy estrictas, se recomienda adaptar
el tipo de gráfico al nivel de medida de las variables.
Gráfico de sectores o ciclorama
Se utiliza para representar variables con nivel de medida nominal; tiene forma
circular y está dividido en porciones, de modo que cada porción representa la
presencia proporcional de cada uno de los niveles de la variable
Ejemplo: tenemos una muestra de 100 alumnos de Estadística Aplicada a la
Educación, y nos interesa saber su procedencia
Murcia (1): 30 alumnos
Cartagena (2): 45
Lorca (3): 10
Noroeste (4): 7
Mazarrón y Águilas (5): 5 P
5
4
3
2
r c
o
n
d
e
1 ia
Otros (6). 3
Gráfico de barras
Histograma
Es muy parecido al gráfico de barras, pero se utiliza para variables cuantitativas
continuas con nivel de medida de intervalo o de razón. Las barras en vez de estar
separadas están juntas.
Se suele utilizar con puntuaciones agrupadas en intervalos, estando los intervalos
representados en la abcisa, mientras que en la ordenada se representan las
frecuencias