Documentos de Académico
Documentos de Profesional
Documentos de Cultura
REDUCCIÓN DE DATOS.
MEDIDAS DESCRIPTIVAS BÁSICAS Y REPRESENTACIONES BÁSICAS
De la organización a la descripción de los casos
En Estadística, el concepto más importante es la VARIABILIDAD, es decir, el estudio de la dispersión
de las puntuaciones.
En Estadística, pretendemos estudiar la magnitud de la variabilidad y alguna otra característica ligada
a la misma. Cuando efectuamos contraste de hipótesis, se tratará de encontrar posibles variables
asociadas (que expliquen) la variabilidad de los datos.
Variables características o propiedades que pueden variar de unos sujetos a otros.
Constante contrario a variable. Cuando todos los sujetos tienen la misma puntuación, cuando no
hay diferencias y por tanto, no hay variabilidad.
Principales medidas en Estadística descriptiva:
O medidas de tendencia central.
O medidas de variabilidad o dispersión.
O representaciones gráficas de las distribuciones de datos.
2º) La MODA es el valor de frecuencia absoluta más alta, la puntuación que más se repite en la distribución.
La moda no necesita ningún cálculo, es directamente la puntuación. Podemos encontrar
distribuciones bimodales, con dos puntuaciones de moda; ó plurimodales, con más de dos
puntuaciones que tienen la misma frecuencia alta.
MODA (Mo)
Se denomina Moda a la frecuencia más repetida.
Es una medida muy imprecisa, utilizada únicamente para tener una aproximación sobre los valores dominantes de la
serie.
Cálculo de la Moda
Datos no agrupados: es la puntuación más repetida.
En el ejemplo que venimos analizando la Mo = 10
3º) La MEDIANA es el valor de la distribución que deja por encima y por debajo de si al 50% de los sujetos de
la muestra, es decir, el valor central de la distribución de frecuencias.
Ordenadas las puntuaciones de menor a mayor, la puntuación que ocupa la posición central, esa es
la mediana. Coincide con el percentil 50.
Para calcular la mediana, observamos la columna de frecuencias acumuladas y comprobamos qué
puntuación ocupa el lugar central (50%), es decir, buscamos N/2.
Cuando N sea par, no tenemos una puntuación central, sino dos. En este caso, se recomienda hallar
la media aritmética de las puntuaciones correspondientes a esa `posición central. (ver tablas 5.1; 5.2
y 5.3 págs. 98 y 99)
La ͞x es sensible a las puntuaciones extremas, pero no ocurre esto con la Md , ni con la Mo. Por
ello, la Md puede ser una medida preferible a la ͞x cuando las puntuaciones extremas pueden
distorsionar la verdadera tendencia central del grupo.
Cuando el nivel de medida sea ordinal, solo podremos utilizar la Md y la Mo. Con medidas
nominales, solo podemos utilizar la Mo (excepto en el caso de dicotómicas).
lOMoARcPSD|2026229
En general cuanto más simétrica sea una distribución de frecuencias, mayor proximidad se da entre
los valores X, Md y Mo.
En el modelo de la distribución normal que es simétrica por definición, una de sus propiedades es
X = Md = Mo
Cuando la distribución es asimétrica sesgada en sus valores hacia la derecha, asimétrica negativa,
la media es menor que la mediana y ésta menor que la moda. Media<Mediana<Moda.
Cuando la distribución es asimétrica sesgada en sus valores hacia la izquierda, asimétrica positiva,
la
1º) la DESVIACIÓN MEDIA corresponde a una media aritmética de las desviaciones de las puntuaciones
directas respecto de la . Si la DM es alta, significa que las puntuaciones están alejadas o se desvían mucho
de su ; mientras que si es pequeña, significa que las puntuaciones del grupo están próximas a la .
*Cálculo de la Desviación Media de la Media (datos no agrupados)
X X-
X
8 4
5 1
5 1
3 1
2 2
1 3
24 12
X̄ =
24
DM=
∑ |X- { X̄|=12 =2 ¿
6 n 6
2º) La DESVIACIÓN TÍPICA es el índice más conocido y utilizado, representándose por s (estadístico) ó por
(parámetro). El mismo, pero elevado al cuadrado, recibe el nombre de VARIANZA (s² ó ²)
X X2 x x2
1 1 -4 16
3 9 -2 4
5 25 0 0
6 36 1 1
10 100 5 25
0 0 0
Otras fórmulas: sin agrupar los datos (en PD)
X X2 x x2
1 1 -4 16
3 9 -2 4
5 25 0 0
6 36 1 1
10 100 5 25
0 0 0
2
2 ∑ X 171 2
s= − X̄ 2= −5 =9 ' 2
Directas n 5
25
X̄ = =5
Siendo 5
I f X Xf X2f x x2 x2f
9-11 1 10 10 100 6 36 36
6-8 2 7 14 98 3 9 18
3-5 5 4 20 80 0 0 0
0-2 4 1 4 4 -3 9 36
0 0 0 0
2
∑ X 2 f ∑ Xf 282 48 2
P. Directas
2
s=
n
− ( )n
=
12
−( )
12
=7 ´ 5
2
2 ∑ x f 90
s= = =7 ' 5
P. Diferenciales n 12
3º) La AMPLITUD o RECORRIDO de una variable se calcula como la diferencia entre la puntuación mayor y la
menor, más uno:
A = (Xi)mayor – (Xi)memor + 1
Esta medida se utiliza sobre todo para organizar los datos de una distribución de frecuencias en
intervalos y realizar gráficos.
También nos sirve para interpretar el valor de la s. Cuando tenemos s = 2, en una A = 5, es una s muy
alta. Sin embargo, con s = 2 y A =100, entonces es una s muy pequeña.
lOMoARcPSD|2026229
La A se utiliza como medida de dispersión solo cuando no se puede calcular otra ó como
complemento de la Mo, en niveles de medida nominales.
4º) La DESVIACIÓN SEMI-INTERCUARTÍLICA, representada por Q2, indica la dispersión en el 50% central de la
distribución.
Es adecuada cuando el nivel de medida es ordinal (coincidiendo con la Md)
También es adecuada cuando existan puntuaciones extremas que pueden distorsionar en exceso la
S, puesto que en el valor de Q se prescinde del 25% inferior y del 25% superior, calculando el valor
del Q50 entre los percentiles 25 y 75
5º) Otro índice de variabilidad es el COEFICIENTE DE VARIACIÓN (V), que nos permite comparar la
variabilidad entre variables que tienen distinta amplitud. Dado que dos S procedentes de instrumentos con
distinta A, ó diferente escala de medida no son directamente comparables, calculamos V en porcentajes:
A mayor valor de V, más heterogéneo es el grupo y más variabilidad tienen sus medidas.
Ejemplo: tenemos un grupo A de 4º de la ESO que han obtenido una Media de 7 y una desviación
típica de 3; tenemos otro grupo B, también de 4º de la ESO, que han obtenido una media de 6 y una
desviación típica de 3. ¿Cuál de los dos grupos es más homogéneo o con menos variabilidad?
s
CV = . 100
X̄
3
CV = 100=42 ' 86→43 %
Grupo A 7
3
CV = 100=50→50 %
Grupo B 6
Las variables dicotómicas son aquellas que sólo pueden tomar dos valores.
Ejemplo : supongamos que hemos hecho la siguiente pregunta en una encuesta → ¿te gustan las
matemáticas?......SI NO
Hemos codificado los SI como 1 y los NO como 0
Tenemos una muestra de 50 sujetos, 30 han contestado SI y 20 han contestado NO
¿Cuál es la media?: es el número de Si dividido entre el número total de sujetos → Media = 30/50 = 0’6
Esta media indica la proporción de sujetos que han respondido con un SI a esta pregunta y se representa
por una p; la proporción de sujetos que han respondido NO, en nuestro caso 20/30 = 0’4, se representa
por una q,
siendo p+q = 1
¿Cuál es la desviación típica y la varianza?
s= √ pxq=√ 0' 6x 0' 4=0' 49
2
s =pxq=0' 6 x 0' 4=0' 24
- simétrica
Mo = Me = Media
- asimetría positiva: la mayoría de los individuos tienden a concentrarse en la parte baja de las
puntuaciones de la distribución de frecuencias
Mo < Me < Media
- asimetría negativa: los sujetos tienden a agruparse en torno a las puntuaciones altas de la distribución
Media < Me < Moda
El apuntamiento ó curtosis indica el grado en el que la distribución es más o menos picuda; o más o menos
abierta o dispersa respecto a su media.
más chata ó aplanada platicúrtica g2 < 0,263
más apuntada y estrecha leptocúrtica g2 > 0,263
curva nornal mesocúrtica g2 = 0,263
REPRESENTACIONES GRÁFICAS
A partir de una distribución de frecuencias es muy fácil realizar una representación gráfica;
aunque no hay unas normas muy estrictas, se recomienda adaptar el tipo de gráfico al nivel de medida
de las variables.
Gráfico de sectores o ciclorama
Se utiliza para representar variables con nivel de medida nominal; tiene forma circular y está
dividido en porciones, de modo que cada porción representa la presencia proporcional de cada
uno de los niveles de la variable
Ejemplo: tenemos una muestra de 100 alumnos de Estadística Aplicada a la Educación, y nos
interesa saber su procedencia
Murcia (1): 30 alumnos
Cartagena (2): 45
Lorca (3): 10
Noroeste (4): 7
Mazarrón y Águilas (5): 5
5
4
3
r c
P o
n
d
e
2 ia
1
Otros (6). 3
Gráfico de barras
Suele utilizarse para variables con nivel de medida ordinal, aunque también es frecuente
utilizarlo cuando el nivel de medida es nominal y para realizar comparaciones de variables
clasificatorias o categóricas.
Podemos representar los datos del ejemplo anterior en un diagrama de barras
Histograma
Es muy parecido al gráfico de barras, pero se utiliza para variables cuantitativas continuas con
nivel de medida de intervalo o de razón. Las barras en vez de estar separadas están juntas.
Se suele utilizar con puntuaciones agrupadas en intervalos, estando los intervalos representados
en la abcisa, mientras que en la ordenada se representan las frecuencias
Podemos también representar la curva uniendo los puntos medios de cada rectángulo y
suavizando los picos, lo que nos daría una representación denominada polígono de frecuencias
Gráfico de caja
Es un gráfico para hacerse idea rápida de la distribución de las puntuaciones en la zona central
(desde el percentil 25 al percentil 75)
Es muy útil para comparar visualmente grupos medidos en distintad variables
Represetnaciones gráficas
Ver páginas 108 a 114 (a.i.)