Está en la página 1de 15

Capítulo 4

Reducción de datos
Medidas descriptivas básicas y representaciones gráficas

 INTRODUCCIÓN. DE LA ORGANIZACIÓN A LA DESCRIPCIÓN DE LOS


DATOS
Normalmente, antes de hacer análisis más complejos, se parte de la estadística
descriptiva para hacerse una primera idea del comportamiento de cada una de las
variables contenidas en nuestra matriz de datos. Consiste en una serie de
procedimientos para organizar, clasificar y resumir conjunto de datos a través de
índices numéricos y por medio de representaciones gráficas.
De forma genérica, podemos distinguir dos grupos de medidas o índices
numéricos que deben estar presentes en todo estudio descriptivo y que aparecerán en
casi todos los artículos de investigación cuantitativa: medidas de tendencia central y
medidas de variabilidad o dispersión. Por otra parte, las representaciones gráficas de
los datos, como los histogramas, polígonos de frecuencias, ciclogramas..., son un
complemento de los índices numéricos y ayudan a comprender rápidamente la
información descriptiva

 ORGANIZACIÓN DE LOS DATOS (Este apartado no viene en el libro y no


creo que lo pregunten, pero lo pongo por si alguien está interesado en como se
organizan los datos cuando éstos son numerosos y no tenemos un programa de
ordenador para que nos ayude)

Las pruebas utilizadas para apreciar el grado de consecución de los objetivos


educativos y para medir las aptitudes (o cualquier otra medida educativa) suelen
resumirse en una puntuación final, de tipo global, para cada sujeto, representado por
Xi – puntuación directa o bruta-, donde i se sustituye en cada caso por el sujeto de que
se trate.
Las Xi, tal como se nos presentan tras la valoración de las pruebas, son difíciles de
comprender, sobre todo si el número de sujetos es muy alto. Por lo cual es
conveniente organizar o resumir los datos para que se pueda trabajar con ellos de una
manera más fácil.

Las siglas que se suelen usar son las siguientes:

A.T.  Amplitud Total o Rango: diferencias entre las puntuaciones mayor y menor,
más uno
n  nº total de casos de la muestra
fi  frecuencia = nº de veces que aparece una determinada puntuación

ESTADÍSTICA APLICADA A LA EDUCACIÓN 1


CAPÍTULO 5
Xi  puntuación directa de un individuo
I  intervalo = cada una de las divisiones de la escala
i → amplitud de los intervalos
X  Marca de Clase = punto medio de cada intervalo
Vamos a ver un ejemplo, teniendo en cuenta que con esta cantidad de datos no
sería aconsejable organizarlos o resumirlos en una tabla. La muestra escasa es sólo
por motivos didácticos y poder conseguir una mejor comprensión.

Ejemplo
En una clase de 2º de la ESO 30 alumnos han obtenido las siguientes puntuaciones en
una prueba de Conocimientos Generales:

37, 38, 41, 42, 42, 42, 45, 45, 48, 48, 50, 52, 54, 54, 54, 54, 55, 55, 55, 57, 57, 60, 61,
62, 62, 67, 68, 72, 74, 75

Pasos para la construcción de una Tabla

1º) Calcular la Amplitud Total o Rango:

AT = 75 - 37 + 1 = 39

2º) Determinar el nº de intervalos que se van a utilizar: una regla general (aunque
no la única) es la siguiente 

nº I  n  30  5'48  6

3º) Determinar la amplitud de los intervalos: mediante la siguiente ecuación

AT 39
i   6'5  7
nª I 6
4º) Determinar el límite superior del intervalo máximo y el inferior del
intervalo mínimo: si tenemos 6 intervalos con 7 puntuaciones en cada uno de ellos,
nos saldrá un total de 6  7 = 42 puntuaciones, aunque en nuestro caso real sólo
tenemos 39, por lo que nos sobran 3; para que la tabla no quede demasiado diferente
de los datos reales esas 3 puntuaciones sobrantes las vamos a repartir añadiéndolas, 2
por arriba y 1 por abajo. Por lo que la escala quedaría de la siguiente manera 
I f X
71-77 3 74
64-70 2 67
57-63 6 60
50-56 9 53
43-49 4 46
36-42 6 39

ESTADÍSTICA APLICADA A LA EDUCACIÓN 2


CAPÍTULO 5
30

Veamos otro ejemplo


Vamos a agrupar en una tabla las siguientes 15 puntuaciones 
7, 8, 8, 9, 10, 10, 10, 10, 11, 11, 13, 15, 15, 16, 18

AT = 18 - 7 + 1 = 12

nº I = n  15  4

AT 12
i=  3
nº I 4

I f X
16-18 2 17
13-15 3 14
10-12 6 11
7-9 4 8

MEDIDAS DE TENDENCIA CENTRAL

 MEDIA (X )
- Se puede definir como: la suma de todos los valores de una variable dividida por
el nº total de observaciones de la muestra.
- Es la medida de tendencia central más usada en cualquier análisis de datos, debido
a sus propiedades matemáticas.
- Como en el cálculo de la media se consideran todas y cada una de las
puntuaciones, cualquier variación en alguna de ellas repercute en el resultado
final. Es, en este sentido, más sensible que la mediana y la moda.
- Es el índice de tendencia central más estable, es decir, el que tiene menos
fluctuaciones en diferentes muestras de una población.
- No se debe aplicar en distribuciones asimétricas, abiertas o incompletas.
- Requiere que los datos tengan una medida de intervalo.
 Cálculo de la Media
Datos no agrupados

X 
X i

n
Ejemplo:las puntuaciones de 15 alumnos en una prueba de vocabulario son:

ESTADÍSTICA APLICADA A LA EDUCACIÓN 3


CAPÍTULO 5
7, 8, 8, 9, 10, 10, 10, 10, 11, 11, 13, 15, 15, 16, 18

X 
X 
171
 11'4
n 15
Datos agrupados

X 
 Xf
n
Siguiendo con el ejemplo anterior 
I f X Xf
16-18 2 17 34
13-15 3 14 42
10-12 6 11 66
7-9 4 8 32
15 174

X 
 Xf 
174
 11'6
n 15
Podemos hallar también la Media con datos agrupados, pero sin escala de
intervalos 

X f Xf
7 1 7
8 2 16
9 1 9
10 4 40
11 2 22
13 1 13
15 2 30
16 1 16
18 1 18
15 171

X 
X i f

171
 11'4
n 15

 MEDIANA (Md)

La Mediana es otra medida de posición que, por definición, debe ser de tendencia
central.

ESTADÍSTICA APLICADA A LA EDUCACIÓN 4


CAPÍTULO 5
Es el punto medio de un conjunto de puntuaciones que se han colocado en orden; es
decir, es el valor de la escala que deja la mitad (50%) de las puntuaciones de la
distribución por encima de sí y el otro 50% por debajo.
Se puede aplicar en escalas ordinales, de intervalo y de razón. Es más adecuada
que la Media cuando la distribución es asimétrica, abierta o incompleta.

 Cálculo de la Mediana
 Datos no agrupados
En una serie ordenada de medidas, es el valor correspondiente a la puntuación
que ocupa el número de orden igual a  n /2
Ejemplo: siguiendo con el ejemplo que hemos venido utilizando para hallar la
media 
Ordenamos las puntuaciones de menor a mayor:

7, 8, 8, 9, 10, 10, 10, 10, 11, 11, 13, 15, 15, 16, 18

Md
La mediana ocupará el lugar  15 /2 = 7’5, por lo tanto dejará 7 puntuaciones por
debajo y 7 por encima.

Podemos decir que Md = 10

 Datos agrupados

n  f a 1
Md  Li  2
a
fi
Li = límite inferior del intervalo donde se encuentra la mediana
fa-1= frecuencia acumulada del intervalo inferior
fi = frecuencia del intervalo donde se encuentra la mediana
a = amplitud del intervalo

Ejemplo: seguimos con el ejemplo utilizado para hallar la media

I f fa
16-18 2 15
13-15 3 13
10-12 6 10  Md
7-9 4 4

A la hora de realizar las operaciones, la escala de intervalos la hemos de


considerar como una escala continua, por lo que se debería representar de la
siguiente forma:

ESTADÍSTICA APLICADA A LA EDUCACIÓN 5


CAPÍTULO 5
15’5 - 18’5
12’5 - 15’5
9’5 - 12’5
6’5 - 9’5

En primer lugar tenemos que hallar en qué intervalo se encontrará la Md,


para lo cual hemos de ver el nº de sujetos u observaciones que deja por debajo 
Md = 15/2 = 7'5 sujetos quedarán por debajo
Por lo tanto la Md se encontrará en el intervalo 10-12 que contiene 10 sujetos;
tendremos que hallar el valor exacto de la mediana mediante la fórmula 
n  f 7'5  4
Md  Li  2 a 1
 a  9'5   3  11'25
fi 6

Podríamos hallarlo gráficamente de la siguiente manera (esto es solamente una


aclaración a la fórmula, si no lo entendéis, es suficiente con poner la fórmula):
- dibujamos el intervalo en donde se encuentra la Md

9'5 10'5 11'5 12'5

Este intervalo se reparte entre 6 sujetos; si la Md deja 7'5 sujetos por debajo,
quiere decir que de este intervalo tiene que coger  7'5 - 4 (que se hallan en el intervalo
anterior)= 3'5 sujetos.
Por lo tanto, con una reglas de tres:
6 sujetos ---- 3 puntuaciones
3'5 sujetos -- x puntuaciones x = 3x3'5/6 = 1'75

Por lo tanto al intervalo inferior que es 9'5 habría que añadirle esta porción de
intervalo, 1'75, luego la Md 

Md = 9'5 + 1'75 = 11'25

 MODA (Mo)
Se denomina Moda a la frecuencia más repetida.
Es una medida muy imprecisa, utilizada únicamente para tener una aproximación
sobre los valores dominantes de la serie.
Cálculo de la Moda
 Datos no agrupados: es la puntuación más repetida.
En el ejemplo que venimos analizando la Mo = 10

ESTADÍSTICA APLICADA A LA EDUCACIÓN 6


CAPÍTULO 5
 Datos agrupados: la moda sería la marca de clase del intervalo con mayor
frecuencia. En nuestro ejemplo la Mo = 11
En caso que hubiera dos intervalos (o más) con la misma frecuencia máxima,
la distribución sería bimodal (o de tres, cuatro ... modas)

 RELACIONES DE LOS TRES ÍNDICES

En general cuanto más simétrica sea una distribución de frecuencias, mayor


proximidad se da entre los valores X, Md y Mo.
En el modelo de la distribución normal que es simétrica por definición, una de sus
propiedades es 
X = Md = Mo
Cuando la distribución es asimétrica sesgada en sus valores hacia la derecha,
asimétrica negativa, la media es menor que la mediana y ésta menor que la moda.
Media<Mediana<Moda.
Cuando la distribución es asimétrica sesgada en sus valores hacia la izquierda,
asimétrica positiva, la media es mayor que la mediana y ésta que la moda:
Media>Mediana>Moda.

MEDIDAS DE VARIABILIDAD

 DISPERSIÓN O VARIABILIDAD
Para poder describir bien las distribuciones de datos tenemos que recurrir, además
de los índices de tendencia central, a otros índices o medidas  índices de dispersión
o variabilidad: nos indican el grado de concentración - dispersión de los sujetos
alrededor de sus promedios.
Los índices más importantes son: el recorrido(L), la amplitud total(AT),el
recorrido intercuartil o rango semi-intercuartl(Q), desviación media(DM), desviación
típica(s), varianza(s2),coeficiente de variación(CV)

 AMPLITUD TOTAL (AT) y RECORRIDO (L)


Por amplitud total se entiende el recorrido teórico de una variable, es decir, la
máxima diferencia que en teoría puede existir entre las puntuaciones máxima y
mínima de una distribución. Únicamente tiene en cuenta las puntuaciones extremas.
Utilizado para realizar o elaborar las escalas de intervalo de una variable.
El recorrido es la amplitud que se da en realidad en una distribución y siempre
será igual o menor que la amplitud total.

 DESVIACIÓN SEMI-INTERCUARTÍLICA (Q)


Si dividimos la distribución en cuatro partes 

ESTADÍSTICA APLICADA A LA EDUCACIÓN 7


CAPÍTULO 5
Q1 Q2 Q3
----25%----------25%----------25%-----------25%-----
Q  Q1
Q 3
2
Valores altos de Q indicarán poca densidad de las puntuaciones en el centro de la
tabla.
Valores bajos de Q indicarán mucha densidad central.

 DESVIACIÓN MEDIA (DM)


Es la media aritmética de las desviaciones, tomadas en valor absoluto, respecto de
un promedio  DMX, DM MD, DMMo
*Cálculo de la Desviación Media de la Media (datos no agrupados)
X X-
X
8 4
5 1
5 1
3 1
2 2
1 3
 24  12

X 
24
DM 
 X-X 
12
2
6 n 6
Tiene el inconveniente que cuando hay unos pocos valores extremos la desviación
media crece desmesuradamente.

 VARIANZA Y DESVIACIÓN TÍPICA (s2, s)

La varianza es más utilizada en la estadística inferencial y de contrastes de hipótesis.


La desviación típica es más utilizada en estadística descriptiva.
Es el índice de variabilidad preferido por la mayoría de los investigadores, porque es
el más exacto:
- influyen en él todas las desviaciones según su magnitud

ESTADÍSTICA APLICADA A LA EDUCACIÓN 8


CAPÍTULO 5
- pero los errores extremos no influyen de manera tan exagerada como en la
DM
- sirve como índice de variabilidad, aunque el número de observaciones sea
pequeño.

 Cálculo de la varianza
 Datos sin agrupar

Puntuaciones Directas  s 2  X 2

X2
n

 X  2

Puntuaciones Directas  X 2

n  cuasivarianza
s2 
n 1

x  X  X 
2 2

Puntuaciones Diferenciales  s 2  
n n

(Una puntuación diferencial (x) es la puntuación de un sujeto menos la Media


del grupo al que pertenece: x  X  X )

Ejemplo: sean las puntuaciones siguientes obtenidas en una muestra de 5 sujetos: 1, 3, 5,


6, 10

X X2 x x2
1 1 -4 16
3 9 -2 4
5 25 0 0
6 36 1 1
10 100 5 25
25 171 46

ESTADÍSTICA APLICADA A LA EDUCACIÓN 9


CAPÍTULO 5
Directas  s 2  X 2

X2 
171
 5 2  9'2
n 5
25
Siendo X  5
5
 X  2
25 2
Cuasivarianza  X  2

n
171 
5  11'5
s2  
n 1 4

Diferenciales  s 
x 2


46
 9'2
n 5
 Datos agrupados: seguimos con el ejemplo del tema anterior 
I f X Xf X2f x x2 x2f
9-11 1 10 10 100 6 36 36
6-8 2 7 14 98 3 9 18
3-5 5 4 20 80 0 0 0
0-2 4 1 4 4 -3 9 36
12 48 282 90

X   Xf
2
2
f  2

P. Directas  s 2
    282   48   7´5
n  n  12  12 
 

P. Diferenciales  s 2  x 2
f

90
 7'5
n 12
 Cálculo de la desviación típica

La desviación típica es la raíz cuadrada de la varianza. Por lo tanto para hallarla sólo
tenemos que obtener la raíz cuadrada del valor de la varianza, o a cada una de las
fórmulas vista añadirle la raíz cuadrada 

s
X 2

X2 s
X 2
f
X2
n n

s
x 2

s
x 2
f
n n

 COEFICIENTE DE VARIACIÓN (CV)

ESTADÍSTICA APLICADA A LA EDUCACIÓN 10


CAPÍTULO 5
Es un nº abstracto, que nos indica solamente el nº de veces que el numerador
contiene al denominador, independientemente de lo que ambos signifiquen.
Podemos comparar dos variables distintas, por ejemplo X = peso e Y = altura. La
desviación típica de X vendrá dada en unidades de peso y la desviación típica de Y
vendrá dada en unidades de longitud, por lo tanto, ambas desviaciones no son
comparables. Para compararlas utilizaríamos el coeficiente de variación de ambas
variables, el menos coeficiente indicaría mayor homogeneidad de las puntuaciones.

 Cálculo del Coeficiente de Variación (CV)

Ejemplo: tenemos un grupo A de 4º de la ESO que han obtenido una Media de 7 y


una desviación típica de 3; tenemos otro grupo B, también de 4º de la ESO, que han
obtenido una media de 6 y una desviación típica de 3. ¿Cuál de los dos grupos es más
homogéneo o con menos variabilidad?

s
CV  .100
X

3
Grupo A  CV  100  42'86  43%
7

3
Grupo B  CV  100  50  50%
6

Por lo tanto podemos decir que el grupo A es más homogéneo que el B.

MEDIA Y DESVIACIÓN TÍPICA PARA VARIABLES DICOTÓMICAS

Las variables dicotómicas son aquellas que sólo pueden tomar dos valores.
Ejemplo : supongamos que hemos hecho la siguiente pregunta en una encuesta → ¿te
gustan las matemáticas?......SI NO
Hemos codificado los SI como 1 y los NO como 0
Tenemos una muestra de 50 sujetos, 30 han contestado SI y 20 han contestado NO
¿Cuál es la media?: es el número de Si dividido entre el número total de sujetos → Media
= 30/50 = 0’6
Esta media indica la proporción de sujetos que han respondido con un SI a esta pregunta y
se representa por una p; la proporción de sujetos que han respondido NO, en nuestro
caso 20/30 = 0’4, se representa por una q,
siendo p+q = 1
¿Cuál es la desviación típica y la varianza?

ESTADÍSTICA APLICADA A LA EDUCACIÓN 11


CAPÍTULO 5
s pxq  0'6 x 0'4  0'49
s 2
 pxq  0'6 x 0'4  0'24

ASIMETRIA Y APUNTAMIENTO: RELACIÓN CON LA CURVA NORMAL

La asimetría y el apuntamiento son dos características relativas a la forma gráfica


de la distribución de frecuencias, siendo el modelo de comparación la curva normal; la
curva normal carece de asimetría y apuntamiento, siendo el valor de estos índices igual a
0.
Las representaciones gráficas de las variables, sobre todo cuando trabajamos con
muestras grandes, tienden a ser curvas que, por su grado de asimetría, pueden asemejarse
a una de estas tres:

- simétrica
Mo = Me = Media
- asimetría positiva: la mayoría de los individuos tienden a concentrarse en la parte
baja de las puntuaciones de la distribución de frecuencias
Mo < Me < Media

- asimetría negativa: los sujetos tienden a agruparse en torno a las puntuaciones altas de
la distribución
Media < Me < Moda

Una fórmula para hayar el índice de asimetría:


X  Mo
As 
s

El apuntamiento o curtosis indica el grado en el que la distribución es más o menos


“picuda”, el grado en que la distribución resulta más abierta o dispersa respecto a la
media, resultando más bien chata o aplanada (platicúrtica, curtosis < 0) o, por el
contrario, más apuntada y, por tanto, con las puntuaciones de la distribución más
concentradas en torno a la media (leptocúrtica, curtosis >0). Una curtosis igual a 0 viene
representada por la distribución normal

ESTADÍSTICA APLICADA A LA EDUCACIÓN 12


CAPÍTULO 5
Para el cálculo de la curtosis se puede emplear la siguiente fórmula:

 X  X 
4
1 .f
g2  3
N  4

REPRESENTACIONES GRÁFICAS
A partir de una distribución de frecuencias es muy fácil realizar una
representación gráfica; aunque no hay unas normas muy estrictas, se recomienda adaptar
el tipo de gráfico al nivel de medida de las variables.
 Gráfico de sectores o ciclorama
Se utiliza para representar variables con nivel de medida nominal; tiene forma
circular y está dividido en porciones, de modo que cada porción representa la
presencia proporcional de cada uno de los niveles de la variable
Ejemplo: tenemos una muestra de 100 alumnos de Estadística Aplicada a la
Educación, y nos interesa saber su procedencia
Murcia (1): 30 alumnos
Cartagena (2): 45
Lorca (3): 10
Noroeste (4): 7
Mazarrón y Águilas (5): 5 P
5
4
3
2
r c
o
n
d
e
1 ia

Otros (6). 3

 Gráfico de barras

ESTADÍSTICA APLICADA A LA EDUCACIÓN 13


CAPÍTULO 5
Suele utilizarse para variables con nivel de medida ordinal, aunque también es
frecuente utilizarlo cuando el nivel de medida es nominal y para realizar
comparaciones de variables clasificatorias o categóricas.
Podemos representar los datos del ejemplo anterior en un diagrama de barras

 Histograma
Es muy parecido al gráfico de barras, pero se utiliza para variables cuantitativas
continuas con nivel de medida de intervalo o de razón. Las barras en vez de estar
separadas están juntas.
Se suele utilizar con puntuaciones agrupadas en intervalos, estando los intervalos
representados en la abcisa, mientras que en la ordenada se representan las
frecuencias

Podemos también representar la curva uniendo los puntos medios de cada


rectángulo y suavizando los picos, lo que nos daría una representación
denominada polígono de frecuencias

ESTADÍSTICA APLICADA A LA EDUCACIÓN 14


CAPÍTULO 5
 Gráfico de caja
Es un gráfico para hacerse idea rápida de la distribución de las puntuaciones en la
zona central (desde el percentil 25 al percentil 75)
Es muy útil para comparar visualmente grupos medidos en distintad variables

 Gráfico de tallo y hojas


Combina la representación numérica y gráfica. Es una especie de histograma
horizontal cuyas barras están construidas con los números correspondientes a las
puntuaciones. Es muy frecuente encontrar este gráfico en la salida de los
programas informáticos.

ESTADÍSTICA APLICADA A LA EDUCACIÓN 15


CAPÍTULO 5

También podría gustarte