Está en la página 1de 14

TEMA 4

REDUCCIÓN DE DATOS.
MEDIDAS DESCRIPTIVAS BÁSICAS Y REPRESENTACIONES BÁSICAS
De la organización a la descripción de los casos
 En Estadística, el concepto más importante es la VARIABILIDAD, es decir, el estudio de la dispersión
de las puntuaciones.
 En Estadística, pretendemos estudiar la magnitud de la variabilidad y alguna otra característica ligada
a la misma. Cuando efectuamos contraste de hipótesis, se tratará de encontrar posibles variables
asociadas (que expliquen) la variabilidad de los datos.
 Variables  características o propiedades que pueden variar de unos sujetos a otros.
 Constante  contrario a variable. Cuando todos los sujetos tienen la misma puntuación, cuando no
hay diferencias y por tanto, no hay variabilidad.
 Principales medidas en Estadística descriptiva:
O medidas de tendencia central.
O medidas de variabilidad o dispersión.
O representaciones gráficas de las distribuciones de datos.

Medidas de tendencia central


1º) Primeramente se estudia la tendencia central del grupo. Es el caso de la MEDIA ARITMÉTICA. Este índice
por sí solo no nos proporciona suficiente información para conocer el grupo.
 Solo nos indica que el grupo tiende hacia una puntuación media.
 Para interpretar correctamente una , es conveniente conocer la puntuación mínima y máxima de la
escala de medida de la variable y situar la media dentro de ese recorrido. (De 0 a 10 de notas, no es
lo mismo una ͞x de 2.5; que otra x͞ de 7.5).
 La ͞x solo puede utilizarse en variables cuyo nivel de medida sea de intervalo o de razón, aunque sí
es posible hacerlo en medidas nominales dicotómicas.

2º) La MODA es el valor de frecuencia absoluta más alta, la puntuación que más se repite en la distribución.
 La moda no necesita ningún cálculo, es directamente la puntuación. Podemos encontrar
distribuciones bimodales, con dos puntuaciones de moda; ó plurimodales, con más de dos
puntuaciones que tienen la misma frecuencia alta.

 MODA (Mo)
Se denomina Moda a la frecuencia más repetida.
Es una medida muy imprecisa, utilizada únicamente para tener una aproximación sobre los valores dominantes de la
serie.
Cálculo de la Moda
 Datos no agrupados: es la puntuación más repetida.
En el ejemplo que venimos analizando la Mo = 10
3º) La MEDIANA es el valor de la distribución que deja por encima y por debajo de si al 50% de los sujetos de
la muestra, es decir, el valor central de la distribución de frecuencias.
 Ordenadas las puntuaciones de menor a mayor, la puntuación que ocupa la posición central, esa es
la mediana. Coincide con el percentil 50.
 Para calcular la mediana, observamos la columna de frecuencias acumuladas y comprobamos qué
puntuación ocupa el lugar central (50%), es decir, buscamos N/2.
 Cuando N sea par, no tenemos una puntuación central, sino dos. En este caso, se recomienda hallar
la media aritmética de las puntuaciones correspondientes a esa `posición central. (ver tablas 5.1; 5.2
y 5.3 págs. 98 y 99)
 La ͞x es sensible a las puntuaciones extremas, pero no ocurre esto con la Md , ni con la Mo. Por
ello, la Md puede ser una medida preferible a la ͞x cuando las puntuaciones extremas pueden
distorsionar la verdadera tendencia central del grupo.
 Cuando el nivel de medida sea ordinal, solo podremos utilizar la Md y la Mo. Con medidas
nominales, solo podemos utilizar la Mo (excepto en el caso de dicotómicas).
lOMoARcPSD|2026229

 RELACIONES DE LOS TRES ÍNDICES

En general cuanto más simétrica sea una distribución de frecuencias, mayor proximidad se da entre
los valores X, Md y Mo.
En el modelo de la distribución normal que es simétrica por definición, una de sus propiedades es

X = Md = Mo
Cuando la distribución es asimétrica sesgada en sus valores hacia la derecha, asimétrica negativa,
la media es menor que la mediana y ésta menor que la moda. Media<Mediana<Moda.
Cuando la distribución es asimétrica sesgada en sus valores hacia la izquierda, asimétrica positiva,
la

media es mayor que la mediana y ésta que la moda: Media>Mediana>Moda.

Medidas de variabilidad o dispersión


El índice de tendencia central debe ir acompañado por un índice de dispersión o variabilidad que indique en
qué grado las puntuaciones de los sujetos se dispersan o varían en torno a la .

1º) la DESVIACIÓN MEDIA corresponde a una media aritmética de las desviaciones de las puntuaciones
directas respecto de la . Si la DM es alta, significa que las puntuaciones están alejadas o se desvían mucho
de su ; mientras que si es pequeña, significa que las puntuaciones del grupo están próximas a la .
*Cálculo de la Desviación Media de la Media (datos no agrupados)
X X-
X
8 4
5 1
5 1
3 1
2 2
1 3
 24  12

X̄ =
24
DM=
∑ |X- { X̄|=12 =2 ¿
6 n 6

2º) La DESVIACIÓN TÍPICA es el índice más conocido y utilizado, representándose por s (estadístico) ó por 
(parámetro). El mismo, pero elevado al cuadrado, recibe el nombre de VARIANZA (s² ó ²)

X X2 x x2
1 1 -4 16
3 9 -2 4
5 25 0 0
6 36 1 1
10 100 5 25
0 0 0
 Otras fórmulas: sin agrupar los datos (en PD)

Ejemplo: sean las puntuaciones siguientes obtenidas en una muestra de 5 sujetos: 1, 3, 5, 6, 10

X X2 x x2
1 1 -4 16
3 9 -2 4
5 25 0 0
6 36 1 1
10 100 5 25
0 0 0

2
2 ∑ X 171 2
s= − X̄ 2= −5 =9 ' 2
Directas  n 5
25
X̄ = =5
Siendo 5

 agrupados en distribución de frecuencias (en PD)

 
I f X Xf X2f x x2 x2f
9-11 1 10 10 100 6 36 36
6-8 2 7 14 98 3 9 18
3-5 5 4 20 80 0 0 0
0-2 4 1 4 4 -3 9 36
0 0 0 0
2
∑ X 2 f ∑ Xf 282 48 2
P. Directas 
2
s=
n
− ( )n
=
12
−( )
12
=7 ´ 5

2
2 ∑ x f 90
s= = =7 ' 5
P. Diferenciales  n 12

3º) La AMPLITUD o RECORRIDO de una variable se calcula como la diferencia entre la puntuación mayor y la
menor, más uno:

A = (Xi)mayor – (Xi)memor + 1

 Esta medida se utiliza sobre todo para organizar los datos de una distribución de frecuencias en
intervalos y realizar gráficos.
 También nos sirve para interpretar el valor de la s. Cuando tenemos s = 2, en una A = 5, es una s muy
alta. Sin embargo, con s = 2 y A =100, entonces es una s muy pequeña.
lOMoARcPSD|2026229

 La A se utiliza como medida de dispersión solo cuando no se puede calcular otra ó como
complemento de la Mo, en niveles de medida nominales.

4º) La DESVIACIÓN SEMI-INTERCUARTÍLICA, representada por Q2, indica la dispersión en el 50% central de la
distribución.
 Es adecuada cuando el nivel de medida es ordinal (coincidiendo con la Md)
 También es adecuada cuando existan puntuaciones extremas que pueden distorsionar en exceso la
S, puesto que en el valor de Q se prescinde del 25% inferior y del 25% superior, calculando el valor
del Q50 entre los percentiles 25 y 75

Si dividimos la distribución en cuatro partes 


Q1 Q2 Q3
----25%----------25%----------25%-----------25%-----
Q 3 −Q 1
Q=
2

5º) Otro índice de variabilidad es el COEFICIENTE DE VARIACIÓN (V), que nos permite comparar la
variabilidad entre variables que tienen distinta amplitud. Dado que dos S procedentes de instrumentos con
distinta A, ó diferente escala de medida no son directamente comparables, calculamos V en porcentajes:

 A mayor valor de V, más heterogéneo es el grupo y más variabilidad tienen sus medidas.

Ejemplo: tenemos un grupo A de 4º de la ESO que han obtenido una Media de 7 y una desviación
típica de 3; tenemos otro grupo B, también de 4º de la ESO, que han obtenido una media de 6 y una
desviación típica de 3. ¿Cuál de los dos grupos es más homogéneo o con menos variabilidad?

s
CV = . 100

3
CV = 100=42 ' 86→43 %
Grupo A  7

3
CV = 100=50→50 %
Grupo B  6

Por lo tanto podemos decir que el grupo A es más homogéneo que el B.

Media y desviación típica para variables dicotómicas


Como tienen solo dos valores, ceros para noes o respuestas incorrectas, y unos para síes o respuestas
correctas, la será la proporción de unos.
 La x͞ indica la proporción de sujetos que responden con 1 y se representa por p. Con N = 50 sujetos y
de ellos 30 responden que sí, entonces : p = 30/50 = 0,6
p+q=1
 La proporción de noes ó ceros, será (1-P), en este caso 0,4, y se representa por q. Entonces
 Como la media nos indica el porcentaje de sujetos que contesta acertadamente a una pregunta de
examen, se denomina además índice de dificultad del ítem.
 La desviación típica es fácil de calcular:

Las variables dicotómicas son aquellas que sólo pueden tomar dos valores.
Ejemplo : supongamos que hemos hecho la siguiente pregunta en una encuesta → ¿te gustan las
matemáticas?......SI NO
Hemos codificado los SI como 1 y los NO como 0
Tenemos una muestra de 50 sujetos, 30 han contestado SI y 20 han contestado NO
¿Cuál es la media?: es el número de Si dividido entre el número total de sujetos → Media = 30/50 = 0’6
Esta media indica la proporción de sujetos que han respondido con un SI a esta pregunta y se representa
por una p; la proporción de sujetos que han respondido NO, en nuestro caso 20/30 = 0’4, se representa
por una q,
siendo p+q = 1
¿Cuál es la desviación típica y la varianza?
s= √ pxq=√ 0' 6x 0' 4=0' 49
2
s =pxq=0' 6 x 0' 4=0' 24

Asimetría y apuntamiento: relación con la curva normal


La asimetría y el apuntamiento son dos características relativas a la forma gráfica de la distribución de
frecuencias. El modelo de comparación es la CURVA NORMAL, que carece de asimetría, es decir, es simétrica
o tiene un índice de asimetría igual a cero.
 ver fig. 5.1 pág.106
 La asimetría positiva indica que la mayoría de los sujetos se concentran en la parte baja de las
puntuaciones y que la cola de la distribución se sitúa a la derecha. En general, podemos afirmar que
en estos casos, Mo ≤ Md ≤ ͞x
 La asimetría negativa indica que los sujetos tienden a agruparse en torno a las puntuaciones altas de
la distribución. En general, encontramos que ͞x ≤ Md ≤ Mo
 El hablar de positiva ó negativa se debe al signo del cálculo del índice, denominado índice de
Pearson:

- simétrica
Mo = Me = Media
- asimetría positiva: la mayoría de los individuos tienden a concentrarse en la parte baja de las
puntuaciones de la distribución de frecuencias
Mo < Me < Media

- asimetría negativa: los sujetos tienden a agruparse en torno a las puntuaciones altas de la distribución
Media < Me < Moda

Una fórmula para hayar el índice de asimetría:


X̄−Mo
As=
s
lOMoARcPSD|2026229

El apuntamiento ó curtosis indica el grado en el que la distribución es más o menos picuda; o más o menos
abierta o dispersa respecto a su media.
 más chata ó aplanada  platicúrtica  g2 < 0,263
 más apuntada y estrecha  leptocúrtica  g2 > 0,263
 curva nornal  mesocúrtica  g2 = 0,263

El apuntamiento o curtosis indica el grado en el que la distribución es más o menos “picuda”, el


grado en que la distribución resulta más abierta o dispersa respecto a la media, resultando más bien
chata o aplanada (platicúrtica, curtosis < 0) o, por el contrario, más apuntada y, por tanto, con las
puntuaciones de la distribución más concentradas en torno a la media (leptocúrtica, curtosis >0). Una
curtosis igual a 0 viene representada por la distribución normal

ver fig. 5.2 pág. 108

REPRESENTACIONES GRÁFICAS
A partir de una distribución de frecuencias es muy fácil realizar una representación gráfica;
aunque no hay unas normas muy estrictas, se recomienda adaptar el tipo de gráfico al nivel de medida
de las variables.
 Gráfico de sectores o ciclorama
Se utiliza para representar variables con nivel de medida nominal; tiene forma circular y está
dividido en porciones, de modo que cada porción representa la presencia proporcional de cada
uno de los niveles de la variable
Ejemplo: tenemos una muestra de 100 alumnos de Estadística Aplicada a la Educación, y nos
interesa saber su procedencia
Murcia (1): 30 alumnos
Cartagena (2): 45
Lorca (3): 10
Noroeste (4): 7
Mazarrón y Águilas (5): 5
5
4
3
r c
P o
n
d
e
2 ia
1

Otros (6). 3

 Gráfico de barras
Suele utilizarse para variables con nivel de medida ordinal, aunque también es frecuente
utilizarlo cuando el nivel de medida es nominal y para realizar comparaciones de variables
clasificatorias o categóricas.
Podemos representar los datos del ejemplo anterior en un diagrama de barras

 Histograma
Es muy parecido al gráfico de barras, pero se utiliza para variables cuantitativas continuas con
nivel de medida de intervalo o de razón. Las barras en vez de estar separadas están juntas.
Se suele utilizar con puntuaciones agrupadas en intervalos, estando los intervalos representados
en la abcisa, mientras que en la ordenada se representan las frecuencias
Podemos también representar la curva uniendo los puntos medios de cada rectángulo y
suavizando los picos, lo que nos daría una representación denominada polígono de frecuencias

 Gráfico de caja
Es un gráfico para hacerse idea rápida de la distribución de las puntuaciones en la zona central
(desde el percentil 25 al percentil 75)
Es muy útil para comparar visualmente grupos medidos en distintad variables

 Gráfico de tallo y hojas


Combina la representación numérica y gráfica. Es una especie de histograma horizontal cuyas
barras están construidas con los números correspondientes a las puntuaciones. Es muy frecuente
encontrar este gráfico en la salida de los programas informáticos.

Represetnaciones gráficas
Ver páginas 108 a 114 (a.i.)

También podría gustarte