Está en la página 1de 23

Publicado en: Morales Vallejo, Pedro (2008) Estadstica aplicada a las Ciencias Sociales.

Madrid: Universidad Pontificia Comillas (edit@pub.upcomillas.es)

Medidas descriptivas bsicas


de tendencia central y de dispersin
Universidad Pontificia Comillas Madrid
Facultad de Ciencias Humanas y Sociales
Pedro Morales Vallejo (ltima revisin, 26 de Octubre de 2007)

ndice
1. Medidas de tendencia central .....................................................................................................

1.1. La media aritmtica ..............................................................................................................

1.2. La mediana............................................................................................................................

1.3. La moda ................................................................................................................................

1.4. Comparacin de las medidas de tendencia central................................................................

2. Medidas de dispersin: su utilidad..............................................................................................

2.1. La desviacin media ............................................................................................................

2.2. La desviacin tpica y la varianza........................................................................................

2.2.1. La desviacin tpica....................................................................................................

2.2.2. La varianza .................................................................................................................

2.2.3. Ventajas de la desviacin tpica y de la varianza como medidas de dispersin .........

10

2.2.4. Propiedades de la desviacin tpica y de la varianza..................................................

10

2.2.5. Usos e interpretaciones de la desviacin tpica ..........................................................

11

2.2.6. Media y desviacin tpica de los datos dicotmicos ..................................................

13

2.2.7. Combinacin de medias y desviaciones tpicas..........................................................

16

1 Para combinar dos o ms medias..........................................................................

16

2 Para combinar dos o ms desviaciones tpicas o varianzas .................................

17

a) Muestras de tamao desigual...........................................................................


b) Muestras de idntico tamao ...........................................................................

17
17

2.3. El coeficiente de variacin (V) ............................................................................................

19

2.4. La desviacin semi-intercuartlica .......................................................................................

20

2.5. La amplitud o recorrido .......................................................................................................

21

2.6. Relacin entre la amplitud y la desviacin tpica .................................................................

21

3. Medidas descriptivas bsicas: resumen.......................................................................................

23

Medidas descriptivas bsicas

1. Medidas de tendencia central


1.1. La media aritmtica
Todos estamos familiarizados con la media aritmtica como valor representativo de un conjunto de
puntuaciones; con frecuencia describimos un grupo de manera sinttica diciendo cul es su media; si
estamos hablando de una clase no es lo mismo decir esta clase tiene una media de 7, que decir en esta
clase la media es 5
La frmula de la media no necesita demostracin porque expresa el mismo concepto de media:
cunto correspondera a cada sujeto (u objeto) si todos tuvieran el mismo valor: sumamos todos los
valores y dividimos esta suma por el nmero de sujetos.
Media aritmtica: X =

[1]

El smbolo habitual de la media es el mismo utilizado en las puntuaciones directas (generalmente


una X mayscula) con una raya horizontal encima (pero tambin se utilizan otros smbolos como la letra
M).
De la media podemos enunciar dos propiedades que tambin nos podran servir para definirla.
a) Si a cada sujeto le calculamos su diferencia con respecto a la media (X- X ), la suma de estas
diferencias es igual a cero: la suma de las diferencias positivas es igual a la suma de las diferencias
negativas.
b) Si estas diferencias con respecto a la media las elevamos al cuadrado (y todas sern positivas) y
las sumamos, esta suma ser menor que la suma de las diferencias, tambin elevadas al cuadrado, con
respecto a cualquier otro valor distinto de la media.
Esta propiedad de la media nos permite definirla como el valor central que hace que la suma de los
cuadrados de las desviaciones con respecto a este valor sea el mnimo posible. El mtodo de localizar la
media buscando el valor mnimo de la suma de cuadrados (de las diferencias con respecto a la media
elevadas al cuadrado) recibe el nombre de mtodo de los cuadrados mnimos; no tiene especial
importancia ahora, pero s lo tiene en otras aplicaciones de la estadstica (como en la recta de regresin)
y es til estar ya familiarizados con este trmino.

1.2. La mediana
La mediana es el valor que divide las frecuencias en dos mitades iguales: por encima de la
mediana y por debajo de la mediana encontramos el mismo nmero de sujetos.
La mediana es otro valor de tendencia central muy til. La mediana podemos buscarla, al menos
de manera aproximada, por simple inspeccin de los datos en una distribucin de frecuencias; el clculo
preciso lo veremos en el contexto de los percentiles (la mediana corresponde al percentil 50: el valor que
deja por debajo a la mitad de la muestra).
1.3. La moda
La moda es simplemente la puntuacin que tiene una mayor frecuencia (donde encontramos un
mayor nmero de casos).
Como medida de tendencia central es muy poco rigurosa. Adems podemos encontrarnos con que
puede haber ms de una puntuacin con idntico nmero de casos, o al menos dos o ms puntuaciones

Medidas descriptivas bsicas

con una frecuencia que superan notablemente al resto de los valores de la distribucin (y por eso
hablamos de distribuciones bimodales, o plurimodales; si dibujamos la curva o un polgono de
frecuencias, nos encontraremos con dos o ms picos pronunciados).
1.4. Comparacin de las medidas de tendencia central
Los conceptos de media, mediana y moda son sencillos; lo que ms nos interesa ahora es apreciar
sus diferencias y caractersticas; sobre todo nos interesa comparar la media y la mediana.
1. Cuando la distribucin no es normal (no es simtrica) y hay ms sujetos por encima o por debajo
de la media, la mediana es arrastrada hacia la zona de la distribucin donde hay un mayor nmero de
sujetos (ejemplos en la tabla 1).
moda = 2 (puntuacin con mayor nmero de casos)
mediana = 2.5 (idntico nmero de sujetos

por encima y por debajo)

*
*
1

*
*
*
*
2

media = 3.42

*
*
3
4

*
*
*
6

moda = 7

*
7

Cuando hay ms sujetos por debajo de la media


que por encima (como en este ejemplo, 8 por debajo y 4 por
encima) la mediana es menor que la media

*
*
*
*
1

mediana = 5.5
media = 4.5

*
4

*
5

*
6

*
*
*
*
*
7

Cuando hay menos sujetos por debajo de la media


que por encima (como en este ejemplo;5 por debajo y 7 por
encima) la mediana es mayor que la media

Tabla 1
Cuando la mediana es distinta de la media (la distribucin no es simtrica, est sesgada hacia un
lado de la distribucin), el valor de la mediana nos indica el sesgo de la distribucin: si la mediana es
mayor, hay ms sujetos en la parta alta de la distribucin, y si la mediana es menor que la media, hay ms
sujetos en la parte baja de la distribucin. Precisamente en esta diferencia entre la media y la mediana se
basan algunas medidas de asimetra de la distribucin.
2. La mediana no se ve afectada por las puntuaciones extremas de la distribucin.
Esta caracterstica de la mediana es la que hay que tener en cuenta para valorar cundo nos puede
interesar ms la mediana que la media (o adems de la media) como medida de tendencia central.
Lo vemos fcilmente en estos dos ejemplos ficticios (tabla 2):
Caso 1

6 |||||||||| (10)
5 |||||
(5)
4 |||||
(5)
3
2
1

Caso 2

La mediana es 5.5; es la
puntuacin que divide a la
muestra en dos mitades iguales
(10 sujetos por encima y 10
sujetos por debajo); la media es
5.25

6 ||||||||||
5 |||||
4
3
2
1 |||||

(10)
(5)

La mediana sigue siendo 5.5


(10 sujetos por encima y 10
sujetos por debajo), aunque la
media baja a 4.5

(5)

Tabla 2
Nos interesar utilizar la mediana cuando creamos que los sujetos con puntuaciones extremas
desvirtan la media en cuanto medida representativa de dnde est un grupo; las puntuaciones muy
extremas (y que pueden ser atpicas) influyen en la media (en el clculo de la media entran todas las
puntuaciones), pero no en la mediana. ste puede ser el caso de los tems de evaluacin del profesorado;
un pequeo nmero de alumnos poco representativos puede sesgar la media en una direccin (positiva o

Medidas descriptivas bsicas

negativa) que no refleja el sentir o la opinin claramente mayoritaria de un grupo. En cualquier caso
siempre es posible aportar ambos datos, la media y la mediana.
La moda (en los dos casos de la tabla 2 corresponde a la puntuacin 6) tampoco se ve afectada por
puntuaciones muy extremas, pero la alternativa de inters a la media suele ser la mediana, no la moda.
En general nos interesar la mediana en vez de la media cuando los datos sean claramente
ordinales y siempre que interese no tener en cuenta puntuaciones muy extremas. La mediana es el valor
utilizado en algunos anlisis especficos1.
3. La media se presta a muchos ms anlisis estadsticos de inters.
Esta es una ventaja clara, y frecuentemente decisiva, de la media sobre las otras medidas de
tendencia central, y es la que utilizaremos rutinariamente; adems en el clculo de la media se utiliza toda
la informacin disponible.
Esta razn tiene ms peso en estadstica inferencial, cuando pretendemos inferir la media de una
poblacin (al menos ver entre qu limites probables se encuentra) a partir de los datos de una muestra;
con este planteamiento (y en otros semejantes) solemos utilizar la media; con un propsito meramente
descriptivo utilizaremos la medida que ms nos convenga (o ms de una).
4. En la distribucin normal coinciden los valores de la media, la mediana y la moda.
En los ejemplos puestos hasta ahora, la media, la mediana y la moda tienen valores distintos;
cuando la distribucin es normal (simtrica, acampanada) los tres valores de tendencia central son
idnticos: la media es tambin el valor con un mayor nmero de sujetos y divide a la muestra en dos
mitades iguales, como podemos ver en la distribucin de frecuencias de la tabla 3

9
8
7
6
5
4
3
2
1

|
|||
||||
||||||||
media
|||||||||||| 5 = mediana
||||||||
moda
||||
|||
|

Tabla 3
Como veremos a continuacin, cada medida de tendencia central se utiliza junto con otra medida
de dispersin o de variabilidad, que completa el tipo de informacin o resumen aportado por estas
medidas de tendencia central.

2. Medidas de dispersin: su utilidad


Todos estamos familiarizados con las medidas de tendencia central, como lo es la media
aritmtica. Es muy normal describir grupos o resultados calculando la media. Hemos visto otras medidas
de tendencia central, como son la mediana (la puntuacin que divide al grupo en dos mitades iguales) y la
1 La mediana se utiliza en el anlisis de tems en las escalas de Thurstone y para determinar las puntuaciones de corte (apto/no
apto) cuando varios jueces examinan los tems de una prueba objetiva (mtodos de Angoff y Nedelsky); son temas que no
tratamos aqu, pero que ejemplifican la utilidad de la mediana.

Medidas descriptivas bsicas

moda o puntuacin ms frecuente. Sin embargo la medida ms utilizada como dato descriptivo que
resume dnde est un grupo es la media aritmtica.
La limitacin de la media aritmtica (y de otras medidas semejantes) como dato que describe
adecuadamente los resultados obtenidos en un grupo, podemos verlo con un sencillo ejemplo.
Imaginemos que a dos clases (de cuatro alumnos cada una, para simplificar el ejemplo) les
ponemos un examen de 20 preguntas objetivas. Cada pregunta puede estar bien (y vale 1) o mal (y vale
0). Obtenemos los resultados puestos en la tabla 4 y vemos que los dos grupos tienen idntica media.
Grupo A
20
20
0
0
media = 10

Grupo B
10
10
10
10
media = 10

Tabla 4
Podemos decir que se trata de dos grupos muy parecidos porque tienen la misma media? No, son
grupos muy distintos. El grupo A es muy heterogneo, en este grupo A se puede decir que hay dos
subgrupos muy diferenciados; el grupo B en cambio es muy homogneo, todos tienen idntica
puntuacin.
Las medidas de dispersin complementan la informacin que nos da tanto la media (aqu vamos a
poner el nfasis por ser la medida ms til y utilizada) como la mediana o la moda; estas medidas de
dispersin expresan en qu grado los grupos son ms bien homogneos, con los sujetos muy parecidos
unos a otros (como en el grupo B), o ms bien se trata de grupos heterogneos, con mayores diferencias
entre los sujetos (como en el grupo A). La medida de dispersin ms til y utilizada es la desviacin
tpica, que se utiliza siempre que se calcula la media como la medida de tendencia central.
Las medidas de dispersin que vamos a ver son las siguientes:
a) En relacin
con la media:

1. La desviacin media, que se utiliza poco pero es sencilla y nos sirve de


introduccin para la desviacin tpica.
2. La desviacin tpica y la varianza (que es la desviacin tpica elevada al
cuadrado), que son las ms importantes;
3. El coeficiente de variacin, que se calcula a partir de la media y de la
desviacin tpica, y que tiene su utilidad especfica en determinadas
situaciones.

b) En relacin
con la mediana

La desviacin semi-intercuartlica, que expresa la dispersin o


heterogeneidad en el 50% central del grupo (y en la que, lo mismo que la
mediana, se prescinde de las puntuaciones extremas).

c) En relacin
con la moda:

La amplitud o recorrido, de menor importancia que las otras medidas de


dispersin.

2.1. La desviacin media


La medida de dispersin ms sencilla y fcil de comprender es la desviacin media; aunque apenas
se utiliza es til comprender el significado de la desviacin media como punto de partida sobre todo para
entender la desviacin tpica, que es la medida de dispersin ms utilizada. La desviacin media la
entenderemos fcilmente comparando las dos representaciones puestas la figura 1.

Medidas descriptivas bsicas

media = 5

Grupo A

d=-2

media = 5

Grupo B

d = -2

d = -3

d =- 1 d = -1

d=+3

d =- 2

d=+2

Diferencia media con respecto a la media grupal = 1.5 Diferencia media con respecto a la media grupal = 2.5

Figura 1
1. Tenemos dos grupos, A y B, cada uno con cuatro sujetos.
Las puntuaciones del grupo A son 3, 4, 6 y 7.
Las puntuaciones del grupo B son 2, 3, 7 y 8.
2. Ambos grupos tienen idntica media, X = 5
3. Cada sujeto tiene una desviacin (d) con respecto a la media ( X ) de su grupo: unos porque no
llegan a la media y otros porque se pasan y tienen una puntuacin superior a la media. Si un sujeto
tuviera una puntuacin idntica a la media, su desviacin valdra d = 0, pero sigue siendo vlido el
concepto de desviacin con respecto a la media (cero en este caso).

4. Si dentro de cada grupo sumamos las desviaciones individuales (en valores absolutos,
prescindiendo del signo) y dividimos esta suma por el nmero de sujetos, tendremos la desviacin media
del grupo (d ) :
d=

d
N

[2]

Desviacin media del grupo A =

2 +1 + 1 + 2
= 1.5
4

Desviacin media del grupo B =

3+ 2 + 2 + 3
= 2.5
4

5. Aunque ambos grupos tienen idntica media, son grupos muy distintos. A simple vista se observa
que el grupo A es ms homogneo que el grupo B; en el grupo B los sujetos se apartan ms de la media.
Aunque los dos grupos tienen idntica media, la dispersin del grupo B es mayor que la dispersin del
grupo A (o, lo que es lo mismo, el grupo A es ms homogneo que el grupo B). Consecuentemente el
grupo A tiene una desviacin media ms pequea.
La desviacin media nos indica por lo tanto el grado de dispersin, de homogeneidad, de parecido
de unos sujetos a otros. Una misma media de 5 puede proceder de un grupo en el que todos tienen un 5
(dispersin = 0, grupo muy homogneo, todos los sujetos son iguales), y una media de 5 tambin puede
proceder de un grupo en el que la mitad de los sujetos tuvieran un 0 y la otra mitad un 10: una misma
media puede corresponder a grupos muy distintos y dar por lo tanto una informacin descriptiva
incompleta que se presta a conclusiones falsas o equvocas (por ejemplo, una renta media per capita muy
elevada es compatible con importantes bolsas de pobreza en la poblacin).

Medidas descriptivas bsicas

2.2. La desviacin tpica y la varianza


2.2.1. La desviacin tpica
1. En la prctica, y como medida de dispersin, no se usa la desviacin media (aunque inicialmente
se entiende con mayor facilidad) sino preferentemente la desviacin tpica, que es otra medida que indica
igualmente el grado de dispersin o de heterogeneidad de las puntuaciones individuales.
2. Para calcular la desviacin tpica las desviaciones individuales se elevan al cuadrado antes de
sumarlas (y con esta operacin desaparecen los signos negativos), y despus de dividir esta suma por el
nmero de sujetos, se extrae la raz cuadrada. El smbolo habitual de la desviacin tpica es la letra ese
griega minscula (sigma: ; tambin es comn denominar la desviacin tpica por el nombre del
smbolo, sigma, o desviacin estndar, del ingls standard deviation).2
Frmulas

1 Cuando se trata de la desviacin tpica que describe la dispersin de una muestra (que es lo que
hacemos normalmente):
(X - X )

[3]

= desviacin tpica de la muestra


= sumatorio, suma de (letra ese griega mayscula)
X = cada una de las puntuaciones individuales (X mayscula),
X = media aritmtica
N = nmero de sujetos

La frmula de la desviacin tpica tambin suele expresarse as:


=

d2

(d = desviaciones con respecto a la media)

o tambin

x2

La letra x (equis minscula) es un smbolo habitual de la puntuacin diferencial de cada sujeto, que
es simplemente la desviacin o diferencia de cada sujeto con respecto a la media, d = x = X- X
2 Cuando se trata de la estimacin de la desviacin tpica de la poblacin representada por una
muestra se utiliza la frmula [4].
=

(X - X) 2
N -1

[4]

La frmula es casi idntica; dividimos por N -1 (en vez de por


N) con lo que el valor de la desviacin tpica ser algo mayor.

En este caso se trata de la estimacin de la desviacin tpica de una poblacin calculada a partir de
los datos de una muestra. Al dividir por N-1 (y disminuir el denominador) aumenta el cociente: la
desviacin tpica de una poblacin suele ser mayor que la desviacin tpica de una muestra, porque al
aumentar el nmero de sujetos es ms probable que haya sujetos con puntuaciones muy extremas (o muy
altas o muy bajas) y consecuentemente aumentar la desviacin tpica. Con nmeros grandes apenas hay
diferencia (a efectos prcticos da lo mismo dividir por 500 que dividir por 499), pero con nmeros
pequeos la diferencia puede ser importante.

2 Sobre el smbolo de la desviacin tpica hacemos una observacin para evitar confusiones. Aqu utilizamos siempre la letra ese
griega minscula () como smbolo de la desviacin tpica de la muestra, que es la que vamos a utilizar habitualmente,
incluso es frecuente designar a la desviacin tpica por el nombre del smbolo (sigma). Aunque no hay una prctica uniforme,
s conviene advertir que tambin es frecuente utilizar este smbolo () para expresar la desviacin tpica estimada de la
poblacin (N-1en el denominador), y reservar la letra s, ese latina, para expresar la desviacin tpica de la muestra (N en el
denominador).

Medidas descriptivas bsicas

De la frmula [3] (dividiendo por N) a la [4] (dividiendo por N-1) y viceversa se pasa con facilidad.
La desviacin tpica [3] la simbolizamos ahora como n y la desviacin tpica de la frmula [4] la
simbolizamos como n-1 para evitar confusiones.
El paso de [3] a [4] se capta con facilidad. Si despejamos (X - X) 2 en la frmula [3] tenemos que
(X - X) 2 = N

n-1 =

2
n

y substituyendo (X - X) 2 por N 2n en la frmula [4] tendremos que:

N n2
N -1

[5]

y de manera anloga tenemos que n = n-1 N 1


N

[6]

Podemos ver estas transformaciones en un sencillo ejemplo:


Tenemos estas tres puntuaciones 8, 12 y 14 (N = 3) cuyas desviaciones son:

n a partir de n-1:

n = 3.055

n-1 a partir de n

n-1 =

n = 2.494
n-1 = 3.055

3 1
= (3.055)(.816496) = 2.494
3

(3)(2.4944) 2
=
3 -1

18.666
= 3.055
2

De estas frmulas es de especial la [6] porque algunos programas de ordenador dan rutinariamente
la desviacin tpica de la poblacin (n-1) cuando la que con frecuencia interesa es la desviacin tpica de
la muestra (n).

2.2.2. La varianza
1. La varianza es simplemente la desviacin tpica elevada al cuadrado: 2 =

(X X) 2

[7]

Ya hemos visto que el numerador de la varianza (la suma de las desviaciones individuales elevadas
previamente al cuadrado) puede expresarse as:
2

(X- X ) = N2

De esta manera se simplifican bastante algunas operaciones del anlisis de varianza que no vemos
en este momento. Este numerador de la varianza se denomina tambin suma de cuadrados.
2. La varianza se interpreta de la misma manera que la desviacin tpica: cuantifica la dispersin de
una serie de puntuaciones. La interpretacin de la desviacin tpica y de la varianza es la misma, aunque
obviamente las magnitudes sern distintas.
La varianza es mayor que la desviacin tpica cuando la desviacin tpica es > 1,
La varianza es menor que la desviacin tpica cuando la desviacin tpica es < 1
Como dato descriptivo es ms frecuente el uso de la desviacin tpica que el de la varianza (aunque
se utilizan los dos).

Medidas descriptivas bsicas

10

2.2.3. Ventajas de la desviacin tpica y de la varianza como medidas de dispersin


La razn de utilizar la desviacin tpica (o la varianza) en vez de la desviacin media (u otras
medidas de dispersin como son la amplitud o la desviacin semi-intercuartlica) son varias:
1. El clculo de la desviacin tpica se basa en todas las puntuaciones.
Otras medidas de dispersin, como la amplitud y la desviacin semi-intercuartlica, utilizan menos
datos y dicen menos, aportan una informacin ms limitada. La amplitud (o recorrido) se basa solamente
en las dos puntuaciones extremas y la desviacin semi-intercuartlica (Q) expresa la dispersin en el 50%
central del grupo. Estas medidas de dispersin tambin tienen su utilidad, pero la medida que en principio
es preferible utilizar la desviacin tpica.
La desviacin tpica y la varianza tienen mucha estabilidad, al menos en trminos comparativos,
cuando la utilizamos para estimar la variabilidad de una poblacin; cuando se calcula en varias muestras
aleatorias vara relativamente poco.
2. De la relacin existente entre la desviacin tpica y la distribucin normal se derivan numerosas
aplicaciones muy tiles: si conocemos en cuntas desviaciones tpicas se aparta un sujeto de la media,
conocemos las probabilidades de que se d por azar esa puntuacin; as podemos detectar qu resultados,
por ser muy altos o muy bajos, son muy improbables por azar. Este clculo de probabilidades es
especialmente til en estadstica inferencial, ya ms en planteamientos de investigacin. Estos puntos se
tratan en extensin en el lugar apropiado, al tratar ms adelante de la distribucin normal.
3. La desviacin tpica y la varianza se calculan con facilidad con sencillas calculadoras con
programacin estadstica.
Existen adems varios mtodos simplificados para calcular la desviacin tpica, pero estos mtodos
slo dan aproximaciones y dada la facilidad con que pueden utilizarse las calculadoras, estos mtodos son
ya menos tiles y justificables.

2.2.4. Propiedades de la desviacin tpica y de la varianza


La desviacin tpica y la varianza tienen adems propiedades matemticas que las hacen ms tiles.
1. Si a las puntuaciones directas les sumamos una constante, la desviacin tpica y la varianza no
varan. Esto es obvio porque no varan las distancias inter-individuales.
Lo podemos ver con un ejemplo (dos muestras de tres sujetos, tabla 5.).

media
desviacin tpica

Caso A

Caso B
(= A +2)

1
5
9
5
3.266

3
7
11
11
3.266

Tabla 5
En el caso B hemos sumado dos puntos a cada sujeto del caso A; las medias son distintas (sube en
dos puntos en el caso B), pero la desviacin tpica es la misma porque las diferencias interindividuales
son las mismas.

Medidas descriptivas bsicas

11

2. Si multiplicamos las puntuaciones directas por una constante, la desviacin tpica queda
multiplicada por esa misma constante y la varianza queda multiplicada por el cuadrado de esa constante.
Lo vemos tambin con un ejemplo: las puntuaciones del caso A las multiplicamos por 2 (tabla 6).

media

Caso A

Caso B
(= A x 2)

1
5
9
5

2
10
18
10
6.53
(= 3.266x2)
42.67
(= 10.67x22)

desviacin tpica

3.266

varianza

10.67

Tabla 6
3. La varianza en particular tiene una propiedad que la hace sumamente til en algunos anlisis: la
varianza se puede descomponer segn diversos orgenes de la variacin. Estas aplicaciones se ven en las
tcnicas de anlisis de varianza.

2.2.5. Usos e interpretaciones de la desviacin tpica


1. En principio, y como ya hemos visto, la desviacin tpica describe el grado de homogeneidad de
los datos: ser ms baja en la medida en que los datos estn ms prximos a la media, aumentar si hay
puntuaciones extremas muy alejadas de la media, etc. Como dato puramente descriptivo suele utilizarse la
desviacin tpica con preferencia a la varianza (que tambin puede utilizarse).
La media y la desviacin tpica aportan datos descriptivos complementarios. Si se trata de datos
escolares (y lo mismo con otros tipos de datos) permiten hacer diagnsticos rpidos de un grupo. Media
baja y desviacin tpica pequea: examen difcil para todos, o el profesor califica muy bajo a todos, etc.;
media baja y desviacin tpica grande puede indicar que hay un subgrupo demasiado bajo, etc.; se trata al
menos de pistas razonables, pues para hacerse una idea ms cabal de la situacin habr que inspeccionar
los datos (la distribucin de frecuencias).
2. Al valorar e interpretar la desviacin tpica hay que tener en cuanta de dnde vienen los datos:
no es lo mismo el nmero respuestas correctas en un examen que calificaciones puestas por un profesor.
Ms en concreto es interesante pensar por qu podemos encontrar desviaciones pequeas donde cabra
esperar que fueran mayores.
As una desviacin tpica muy pequea puede indicar:
a) El grupo (el conjunto de datos) es muy homogneo, todos los sujetos (u objetos) se parecen
mucho entre s. En un test de inteligencia puesto a una muestra de sujetos muy inteligentes
tendremos una desviacin tpica ms pequea que la que podemos encontrar en una muestra
normal, donde hay de todo.
sta es la interpretacin en principio ms obvia porque es lo que expresa directamente la
desviacin tpica, pero, sobre todo cuando tenemos una desviacin mucho menor de lo esperado
o de lo que es usual encontrar en otras situaciones, cabe siempre el buscar alguna explicacin,
como indicamos en los apartados siguientes.
b) Los sujetos pueden ser potencialmente muy distintos, pero pueden tambin estar igualados por
la facilidad o dificultad de la prueba (examen, test, etc.). El test o instrumento, del tipo que sea,

Medidas descriptivas bsicas

12

puede ser poco discriminante y consecuentemente no detecta diferencias que de hecho hay. El
grupo puede ser muy homogneo pero slo tal como lo mide un instrumento determinado. Por
ejemplo, no es lo mismo poner como respuestas de un cuestionario s o no (a lo mejor todos
responden s) que poner s, ms bien s, ms bien no y no: puede suceder que los que responden
s (si slo pueden escoger entre s y no) se dividan entre el s y el ms bien s.
De manera semejante una desviacin tpica muy pequea en un test de conocimientos puede
indicar no que el grupo es realmente muy homogneo (sujetos muy iguales) sino que el examen
es muy fcil (todos o casi todos saben todo) o muy difcil (casi nadie sabe nada): puede haber
diferencias en esos conocimientos que no se detectan con ese test; el grupo es ms heterogneo
de lo que manifiesta esa desviacin tpica pequea.
c) Si se trata de calificaciones, una desviacin tpica pequea puede indicar que el profesor matiza
poco, pone notas muy iguales.
En general una desviacin tpica pequea puede indicar que el procedimiento o instrumento
utilizado para recoger los datos no recoge suficientemente diferencias que de hecho existen. El no
detectar diferencias repercute por otra parte en otros anlisis estadsticos (por ejemplo en el clculo de
coeficientes de correlacin: no se detectan relaciones si no hay diferencias claras entre los sujetos).
3. No hay un valor ideal de la desviacin tpica que pueda servir de referencia; cundo es grande o
pequea se aprecia comparando unas con otras. Dos desviaciones tpicas pueden compararse entre s
directamente (lo mismo que dos varianzas) si provienen de datos comparables (unidades comparables, la
misma escala mtrica).
En ocasiones puede ser de utilidad conocer cul es el valor mximo posible de la desviacin tpica;
este valor mximo posible es igual a:
puntuacin mxima posible puntuacin ms baja posible
2

[8]

Por ejemplo hacemos un pregunta con cinco respuestas (5 = totalmente de acuerdo, 4 = de acuerdo,
3 = indiferente, 2 = en desacuerdo y 1 = en total desacuerdo), la puntuacin mxima posible es 5 y la
puntuacin ms baja posible es 1; en este caso la desviacin tpica mayor posible es (5 - 1)/2 = 2.
Esta referencia suele ser poco til porque este valor mximo es difcilmente alcanzable en la
mayora de las situaciones. Cuando los valores son 1 y 0 (s o no, bien o mal, etc.), la desviacin tpica
mayor posible es (1 - 0)/2 = .50. Esta referencia con este tipo de datos es especialmente til, porque en
estos casos (respuesta 1 0) s es ms frecuente que la desviacin tpica obtenida sea la mayor posible o
se aproxime mucho a la mayor posible (ampliamos estos comentarios al tratar despus de las
puntuaciones dicotmicas).
4. La desviacin tpica indica qu puntuacin parcial pesa ms en una media final; a mayor
desviacin tpica, mayor peso en la media final. En determinadas situaciones esta informacin puede ser
muy til.
El que la puntuacin parcial con una mayor desviacin tpica pese ms en una media final es por
otra parte lgico: si todos reciben la misma o casi la misma puntuacin (lo que supone una desviacin
tpica muy pequea), no se establecen diferencias; si por el contrario se asignan puntuaciones muy
distintas a los sujetos (desviacin tpica grande) en una puntuacin parcial, las diferencias en la media
final dependern ms de esas ocasiones en las que se asignaron puntuaciones (o notas) muy distintas.
Lo podemos ver intuitivamente con un ejemplo ficticio (tabla 7). Supongamos que tres
examinadores (A, B y C) califican a tres sujetos en lo mismo (entre parntesis el nmero de orden de
cada sujeto con cada examinador y en la media final):

Medidas descriptivas bsicas

13

sujetos
sujeto 1
sujeto 2
sujeto 3

Desv. tp.

A
10
5
0

(1)
(2)
(3)
4.08

Examinadores
B
4
5
6

(3)
(2)
(1)
0.82

C
5
6
7

(3)
(2)
(1)

media final

6.3
5.3
4.3

(1)
(2)
(3)

0.82

Tabla 7
Podemos observar que el orden (entre parntesis) de los alumnos en la media final coincide con el
orden del examinador A, que es el que tiene una mayor desviacin tpica.
El sujeto n 1, el de media final ms alta, es el mismo que el del examinador A, a pesar de que este
examinador A est en minora ya que para los examinadores B y C el sujeto n 1 es el que tiene una
calificacin ms baja. Pero como el examinador A ha diferenciado ms sus calificaciones, est influyendo
ms en quin queda en el primer o en el ltimo lugar.
El que la puntuacin parcial con una mayor desviacin tpica tenga tambin un peso mayor en la
media final puede ser de especial importancia en algunas ocasiones, como cuando del nmero de orden
de los examinados se siguen consecuencias importantes (concesin de becas, procesos de admisin o
cualquier otro tipo de ventaja).
Los que califican de manera muy uniforme, sin diferenciar mucho, influyen menos: sumar a todos
una misma cantidad no establece diferencias. Lo mismo sucede si no se trata de examinadores distintos,
sino del mismo examinador pero que ha calificado de manera muy distinta en distintas ocasiones o con
distintos tipos de pruebas.
Este peso distinto de las puntuaciones directas, segn sea mayor o menor la desviacin tpica, se
puede obviar de varias maneras; sobre todo utilizando puntuaciones tpicas como veremos ms adelante.
5. La desviacin tpica entra en otros muchos clculos que iremos viendo (fiabilidad, error tpico,
error tpico de la media, contraste de medias, etc.).
6. La desviacin tpica permite el clculo de las puntuaciones tpicas individuales de las que
tratamos ms adelante. Adems la relacin entre la desviacin tpica, y las puntuaciones tpicas, y la
distribucin normal nos abrir la puerta a la estadstica inferencial.

2.2.6. Media y desviacin tpica de los datos dicotmicos


Datos dicotmicos, o puntuaciones dicotmicas, son aquellos en los que solamente hay dos
categoras de respuesta o de clasificacin mutuamente excluyentes. Cuando hay ms de dos posibilidades
se trata de datos o puntuaciones continuas.
En la figura 2 tenemos varios ejemplos frecuentes de puntuaciones (o datos, o variables)
dicotmicas.
Adems de los datos propiamente dicotmicos (dos respuestas que se excluyen mutuamente)
tambin podemos dicotomizar los datos continuos dividindolos en dos categoras, por ejemplo por
encima de la media y por debajo de la media (o mediana), o apto (= 1) y no apto (= 0), etc., aunque en
principio es preferible utilizar todas las respuestas sin reducirlas a dos categoras.

Medidas descriptivas bsicas

14

Las respuestas a las


preguntas objetivas (tipo
test) de rendimiento escolar
Bien

[1]

Mal [0]

Las respuestas a tests de


personalidad y de otros tipos de
tests, con slo dos respuestas
Verdadero [1]
S
[1]

Falso
No

Las respuestas a cualquier tipo


de pregunta con dos respuestas
que se excluyen mutuamente

[0]
[0]

De acuerdo [1] En desacuerdo [0]


En estos casos los
nmeros utilizados
implican un juicio de
valor (1= bien, 0 = mal).

Cabe tambin utilizar la clave


inversa: verdadero = 0 y falso = 1,
etc.

Varn [1]
Mujer [0]
Con carnet de conducir:
S

[1]

No

[0]

En estos casos la codificacin


con un 1 o un 0 es arbitraria;
(no implica juicio de valor) y
tambin se pueden codificar
con 1 y 2, etc.

Figura 2: ejemplos de datos dicotmicos


La media ( X ) de los datos dicotmicos es igual a la proporcin de respuestas correctas o de unos,
y el smbolo que suele utilizarse es p.
El concepto de media es el mismo que cuando se trata de otros tipos de puntuaciones: calculamos la
media sumando todas las puntuaciones individuales (que en este caso sern 1 0) y dividimos esta suma
por el nmero de sujetos.
Por lo tanto la media es:

p = proporcin de unos

nmero de unos
N

[9]

La proporcin de ceros (de respuestas incorrectas, de noes, etc.) se simboliza como q, y es igual al
nmero de ceros dividido por el nmero de sujetos, o ms sencillamente, q = 1-p, ya que p + q = 1 ( ses
+ noes o unos + ceros = el 100% de las respuestas).
q = proporcin de ceros

nmero de ceros
N

[10]

Naturalmente p + q = 1 (o el 100% de las respuestas); y q = 1 - p


Si, por ejemplo, de 50 sujetos 30 responden s (o bien en la pregunta de un examen) y 20 responden
no (o mal a una pregunta):
La media ser:

p=

El valor de q ser:

q=

30
50
20
50

= .60
= .40

Si multiplicamos por cien la proporcin de respuestas correctas (p), tenemos un tanto por ciento o
un porcentaje: el 60% ha respondido correctamente (o ha respondido s). Si los 50 sujetos responden s (o
correctamente), la proporcin de unos (la media) ser 50/50 = 1 ( el 100% de los sujetos ha respondido
correctamente o ha respondido s).
La desviacin tpica y la varianza de los datos dicotmicos (unos o ceros) se puede calcular a partir
de los valores de p y q:
Desviacin tpica:

= pq

[11]

Varianza:

2 = pq

Es habitual utilizar pq como smbolo de la varianza de los datos dicotmicos.

Medidas descriptivas bsicas

[12]

15

En el mismo ejemplo anterior, la desviacin tpica ser igual a .60 x .40 = .489, y la varianza ser
igual a .4892 = .239 ( .24 redondeando los decimales).
La varianza mayor posible se dar cuando el 50% responde correctamente (o responde s) y el otro
50% responde incorrectamente (o responde no), es decir, cuando el 50% de las respuestas se codifica con
un uno y el otro 50% con un cero. Es entonces cuando se da el mayor nmero de diferencias interindividuales.
En este caso tenemos que

p = q = .50;
la media es p =.50,
la desviacin tpica ser igual a pq = .50 x .50 = .50
2
la varianza ser igual a .50 = .25,

En los tems dicotmicos el valor mximo que puede alcanzar la desviacin tpica es .50 y el valor
mximo de la varianza es .502 =.25. Como ya se indic antes, el valor mximo que puede alcanzar la
desviacin tpica (con cualquier tipo de puntuacin) es igual a la diferencia entre la puntuacin mxima
posible y la puntuacin ms baja posible dividida por dos; en este caso (1-0)/2 = .50.
El que la mxima varianza con estos datos (1 0) es .25 podemos verlo de manera intuitiva en los
datos simulados de la tabla 8, donde tenemos todos los posibles resultados que podemos obtener si cuatro
sujetos (N = 4) responden a una pregunta (respuestas: s = 1, no = 0).
N=4

Responden Valor de p Responden Valor de


S (= 1)
No (= 0)
q

Nmero de
diferencias
interindividuales

Varianza
pq

Resultado 1

4/4= 1

0/4 = 0

(4)(0) = 0

(1)(0)

=0

Resultado 2

3/4= .75

1/4 = .25

(3)(1) = 3

(.75)(.25)

= .1875

Resultado 3

2/4 = .50

2/4 = .50

(2)(2) = 4

(.50)(.50)

= .25

Resultado 4

1/4 = .25

3/4= .75

(1)(3) = 3

(.25)(.75)

= .1875

Resultado 5

0/4 = 0

4/4= 1

(0)(4) = 0

(0)(1)

=0

Tabla 8
Si todos responden s (1) o todos responden no (0), nadie se diferencia de nadie y la varianza es
cero. Si la mitad (el 50%) responde s y la otra mitad responde no es cuando tenemos el mximo nmero
de diferencias y la mxima varianza. Si multiplicamos el nmero de los que responden s por el nmero
de los que responden no tenemos el nmero de diferencias entre los sujetos, y si multiplicamos las
proporciones tenemos la varianza. La unanimidad (todos responden s o todos responden no) coincide
con la varianza cero, y la mxima diversidad coincide con la varianza mxima, que es (.50)(.50) = .25.
El entender que la varianza mxima (lo ms lejano a la unanimidad en las respuestas) es .25 tiene
su importancia, no slo como referencia til, sino porque se trata de un valor que entra en la frmula para
calcular el tamao necesario de la muestra para extrapolar los resultados a la poblacin (por ejemplo en
las encuestas pre-electorales); en estos casos suponemos que la varianza de la poblacin es la mxima
posible e igual a .25. La razn est en que a mayor varianza har falta una muestra mayor y para mayor
seguridad nos ponemos en la situacin de que la varianza es la mayor posible (si la varianza fuera = 0,
nos bastara preguntar a un solo sujeto, porque todos van a responder lo mismo)3.
La media y la desviacin tpica de los datos dicotmicos pueden calcularse con las calculadoras que
tienen programacin estadstica, de la misma manera que se calculan cuando las puntuaciones son
3 En la ficha tcnica de las encuestas, que suele aparecer publicada en peridicos y revistas, se suele especificar que el tamao
de la muestra se ha calculado suponiendo que p = q = .50 (tambin se empelan letras maysculas, P y Q).

Medidas descriptivas bsicas

16

continuas (las frmulas bsicas son las mismas; si las puntuaciones son dicotmicas, nos limitaremos a
introducir en la calculadora unos y ceros). Tambin se utilizan los smbolos convencionales ( X , ); sin
pq (desviacin tpica) son los utilizados
embargo los smbolos p (media), pq (varianza) y
habitualmente con este tipo de datos; realmente tanto pq como pq son las frmulas que tambin se
utilizan como smbolos.

2.2.7. Combinacin de medias y desviaciones tpicas


Con frecuencia acumulamos datos y clculos de diversos grupos. Las frmulas que combinan
medias de diversos grupos en una media comn y diversas desviaciones tpicas en una desviacin tpica
comn son muy tiles.
1 Para combinar dos o ms medias:

Xtotal =

XN

[13]

Xtotal
XN
N

= media total, o comn a varios grupos;


= en cada grupo multiplicamos la media por su N y
sumamos estos productos (esta suma es igual a la
suma de todas las puntuaciones);
= suma de todos los N

La frmula [13] es obvia (se trata de una media ponderada por el nmero de sujetos):
Si la media es X =

X
N

tenemos que X = X N; que es el numerador de esta frmula [13]


(suma de todas las puntuaciones); el denominador (N) es la suma de
todos los sujetos de todos los grupos.

Cuando el nmero de sujetos es el mismo en todas las muestras, la media total es simplemente la
media de las medias.
Lo vemos en dos ejemplos (tabla 9), que utilizaremos tambin para ver cmo se combinan
desviaciones tpicas.

N=
X =
=

muestras de tamao desigual


3
6
2
5
8
6
8
3
6
7
4
5
4
5
3
5.75
5.20
4.67
1.92
1.72
1.88

muestras de idntico tamao


4
3
3
6
1
6
8
7
5
6
4
4
4
6.0
1.414

4
3.75
2.165

4
4.5
1.118

Tabla 9
Cuando las muestras son de tamao desigual:

Xtotal =

(4 x 5.75) + (5 x 5.2) + (3 x 4.67) 63.01


=
= 5.25
(4 + 5 + 3)
12

Cuando las muestras son de idntico tamao calculamos la media de las medias:
Xtotal =

6 + 3.75 + 4.5 14.25


=
= 4.75
3
3

Medidas descriptivas bsicas

17

2 Para combinar dos o ms desviaciones tpicas o varianzas:

Lo que no se puede hacer es calcular la media de las desviaciones tpicas; para combinar las
desviaciones tpicas de varios grupos como si se tratara de un solo grupo aplicamos las frmulas [14]
(muestras desiguales) y [15] (muestras iguales).
a) Muestras de tamao desigual

total =

N(X 2 + 2 )
2
X total
[14]
N

total = desviacin tpica total, de todos los grupos


unidos en uno solo;
X total = media del total, de todos los grupos unidos en
uno solo.

Calculamos N( X 2 + 2) en todos los grupos: multiplicamos cada N por la suma de la media y de la


desviacin tpica elevadas al cuadrado, y sumamos estos productos;
Dividimos esta suma por el nmero total de sujetos (N) y restamos la media total elevada al
cuadrado (y que se supone calculada previamente).
Si no extraemos la raz cuadrada, lo que tenemos es la varianza comn a todos los grupos.
b) Muestras de idntico tamao

Si las muestras son de idntico tamao, en la frmula [14] tendramos que el denominador ser Nk,
donde N es el nmero de sujetos que hay en cada grupo y k es el nmero de grupos, por lo que la frmula
[14] queda simplificada como se indica en [16].
total =

( X 2 + 2 )
2
X total
k

[15]

En el numerador nos limitamos a sumar todas las


medias y todas las desviaciones previamente
elevadas al cuadrado

Con los datos mismos datos de la tabla 9 calculamos las desviaciones tpicas uniendo todas las
muestras.
Muestras de tamao desigual [14]:

total =

[4(5.75 2 + 1.92 2 )] + [5(5.2 2 + 1.72 2 )] + [3(4.67 2 +1.88 2 )]


5.25 2 = 1.876
4+5+3

Muestras de idntico tamao [15]4:

total =

(6 2 + 3.75 2 + 4.5 2 ) + (1.414 2 + 2.165 2 + 1.118 2 )


4.75 2 = 1.876
3

De dnde vienen estas frmulas para combinar desviaciones tpicas a partir de los valores de las
desviaciones, medias y nmero de sujetos de diversos grupos?

La frmula [14] la tomamos de McNemar5, pero es fcilmente demostrable, y no sobra conocer


esta demostracin porque nos introduce en otras frmulas frecuentes de la desviacin tpica.

4 El numerador se calcula fcilmente con una calculadora con programacin estadstica, introduciendo todas las medias y todas
las desviaciones tpicas, en la funcin x2
5McNemar, Quinn, (1962), Psychological Statistics, 3rd edit., New York, John Wiley and Sons (pg. 24)

Medidas descriptivas bsicas

18

La frmula ms directa de la desviacin tpica es =

(X X) 2
N

[16]

Esta frmula no se demuestra en sentido propio (lo mismo que la de la media aritmtica),
simplemente expresa el concepto.
Hay otras frmulas, que se derivan de [16], para calcular la desviacin tpica sin necesidad de
calcular las puntuaciones diferenciales (X- X ). Lo que sucede es que estas frmulas que simplifican
operaciones son menos tiles, ya que disponemos de calculadoras programadas.
Una de estas frmulas para calcular la desviacin tpica a partir de las puntuaciones directas y de la
media, es la que nos interesa para poder demostrar la frmula que nos permite combinar desviaciones
tpicas de varios grupos; es la frmula [17] que viene en muchos textos; a partir de esta frmula [17]
llegamos con facilidad a la frmula [14] para combinar desviaciones tpicas o varianzas.
=

X 2
X2
N

[17]

Vamos a ver cmo de la frmula [17] llegamos a la frmula [14], que es la propuesta para combinar
desviaciones tpicas; despus veremos de dnde sale esta frmula [17].
Esta frmula [17] es ms cmoda que la frmula [16] para calcular la desviacin tpica cuando no
se dispone al menos de una calculadora con programacin estadstica.
Para simplificar esta demostracin utilizamos la varianza en vez de la desviacin tpica, as si
elevamos al cuadrado la desviacin tpica expresada en [17] tendremos que la varianza ser
2 =
2

Si en [18] despejamos X tendremos

X 2
X2
N
2

[18]
2

X =N( + X )

[19]

La expresin que tenemos en [19] podemos verla ya la frmula [14]. Si de dos muestras conocemos
los valores de N, X y , podemos utilizar la frmula [17] para calcular la desviacin tpica de las dos
muestras combinadas en una nica muestra. En esta frmula [17] utilizada para combinar dos (o ms)
desviaciones tpicas tenemos ahora que:
N = N1 + N2;
La media ser la media total de las dos (o ms) muestras
2
X ser la expresin [19] calculada en las dos (o ms) muestras y sumadas.
Es decir, substituyendo [19] en [18] tenemos la frmula [14] para combinar desviaciones tpicas.
Podemos preguntarnos ahora de dnde viene la frmula [17], que es la que estamos utilizando para
llegar a la frmula [14] y calcular la desviacin tpica de dos (o ms) muestras combinadas en una sola.
En la frmula de la desviacin tpica, la habitual, tenemos en el numerador un binomio elevado al
cuadrado. No hay ms que aplicar el procedimiento usual: (a - b)2 = a2 - 2ab + b2, y as llegamos a [18] y
[17]:
Utilizando la varianza para simplificar, tenemos que:

2 =

(X - X) 2 (X 2 2 XX + X 2 ) X 2
X X 2
=
=
2X
+
N
N
N

Como en [17] tenemos que

X
=X

y que

X 2 NX 2
=
= X2
N
N

Medidas descriptivas bsicas

[20]

19

Tendremos que 2 =

X 2
X 2
2X 2 + X 2 =
X 2 y as llegamos a [18]
N
N

2.3. El coeficiente de variacin (V)


Otra medida de dispersin, menos utilizada, es el coeficiente de variacin. En principio se utiliza
para comparar dispersin cuando los instrumentos o unidades de medida son distintas, o cuando las
medias de dos grupos son muy desiguales.
La desviacin tpica viene expresada en las mismas unidades empleadas en la medicin, por lo
tanto dos desviaciones calculadas con instrumentos y unidades distintas no son comparables entre s
directamente. Lo mismo sucede cuando las medias son muy distintas (por ejemplo cuando las medias de
dos exmenes son muy distintas porque el nmero de preguntas es distinto).
En estos casos se utiliza el coeficiente de variacin o de variabilidad relativa: consiste
sencillamente en dividir la desviacin tpica por la media (es decir, se trata de la desviacin relativa a la
media); es habitual multiplicar por 100 este cociente.

Coeficiente de variacin: V =

(100)
X

[21]

Por ejemplo, en dos grupos, de chicos y chicas, tenemos estos datos (peso en Kg.)

chicos
chicas

media

desviacin

66.87
51.06

6.99
5.10

Aparentemente los chicos difieren ms entre s


que las chicas entre s (su desviacin tpica es
mayor; los chicos tienen de manera natural ms
mbito de variacin), pero tambin es verdad que
las medias son muy distintas.

Si calculamos el coeficiente de variacin (haciendo las desviaciones relativas a la media) tenemos


estos resultados:
V (chicos) =
V (chicas) =

6.69
66.87
5.51
51.06

(100)

= 10.45

(100)

= 10.79

Teniendo en cuenta la diferencia entre las medias,


entre las chicas encontramos ms variabilidad en
peso (aunque no mucha ms).

El uso de este coeficiente de variacin en medidas educacionales o psicolgicas es muy


cuestionable, porque su valor depende de la media, que a su vez depende de la facilidad o dificultad de
las preguntas, test, etc. Su interpretacin se presta a ambigedades. Si por ejemplo a un test de 10
preguntas le aadimos otras 10 muy fciles, subir la media y bajar el valor de V.
Este coeficiente puede utilizarse y es especialmente til cuando se dan estas circunstancias:
1 Cuando las unidades lo son en sentido propio (como peso, altura, con una unidad clara); menos
aconsejable es utilizarlo en las medidas educacionales y psicolgicas habituales;
2 Cuando las medias son muy desiguales (como en el ejemplo anterior, peso en chicos y chicas).
3 Cuando las medidas son distintas (por ejemplo; dnde hay ms variabilidad, en peso o en
altura?).

Medidas descriptivas bsicas

20

En el campo de los tests en general, puede ser til para comparar la variabilidad de un grupo en el
mismo test aplicado en circunstancias distintas.
2.4. La desviacin semi-intercuartlica

Nos hemos centrado fundamentalmente en la desviacin tpica y en la varianza porque se trata de


dos conceptos fundamentales para el resto de los anlisis estadsticos. Son medidas de dispersin que se
utilizan cuando se utiliza la media aritmtica como medida de tendencia central.
Se utilizan tambin otros pares de medidas, tanto de tendencia central (que ya hemos visto, como
la mediana y la moda) como de dispersin, que son ya de utilidad ms limitada, aunque tienen su lugar
como descriptores de un conjunto de puntuaciones.
La desviacin semi-intercuartlica es la medida de dispersin apropiada cuando la medida de
tendencia central es la mediana, y expresa la dispersin del 50% central del grupo, por lo que, lo mismo
que la mediana, se prescinde tambin de las puntuaciones extremas.
El concepto es claro y podemos verlo en la distribucin de frecuencias de la tabla 10
Hemos dividido la muestra en cuatro partes con idntico nmero de sujetos (el 25% en cada una);
los lmites de estas cuartas partes se denominan cuartiles:
Lmite superior del cuartil 3 (queda por debajo el 75 % del total) (Q3) =
Lmite superior del cuartil 1 (queda por debajo el 25 % del total) (Q1) =
X
15
14
13
Q3
12
11
Mediana 10
9
8
7
Q1
6
5
4

||
||
|
|||
|
|
|
||
||
|||
|
|

f
2
2
1
3
1
1
1
2
2
3
1
1

12.5
6.5

25 %
25 %

50 %
central

25 %
25 %

Tabla 10
Es decir, y dicho de manera ms sencilla, entre 6.5 y 12.5 est el 50% central de los sujetos; la
desviacin semi-intercuartlica (Q) ser:
Q =

Q3 Q 1
2

[22]

en este ejemplo tendramos Q =

12.5 - 6.5
=3
2

Este ejemplo est puesto para explicar el concepto; lo normal es que los lmites del 50% central no
estn tan claros a simple vista; el clculo exacto lo veremos al tratar de los percentiles, pues se trata
simplemente de calcular por interpolacin los percentiles 25 y 75, como se explica en su lugar.

Medidas descriptivas bsicas

21

2.5. La amplitud o recorrido

La amplitud o recorrido (ambos trminos son usuales)6 es la medida de dispersin que se utiliza
cuando la moda es la medida de tendencia central.
Su clculo es muy simple:

Amplitud = (puntuacin ms alta menos la puntuacin ms baja) + 1

[23]

En el ejemplo de la tabla 10: amplitud = (15-4) + 1 =12

Observaciones sobre la amplitud:


1. Sumamos una unidad a la diferencia entre las puntuaciones extremas (se trata de una convencin
aceptada) porque nos situamos en los lmites extremos de ambas puntuaciones: el lmite superior de 15
sera 15.5 y el lmite inferior de 4 sera 3.5; la amplitud ser pues 15.5 - 3.5 = 12 ( 15 - 4 + 1).
2. Como indicador de dispersin es una medida dbil, pues se basa en slo dos puntuaciones, que
adems pueden ser atpicas, poco representativas, y grupos semejantes pueden parecer muy distintos en
dispersin, simplemente porque en algn grupo hay uno o dos sujetos con puntuaciones inusualmente
altas o bajas.
2.6. Relacin entre la amplitud y la desviacin tpica

En muestras relativamente grandes la amplitud o recorrido suele comprender unas seis


desviaciones tpicas (entre -3 y +3), por lo que un clculo aproximado de la desviacin tpica consiste en
dividir la amplitud entre seis. Segn va bajando N (nmero de sujetos, tamao de la muestra) la amplitud
comprende menos desviaciones tpicas y si sube N la amplitud suele comprender ms de seis
desviaciones.
En la tabla 11 tenemos cuntas desviaciones tpicas podemos esperar que comprenda la amplitud:
dividiendo la amplitud por esa cantidad (x) tendramos una aproximacin del valor de la desviacin
tpica7.
x

x
N
5
10
15
20

N
(aprox. = )
x
2.3
3.1
3.5
3.7

N
40
50
100
200

N
(aprox. = )
x
4.3
4.5
5.0
5.5

x
N
400
500
700
1000

(aprox. =

N
)
x

5.9
6.1
6.3
6.5

Tabla 11
Esta tabla nos dice que, por ejemplo, con 10 sujetos podemos esperar que la amplitud equivalga
aproximadamente a 3.1 desviaciones, y con 1000 sujetos a 6.5 desviaciones.
En los datos de la tabla 1.1 tenemos 40 sujetos, y la desviacin tpica exacta es 9.71; calculada a
partir del valor x de la tabla (para N = 40, x = 4.3), tendramos que = 40/4.3 = 9.3, que no se aparta
mucho del valor real.

6 A veces, y de manera errnea, se denomina rango a la amplitud, por confusin con el ingls (amplitud o recorrido en ingls es
range). El trmino rango significa propiamente nmero de orden (rank en ingls).
7 La tabla est tomada de Guilford.J.P. and Fruchter, B. (1973). Fundamental Statistics in Psychology and Education. 5th
edition. New York: McGraw-Hill.

Medidas descriptivas bsicas

22

Esta tabla no es til para calcular la desviacin tpica; en primer lugar porque es muy sencillo
calcular el valor exacto de la desviacin (utilizando un programa de ordenador o una calculadora con
programacin estadstica) y porque, como ya hemos indicado, la amplitud es una medida muy pobre que
depende solamente de dos puntuaciones que adems pueden ser atpicamente altas o bajas. Sin embargo
el calcular la desviacin a partir de esta tabla puede ser ocasionalmente til:
a) Para hacernos una idea de por dnde puede ir el valor de la desviacin tpica si en un momento
dado no disponemos de medios para calcularla directamente,
b) Para ponernos sobre la pista de algn error de bulto en el clculo,
c) Para apreciar si la desviacin tpica exacta y bien calculada es mucho mayor o menor de lo que
cabra esperar en un grupo de un determinado tamao. Si la desviacin tpica calculada es
apreciablemente mayor de la esperada, podemos comprobar si se debe a unos pocos sujetos
con puntuaciones extremas muy atpicas.

Medidas descriptivas bsicas

23

3. Medidas descriptivas bsicas: resumen


de tendencia central
Media : X =

de dispersin
Desviacin tpica : =

(X - X )
N

La desviacin tpica ser mayor en la medida en que las


puntuaciones individuales se aparten ms de la media
(X- X ). La desviacin tpica elevada al cuadrado (2) se
denomina varianza, tambin se utiliza como medida de
dispersin y tiene propiedades especficas que la hacen
muy til.
En el clculo de la media y de la desviacin tpica intervienen todas las puntuaciones individuales; son las dos
medidas ms estables: si calculamos estas medidas en una serie de muestras de la misma poblacin, fluctan menos
que las dems medidas. Permiten adems otras muchas operaciones de gran inters y son en principio las medidas
descriptivas preferibles.
La media es el centro de gravedad de la distribucin: la
suma de todas las diferencias individuales con respecto a
la media es igual a cero.

Mediana = P50

Desviacin semi - intercuartlica : Q =

La mediana es igual al Percentil 50; es la puntuacin que


divide la distribucin en dos partes iguales: la mitad de
los sujetos tiene una puntuacin superior a la mediana y
la otra mitad una puntuacin inferior.
En distribuciones asimtricas o con puntuaciones
extremas muy atpicas (muy extremas) puede dar una
idea mejor que la media ya que la media puede verse
afectada por puntuaciones muy extremas y no
representativas. La mediana en cambio no se ve alterada
por las puntuaciones extremas.
Ambas medidas, mediana y
Q son las apropiadas:

P75 P 25

2
La desviacin semi-intercuartlica (Q) se calcula
solamente con el 50% central de la distribucin: es la
media de dos puntuaciones: la que corresponde al
percentil 75 (deja por arriba el 25% de los sujetos) y la
que corresponde al percentil 25 (deja por debajo el 25%
de los sujetos).

Como quedan excluidos en el clculo el 25% superior y


el 25% inferior, tampoco se ve afectada por las
puntuaciones extremas.

1 en principio cuando se trata de puntuaciones puramente ordinales;


2 siempre que se prefiera prescindir de los sujetos extremos porque distorsionan la
informacin.

Ejemplos de uso de la mediana y Q: en el proceso de construccin de escalas de Thurstone; los tems son evaluados
por jueces y para evitar que pesen demasiado juicios extremos, se calculan la mediana y Q (en vez de la X y ) en
cada tem. Tambin se utilizan a veces en los cuestionarios de evaluacin del profesorado, cuando interesa la opinin
del centro de la clase y prescindir de los extremos.
La mediana y los percentiles 25 y 75 (Q1 y Q3, o primer y tercer cuartil) permiten adems hacer determinadas
representaciones grficas. Los percentiles se calculan en estos casos por interpolacin.
Moda : puntuacin con una frecuencia mayor

Amplitud = [valor ms alto - valor ms bajo]+ 1

La moda es simplemente la puntuacin con la mayor


frecuencia, la obtenida por el mayor nmero de sujetos.
Puede haber varias puntuaciones con esta caracterstica
(distribuciones bimodales, plurimodales). Como medida
de tendencia central es poco rigurosa, sobre todo en
distribuciones asimtricas. Se basa en las puntuaciones de
dos sujetos que si son muy extremas y atpicas desvirtan
la informacin.
La moda y la amplitud son las medidas menos rigurosas
aunque pueden tener su inters descriptivo.

La amplitud (o recorrido, y mal llamada a veces rango)


es igual a la diferencia entre la puntuacin ms alta y la
puntuacin ms baja. Habitualmente se suma una
unidad a esta diferencia porque se calcula a partir de los
lmites de los valores extremos (si las puntuaciones
extremas son, por ejemplo, 20 y 5, la amplitud no es
igual a 20 - 5 sino igual a 20.5 - 4.5 = [(20 - 5) + 1]. Es
una medida muy inestable porque depende solamente de
los dos valores extremos. En muestras semejantes la
amplitud puede ser muy diferente; basta que haya
sujetos muy atpicos en los extremos.

En la distribucin normal (simtrica, acampanada) media, mediana y moda coinciden en un idntico valor.

Medidas descriptivas bsicas

También podría gustarte