Documentos de Académico
Documentos de Profesional
Documentos de Cultura
04 Estadistica Descriptiva
04 Estadistica Descriptiva
X
i
N
El smbolo X es el que se utiliza habitualmente para
representar la media aritmtica de la variable X. Si la
variable es Y, su media aritmtica se simbolizar por Y .
Como todos los ndices, si en vez de representar a una
muestra hacen referencia a una poblacin, vienen expre-
sados por una letra griega. La media de una poblacin
se simboliza por .
El CLCULO de este ndice slo se puede aplicar a
escalas con unidades de medida iguales, es decir, a esca-
las de intervalo y razn. Por esto, tenemos que tener en
cuenta la siguiente distincin:
Cuando los datos no se encuentran agrupados en
intervalos, el clculo de la media se reduce a la apli-
cacin de la frmula anterior que la dene.
Si tenemos los valores agrupados en una distribu-
cin de frecuencias, todas las puntuaciones del inter-
valo estn representadas por un solo valor, el punto
medio del intervalo (X
i
). Por tanto, si en un inter-
valo existen varias puntuaciones (f
i
), la suma de
esas puntuaciones ser f
i
veces el punto medio del
intervalo. La frmula a utilizar ser:
X =
X
i
f
i
N
Si calculamos una media con datos agrupados en in-
tervalos, el valor resultante ser slo un valor apro-
ximado o estimado de la media aritmtica real; esto
2 PROPIEDADES DE LAS DISTRIBUCIONES DE FRECUENCIAS 5
hace que nuestras puntuaciones originales queden
distorsionadas y que haya una prdida de informa-
cin que puede quedar reejada en los resultados
nales. Vamos a ver esto con un ejemplo.
Supongamos que tenemos las siguientes medidas de agu-
deza visual: 7; 9; 8; 5; 4; 3; 8; 9; 5; 6; 4; 2; 10; 8; 5.
Podemos calcular su media aritmtica directamente:
X =
7+9+8+5+4+3+8+9+5+6+4+2+10+8+5
15
= 6, 20
Ahora vamos a agrupar los datos en intervalos:
I X
i
f
i
X
i
f
i
9-11 10 3 30
6-8 7 5 35
3-5 4 6 24
0-2 1 1 1
15 90
Calculamos de nuevo la media con los datos de la tabla:
X =
90
15
= 6
Aunque en este caso la diferencia no es excesiva, puede su-
ceder que sea importante; por eso, siempre que sea posible
deber calcularse con los datos originales, sin agrupar.
La media es la medida de tendencia central ms uti-
lizada en cualquier anlisis de datos, y esto es debido a
sus propiedades matemticas. Algunas de las CARAC-
TERSTICAS esenciales de la media son:
1. Es sensible a la variacin de cada una de las pun-
tuaciones. Basta con que vare una sola puntuacin,
para que vare la media.
Ejemplo:
Muestra 1: 2; 5; 8; 11; 15 X = 8, 2
Muestra 2: 2; 5; 8; 11; 47 X = 14, 6
Muestra 3: 2; 5; 8; 11; 99 X = 25
2. Es funcin de los intervalos elegidos (de su ampli-
tud, de su nmero y de los lmites de los mismos).
3. Es fundamento de muchas tcnicas estadsticas.
4. No puede ser calculada si el intervalo mximo no
tiene lmite superior y/o el intervalo mnimo no tie-
ne lmite inferior, ya que en estos casos no puede
ser calculado el punto medio del intervalo.
5. Es el centro de gravedad de la distribucin de fre-
cuencias. Consideremos un tablero sin peso, largo
y estrecho. Representemos cada observacin por un
cubo de peso unidad. Todas las observaciones con
la misma puntuacin son colocadas una encima de
otra sobre el punto del tablero que coincide con esa
puntuacin. Apoyamos el tablero, cargado con las
puntuaciones, sobre el vrtice superior de una base
triangular. Pues bien, solamente se mantendr en
equilibrio el tablero si la media es el punto de apo-
yo del mismo sobre la base. Si se apoya en un punto
ms a la izquierda o ms a la derecha, el tablero se
caer.
Figura 1: La media aritmtica como centro de gravedad
6. No es recomendable calcular la media cuando la dis-
tribucin es muy asimtrica, es decir, cuando pre-
senta una o muy pocas puntuaciones en uno de los
dos extremos (o muy altas o muy bajas, respecto
a las restantes que constituyen la mayora). Como
ejemplo, volver ms arriba a las muestras 2 y 3 del
punto 1.
7. Si a los datos de una muestra se les suma una cons-
tante a, la media aritmtica queda sumada en esa
constante. Es decir, si X
i
tiene de media X, X
i
+a
tiene de media X +a.
Ejemplo: En un examen se han obtenido las notas siguien-
tes: X: 5; 4,5; 7; 1,5; 6,5. El profesor decide sumar 0,5
puntos a cada alumno. Las nuevas notas son X: 5,5; 5;
7,5; 2; 7.
X =
5+4,5+7+1,5+6,5
5
= 4, 9
X
=
5,5+5+7,5+2+7
5
= 5, 4
X + 5 = 4, 9 + 5 = 5, 4
8. Si se multiplican los datos de una muestra por una
constante a, la media aritmtica quedar multipli-
cada por esa constante. Es decir, si X
i
tiene de me-
dia X, entonces a X
i
tendr de media a X.
2 PROPIEDADES DE LAS DISTRIBUCIONES DE FRECUENCIAS 6
9. Si disponemos de los datos de una variable X en k
muestras, la media aritmtica de la variable se halla
mediante la media ponderada de las k medias, es
decir:
X =
n
1
X
1
+n
2
X
2
+...+n
k
X
k
n
1
+n
2
+...+n
k
Ejemplo: Una asignatura tiene 6 crditos, de los cuales
4,5 son crditos tericos y 1,5 son crditos prcticos. La
nota nal de cada alumno se calcular ponderando la nota
de teora y la nota de prctica. Si un alumno ha obtenido
un 6,5 en teora y un 8 en prcticas, su nota nal de la
asignatura ser:
X =
(4,56,5)+(1,58)
6
= 6, 875
2.1.2. La mediana
La mediana, representada por Md, es el punto medio de
un conjunto de puntuaciones que se han colocado en or-
den, es decir, el valor de la escala que deja el 50 por 100
de las puntuaciones de la distribucin por debajo de s
y el otro 50 por 100 por encima. A nivel de represen-
tacin grca es el punto del eje de abscisas que divide
al histograma en dos partes cuyas reas son del mismo
tamao.
Para su clculo es necesario ordenar las puntuaciones;
por tanto, slo se puede aplicar a partir de escalas ordi-
nales, escalas de intervalo o escalas de razn. Su clculo
es relativamente sencillo, pero vara en funcin de si los
datos estn agrupados o no lo estn. Dado que la media-
na coincide con el percentil 50, cuyo clculo veremos en
el apartado siguiente, no nos detendremos aqu en este
aspecto.
Algunas consideraciones en torno a la mediana
El clculo de la mediana implica que las variables
sobre las que se aplica sean de carcter continuo,
puesto que con variables discretas sera imposible,
en muchos casos, localizar el punto exacto de la es-
cala que cumpla la condicin de la mediana; en este
caso, slo podra hablarse de la clase en donde se
encuentra la mediana. Sin embargo, en la prcti-
ca, no se tiene en cuenta el carcter discreto de la
variable a la hora de calcular la mediana.
Al fundamentarse bsicamente en la divisin de la
distribucin en dos partes que contengan cada una
el mismo nmero de observaciones, es poco sensible
a los valores que tengan las mismas. Esta caracte-
rstica la hace muy til en la descripcin de distri-
buciones asimtricas (ya lo veremos ms adelante).
Respecto a la estabilidad de este ndice en diferentes
muestras de la misma poblacin, podemos decir que
es ms able que la moda.
Su aplicacin est limitada al mbito de la descrip-
cin de muestras y su uso en la inferencia estadstica
se basa ms en este carcter descriptivo que en sus
propiedades matemticas.
2.1.3. La moda
Cuando trabajamos con variables nominales y las re-
presentamos en una distribucin de frecuencias hay que
tener en cuenta dos aspectos:
Resulta muy difcil hablar del centro de la distri-
bucin, ya que las categoras no se reparten de una
manera continua, sino que la distribucin es discre-
ta.
Tampoco importa mucho el orden en que se coloque
cada clase o categora. Por ejemplo, cul puede ser
el centro de una distribucin entre blanco, negro y
amarillo?
Lo que s podemos hacer es determinar la frecuencia
ms elevada de todas, es decir, la clase o categora en la
que se incluyen ms observaciones. A esta clase la lla-
mamos CLASE MODAL, y se representa por Mo. Por
tanto, la clase modal o moda nos ofrece una caracters-
tica importante sobre los datos de nuestra muestra.
Pero el concepto de moda tambin se puede aplicar a
escalas ordinales y escalas de intervalo. Cuando la apli-
quemos a escalas de intervalo podemos denirla ms co-
rrectamente como la puntuacin que ocurre ms frecuen-
temente. En este caso, en vez de clase modal, hablaremos
de MODA, y la deniremos como el punto medio de la
clase modal en una distribucin de medidas de intervalo.
Tipos de distribucin en relacin a la moda
Cuando todas las puntuaciones de una distribucin
tienen la misma frecuencia, se dice que esa distri-
bucin no tiene moda, es decir, que es AMODAL.
2 PROPIEDADES DE LAS DISTRIBUCIONES DE FRECUENCIAS 7
Ejemplo: las puntuaciones 2; 2; 3; 3; 6; 6; 9; 9 no tienen
moda.
Si en un grupo hay dos o varias puntuaciones con la
misma frecuencia y esa frecuencia es la mxima, la
distribucin es BIMODAL o MULTIMODAL, res-
pectivamente.
Ejemplo: las puntuaciones 1; 1; 1; 4; 4; 5; 5; 5; 7; 8; 9; 9;
9 tienen varias modas, que seran 1, 5 y 9.
Cuando en una distribucin existen, adems de la
moda, otras puntuaciones que destaquen del con-
junto total por su alta frecuencia, podemos hablar
de una MODA MAYOR y una o varias MODAS
MENORES.
Ejemplo: las puntuaciones 0; 2; 2; 2; 2; 2; 2; 4; 4; 4; 4;
6; 7; 7; 7; 7; 8; 8; 9; 9; 9; 9 tienen una moda mayor, que
sera 2 y tres modas menores, que seran 4, 7 y 9.
Algunas caractersticas de la moda
Tiene una abilidad baja, esto es, el valor de la mo-
da vara con mucha facilidad en diferentes muestras
sacadas de la misma poblacin.
Aunque es un ndice cuya utilidad descriptiva se re-
duce a las escalas nominales (ya que no existe nin-
gn otro tipo de ndice de tendencia central aplica-
ble a este tipo de escalas), su clculo nos sirve para
el estudio de la simetra o asimetra de las distribu-
ciones.
2.1.4. Otros ndices de tendencia central
Media geomtrica Muy til para el tratamiento de
problemas psicofsicos.
Media armnica Se utiliza para promediar datos que
son inversamente proporcionales a una magnitud dada
(el caso de la velocidad y el tiempo).
2.1.5. Comparacin entre media, mediana y
moda
En resumen, existen tres ndices diferentes que se uti-
lizan normalmente para la descripcin de la tendencia
central de una distribucin de frecuencias, que son: la
media o valor promedio de la distribucin, la mediana,
o puntuacin de la escala que separa la mitad superior
de la escala de la inferior y la moda, o valor que ms
se repite en una distribucin. Que utilicemos uno u otro
ndice depende de dos cuestiones:
1. El inters concreto del investigador en cada situa-
cin experimental.
2. Las limitaciones operativas de cada uno de los n-
dices, ya que no todos pueden ser calculados con
cualquier tipo de datos.
En este sentido, para cada tipo de escala de medida
utilizaremos un ndice diferente:
Si la escala es nominal el nico ndice aplicable es
la moda.
Si la escala es ordinal, aplicaremos la moda y la
mediana.
Si la escala es de intervalo o razn podemos utilizar
la moda, la mediana y la media aritmtica.
Como hemos visto, la media es el ndice que presen-
ta ms restricciones a la hora de su aplicacin, ya que
exige variables continuas medidas en escala de intervalo
o razn. Sin embargo, la media es fundamento de otros
ndices descriptivos (variabilidad, correlacin...) y de las
pruebas de inferencia paramtrica. A pesar de estas ven-
tajas, la media no es recomendable en el caso de distri-
buciones muy asimtricas, ya que tiene en cuenta todas
y cada una de las puntuaciones de la distribucin. En
este caso, es ms aconsejable el uso de la mediana.
Ejemplo:
2, 5, 8, 11, 15 Md = 8 X = 8, 2
2, 5, 8, 11, 47 Md = 8 X = 14, 6
2, 5, 8, 11, 99 Md = 8 X = 25
2.2. Dispersin
Ya hemos visto los ndices de tendencia central, que iden-
tican el punto hacia el que tienden a agruparse todas
las puntuaciones. La segunda caracterstica de las distri-
buciones de frecuencias es que las puntuaciones se dis-
persan alrededor de ese punto central. Por tanto, no slo
2 PROPIEDADES DE LAS DISTRIBUCIONES DE FRECUENCIAS 8
es necesario conocer la tendencia central, sino tambin
identicar los ndices que cuantican el grado de varia-
bilidad o dispersin de las puntuaciones.
Ejemplo: Supongamos que tenemos dos grupos de sujetos a los
que se les ha aplicado una prueba de tiempo de reaccin ante
estmulos olfativos. Los resultados para ambos grupos son los
siguientes:
GRUPO A GRUPO B
X
1
=180 X
1
=150
X
2
=170 X
2
=144
X
3
=150 X
3
=142
X
4
=140 X
4
=139
X
5
=130 X
5
=138
X
6
=120 X
6
=137
X
7
=90 X
7
=130
Ambos grupos tienen el mismo valor de ndice central (X
A
=
X
B
= 140). Pero, podemos decir que ambas distribuciones son
iguales? Para verlo, representamos las puntuaciones mediante
un grco de cajas y bigotes (Figura 7) y vemos que cada grupo
tiene una forma muy distinta de distribuirse alrededor del valor
central.
Figura 2: Grco de cajas y bigotes
El grco nos indica que el grupo B es un grupo ms homo-
gneo, es decir, que todos sus miembros reaccionan con similar
rapidez a los estmulos olfativos; esto es, con una rapidez muy
cercana a la media. Mientras, en el grupo A los sujetos pre-
sentan grandes diferencias al respecto, tanto entre s como en
relacin a la media; es decir, es un grupo muy heterogneo.
Por tanto, para describir de forma correcta una mues-
tra es necesaria la utilizacin de ambos tipos de ndices,
que cuantican las dos caractersticas ms importantes
de la muestra: tendencia central y dispersin.
De acuerdo con la denicin de variabilidad de la
muestra, los ndices que la midan expresarn el grado
en que las puntuaciones se dispersan de un punto cen-
tral. Por tanto, todos los ndices de dispersin deben
hacer referencia a un ndice de tendencia central. Por lo
que hemos visto, en aquellos casos en que slo se puede
aplicar la moda (escalas nominales), sta no seala nece-
sariamente el centro de la distribucin; la mediana, por
otro lado, no posee ninguna propiedad matemtica que
sirva a nuestros nes; por tanto, el ndice ms apropiado
para utilizar como punto de referencia en el clculo de
medidas de dispersin es la media.
2.2.1. La varianza
Una posibilidad para estudiar la variabilidad de todas
las puntuaciones es restarle a cada una de ellas (X
i
)
la media de la distribucin (X), obteniendo as cun-
to se desva cada una de ellas de la tendencia central.
Esta puntuacin transformada se simboliza por x
i
y se
denomina puntuacin de dispersin o puntuacin di-
ferencial . Por tanto, podemos decir que:
x
i
= X
i
X
Como lo que nos interesa es obtener un ndice de la
dispersin de toda la muestra, una vez calculadas todas
las puntuaciones de desviacin de una muestra podra
ser interesante calcular la media de las mismas y consi-
derar esta media como un ndice de la dispersin de la
distribucin; la expresin algebraica sera la siguiente:
(X
i
X)
N
Pero existe una caracterstica de la media que dice
que la suma de todas las puntuaciones de desviacin es
cero y, por tanto, este ndice no nos indica en absoluto
la variabilidad de la muestra.
X
i
X
= 0
Ejemplo: Tenemos las siguientes puntuaciones: 1; 2; 3; 4; 5;
6; 7; 8; 9; 10. Su media es 5,5. Si calculramos la suma de
las desviaciones de cada puntuacin con respecto a su media
tendramos:
(15,5)+(25,5)+(35,5)+(45,5)+(55,5)
10
+
2 PROPIEDADES DE LAS DISTRIBUCIONES DE FRECUENCIAS 9
+
(65,5)+(75,5)+(85,5)+(95,5)+(105,5)
10
=
=
(4,5)+(3,5)+(2,5)+(1,5)+(0,5)+0,5+1,5+2,5+3,5+4,5
10
= 0
El mtodo que se utiliza para evitar este inconvenien-
te y obtener un ndice de dispersin ecaz es elevar al
cuadrado las puntuaciones de desviacin (toda puntua-
cin elevada al cuadrado tiene signo positivo). Y esto es
lo que se hace exactamente en el clculo de la varianza.
Por tanto, podemos denir la varianza como la me-
dia de las puntuaciones de desviacin al cuadrado; es-
to es, si sumamos los cuadrados de las puntuaciones de
desviacin, y esta suma la dividimos por el nmero de
observaciones, habremos calculado la varianza de la dis-
tribucin.
La varianza se simboliza por S
2
, y su frmula es la
siguiente:
S
2
=
(X
i
X)
2
N
La varianza de la poblacin se simboliza por
2
.
Si tenemos las observaciones agrupadas en una distri-
bucin de frecuencias en intervalos, la frmula sera:
S
2
=
(X
i
X)
2
f
i
N
Caractersticas de la varianza
1. Siempre ser un valor positivo, ya que, al estar cal-
culado a partir de puntuaciones al cuadrado, el nu-
merador ser siempre positivo.
2. Puede ser igual a cero. Esto suceder cuando todas
las puntuaciones de una distribucin sean iguales
entre s e iguales a la media, es decir, cuando no
existe variabilidad.
3. Es un ndice muy sensible a las variaciones de cual-
quier puntuacin de la distribucin, puesto que to-
das y cada una de ellas intervienen en el proceso de
clculo.
4. Cuanto ms alejada est una puntuacin de la me-
dia, mayor ser su contribucin al valor nal de la
varianza, puesto que su desviacin aumentar con-
siderablemente al elevarla al cuadrado. Esto impli-
ca que la varianza, al igual que la media, est muy
inuida por las puntuaciones extremas de la distri-
bucin.
Ejemplo:
Muestra 1: 2; 5; 8; 11; 15 X = 8, 2 S
2
= 20, 56
Muestra 2: 2; 5; 8; 11; 47 X = 14, 6 S
2
= 271, 44
Muestra 3: 2; 5; 8; 11; 99 X = 25 S
2
= 1,378
5. Cuando tenemos varias muestras sacadas de una
misma poblacin, es decir, con la misma media,
y conocemos sus respectivas varianzas, es posible
calcular la varianza del grupo total hallando la me-
dia de sus varianzas.
Aplicacin de la varianza La aplicacin de la va-
rianza como ndice descriptivo de la dispersin es muy
limitada, por dos razones:
1. Se trata de un concepto muy abstracto de la varia-
bilidad, imposible de representar grcamente.
2. A nivel de ndice cuantitativo presenta dicultades
para su interpretacin por venir expresado en uni-
dades de la escala al cuadrado. Esto es importante,
ya que si la media viene expresada en unas unidades
de escala, conviene encontrar un ndice que venga
expresado en esas mismas unidades. Este ndice es
la desviacin tpica, que ahora veremos.
Inters de la varianza
1. Por un lado, tiene inters como fundamento del
clculo de la desviacin tpica.
2. Por otro, es un concepto fundamental tanto para el
estudio de la correlacin y regresin, como en un
gran nmero de pruebas de inferencia estadstica,
como el Anlisis de Varianza.
2.2.2. La desviacin tpica
Hasta ahora, no hemos encontrado ningn ndice de dis-
persin que satisfaga las necesidades interpretativas de
nuestras medidas, ya que la varianza distorsiona excesi-
vamente la dispersin al elevarla al cuadrado. La nica
forma de calcular un ndice de dispersin, conservando
2 PROPIEDADES DE LAS DISTRIBUCIONES DE FRECUENCIAS 10
al mismo tiempo la informacin propia de la escala de
medida, se da en la desviacin tpica.
Podemos denir la desviacin tpica como la raz cua-
drada de la varianza, o, lo que es lo mismo, la raz cua-
drada de la media de los cuadrados de las puntuaciones
de desviacin. Si lo expresamos de forma algebraica que-
dara as:
S =
S
2
=
(X
i
X)
2
N
Caractersticas de la desviacin tpica
1. La desviacin tpica es la medida de dispersin ms
utilizada y de mayor aplicacin en estadstica.
2. Todas las caractersticas expuestas para la varianza
son aplicables a la desviacin tpica, excepto que
sta s que viene expresada en las mismas unidades
en que lo hace la escala, paliando la distorsin que
se daba en la varianza.
3. La desviacin tpica, lo mismo que la varianza y la
media, es muy sensible a las puntuaciones extremas,
por lo que no debe calcularse cuando la media no sea
el ndice de tendencia central ms adecuado para
una distribucin.
4. As como la media es el ndice de tendencia cen-
tral ms able, la desviacin tpica (al igual que la
varianza) es el ndice de dispersin ms able.
Signicado de la desviacin tpica El signicado
que tiene la desviacin tpica a nivel descriptivo viene
dado en su propia denicin: al tratarse de un promedio
de las distancias existentes entre todas las puntuacio-
nes y la media, la desviacin tpica ser tambin una
distancia. Y, como tal distancia, se puede representar
grcamente en una escala de medida a ambos lados de
la media. Esta propiedad demuestra su importancia en
la curva normal.
Ejemplo: Volviendo al ejemplo de antes, calculamos las desvia-
ciones tpicas de cada grupo para poder compararlos:
GRUPO A GRUPO B
X = 140 X = 140
S
2
= 800 S
2
= 33, 43
S = 28, 28 S = 5, 78
Ahora vemos que la diferencia que antes habamos notado a
nivel intuitivo entre las dos muestras queda expresada cuantita-
tivamente por los valores de las desviaciones tpicas. La muestra
ms dispersa sera la A y la ms homognea la B.
2.2.3. El coeciente de variacin
En el ejemplo hemos visto que las desviaciones tpicas
de las dos muestras eran bastante diferentes, expresando
as la distribucin de las puntuaciones. Para esto, slo
las hemos comparado entre s, puesto que tenan el mis-
mo tamao y la misma media. Pero, cuando esto no es
posible, es decir, cuando dos muestras no se reeren a
una misma variable, no tienen el mismo tamao o no
tienen igual media esta comparacin no es posible.
Un mtodo para realizar esta comparacin es calcular
los coecientes de variacin de ambas muestras y com-
pararlos entre ellos.
El coeciente de variacin es la relacin entre la des-
viacin tpica de una muestra y su media, expresado en
porcentajes. Su frmula es:
CV =
S
X
100
Este ndice expresa un valor muy abstracto, ya que es
el resultado de poner en relacin un ndice que repre-
senta una distancia (S) y un ndice que representa un
punto de la escala (X). Por tanto, su nico inters es
la ayuda que aporta en la comparacin entre diferentes
dispersiones.
Ejemplo: En el ejemplo anterior, tendramos:
GRUPO A: CV =
28,28
140
100 = 20, 2 %
GRUPO B: CV =
5,78
140
100 = 4, 13 %
Esto quiere decir que en el grupo A la dispersin representa un
20,2 % de la media, mientras que en el grupo B slo representa
un 4,13 % de la misma.
2.2.4. Otros ndices de dispersin
Adems de los ya vistos, existen otros ndices que re-
presentan la variabilidad de una distribucin. Por citar
alguno, tenemos:
La AMPLITUD o RANGO para las escalas ordina-
les.
2 PROPIEDADES DE LAS DISTRIBUCIONES DE FRECUENCIAS 11
La REDUNDANCIA para las escalas nominales.
La AMPLITUD SEMIINTERCUARTIL, adecuada
cuando la distribucin sea muy asimtrica y, por lo
tanto, calculemos como ndice de tendencia central
la mediana, en vez de la media.
2.3. Posicin
Hasta ahora hemos hablado de los datos como un todo
y hemos hablado de su variabilidad y dispersin como
caractersticas fundamentales de cualquier distribucin.
Pero, as como nos interesa conocer las caractersticas
del conjunto, tambin nos interesa conocer la signica-
cin de un dato concreto. Para ello, vamos a hablar de
las medidas o ndices de posicin.
2.3.1. Los percentiles
Una forma de caracterizar una puntuacin dentro de una
muestra consiste en decir el orden que ocupa dentro del
total de puntuaciones. Para hacer esto, transformamos
la escala de puntuaciones directas en una escala de per-
centiles.
DEFINICION: denimos el percentil como el valor de
la escala bajo el cual se encuentra un porcentaje de-
terminado de observaciones (por ejemplo, si habla-
mos del percentil 15, simbolizado por P
15
, nos re-
ferimos al valor de la escala por debajo del cual se
encuentra el 15 por 100 del total de las observacio-
nes ordenadas de menor a mayor, y que deja por
encima de s el 85 por 100 de las observaciones).
Esta denicin nos recuerda a un ndice de tendencia
central ya visto, la mediana, que es el punto de la escala
que deja por debajo de s al 50 por 100 de los datos y
el otro 50 por 100 por debajo. Por tanto, la mediana
ocupara el percentil 50.
Como las puntuaciones deben ser ordenadas de menor
a mayor, es necesario que los datos estn medidos, al
menos, en escala ordinal.
Clculo de los percentiles
1. Si los datos no estn agrupados: el primer paso
consiste en averiguar el nmero de puntuaciones que
estn por debajo del percentil buscado.
Ejemplo: Si en la serie siguiente: 2; 3; 4; 5; 6; 6; 6; 7; 7;
7; 8; 8; 9; 9; 10 queremos conocer cuntas puntuaciones
hay por debajo del P
20
, tendremos que calcular cunto es
el 20 por 100 del total de 15 observaciones. En este caso
seran tres los valores que quedaran por debajo de P
20
.
Por tanto, P
20
ser el punto medio entre la tercera y la
cuarta observaciones:
P
20
=
4+5
2
= 4, 5
La puntuacin 4,5 deja, efectivamente, por debajo de s 3
observaciones (20 %) y 12 observaciones (80 %) por enci-
ma de s.
2. Si los datos estn agrupados en intervalos: en
primer lugar, construiremos la distribucin de fre-
cuencias calculando los lmites reales, las frecuen-
cias absolutas y las frecuencias acumuladas. Una
vez hecho esto, aplicamos la siguiente frmula:
P
k
= lim
i1
+
kn/100f
ac
i1
f
i
a
i
donde,
lim
i1
es el lmite inferior del intervalo donde
se sita el percentil.
f
ac
i1
es la frecuencia acumulada del intervalo
anterior.
f
i
es la frecuencia absoluta del intervalo donde
se sita el percentil.
a
i
es la amplitud del intervalo donde se sita
el percentil.
k es el percentil que queremos calcular.
El percentil P
k
ser la puntuacin que ocupe la po-
sicin (Nk)/100.
Escala de percentiles
El clculo de percentiles se extiende desde el P
1
has-
ta el P
100
, por tanto, la escala de percentiles tiene
una amplitud de 1 a 100, siendo su punto medio
P
50
, que corresponde exactamente a la mediana.
2 PROPIEDADES DE LAS DISTRIBUCIONES DE FRECUENCIAS 12
La escala de percentiles es una escala ordinal, es de-
cir, la escala determina la posicin que ocupa cada
puntuacin individual, en porcentajes, pero no nos
dice nada sobre la diferencia entre puntuaciones.
Por ejemplo, la diferencia de cantidad de caracte-
rstica medida entre el P
70
y el P
80
no tiene porqu
ser la misma que la existente entre el P
60
y el P
70
.
La representacin grca de una escala de percen-
tiles tiene una distribucin uniforme o rectangular,
es decir, entre dos valores consecutivos de la escala
siempre existe el mismo nmero de frecuencias, lo
que desvirta mucho la forma de la distribucin de
los datos originales.
Sin embargo, la gran ventaja de las escalas de per-
centiles es que permiten la comparacin directa de
las puntuaciones entre s, tanto dentro de una mis-
ma caracterstica como entre caractersticas distin-
tas, siempre que se trate del mismo grupo de suje-
tos. Para ello, slo es necesario calcular qu percen-
til corresponde a una puntuacin determinada.
La restriccin ms importante de esta escala es que
siempre debe tenerse en cuenta el grupo de referen-
cia, es decir, que el rango que ocupa la puntuacin
individual de un sujeto se reere exclusivamente a
ese grupo. Por tanto, para poder armar que la pun-
tuacin de un sujeto ocupa un rango determinado,
debemos tener la seguridad de que el sujeto perte-
nece a ese grupo.
A pesar de esto, la escala de percentiles resulta
muy til al proporcionar una informacin fcilmen-
te comprensible sobre una puntuacin, ya que el
concepto de porcentaje es ampliamente conocido, y
cualquier persona es capaz de comprender el signi-
cado de un rango expresado en porcentajes.
Como inconveniente de la escala nos encontramos
con que, a nivel estadstico, y dada su caracterstica
de escala ordinal, su utilidad es muy limitada. En
este sentido, existen otros tipos de transformaciones
de las puntuaciones directas que dan lugar a escalas
de intervalo, ms interesantes para el tratamiento
estadstico.
2.3.2. Deciles y cuartiles
Todos los ndices de posicin estn planteados al mismo
nivel que los percentiles, esto es, indican la posicin, el
rango de una puntuacin dentro de una distribucin. De
hecho, podemos decir que los otros ndices de posicin
no son ms que algunos percentiles que tienen unas ca-
ractersticas especiales. Este es el caso de la mediana,
que es el percentil 50, pero tiene un inters adicional
por dividir a la distribucin en dos partes exactamente
iguales.
Del mismo modo, podemos hablar de otros percentiles
que dividen a la distribucin en un nmero determinado
de partes iguales. Los ms caractersticos son los llama-
dos deciles y cuartiles.
1. Los DECILES son los valores de la escala que di-
viden a la distribucin en 10 partes iguales, es de-
cir, entre dos deciles consecutivos cualesquiera se
encuentra el 10 por 100 de las observaciones de la
muestra.
Por tanto, existirn 9 deciles, desde D
1
hasta D
9
,
que se corresponden con los percentiles 10, 20, ...,
90.
Esta escala, que posee las mismas caractersticas
que la escala de percentiles, tiene un uso an ms
restringido, ya que proporciona menos informacin
al localizar slo 9 puntos de la escala total.
2. Los CUARTILES son los valores de la escala que
dividen a la distribucin en 4 partes iguales. En
cada una de ellas, por tanto, estarn el 25 por 100
de las observaciones de la muestra.
Los tres cuartiles se simbolizan por Q
1
, Q
2
y Q
3
, y
corresponden a los percentiles 25, 50 y 75, respecti-
vamente.
Ejemplo: En una prueba de acceso a puestos de trabajo en la
funcin pblica se anotaron el nmero de respuestas acertadas
por los aspirantes, resultando lo siguiente:
I f
i
X
i
f
ac
i
19-26 3 22,5 3
26-33 5 29,5 8
33-40 12 36,5 20
40-47 9 43,5 29
47-54 7 50,5 36
54-61 4 57,5 40
40
1. Si hay tan slo 7 plazas, qu calicacin se ha de ob-
tener como mnimo para conseguir una de ellas?
2 PROPIEDADES DE LAS DISTRIBUCIONES DE FRECUENCIAS 13
Como hay 7 plazas, slo 7 sujetos de los 40 podrn optar
a una. El primer paso ser saber qu porcentaje del total
representan 7 sujetos:
7/40 100 = 17, 5
Por tanto, slo el 17,5 % de los sujetos tendrn plaza. Co-
mo es lgico suponer que sean los que mejor nota tengan
(ms nmero de respuestas acertadas), stos sujetos sern
el 17,5 % superior de la distribucin.
Sin embargo, como los percentiles nos informan del por-
centaje de sujetos que quedan por debajo de una puntua-
cin, debemos buscar el percentil que deje por debajo al
100-17,5=82,5 % de los sujetos, esto es, el percentil 83.
Clculo:
P
k
= lim
i1
+
kn/100f
ac
i1
f
i
a
i
Calculamos en primer lugar el nmero de sujetos que re-
presentan el 83 %:
kn/100 = 83 40/100 = 33, 2 33
Buscamos en la columna de las frecuencias acumuladas el
intervalo que contiene a 33 sujetos. Resulta ser el intervalo
5
o
[47, 54]. Una vez localizado el intervalo donde se va a
situar la puntuacin que corresponde al P
83
buscamos el
resto de datos necesarios para aplicar la frmula de clculo.
El lmite inferior del intervalo (lim
i1
), que es 47.
La frecuencia acumulada del intervalo anterior
(f
ac
i1
), que es 29.
La frecuencia absoluta de nuestro intervalo (f
i
), que
es 7.
La amplitud del intervalo (a
i
), que es 7.
Aplicamos la frmula:
P
83
= 47 +
3329
7
7 = 51
El percentil 83 corresponde a la puntuacin 51. Por tanto,
la calicacin mnima que deben obtener los sujetos para
conseguir plaza es 51 respuestas correctas.
2. Si no se admiten a todos aqullos que obtienen una ca-
licacin inferior a 49 puntos, cuntos de los aspirantes
sern admitidos?
En este caso tenemos la puntuacin (49) y debemos averi-
guar a qu percentil corresponde. Sabemos, por tanto, que
P
k
= 49. Lo haremos mediante misma frmula, slo que
la incgnita es este caso es el valor del percentil, es decir,
k.
Como 49 es una puntuacin, iremos a la tabla a ver en
qu intervalo est incluida. Resulta estar en el intervalo
5
o
. Una vez localizado el intervalo donde se sita la pun-
tuacin, buscamos el resto de datos necesarios para aplicar
la frmula de clculo.
El lmite inferior del intervalo (lim
i1
), que es 47.
La frecuencia acumulada del intervalo anterior
(f
ac
i1
), que es 29.
La frecuencia absoluta de nuestro intervalo (f
i
), que
es 7.
La amplitud del intervalo (a
i
), que es 7.
Aplicamos la frmula:
49 = 47 +
(k40/100)29
7
7
Como en este caso la incgnita es k debemos despejarla
para obtener su valor.
k =
(4947)7
7
+29
100
40
= 77, 5
La puntuacin 49 deja por debajo de s al 77,5 % de los
datos. Es decir, el 77,5 % de los sujetos no sern admitidos,
lo que corresponde a (40 77, 5)/100 = 31 sujetos. Como
el enunciado nos pide cuntos sern admitidos, debemos
restarlo del total (40-31=9).
Por tanto, el nmero de sujetos que sern admitidos es 9.
3. Cuntos aspirantes superan la media de las puntuacio-
nes?
Para saber cuntos sujetos superan la media, debemos an-
tes calcular sta.
X =
X
i
f
i
N
X =
22,53+29,55+36,512+43,59+50,57+57,54
40
= 40, 7
Ahora que conocemos el valor de la media, seguimos los
mismos pasos que en el apartado anterior para calcular el
valor del percentil.
40, 7 = 40 +
k40/10020
9
7
k =
(40,740)9
7
+20
100
40
= 52, 25
El 52,25 por ciento de los sujetos de la muestra se sita
por debajo de la media de la distribucin. Por tanto, el
47,75 % restante se sita por encima. A este porcentaje le
corresponden 19, 1 19 sujetos.