Está en la página 1de 6

Cálculo de los percentiles con datos no agrupados

Suele existir mucha confusión entre los estudiantes cuando se les habla de
percentiles o de cuantiles. Para aclarar el concepto recordemos (y esto es fundamental)
que disponemos de un conjunto de puntuaciones empíricas de tamaño (forzosamente)
finito. Así, por ejemplo, cuando realizamos mediciones de la “flexibilidad perceptiva”
de un grupo de sujetos tendremos que fijar un número de sujetos máximo: 100, 200,...
Este número nunca podrá ser infinito. Cada observación o medición nos dará un número
(el sujeto número1 tendrá flexibilidad perceptiva en el test de 15, el segundo de 14, el
tercero de 25,...). Los datos los podemos graficar inicialmente mediante un diagrama de
puntos para tener una idea aproximada de cómo se distribuyen. Supongamos que los
datos que tenemos son:
datos = {x1 = 3, x 2 = 5, x3 = 7, x 4 = 1, x5 = 15, x6 = 2, x 7 = 3, x8 = 10, x9 = 9, x10 = 9, x11 = 9 }
= {3, 5, 7, 1, 15 , 2, 3, 10, 9, 9, 9 }
Observemos aquí que el subíndice que acompaña a cada puntuación indica
simplemente el sujeto (el primer sujeto, el segundo, el tercero,..., el onceavo).
Veamos su gráfica de puntos:

Para calcular un percentil con estos datos debemos inicialmente pasar el


percentil a proporción. Así, si nos piden calcular el percentil 32 lo dividimos por 100 y
obtendremos que tenemos que calcular el cuantil 0,32. A este valor le llamaremos p (p =
0,32 en nuestro ejemplo). El valor de p tiene que estar entre 0 y 1 (mientras que el
percentil tiene que estar entre 0 y 100). Para calcular este cuantil tenemos que hacer lo
siguiente:
1º paso. Ordenamos los elementos de la muestra obteniendo así lo que llamamos
“estadísticos de orden”. Los representaremos poniendo el subíndice (que en este caso
indica no el número de sujeto sino el orden de la puntuación) entre paréntesis:
datos = { x1 = 3, x 2 = 5, x3 = 7, x 4 = 1, x5 = 15, x 6 = 2, x7 = 3, x8 = 10, x9 = 9, x10 = 9, x11 = 9 }
= {3, 5, 7, 1, 15 , 2, 3, 10, 9, 9, 9 }
datos _ ordenados = { x(1) = 1, x( 2 ) = 2, x( 3) = 3, x( 4 ) = 3, x( 5 ) = 5, x( 6 ) = 7, x( 7 ) = 9, x(8 ) = 9,
x( 9 ) = 9, x(10 ) = 10, x(11) = 15 }

Tenemos los mismos datos que antes pero ordenados. Ahora el subíndice indica el
orden, no el sujeto.
2º paso.- Si el producto entre el cuantil y el número de datos (n ∏ p) no pertenece a los
números naturales (1, 2, 3,....) y sabiendo que cuando encerramos a un número entre
corchetes estamos significando su parte entera tendremos que aplicar la siguiente
fórmula:

c p = x( [n ⋅ p ]+1)
En nuestro ejemplo tenemos n = 11 (el tamaño de la muestra) y p = 0,32. El producto de
ambos es n ∏ p = 11 ∏ 0,32 = 3,52. Este número (3,52) no pertenece a los números
naturales y por tanto tendremos que calcular la parte entera de 3,52. En este caso es
simplemente 3 (le quitamos los decimales). Ahora le sumamos la unidad (tal y como
nos indica la fórmula anterior) y tenemos 4. ¿Cuál es el número que ocupa la posición 4,
o simbólicamente x(4)? En la tabla de datos ordenados vemos que es igual a 3. Entonces
3 es el cuantil 0,32 de estos datos (y el percentil 32 es 3).
Podemos calcular el cuantil para todos los valores desde p = 0.0 hasta
p = 1.0. Una representación gráfica de este cálculo puede verse a continuación (en ella
he representado mediante una flecha verde el cuantil p = 0.32 que hemos calculado
anteriormente y el valor obtenido Cp=0.32 = 3 mediante una flecha roja):
Es muy interesante observar dos cosas en esta gráfica. En primer lugar, hay un
buen número de valores de p que tienen el mismo Cp. Así por ejemplo, puede verse en
la grafica que para valores de p entre, aproximadamente, 0.20 y 0.35 tienen todos el
mismo Cp = 3. Todas las líneas horizontales de la gráfica son puntos de p que tienen el
mismo Cp. En segundo lugar ¿a qué se corresponden las líneas rojas en el eje de
ordenadas Cp? Veamoslo.
Claramente podemos ver que se corresponde con los datos que tenemos (1,2, 3,
5, 7, 9, 10 y 15). ¿Y donde se representa el hecho de que en los datos originales
teníamos el número 9 tres veces o el 3 dos veces? En la longitud de la línea horizontal.
Vemos que el 9 tiene una longitud superior, v.g., al 2.

3º paso. Pero si el producto n ∏ p es un número entero entonces tendremos que aplicar


esta otra fórmula:

x( n ⋅ p ) + x( n ⋅ p +1)
cp =
2
Simplemente calculamos la semisuma (la suma dividida por la mitad) de los
estadísticos de orden que ocupan la posición n ∏ p y (n ∏ p) +1.
Para poner un ejemplo de este caso he tenido que modificar los datos anteriores.
Para ello he eliminando x(11) y tenemos otro conjunto de datos al que he denominado
(para diferenciarlo del anterior conjunto de datos) “datosO”.
datosO = { x1 = 3, x 2 = 5, x 3 = 7, x 4 = 1, x5 = 2, x 6 = 3, x 7 = 10, x8 = 9, x 9 = 9, x10 = 9 }
= {3, 5, 7, 1, 2, 3, 10, 9, 9, 9 }
datosO _ ordenados = { x(1) = 1, x( 2 ) = 2, x( 3 ) = 3, x( 4 ) = 3, x( 5 ) = 5, x ( 6 ) = 7, x( 7 ) = 9, x(8 ) = 9,
x( 9 ) = 9, x (10 ) = 10 }

Si nos piden calcular el centil 0,60 (Percentil 60) observamos que


n=10, p=0,60, n∏p=6
En consecuencia n ∏ p SÍ pertenece a los números naturales y ahora tenemos que aplicar
la segunda parte de la fórmula:

x( 6 ) + x( 6 +1) 7 + 9
cp = = =8
2 2
El centil 0,60 es X = 8 (y el percentil 60 es 8).
Veamos la gráfica de centiles de estos datos:
Ahora está claro la razón por la que calculamos la semisuma. Para un p = 0.60
tenemos un salto en la función. Cualquier valor entre 7 y 9 sería un valor de Cp para
p = 0.60. Ante este problema hemos de optar por un compromiso. Ese compromiso es
simplemente la media del valor máximo (9) y el mínimo (7) para p=0.60. Eso es lo que
representa la función anterior. Es por ello también que hablamos de percentiles
interpolados.

OTRO PLANTEAMIENTO
(más sencillo pero menos formal)
Desde otro punto de vista es fácil comprender porqué no se ha incluído en el
libro de texto de Análisis de Datos I la definición de Percentil para datos no agrupados.
La definición de percentil, como medida de posición, es la siguiente: dada una
puntuación de la variable X se nos pide determinar el porcentaje de casos (o sujetos) en
un conjunto de datos que tienen puntuaciones inferiores o iguales a un valor concreto de
X.
Pongamos un ejemplo con los datos “datos0”. Recordemos que los datos eran:
datosO = { x1 = 3, x 2 = 5, x 3 = 7, x 4 = 1, x5 = 2, x 6 = 3, x 7 = 10, x8 = 9, x 9 = 9, x10 = 9 }
= {3, 5, 7, 1, 2, 3, 10, 9, 9, 9 }
datosO _ ordenados = { x(1) = 1, x( 2 ) = 2, x( 3 ) = 3, x( 4 ) = 3, x( 5 ) = 5, x ( 6 ) = 7, x( 7 ) = 9, x(8 ) = 9,
x( 9 ) = 9, x (10 ) = 10 }

¿Qué porcentaje de casos quedan por debajo o son iguales con respecto a una
puntuación de X igual a 8 . La respuesta a esta pregunta puede realizarse haciendo una
simple regla de tres:

Casos Porcentaje
10 es el total Ø 100 %
Xi § 8? = 6 Ø X%

En primer lugar calculamos el número de casos del vector “datosO” que tienen
puntuaciones inferiores o iguales a 8. Obtenemos que son 6 puntuaciones (las
puntuaciones 1, 2, 3, 3, 5, 7). ¿De 10 puntuaciones totales que tenemos, qué porcentaje
representan estas 6 puntuaciones?
X = 600 / 10 = 60 % y esto es justamente lo que hemos calculado anteriormente
utilizando cuantiles. El percentil 60 es la puntuación 8. Esto se desprende
(implícitamente) de la frase (pág. 131 del texto): “ P54 simboliza la puntuación que deja
por debajo de sí al 54 por ciento de las observaciones...”

Un saludo.
José M. Reales, profesor de Análisis de Datos I