Está en la página 1de 4

Organización de los Datos Como Distribuciones de Frecuencia.

Organizar los datos tiene como fin permitirnos ver rápidamente algunas de las características de los
datos recogidos. Buscamos cosas como los valores mayor y menor, patrones evidentes, alrededor de
qué valores tienden a agruparse los datos, qué valores aparecen con más frecuencia, etc. Cuanta más
información de este tipo podamos obtener de una muestra, mejor entenderemos la población de la cual
proviene, y mejor será nuestra toma de decisiones.

Los datos pueden organizarse de muchas maneras. Si las observaciones están hechas con números,
podemos hacer una lista de los datos puntuales de menor a mayor según su valor numérico. Pero si los
datos consisten en las profesiones de los trabajadores de una construcción (carpinteros, albañiles o
soldadores), o en las distintas carreras que estudian los asistentes a una clase de estadística, o en los
diferentes colores de suéteres fabricados por una empresa dada, debemos organizarlos de manera
distinta.

Una ordenación de datos es una de las formas más sencillas de presentarlos: organizar valores
numéricos en orden ascendente o descendente, u organizar nombres de categorías en orden alfabético.
Por ejemplo, suponga que se recogen datos del número de hijos que tienen los doce asistentes a una
clase de yoga, obteniendo lo siguiente: 1 3 2 3 2 1 2 2 2 0 1 3. Ordenados quedarían como sigue: 0 1 1 1
2 2 2 2 2 3 3 3.

Podemos ver que la ordenación de datos ofrece varias ventajas con respecto a los datos sin procesar: i)
podemos identificar los valores mayor y menor rápidamente, ii) nos facilita la división de los datos en
secciones, iii) podemos identificar que valores aparecen más, entre otras. Sin embargo, no sería útil
para presentar grandes cantidades de datos, ya que al presentar una lista sería muy tedioso leerla si
tuviera por ejemplo 100 datos.

Una forma común de organizar los datos consiste en dividirlos en categorías o clases parecidas y luego
contar el número de observaciones que quedan dentro de cada categoría. Este método produce una
distribución de frecuencias que podemos tabular. La tabla obtenida nos muestra de manera resumida
la siguiente información:
 ¿Qué valores de la variable han sido medidos?
 ¿Con qué frecuencia se presenta cada uno de los valores?

Distribución de frecuencias variable cualitativa

Cuando la variable de interés es cualitativa, la tabla estadística es una lista de las categorías junto con
una medida de la frecuencia con que se presenta cada valor. Se puede indicar “la frecuencia” en tres
formas diferentes:
 La frecuencia absoluta , número de mediciones en cada categoría
 La frecuencia relativa , proporción de mediciones en cada categoría expresada como
fracción: la frecuencia de cada categoría dividido entre el total de datos. El resultado se puede
expresar como fracción o decimal. Por ejemplo, si de 20 carros en un parqueadero se tienen
que 5 son marca nassin. La frecuencia relativa como fracción es:
 Otra forma común de expresar la frecuencia relativa es el porcentaje , que expresa la
proporción vista arriba, como el número de mediciones en cada categoría de cada 100. Se
obtiene multiplicando por 100 la frecuencia relativa. Para el ejemplo anterior se tiene:

Entonces, si con representamos el número total de mediciones en el conjunto, se puede hallar la


frecuencia relativa y porcentaje usando estas relaciones:
Note que en un conjunto completo de datos que hemos dividido en categorías, se debe encontrar que la
suma de las frecuencias absoluta es siempre . Por tanto, la suma de las frecuencias relativas es 1 y la
suma de los porcentajes es 100%.

Veamos un ejemplo, para construir una distribución de frecuencias: Una bolsa de dulces M&M
contiene 30 dulces con los colores que se indican en la tabla:

Café Verde Azul Café Rojo Rojo Verde Café Amarillo Naranja
Verde Azul Amarillo Café Azul Naranja Azul Naranja Azul Café
Rojo Amarillo Azul Verde Rojo Amarillo Naranja Azul Naranja Verde

La variable en este caso es el “color”, la cual es cualitativa. Entonces, una forma intuitiva en que
podemos organizarlas es poniendo cada color como una categoría. Se obtendrían 6 categorías
diferentes, y debemos contar cuantas veces se repite cada color para hallar la frecuencia absoluta, ese
proceso resultaría en la tabla que se muestra a continuación.

Color Frecuencia Frec. Rel. Porcentaje (%)


Café 5 0,167 16,7
Verde 5 0,167 16,7
Azul 7 0,233 23,3
Rojo 4 0,133 13,3
Amarillo 4 0,133 13,3
Naranja 5 0,167 16,7

Las últimas dos columnas de la tabla dan las otras dos medidas (frecuencia relativa y porcentaje) de
con qué frecuencia se presenta cada categoría. Estas se pueden calcular usando las expresiones y
mostradas anteriormente. Haz todo el proceso de conteo y medición de las frecuencias y verifica
que los valores reportados son correctos.

Es importante tener en cuenta que cuando estemos eligiendo las categorías deben escogerse de modo
que un dato pertenecerá a una categoría y sólo a una, cada dato tiene una categoría a la que se puede
asignar. En ocasiones no es posible realizar una lista exhaustiva con todas las posibilidades, en ese
caso se pueden realizar categorías que incluyan todo lo demás. Por ejemplo, cuando se trate con
variables cualitativas se puede incluir una categoría como “otros” cubre a todas las observaciones que
no entran en las categorías mencionadas. O si se tiene datos cuantitativos, por ejemplo, de edad en una
población, se puede incluir una categoría como “70 o más”. Estas categorías se conocen como clase de
extremo abierto porque no limita alguno de los extremos de la categoría.

Distribución de frecuencias variable cuantitativa (pocos valores diferentes)


Cuando se tienen datos cuantitativos se pueden hacer tablas de distribución de frecuencia, pero la
forma de escoger las categorías cambia un poco. Por ejemplo, considere que se realiza una encuesta
preguntando por el número de materias que tienen inscritas 30 estudiantes de la universidad 42,
obteniendo los siguientes datos.

5 6 6 6 7 6 5 4 4 3
5 5 5 7 6 7 5 5 5 4
4 4 5 5 6 6 7 8 3 4

Si se ordenan los datos se puede notar que el menor valor es 3 y el mayor es 8, y que hay solo 6
números diferentes:
3 3 4 4 4 4 4 4 5 5
5 5 5 5 5 5 5 5 6 6
6 6 6 6 6 7 7 7 7 8
Por lo que podríamos definir una categoría por cada número de materias, obteniendo 6 clases
diferentes, y debemos contar cuantas veces se repite cada número de materias para construir la
siguiente tabla:

No. de Frecuencia Frec. Rel. Porcentaje (%)


Materias
3 2 0,067 6,7
4 6 0,200 20,0
5 10 0,333 33,3
6 6 0,200 20,0
7 4 0,133 13,3
8 1 0,033 3,3

Las últimas dos columnas de la tabla dan las otras dos medidas (frecuencia relativa y porcentaje) de
con qué frecuencia se presenta cada categoría. Estas se pueden calcular usando las expresiones y
mostradas anteriormente.

Distribución de frecuencias variable cuantitativa (muchos valores diferentes)


Cuando se tienen datos cuantitativos, es común tener un rango amplio de números y muchos datos
distintos. En esos casos no conviene contar la frecuencia por cada número diferente. Por lo que
conviene dividir los datos en grupos de valores parecidos. Después registramos el número de datos
puntuales que caen en cada grupo. Lo que resultará en una distribución de frecuencia agrupada.

Consideremos el siguiente ejemplo, en la tabla se muestra el peso en kg de 30 estudiantes de un salón


de clase.

63 64 76 66 73 74
67 57 79 66 68 62
80 64 61 65 67 74
61 68 57 69 54 69
71 71 65 75 62 66

Se puede elegir las clases según el criterio propio, eligiendo amplitudes iguales en cada clase. Por
ejemplo, de 10 en 10 (de 51 a 60, 61 a 70, 71 a 80). Pero también podemos seguir un procedimiento
estándar para construirlo. Los pasos que se deben seguir son los siguientes:

1. Identifique el valor más alto ( =80) y el más bajo ( =54) y encuentre el rango:

2. Seleccione un número de clases o intervalos (#C), y un ancho o amplitud de intervalo (A). De


tal manera que la multiplicación entre ambos sea un poco mayor que el rango. Muchas veces
recomiendan usar expresiones empíricas para encontrar el número de intervalos en función del
número de datos que se tienen. Una de las más usadas es:

Una vez elegido el número de intervalos se calcula la amplitud dividiendo el rango entre el
número de clases, se debe escoger un número mayor que el que da en la división:

3. Verifique el rango ampliado es decir la multiplicación entre el número de clases y la amplitud.


4. Como el rango ampliado es mayor que el rango original de los datos, hay que ajustar los
intervalos para que los últimos no queden con muchos valores en los que no hay datos. Para
eso calculamos el “exceso” que tenemos en el rango ampliado , en este caso
. Y repartimos esos valores en la distribución de intervalos de la siguiente
manera: al valor mínimo se le resta y al máximo se le suma .

En nuestro caso obtendríamos .

5. Se le debe sumar al valor mínimo definido en el paso anterior la amplitud del intervalo, y al
resultado sumarle de nuevo la amplitud del intervalo para obtener los valores frontera de los
intervalos. En el ejemplo:

Por lo que los intervalos quedan definidos como sigue:

Tenga en cuenta que cada uno de los intervalos definidos incluye el valor que sigue del
corchete y excluye el valor que antecede el paréntesis. Es decir el primer intervalo debe incluir
los valores mayores o iguales a 52 y menores que 57.

6. Una vez definido se suele calcular la marca de clase , esto es el punto medio de cada
intervalo. Se puede usar la siguiente relación:

7. Luego se debe contar el número de datos que cae en cada intervalo para construir una tabla de
frecuencias.

Intervalo Frec. Frec. Rel. Porc. (%)


54,5 1 0,033 3,3
59,5 4 0,133 1,3
64,5 10 0,333 33,3
69,5 8 0,267 26,7
74,5 5 0,167 16,7
79,5 2 0,067 6,7

Bibliografía
(1) Levin, R. I.; Rubin, D. S. Estadística Para Administración Y Economía; Pearson Educación,
2004.
(2) Johnson, R.; Kuby, P.; Muñoz, J. H. R. Estadistica Elemental: Los Esencial; Cengage
Learning, 2008.

También podría gustarte