Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Organizar los datos tiene como fin permitirnos ver rápidamente algunas de las características de los
datos recogidos. Buscamos cosas como los valores mayor y menor, patrones evidentes, alrededor de
qué valores tienden a agruparse los datos, qué valores aparecen con más frecuencia, etc. Cuanta más
información de este tipo podamos obtener de una muestra, mejor entenderemos la población de la cual
proviene, y mejor será nuestra toma de decisiones.
Los datos pueden organizarse de muchas maneras. Si las observaciones están hechas con números,
podemos hacer una lista de los datos puntuales de menor a mayor según su valor numérico. Pero si los
datos consisten en las profesiones de los trabajadores de una construcción (carpinteros, albañiles o
soldadores), o en las distintas carreras que estudian los asistentes a una clase de estadística, o en los
diferentes colores de suéteres fabricados por una empresa dada, debemos organizarlos de manera
distinta.
Una ordenación de datos es una de las formas más sencillas de presentarlos: organizar valores
numéricos en orden ascendente o descendente, u organizar nombres de categorías en orden alfabético.
Por ejemplo, suponga que se recogen datos del número de hijos que tienen los doce asistentes a una
clase de yoga, obteniendo lo siguiente: 1 3 2 3 2 1 2 2 2 0 1 3. Ordenados quedarían como sigue: 0 1 1 1
2 2 2 2 2 3 3 3.
Podemos ver que la ordenación de datos ofrece varias ventajas con respecto a los datos sin procesar: i)
podemos identificar los valores mayor y menor rápidamente, ii) nos facilita la división de los datos en
secciones, iii) podemos identificar que valores aparecen más, entre otras. Sin embargo, no sería útil
para presentar grandes cantidades de datos, ya que al presentar una lista sería muy tedioso leerla si
tuviera por ejemplo 100 datos.
Una forma común de organizar los datos consiste en dividirlos en categorías o clases parecidas y luego
contar el número de observaciones que quedan dentro de cada categoría. Este método produce una
distribución de frecuencias que podemos tabular. La tabla obtenida nos muestra de manera resumida
la siguiente información:
¿Qué valores de la variable han sido medidos?
¿Con qué frecuencia se presenta cada uno de los valores?
Cuando la variable de interés es cualitativa, la tabla estadística es una lista de las categorías junto con
una medida de la frecuencia con que se presenta cada valor. Se puede indicar “la frecuencia” en tres
formas diferentes:
La frecuencia absoluta , número de mediciones en cada categoría
La frecuencia relativa , proporción de mediciones en cada categoría expresada como
fracción: la frecuencia de cada categoría dividido entre el total de datos. El resultado se puede
expresar como fracción o decimal. Por ejemplo, si de 20 carros en un parqueadero se tienen
que 5 son marca nassin. La frecuencia relativa como fracción es:
Otra forma común de expresar la frecuencia relativa es el porcentaje , que expresa la
proporción vista arriba, como el número de mediciones en cada categoría de cada 100. Se
obtiene multiplicando por 100 la frecuencia relativa. Para el ejemplo anterior se tiene:
Veamos un ejemplo, para construir una distribución de frecuencias: Una bolsa de dulces M&M
contiene 30 dulces con los colores que se indican en la tabla:
Café Verde Azul Café Rojo Rojo Verde Café Amarillo Naranja
Verde Azul Amarillo Café Azul Naranja Azul Naranja Azul Café
Rojo Amarillo Azul Verde Rojo Amarillo Naranja Azul Naranja Verde
La variable en este caso es el “color”, la cual es cualitativa. Entonces, una forma intuitiva en que
podemos organizarlas es poniendo cada color como una categoría. Se obtendrían 6 categorías
diferentes, y debemos contar cuantas veces se repite cada color para hallar la frecuencia absoluta, ese
proceso resultaría en la tabla que se muestra a continuación.
Las últimas dos columnas de la tabla dan las otras dos medidas (frecuencia relativa y porcentaje) de
con qué frecuencia se presenta cada categoría. Estas se pueden calcular usando las expresiones y
mostradas anteriormente. Haz todo el proceso de conteo y medición de las frecuencias y verifica
que los valores reportados son correctos.
Es importante tener en cuenta que cuando estemos eligiendo las categorías deben escogerse de modo
que un dato pertenecerá a una categoría y sólo a una, cada dato tiene una categoría a la que se puede
asignar. En ocasiones no es posible realizar una lista exhaustiva con todas las posibilidades, en ese
caso se pueden realizar categorías que incluyan todo lo demás. Por ejemplo, cuando se trate con
variables cualitativas se puede incluir una categoría como “otros” cubre a todas las observaciones que
no entran en las categorías mencionadas. O si se tiene datos cuantitativos, por ejemplo, de edad en una
población, se puede incluir una categoría como “70 o más”. Estas categorías se conocen como clase de
extremo abierto porque no limita alguno de los extremos de la categoría.
5 6 6 6 7 6 5 4 4 3
5 5 5 7 6 7 5 5 5 4
4 4 5 5 6 6 7 8 3 4
Si se ordenan los datos se puede notar que el menor valor es 3 y el mayor es 8, y que hay solo 6
números diferentes:
3 3 4 4 4 4 4 4 5 5
5 5 5 5 5 5 5 5 6 6
6 6 6 6 6 7 7 7 7 8
Por lo que podríamos definir una categoría por cada número de materias, obteniendo 6 clases
diferentes, y debemos contar cuantas veces se repite cada número de materias para construir la
siguiente tabla:
Las últimas dos columnas de la tabla dan las otras dos medidas (frecuencia relativa y porcentaje) de
con qué frecuencia se presenta cada categoría. Estas se pueden calcular usando las expresiones y
mostradas anteriormente.
63 64 76 66 73 74
67 57 79 66 68 62
80 64 61 65 67 74
61 68 57 69 54 69
71 71 65 75 62 66
Se puede elegir las clases según el criterio propio, eligiendo amplitudes iguales en cada clase. Por
ejemplo, de 10 en 10 (de 51 a 60, 61 a 70, 71 a 80). Pero también podemos seguir un procedimiento
estándar para construirlo. Los pasos que se deben seguir son los siguientes:
1. Identifique el valor más alto ( =80) y el más bajo ( =54) y encuentre el rango:
Una vez elegido el número de intervalos se calcula la amplitud dividiendo el rango entre el
número de clases, se debe escoger un número mayor que el que da en la división:
5. Se le debe sumar al valor mínimo definido en el paso anterior la amplitud del intervalo, y al
resultado sumarle de nuevo la amplitud del intervalo para obtener los valores frontera de los
intervalos. En el ejemplo:
Tenga en cuenta que cada uno de los intervalos definidos incluye el valor que sigue del
corchete y excluye el valor que antecede el paréntesis. Es decir el primer intervalo debe incluir
los valores mayores o iguales a 52 y menores que 57.
6. Una vez definido se suele calcular la marca de clase , esto es el punto medio de cada
intervalo. Se puede usar la siguiente relación:
7. Luego se debe contar el número de datos que cae en cada intervalo para construir una tabla de
frecuencias.
Bibliografía
(1) Levin, R. I.; Rubin, D. S. Estadística Para Administración Y Economía; Pearson Educación,
2004.
(2) Johnson, R.; Kuby, P.; Muñoz, J. H. R. Estadistica Elemental: Los Esencial; Cengage
Learning, 2008.