Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Organizacion de Datos
Organizacion de Datos
UNIVERSIDAD YACAMBÚ
ESTADÍSTICA DESCRIPTIVA. PROF. FRANK ARANGUREN
GUÍA BÁSICA: ORGANIZACIÓN Y DISTRIBUCIÓN DE DATOS
Una vez recopilados los datos de una población o muestra para su mejor manejo y posterior análisis estadístico es
necesario organizarlos y presentarlos adecuadamente. A continuación se indican conceptos y herramientas elementales
a utilizar al respecto.
Ordenamiento de datos
Se refiere a organizar los valores en orden ascendente o descendente. Es especialmente útil para:
Identificar los valores mayor y menor rápidamente
Dividir los datos en secciones o clases
Verificar si algunos valores aparecen repetidos
Observar la distancia entre valores sucesivos de los datos
Ejemplo:
De una muestra sobre la producción diaria en toneladas de 30 fábricas de harina precocida se obtuvieron los siguientes
datos:
16.2 15.8 15.8 15.8 16.3 15.6
15.7 16.0 16.2 16.1 16.8 16.0
16.4 15.2 15.9 15.9 15.9 16.8
15.4 15.7 15.9 16.0 16.3 16.0
16.4 16.6 15.6 15.6 16.9 16.3
La ordenación de estos datos en forma ascendente es:
15.2 15.7 15.9 16.0 16.2 16.4
15.4 15.7 15.9 16.0 16.3 16.6
15.6 15.8 15.9 16.0 16.3 16.8
15.6 15.8 15.9 16.1 16.3 16.8
15.6 15.8 16.0 16.2 16.4 16.9
Analizando la información así ordenada se pueden identificar aspectos a resaltar, tales como:
Los primeros 15 valores (la mitad inferior) están entre 15.2 y 16,0 toneladas, y los últimos 15 (la mitad superior)
entre 16.0 y 16.9 toneladas
El tercio más bajo de los datos está entre 15.2 y 15.8 toneladas, el tercio medio está entre 15.9 y 16.2 toneladas,
y el tercio más alto entre 16.2 y 16.9 toneladas
Hay 9 valores que ocurren más de una vez (15.6, 15.7, 15.8, 15.9, 16.0, 16.2, 16.3, 16.4, 16.8)
Tabla de frecuencias
También llamada distribución de frecuencias, se refiere a la agrupación de datos en “clases” mutuamente excluyentes
mostrando el número de observaciones que hay en cada una. Su contenido incluye:
Clase. Identifica el tipo, cualidad o intervalo en los que se agruparán los datos
Frecuencia absoluta (f). Indica el número de veces que se presenta una observación dentro de una clase
Frecuencia relativa (fr). Es el cociente entre la frecuencia absoluta y el número total de datos analizados. Indica
la relación entre la totalidad de elementos de una clase y el número total de observaciones. Puede
representarse en forma de %
Frecuencia absoluta acumulada (F). Se calcula sumando las frecuencias absolutas anteriores a la considerada en
cada caso. Indica el número de elementos que se ubican en una clase en conjunto con las anteriores
Frecuencia relativa acumulada (Fr). Se obtiene sumando las frecuencias relativas anteriores a la considerada en
cada caso. Indica la relación entre la totalidad de elementos que se ubican en una clase en conjunto con las
anteriores y el número total de observaciones. Puede representarse en forma de %
Distribución de frecuencias con datos cualitativos
El procedimiento cuando se trata de una variable cualitativa se muestra en los ejemplos a continuación.
Ejemplos:
a) En una encuesta sobre el deporte favorito en una muestra de 25 personas se obtuvieron los siguientes datos:
Deporte Respuestas
Futbol 10
Basquetbol 5
Béisbol 2
Natación 3
Ninguno 5
Total 25
Procesando estos datos se puede generar la distribución de frecuencias a continuación.
Deporte fi fri Fi Fri
Futbol 10 0.4 10 0.4
Basquetbol 5 0.2 15 0.6
Béisbol 2 0.08 17 0.68
Natación 3 0.12 20 0.80
Ninguno 5 0.2 25 1
Total 25 1
b) Con la finalidad de estudiar la preferencia a determinadas marcas de jabón, se tomó una muestra conformada
por 30 personas. Los resultados son:
Procesando estos datos se puede generar la siguiente tabla de frecuencias.
21 23 24 23 24 21 24 23 24 22 22 24
21 22 24 22 24 25 26 25 24 23 23 21
23 23 22 24 26 26 22 23 22 24 21 25
22 23 25 26 24 22 25 24 25 21 26 23
25 24
Con estos datos se construye la tabla de frecuencias.
i n fi fri Fi Fri
1 21 6 0.12 6 0.12
2 22 9 0.18 15 0.30
3 23 10 0.20 25 0.50
4 24 13 0.26 38 0.76
5 25 7 0.14 45 0.90
6 26 5 0.10 50 1
50 1
En caso de variables cuantitativas continuas se plantea lo siguiente:
a) Definición del número de clases. Un criterio para determinar la cantidad de clases ( ) es la regla que establece
elegir el menor número de tal manera que 2 sea mayor que el número de observaciones ( ). Otra fórmula
común es la llamada Regla de Sturges, donde 1 3.3 log . De cualquier manera, como debe ser un
número entero, se toma el valor con un redondeo simple. Algunas referencias recomiendan considerar entre 5
y 20 clases
b) Determinación del rango y del intervalo o ancho de clase. El Rango ( ) es la distancia entre el mínimo y máximo
valor, es decir:
–
Para definir el intervalo o ancho de las clases ( ) se parte de que sea el mismo para todas las clases, de modo
que su totalidad cubra por lo menos la distancia del valor más bajo al más alto de los datos. La fórmula utilizada
es:
Si 0 el valor de arranque del primer intervalo es el dato menor menos
1.5 1.6 1.9 2.0 2.1 2.1 2.3 2.4 2.5 2.5 2.6 2.6 2.7 2.8 2.9
3.0 3.1 3.1 3.2 3.2 3.2 3.2 3.3 3.3 3.3 3.4 3.4 3.5 3.6 3.6
3.7 3.7 3.9 4.1
Definiendo en principio el número de clases mediante el criterio 2 se precisa 6, ya que 26 = 64 > 34
De la tabla se observa que el máximo valor es H= 4.1 y mínimo valor es L = 1.5, por lo que Rango R es 4.1 ‐ 1.5 = 2.6
. .
Luego, 0.43333
Asumiendo A por redondeo simple con el mismo número de decimales de los datos originales, queda A = 0.4
El cálculo del error es 0.4 6 2.6 0.2 0
Como E es negativo, se incrementa k a 7
.
Recalculando, se obtiene 0.4 y 0.4 7 2.6 0.2 0
.
Entonces el valor de arranque o límite inferior del primer intervalo es 1.5 1.4
De igual manera se obtienen los límites del resto de las clases y las respectivas marcas de clase
Finalmente, mediante la revisión de los datos, cuantificando y haciendo los cálculos correspondientes se construye la
distribución de frecuencias
i Peso (kg) fi fri % Fi Fri % X´
1 [1.4, 1.8) 2 5.88 2 5.88 1.6
2 [1.8, 2.2) 4 11.76 6 17.64 2
3 [2.2, 2.6) 4 11.76 10 29.40 2.4
4 [2.6, 3.0) 5 14.71 15 44.11 2.8
5 [3.0, 3.4) 10 29.42 25 73.53 3.2
6 [3.4, 3.8) 7 20.59 32 94.12 3.6
7 [3.8, 4.2) 2 5.88 34 100 4
34 100