Organizacion de Datos

UNIVERSIDAD YACAMBÚ
ESTADÍSTICA DESCRIPTIVA. PROF. FRANK ARANGUREN

GUÍA BÁSICA: ORGANIZACIÓN Y DISTRIBUCIÓN DE DATOS
Una vez recopilados los datos de una población o muestra para su mejor manejo y posterior análisis estadístico es
necesario organizarlos y presentarlos adecuadamente. A continuación se indican conceptos y herramientas elementales
a utilizar al respecto.

Ordenamiento de datos
Se refiere a organizar los valores en orden ascendente o descendente. Es especialmente útil para:
 Identificar los valores mayor y menor rápidamente
 Dividir los datos en secciones o clases
 Verificar si algunos valores aparecen repetidos
 Observar la distancia entre valores sucesivos de los datos

Ejemplo:
De una muestra sobre la producción diaria en toneladas de 30 fábricas de harina precocida se obtuvieron los siguientes
datos:
16.2 15.8 15.8 15.8 16.3 15.6
15.7 16.0 16.2 16.1 16.8 16.0
16.4 15.2 15.9 15.9 15.9 16.8
15.4 15.7 15.9 16.0 16.3 16.0
16.4 16.6 15.6 15.6 16.9 16.3

La ordenación de estos datos en forma ascendente es:
15.2 15.7 15.9 16.0 16.2 16.4
15.4 15.7 15.9 16.0 16.3 16.6
15.6 15.8 15.9 16.0 16.3 16.8
15.6 15.8 15.9 16.1 16.3 16.8
15.6 15.8 16.0 16.2 16.4 16.9

Analizando la información así ordenada se pueden identificar aspectos a resaltar, tales como:
 Los primeros 15 valores (la mitad inferior) están entre 15.2 y 16,0 toneladas, y los últimos 15 (la mitad superior)
entre 16.0 y 16.9 toneladas
 El tercio más bajo de los datos está entre 15.2 y 15.8 toneladas, el tercio medio está entre 15.9 y 16.2 toneladas,
y el tercio más alto entre 16.2 y 16.9 toneladas
 Hay 9 valores que ocurren más de una vez (15.6, 15.7, 15.8, 15.9, 16.0, 16.2, 16.3, 16.4, 16.8)

Tabla de frecuencias
También llamada distribución de frecuencias, se refiere a la agrupación de datos en “clases” mutuamente excluyentes
mostrando el número de observaciones que hay en cada una. Su contenido incluye:
 Clase. Identifica el tipo, cualidad o intervalo en los que se agruparán los datos
 Frecuencia absoluta (f). Indica el número de veces que se presenta una observación dentro de una clase
 Frecuencia relativa (fr). Es el cociente entre la frecuencia absoluta y el número total de datos analizados. Indica
la relación entre la totalidad de elementos de una clase y el número total de observaciones. Puede
representarse en forma de %
 Frecuencia absoluta acumulada (F). Se calcula sumando las frecuencias absolutas anteriores a la considerada en
cada caso. Indica el número de elementos que se ubican en una clase en conjunto con las anteriores
 Frecuencia relativa acumulada (Fr). Se obtiene sumando las frecuencias relativas anteriores a la considerada en
cada caso. Indica la relación entre la totalidad de elementos que se ubican en una clase en conjunto con las
anteriores y el número total de observaciones. Puede representarse en forma de %

Distribución de frecuencias con datos cualitativos
El procedimiento cuando se trata de una variable cualitativa se muestra en los ejemplos a continuación.

Ejemplos:
a) En una encuesta sobre el deporte favorito en una muestra de 25 personas se obtuvieron los siguientes datos:

Deporte Respuestas
Futbol 10
Basquetbol 5
Béisbol 2
Natación 3
Ninguno 5
Total 25

Procesando estos datos se puede generar la distribución de frecuencias a continuación.

Deporte fi fri Fi Fri
Futbol 10 0.4 10 0.4
Basquetbol 5 0.2 15 0.6
Béisbol 2 0.08 17 0.68
Natación 3 0.12 20 0.80
Ninguno 5 0.2 25 1
Total 25 1

b) Con la finalidad de estudiar la preferencia a determinadas marcas de jabón, se tomó una muestra conformada
por 30 personas. Los resultados son:
Rexona Palmolive Rexona Camay Palmolive Lux

Camay Lux Lux Rexona Camay Lux
Camay Rexona Camay Lux Lux Camay
Lux Camay Rexona Rexona Camay Lux
Lux Camay Palmolive Lux Lux Lux
Procesando estos datos se puede generar la siguiente tabla de frecuencias.
i Marca fi fri fri % Fi Fri Fri %

1 Rexona 6 0.2 20 6 0.2 20
2 Camay 9 0.3 30 15 0.5 50
3 Lux 12 0.4 40 27 0.9 90
4 Palmolive 3 0.1 10 30 1 100
30 1 100

Distribución de frecuencias con datos cuantitativos
El procedimiento cuando se trata de una variable cuantitativa discreta se muestra en el ejemplo a continuación.

Ejemplo:
Los siguientes datos corresponden a una muestra de 50 empresas que se dedican a la venta de botellones de agua, con la finalidad
de analizar la variable n = número de botellones vendidos en un día determinado:
21 23 24 23 24 21 24 23 24 22 22 24
21 22 24 22 24 25 26 25 24 23 23 21
23 23 22 24 26 26 22 23 22 24 21 25
22 23 25 26 24 22 25 24 25 21 26 23
25 24

Con estos datos se construye la tabla de frecuencias.

i n fi fri Fi Fri
1 21 6 0.12 6 0.12
2 22 9 0.18 15 0.30
3 23 10 0.20 25 0.50
4 24 13 0.26 38 0.76
5 25 7 0.14 45 0.90
6 26 5 0.10 50 1
50 1

En caso de variables cuantitativas continuas se plantea lo siguiente:
a) Definición del número de clases. Un criterio para determinar la cantidad de clases ( ) es la regla que establece
elegir el menor número de tal manera que 2 sea mayor que el número de observaciones ( ). Otra fórmula
común es la llamada Regla de Sturges, donde 1 3.3 log . De cualquier manera, como debe ser un
número entero, se toma el valor con un redondeo simple. Algunas referencias recomiendan considerar entre 5
y 20 clases
b) Determinación del rango y del intervalo o ancho de clase. El Rango ( ) es la distancia entre el mínimo y máximo
valor, es decir:
–
Para definir el intervalo o ancho de las clases ( ) se parte de que sea el mismo para todas las clases, de modo
que su totalidad cubra por lo menos la distancia del valor más bajo al más alto de los datos. La fórmula utilizada
es:
Aquí es el intervalo de clase, el máximo valor observado; el mínimo valor observado, y el número de

clases. En la práctica es conveniente redondear el valor según la forma de los datos. Sin embargo, este
redondeo introduce un error , que debe considerarse para establecer el valor de arranque o
límite inferior del primer intervalo según lo siguiente:
 Si 0 el valor de arranque del primer intervalo es el dato menor
 Si 0 el valor de arranque del primer intervalo es el dato menor menos
 Si 0 se incrementa el número de clases en una unidad, y se recalculan y para seguir uno de los

casos anteriores
c) Establecer los límites de cada clase. El primer intervalo debe contener el menor de los datos y el último el
mayor. No puede haber confusión acerca de en cuál clase se ubica determinado dato. En general, el límite
superior de cada intervalo es igual al límite inferior más el ancho. Los intervalos se corresponden con la forma
, , implicando que para que un dato sea incluido debe cumplirse
d) Calcular las marcas de clase. Vienen definidas como el punto medio para una determinada clase. Se establece
como un valor representativo para todos los datos que pertenecen a una determinada clase. La fórmula es:

´
2
e) Cuantificar los datos en cada clase y completar los datos en la tabla

Vale indicar que el procedimiento anterior no es único ni totalmente estricto, pudiendo tener variaciones dependiendo
del criterio del investigador en respuesta a condiciones particulares del caso que se resuelve. Por ejemplo, para evitar

una distribución con gran cantidad de clases vacías, o casi vacías, podría asumirse que los anchos de clase no sean todos
iguales.

Ejemplo:
Una muestra de tamaño 34, es tomada con la finalidad de estudiar la variable = peso de cada recién nacido en
una maternidad. Los resultados en Kg se presentan a continuación.
1.5 1.6 1.9 2.0 2.1 2.1 2.3 2.4 2.5 2.5 2.6 2.6 2.7 2.8 2.9
3.0 3.1 3.1 3.2 3.2 3.2 3.2 3.3 3.3 3.3 3.4 3.4 3.5 3.6 3.6
3.7 3.7 3.9 4.1

Definiendo en principio el número de clases mediante el criterio 2 se precisa 6, ya que 26 = 64 > 34
De la tabla se observa que el máximo valor es H= 4.1 y mínimo valor es L = 1.5, por lo que Rango R es 4.1 ‐ 1.5 = 2.6
. .
Luego, 0.43333
Asumiendo A por redondeo simple con el mismo número de decimales de los datos originales, queda A = 0.4
El cálculo del error es 0.4 6 2.6 0.2 0
Como E es negativo, se incrementa k a 7
.
Recalculando, se obtiene 0.4 y 0.4 7 2.6 0.2 0
.
Entonces el valor de arranque o límite inferior del primer intervalo es 1.5 1.4
Partiendo de límite inferior del primer intervalo se calcula su límite superior como 1.4 0.4 1.8

. .
La marca de clase en este caso es ´ 1.6
De igual manera se obtienen los límites del resto de las clases y las respectivas marcas de clase
Finalmente, mediante la revisión de los datos, cuantificando y haciendo los cálculos correspondientes se construye la
distribución de frecuencias

i Peso (kg) fi fri % Fi Fri % X´
1 [1.4, 1.8) 2 5.88 2 5.88 1.6
2 [1.8, 2.2) 4 11.76 6 17.64 2
3 [2.2, 2.6) 4 11.76 10 29.40 2.4
4 [2.6, 3.0) 5 14.71 15 44.11 2.8
5 [3.0, 3.4) 10 29.42 25 73.53 3.2
6 [3.4, 3.8) 7 20.59 32 94.12 3.6
7 [3.8, 4.2) 2 5.88 34 100 4
34 100

Organizacion de Datos

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Organizacion de Datos

Cargado por

Copyright:

Formatos disponibles

Rexona Palmolive Rexona Camay Palmolive Lux

i Marca fi fri fri % Fi Fri Fri %

Aquí es el intervalo de clase, el máximo valor observado; el mínimo valor observado, y el número de

 Si 0 se incrementa el número de clases en una unidad, y se recalculan y para seguir uno de los

Partiendo de límite inferior del primer intervalo se calcula su límite superior como 1.4 0.4 1.8

También podría gustarte