Está en la página 1de 5

 

UNIVERSIDAD YACAMBÚ 
ESTADÍSTICA DESCRIPTIVA. PROF. FRANK ARANGUREN 
 
GUÍA BÁSICA: ORGANIZACIÓN Y DISTRIBUCIÓN DE DATOS 
Una  vez  recopilados  los  datos  de  una  población  o  muestra  para  su  mejor  manejo  y  posterior  análisis  estadístico  es 
necesario organizarlos y presentarlos adecuadamente. A continuación se indican conceptos y  herramientas elementales 
a utilizar al respecto. 
 
Ordenamiento de datos 
Se refiere a organizar los valores en orden ascendente o descendente. Es especialmente útil para: 
 Identificar los valores mayor y menor rápidamente 
 Dividir los datos en secciones o clases 
 Verificar si algunos valores aparecen repetidos 
 Observar la distancia entre valores sucesivos de los datos 
 
Ejemplo: 
De una muestra sobre la producción diaria en toneladas de 30 fábricas de harina precocida se obtuvieron los siguientes 
datos: 
16.2  15.8   15.8   15.8   16.3   15.6 
15.7   16.0   16.2   16.1   16.8   16.0 
16.4   15.2   15.9   15.9   15.9   16.8 
15.4   15.7   15.9   16.0   16.3   16.0 
16.4   16.6   15.6   15.6   16.9   16.3 
 
La ordenación de estos datos en forma ascendente es: 
15.2   15.7   15.9   16.0   16.2   16.4 
15.4   15.7   15.9   16.0   16.3   16.6 
15.6   15.8   15.9   16.0   16.3   16.8 
15.6   15.8   15.9   16.1   16.3   16.8 
15.6   15.8   16.0   16.2   16.4   16.9 
 
Analizando la información así ordenada se pueden identificar aspectos a resaltar, tales como: 
 Los primeros 15 valores (la mitad inferior) están entre 15.2 y 16,0 toneladas, y los últimos 15 (la mitad superior) 
entre 16.0 y 16.9 toneladas  
 El tercio más bajo de los datos está entre 15.2 y 15.8 toneladas, el tercio medio está entre 15.9 y 16.2 toneladas, 
y el tercio más alto entre 16.2 y 16.9 toneladas 
 Hay 9 valores que ocurren más de una vez (15.6, 15.7, 15.8, 15.9, 16.0, 16.2, 16.3, 16.4, 16.8) 
 
 
Tabla de frecuencias 
También llamada distribución de frecuencias, se refiere a la agrupación de datos en “clases” mutuamente excluyentes 
mostrando el número de observaciones que hay en cada una. Su contenido incluye: 
 Clase. Identifica el tipo, cualidad o intervalo en los que se agruparán los datos 
 Frecuencia absoluta (f). Indica el número de veces que se presenta una observación dentro de una clase 
 Frecuencia relativa (fr). Es el cociente entre la frecuencia absoluta y el número total de datos analizados. Indica 
la  relación  entre  la  totalidad  de  elementos  de  una  clase  y  el  número  total  de  observaciones.  Puede 
representarse en forma de % 
 Frecuencia absoluta acumulada (F). Se calcula sumando las frecuencias absolutas anteriores a la considerada en 
cada caso. Indica el número de elementos que se ubican en una clase en conjunto con las anteriores  
 Frecuencia relativa acumulada (Fr). Se obtiene sumando las frecuencias relativas anteriores a la considerada en 
cada  caso.  Indica  la  relación  entre  la  totalidad  de  elementos  que  se  ubican  en  una  clase  en  conjunto  con  las 
anteriores y el número total de observaciones. Puede representarse en forma de % 
 
Distribución de frecuencias con datos cualitativos  
El procedimiento cuando se trata de una variable cualitativa se muestra en los ejemplos a continuación. 
 
Ejemplos: 
a) En una encuesta sobre el deporte favorito en una muestra de 25 personas se obtuvieron los siguientes datos: 
 
Deporte Respuestas
Futbol  10 
Basquetbol  5 
Béisbol  2 
Natación  3 
Ninguno  5 
Total  25 
   
Procesando estos datos se puede generar la distribución de frecuencias a continuación. 
 
Deporte  fi  fri Fi Fri 
Futbol  10  0.4  10  0.4 
Basquetbol  5  0.2  15  0.6 
Béisbol  2  0.08  17  0.68 
Natación  3  0.12  20  0.80 
Ninguno  5  0.2  25  1 
Total  25  1     
 
 
b) Con la finalidad de estudiar la preferencia a determinadas marcas de jabón, se tomó una muestra conformada 
por 30 personas. Los resultados son: 

Rexona   Palmolive   Rexona  Camay  Palmolive  Lux  


Camay   Lux   Lux  Rexona  Camay  Lux  
Camay   Rexona   Camay  Lux  Lux  Camay  
Lux   Camay   Rexona  Rexona  Camay  Lux  
Lux   Camay   Palmolive  Lux  Lux  Lux  

Procesando estos datos se puede generar la siguiente tabla de frecuencias. 

i  Marca  fi  fri fri % Fi Fri  Fri %


1  Rexona   6  0.2 20 6 0.2  20 
2  Camay   9  0.3 30 15 0.5  50 
3  Lux   12  0.4 40 27 0.9  90 
4  Palmolive   3  0.1 10 30 1  100
    30  1 100    
 
 
Distribución de frecuencias con datos cuantitativos  
El procedimiento cuando se trata de una variable cuantitativa discreta se muestra en el ejemplo a continuación. 
 
Ejemplo: 
Los siguientes datos corresponden a una muestra de 50 empresas que se dedican a la venta de botellones de agua, con la finalidad 
de analizar la variable n = número de botellones vendidos en un día determinado:   

21   23   24   23   24  21  24  23  24  22  22   24  
21   22   24   22   24  25  26  25  24  23  23   21  
23   23   22   24   26 26  22  23  22  24  21   25  
22   23   25   26   24  22  25  24  25  21  26   23  
25  24      
 
Con estos datos se construye la tabla de frecuencias.  
 
 i  n  fi fri Fi Fri 
1  21  6 0.12 6 0.12 
2  22  9 0.18 15 0.30 
3  23  10 0.20 25 0.50 
4  24  13 0.26 38 0.76 
5  25  7 0.14 45 0.90 
6  26  5 0.10 50 1 
    50 1  
 
 
 
 
En caso de variables cuantitativas continuas se plantea lo siguiente:  
a) Definición del número de clases. Un criterio para determinar la cantidad de clases ( ) es la regla que establece 
elegir  el  menor  número  de  tal  manera  que  2   sea  mayor  que  el  número  de  observaciones  ( ).  Otra  fórmula 
común es la llamada Regla de Sturges, donde  1 3.3 log . De cualquier manera, como   debe ser un 
número entero, se toma el valor con un  redondeo simple. Algunas referencias recomiendan considerar entre 5 
y 20 clases 
b) Determinación del rango y del intervalo o ancho de clase. El Rango ( ) es la distancia entre el mínimo y máximo 
valor, es decir: 
–  
Para definir el intervalo o ancho de las clases ( ) se parte de que sea el mismo para todas las clases, de modo 
que su totalidad cubra por lo menos la distancia del valor más bajo al más alto de los datos. La fórmula utilizada 
es: 

Aquí   es el intervalo de clase,   el máximo valor observado;   el mínimo valor observado, y   el número de 


clases.  En  la  práctica  es  conveniente  redondear  el  valor    según  la  forma  de  los  datos.  Sin  embargo,  este 
redondeo  introduce  un  error  ,  que  debe  considerarse  para  establecer  el  valor  de  arranque  o 
límite inferior del primer intervalo según lo siguiente: 
 Si  0 el valor de arranque del primer intervalo es el dato menor  

 Si  0 el valor de arranque del primer intervalo es el dato menor menos    

 Si  0 se incrementa el número de clases en una unidad, y se recalculan   y   para seguir uno de los 


casos anteriores  
c) Establecer  los  límites  de  cada  clase.  El  primer  intervalo  debe  contener  el  menor  de  los  datos  y  el  último  el 
mayor.  No  puede  haber  confusión  acerca  de  en  cuál  clase  se  ubica  determinado  dato.  En  general,  el  límite  
superior de cada intervalo es igual al límite inferior más el ancho. Los intervalos se corresponden con la forma 
, , implicando que para que un dato   sea incluido debe cumplirse   
d) Calcular las marcas de clase. Vienen definidas como el punto medio para una determinada clase. Se establece 
como un valor representativo para todos los datos que pertenecen a una determinada clase. La fórmula es: 

´  
2
e) Cuantificar los datos en cada clase y completar los datos en la tabla 
 
Vale indicar que el procedimiento anterior no es único ni totalmente estricto, pudiendo tener variaciones dependiendo 
del criterio del investigador en respuesta a condiciones particulares del caso que se resuelve. Por ejemplo, para evitar 
 
una distribución con gran cantidad de clases vacías, o casi vacías, podría asumirse que los anchos de clase no sean todos 
iguales. 
  
Ejemplo: 
Una muestra de tamaño  34, es tomada con la finalidad de estudiar la variable  = peso de cada recién nacido en 
una maternidad. Los resultados en Kg se presentan a continuación. 

1.5   1.6   1.9   2.0   2.1   2.1   2.3   2.4   2.5   2.5   2.6   2.6   2.7   2.8   2.9  
3.0   3.1  3.1   3.2   3.2   3.2   3.2   3.3   3.3   3.3   3.4   3.4   3.5   3.6   3.6  
3.7   3.7   3.9   4.1 
 
Definiendo en principio el número de clases   mediante el criterio 2  se precisa  6, ya que 26 = 64 > 34 
De la tabla se observa que el máximo valor es H= 4.1 y mínimo valor es L = 1.5, por lo que Rango R es 4.1 ‐ 1.5 = 2.6  
. .
Luego,  0.43333 

Asumiendo A por redondeo simple  con el mismo número de decimales de los datos originales, queda A = 0.4 
El cálculo del error es  0.4 6 2.6 0.2 0 
Como E es negativo, se incrementa k a 7 
.
Recalculando, se obtiene  0.4 y  0.4 7 2.6 0.2 0 
.
Entonces el valor de arranque o límite inferior del primer intervalo es   1.5 1.4 

Partiendo de límite inferior del primer intervalo se calcula su límite superior como  1.4 0.4 1.8 


. .
La marca de clase en este caso es   ´ 1.6 

De igual manera se obtienen los límites del resto de las clases y las respectivas marcas de clase 
Finalmente,  mediante  la  revisión  de  los  datos,  cuantificando  y  haciendo  los  cálculos  correspondientes  se  construye  la 
distribución de frecuencias 
 
i  Peso (kg)  fi  fri %  Fi   Fri %  X´ 
1  [1.4, 1.8)  2  5.88  2  5.88  1.6 
2  [1.8, 2.2)  4  11.76  6  17.64  2 
3  [2.2, 2.6)  4  11.76  10  29.40  2.4 
4  [2.6, 3.0)  5  14.71  15  44.11  2.8 
5  [3.0, 3.4)  10  29.42  25  73.53  3.2 
6  [3.4, 3.8)  7  20.59  32  94.12  3.6 
7  [3.8, 4.2)  2  5.88  34  100  4 
    34  100       
 

También podría gustarte