Está en la página 1de 6

ORGANIZACIÓN Y CLASIFICACIÓN DE DATOS

INTRODUCCIÓN.
Cuando se tiene un conjunto de datos, debe ser expresado y clasificado de acuerdo al tipo de variable que
toman los datos, de tal manera que permita observar rápidamente todas las características posibles para obtener
conclusiones útiles para la toma de decisiones, sea directamente o por medio de cálculos posteriores.

Los análisis estadísticos de problemas en estudio, necesitan una revisión y corrección de datos por más seguro
y acabado que sea, para tener el procesamiento de datos en forma precisa y adecuada. (Huber 1994) Sostiene
que una regla ampliamente contrastada es de 2% a 5% de observaciones con defectos en la medición.,
trascripción, etc. Por tanto, antes de utilizar los datos maestrales conviene aplicar técnicas simples para
probarlos.

DISTRIBUCIÓN DE FRECUENCIAS.
Si los datos que se disponen son numerosos, es indispensable clasificarlos en un cuadro de observaciones
originales, a las que se les denomina como el cuadro de distribución de frecuencias.

1. DISTRIBUCIÓN DE FRECUENCIAS PARA DATOS DE VARIABLES DISCRETAS.

Sean: {X1, X2, X3, …, Xn} un conjunto de n observaciones discretas y sean {Y1, Y2, Y3, …, Yk}como el
conjunto de valores diferentes que toman los datos originales (k ≤ n). El cuadro de distribución de frecuencias
tiene diferentes elementos, tal como se muestra:
Valores diferentes Frecuencias Frecuencias absolutas Frecuencias Frecuencias
observados absolutas acumuladas relativas porcentuales
(Yi) (fi) (Fi) (pi) (%pi)
Y1 f1 F1 p1 %p1
Y2 f2 F2 p2 %p2
Y3 f3 F3 p3 %p3
. . . . .
. . . . .
. . . . .
Yk fk Fk = n pk %pk
k k

Total 
i 1
fi  n p
i 1
i 1 100%

La frecuencia absoluta (fi) del valor Yi , es el número de veces que aparece este valor en e conjunto de
observaciones y se representa por “fi”. Así, la suma de todas las frecuencias es igual al total de datos “n”.
k

f
i 1
i  f1  f 2  f 3  ...  f k  n

La frecuencia absoluta acumulada (Fi) del valor Yi, es el número de observaciones menores o iguales a Yi
(Xi ≤ Yi). Así, se tiene lo siguiente:
i
Fi  f1  f 2  f 3  ...  f i   f j
j 1

o también: F1 = f1; F2 = f1 + f2 ; F3 = f1 + f2 + f3 ; ….; Nk = n

La frecuencia relativa o probabilística (pi) del valor de Yi es el cociente de la frecuencia absoluta de Yi entre
el número total de datos.
frecuencia absoluta de Yi f
pi   i
total de datos n
k
y la suma de todas las frecuencias probabilísticas es igual a la unidad. p
i 1
i 1

1
La frecuencia porcentual (%pi) del valor Yi, es la frecuencia probabilística pi multiplicada por 100, que
representa el porcentaje de observaciones que corresponde al valor de Yi. La frecuencia porcentual estará
comprendida entre 0 y 100.
Ejemplo. En una encuesta realizada a un grupo de padres de familias de una IEP en la ciudad de Puno, sobre
el número de hijos que tienen, se obtuvieron los siguientes resultados:

2 1 3 1 2 1 3 0 2 1 2 3 1 4 2 1 3 2
3 1 1 2 1 2 1 3 1 1 4 3 1 2
Construya un cuadro de distribución de frecuencias para estos datos.

i) Se observa que el total de observaciones es de 32, entonces: n = 32


ii) Identificando al número de observaciones diferentes, se tiene (k = 5) a los siguientes valores que
tomará Yi {0, 1, 2, 3, 4}
iii) Cuadro de distribución de frecuencias del número de hijos por familia. Esto se hace, haciendo un
conteo del número de familias con 0, 1, 2, 3 y 4 hijos respectivamente.
Número Padres de Frecuencias absolutas Frecuencias Frecuencias
de hijos Familia acumuladas probabilísticas porcentuales
(Yi) (fi) (Fi) (pi) (%pi)
0 1 1 0.03125 3.125
1 13 14 0.40625 40.625
2 9 23 0.28125 28.125
3 7 30 0.21875 21.875
4 2 32 0.06250 6.250

Total 32 1.00000 100%

Las frecuencias absolutas de pueden mostrar en un gráfico estadístico denominado como gráfico de
frecuencias o histograma.
NUMERO DE HIJOS QUE TIENEN LOS PADRES DE FAMILIA ENCUESTADOS EN LA CIUDAD DE PUNO.

14 13

12
PADRES DE FAMILIA

10 9

8 7

2
2 1

0
0 1 2 3 4

NUMERO DE HIJOS

Interpretación de algunas frecuencias.


- f1=1, significa que en las familias encuestadas, una familia no tiene hijos.
- f2 = 13, indica que del total de familias encuestadas, 13 de ellas tienen dos hijos.
- F3 = 23, es la frecuencia acumulada que indica, a las 23 familias encuestadas que tienen 2 o menos hijos.
- p4 = 0.21875, indica la proporción de familias que tienen 3 hijos en la muestra.
- p3% = 28.125, significa el porcentaje de familias que tienen 2 hijos en la muestra de tamaño 32.

2. DISTRIBUCIÓN DE FRECUENCIAS PARA DATOS DE VARIABLES CONTINUAS.

Sean: {X1, X2, X3, …, Xn} un conjunto de n observaciones del tipo continuo. En este caso debido a que la
magnitud de los datos puede tomar una infinidad de valores, se tiene que definir tres pasos previos a la

2
elaboración del cuadro de distribución de frecuencias; la muestra de datos para agrupar será mayor a 25 datos;
estos son:
a) Rango (R), es la longitud o espacio que existe entre el máximo valor de los datos menos el mínimo valor
de los datos R = Máx(Xi) – Mín(Xi)

b) El número de intervalos (K), es el conjunto de grupos o intervalos en que se divide el conjunto de datos,
donde (5 ≤ K≤ 20) o también se puede aproximarse a través de la propiedad de Sturges:
K = 1 + 3.3*[log(n)]

c) La amplitud del intervalo (A), es la longitud del intervalo que se define como el cociente de la amplitud
de datos entre el número de intervalos.
R
Es decir, A 
K
Cuadro de distribución de frecuencias para datos continuos.
Intervalos de Puntos Frecuencias Frecuencias absolutas Frecuencias Frecuencias
clase medios absolutas acumuladas relativas porcentuales
(Ii) (Yi) (fi) (Fi) (pi) (%pi)
[Y0-Y1> Y1 f1 F1 p1 %p1
[Y1–Y2> Y2 f2 F2 p2 %p2
[Y2–Y3> Y3 f3 F3 p3 %p3
. . . . . .
. . . . . .
. . . . . .
[Yk-1 -Yk] Yk fk Fk = n pk %pk
k k

Total 
i 1
fi  n p
i 1
i 1 100%

Los puntos medios (Yi), es la suma de los valores extremos del intervalo dividido entre dos, también son
denominados como marcas de clase.
Y  Yi
Es decir; Yi  i 1 , i  1, 2, 3, ..., k
2
Los intervalos de clase se construyen partiendo de Xmín, luego se van asignando consecutivamente a los otros
intervalos de clase, el valor de la amplitud de clase (A).

La determinación de las frecuencias absolutas en el cuadro de distribución, es similar al proceso que se siguió
en el caso de variables de tipo discreto, siempre que pertenezcan a cada intervalo definido.

Ejemplo. La UNA Puno promovió una campaña de control de salud para los estudiantes universitarios, en la
cual se registraron los pesos (en kg.) de un grupo de estudiantes que asistieron a esta campaña.

65.4 68.2 72.8 71.6 61.9 66.5 75.8 68.2 73.4


70.8 69.8 63.7 58.9 60.8 65.2 63.8 67.1 66.4
72.6 61.3 65.8 60.4 64.8 74.6 63.1 72.3 72.4
65.2 68.2 69.4 61.8 68.7 76.5 78.4 65.2 79.4
61.8 65.8 62.7 68.1 69.1 74.2 78.4 67.9 75.8

Clasificar estas observaciones en un cuadro de distribución de frecuencias.


Se observa que el total de datos es de 45 estudiantes universitarios. Entonces, es n =
45. a) El rango (R): R = (79.4 – 58.9) = 20.5
b) Número de intervalos (K): Como n = 45, entonces
K = 1 + 3.3[log(45)] = 6.45 ≈ 6

3
c) Amplitud del intervalo (A):
R 20.5
A   3.41666  3.42
K 6

Cuadro de distribución de frecuencias para los datos de pesos (en Kgs.) de los estudiantes.
Punto Número de
Pesos medio (Yi) estudiantes (Fi) (pi) (%pi)
(en Kgs.) (fi)
[58.90– 62.32> 60.61 7 7 0.155555 15.55
[62.32– 65.74> 64.03 9 16 0.200000 20.00
[65.74– 69.16> 67.45 12 28 0.266666 26.66
[69.16– 72.58> 70.87 6 34 0.133333 13.33
[72.58– 76.00> 74.29 7 41 0.155555 15.33
[76.00– 79.42] 77.71 4 45 0.088888 08.88

Total 45 0.999997 99.99%


Interpretación:
- Un total de 12 estudiantes asistentes a la campaña de control de salud universitario, registraron pesos desde
65.74 kgs. hasta 69.16 kgs. que representa el 26.66% del total.
- Solamente 4 estudiantes asistentes, registraron pesos desde 76 kgs. hasta 79.4 kgs. que representa el 8.88%
del total.

Del anterior cuadro de distribución de frecuencias para variables continuas, se puede presentar en un gráfico
de frecuencias absolutas o histograma de frecuencias continuas, tomando los valores de los intervalos de clase
en el eje horizontal (X) con sus respectivos puntos medios y en el eje vertical (Y) los valores de las frecuencias
absolutas, también en el mismo gráfico se puede trazar la línea de tendencia uniendo los puntos medios de
cada intervalo en la parte superior de la altura de cada intervalo, y es denominado como el polígono de
frecuencias.
Pesos de los estudiantes que asistieron a la campaña de control de salud.

14

12
12
Polígono de Frecuencias
No. de estudiantes

10 9

8 7 7
6
6

4
4

0
[58.90– 62.32> [62.32– 65.74> [65.74– 69.16> [69.16– 72.58> [72.58– 76.00> [76.00– 79.42]

Pesos en Kgs.

3. DISTRIBUCIÓN DE FRECUENCIAS PARA DATOS DE VARIABLES CUALITATIVAS.

Sean : {CA, CB, CC, …, CZ} un conjunto de datos de tipo cualitativo sea de tipo nominal o de tipo ordinal con
distintas características o atributos diferentes, para el cual se realiza la clasificación de los datos en un cuadro
de distribución de frecuencias, clasificando las diferentes características que exista en el conjunto de datos de
la muestra de estudio, colocando la lista en la primera columna y después contabilizando la frecuencia absoluta
que cuenta cada una de la características para completar las demás frecuencias del cuadro, y los elementos
del cuadro serán como sigue:
4
Cuadro de distribución de frecuencias para datos cualitativos.
Variable cualitativo Frecuencias absolutas Frecuencias relativas Frecuencias porcentuales
(Ci) (fi) (pi) (%pi)
Característica A f1 p1 %p1
Característica B f2 p2 %p2
Característica C f3 p3 %p3
. . . .
. . . .
.
. . .
Característica Z
fk pk %pk
k k

Total f
i 1
i n p
i 1
i 1 100%

Ejemplo. Durante el mes de Junio del 2018, se han registrado los datos de estado civil de un grupo de
profesores de nivel secundario del sexo masculino que se inscribieron para el examen de suficiencia.
Soltero Casado Conviviente Soltero Casado Casado
Soltero Soltero Divorciado Casado Soltero Viudo
Casado Soltero Divorciado Soltero Casado Soltero
Viudo Casado Soltero Conviviente Casado Casado
Soltero Casado Soltero Divorciado Casado Casado
Casado Casado Casado Conviviente Soltero Soltero
Casado Soltero Casado Conviviente

En el conjunto de datos de la variable Estado Civil, se tiene cinco características diferentes, {Soltero, Casado,
Conviviente, Divorciado, Viudo} los cuales serán la columna matriz del cuadro de distribución de frecuencias
y después contabilizar las frecuencias de cada característica.

Cuadro de distribución de frecuencias para datos de estado civil de los profesores.


Número de profesores Frecuencias relativas Frecuencias porcentuales
Estado civil (fi) (pi) (%pi)

Soltero 14 0.350 35.0


Casado 17 0.425 42.5
Conviviente 4 0.100 10.0
Divorciado 3 0.075 7.5
Viudo 2 0.050 5.0
Total 40 1.000 100%

Para las frecuencias porcentuales, es muy usual presentar en un gráfico denominado como el diagrama de
sectores. Este diagrama se divide haciendo una analogía del valor de la longitud de una circunferencia que es
igual a 360° equivalente al 100% que la suma de las frecuencias porcentuales.
Esto es : 360 °  100%
Xi°  pi%
p %(360 )
Resultado la siguiente expresión: X io  i
100 %
Para realizar los cálculos de los sectores, se despeja la variable incógnita Xi° y se expresa en porcentajes según
valores que se obtienen en el cuadro de frecuencias.

Interpretación:
- La mayoría de profesores que se inscribieron para el examen de suficiencia, fueron los varones de estado
civil casado en un número de 17, significando el 42.5% del total.

5
- Una menor cantidad, de solo 2 profesores han sido los varones del estado civil viudo, el cual representa al
5% del total.
- Una buena cantidad de profesores, también han sido los 14 profesores postulantes de estado civil soltero,
con porcentaje del 35% en base al total de 40 pacientes.

Estado civil de los Profesores del sexo masculino.

5%
8%
Soltero
10% 35%
Casado
Conviviente
Divorciado
42% Viudo

También podría gustarte