Está en la página 1de 13

ESTADÍSTICA

Unidad 2 - 1
DISTRIBUCIÓN DE FRECUENCIAS
Gabriel Ovidio Clavijo Gañán
ESTADÍSTICA

Tablas de distribución de frecuencias

Introducción
En la etapa de organización de los
datos, nos referimos a la clasificación y
tabulación de los mismos. Por lo tanto,
luego que los tenemos, se dividirá la
información en clases previamente
definidas, en función de una o más
características. Un elemento cualquiera
del conjunto de datos pertenecerá a una
clase determinada, si cumple con las
características de esa clase. De lo
contrario, pertenecerá a otra clase. Las
clases deben ser excluyentes y
exhaustivas, es decir que cada elemento
del conjunto debe pertenecer a una sola
clase y a su vez, todo elemento debe
pertenecer a alguna clase. O sea que todo elemento debe quedar dentro de una clase pero
no puede estar en dos clases a la vez.
Según Ciro (2012), pág. 44:
La distribución de frecuencias, es un método utilizado para organizar y resumir
información. Bajo este método los datos recolectados se ordenan y clasifican,
indicándonos la frecuencia, o sea, el número de veces que se repiten.

Elaboración de tablas de frecuencia


Antes de iniciar con la construcción de tablas de frecuencia es necesario decidir
ciertos símbolos o abreviaturas que se utilizarán en este curso, cabe resaltar que no toda la
literatura de estadística hace uso del mismo simbolismo:

n = Tamaño de la muestra
𝑿 = Nombre de la Variable
𝑿𝒊 = Indicador de medición para cada valor o atributo observado
𝒇𝒊 = Frecuencia absoluta
𝑭𝒊 = Frecuencia absoluta acumulada
𝒉𝒊 = Frecuencias relativas
𝑯𝒊 = Frecuencias relativas acumuladas

Tamaño de la muestra
Es el total de todos los datos observados en una muestra

Gabriel Ovidio Clavijo Gañán 2


ESTADÍSTICA

Indicador de medición
Es cada uno de los valores que puede asumir la variable

Frecuencia absoluta
Es las veces que se repite, o que se
encuentra un mismo indicador de medición
en una muestra.
Es la cantidad de datos que integran Frecuencia absoluta acumulada
cada una de las clases, o sea, que son las Es el valor que recoge la suma de la
repeticiones que encontramos dentro de frecuencia absoluta de un indicador con el
una misma clase, (para variables valor de las frecuencias absolutas de los
continuas). indicadores anteriores.
F 1 = f1
Las propiedades de las frecuencias Fi = Fi-1 + fi, para i > 1
absolutas son:
a. 0 ≤ 𝑓(𝑥𝑖 ) ≤ 𝑛, siendo “n” el
tamaño de la muestra.
b. ∑ 𝑓 (𝑥 𝑖 ) = 𝑛

Frecuencia relativa
Es la participación que tiene cada
indicador con respecto al tamaño de la
muestra, la frecuencia relativa se puede
obtener en número decimal o en porcentaje. Frecuencia relativa acumulada
𝒇 Es el valor que recoge la suma de la
𝒉𝑖 = 𝒏𝒊 para obtener el resultado en número
frecuencia relativa de un indicador con el
decimal valor de las frecuencias relativas de los
𝒇𝒊
𝒉𝒊 = 𝒙𝟏𝟎𝟎 para obtener el resultado en indicadores anteriores.
𝒏
porcentaje 𝑯𝟏 = 𝒉𝟏
𝑯𝒊 = 𝒉𝒊−𝟏 + 𝒉𝒊 , 𝑝𝑎𝑟𝑎 𝑖 > 1
Las propiedades de las frecuencias
relativas son:
a. 0 ≤ ℎ(𝑥𝑖 ) ≤ 1; 0 ≤ ℎ(𝑥𝑖 ) ≤ 100%
b. ∑ ℎ(𝑥𝑖 ) = 1; ∑ ℎ(𝑥𝑖 ) = 100%

Ahora bien, para el presente documento se trabajará por separado ejemplos para datos
cualitativos y cuantitativos.

Suponga que, en una encuesta realizada a una muestra de 240 familias, con el fin de
hacer un análisis con respecto a las relaciones familiares y la convivencia con los padres, se
hizo entre otras las siguientes preguntas, con sus respectivos indicadores de medición:

Gabriel Ovidio Clavijo Gañán 3


Profesión
1. Administrador
2. Contador Número de hijos Peso en kilogramos de
3. Licenciado en Teología 0 1 2 3 los hijos
4. Educador 4 5 6 7 ___________
5. Ingeniero de sistemas 8 9 10 11
6. Licenciado en música 12
7. Licenciado en preescolar Más de 12
8. Tecnólogo
Como puede notar, la variable 1 corresponde a un carácter cualitativo nominal, la
variable 2 corresponde a un carácter cuantitativo discreto y la variable 3 a un carácter
cualitativo continuo

Elaboración de tablas de frecuencia para variables cualitativas


La variable profesión, posee un código para facilitar su trabajo y análisis, esto no la
convierte en ningún momento en carácter cualitativo.
Suponga que los resultados obtenidos para la variable 1 fueron los siguientes, éstos se
muestran de manera aleatoria:

1 3 2 4 7 8 4 4 5 6 1 4 5 4 1 5 1 3 3 3 Después de tener la
8 2 2 4 5 1 4 5 6 7 7 1 4 4 5 7 8 8 8 7 muestra aleatoria se
7 1 3 6 4 5 4 4 4 7 8 8 8 7 1 4 4 4 1 4 prosigue al conteo:
1 4 4 5 4 7 8 2 4 1 1 4 5 4 7 8 3 6 4 5 1
1 3 4 7 8 5 4 2 1 2 2 2 4 5 4 7 8 7 1 2
1 1 3 1 1 4 4 4 4 4 5 2 3 4 5 4 7 7 1 4 Y así, sucesivamente con
todos los datos.
4 4 5 1 4 5 4 7 6 7 4 5 4 6 7 3 2 1 2 7
5 7 7 1 1 4 5 7 8 5 4 1 4 4 4 3 5 3 2 1 Cada investigador busca
4 4 4 2 2 3 2 4 3 4 2 1 5 5 5 2 1 3 1 3 la mejor manera de hacer
7 4 7 1 2 1 4 2 1 1 1 1 2 3 4 3 5 6 6 7 el conteo.
8 7 4 1 4 5 4 6 7 7 8 7 7 8 1 3 3 1 3 3
6 5 1 1 2 3 4 3 4 3 5 1 3 2 2 1 3 3 2 2
Después de haber realizado el conteo se construye la respectiva tabla de frecuencias:
X: PROFESIÓN
Indicador fi hi Recuerde que la frecuencia
X1: Administrador 42 0,1750 17,50% relativa se puede hallar en
X2: Contador 26 0,1083 10,83% números decimales o en
porcentaje.
X3: Licenciado en Teología 28 0,1167 11,67%
X4: Educador 60 0,2500 25,00% En este curso se trabajará
X5: Ingeniero de sistemas 28 0,1167 11,67% con la frecuencia relativa
X6: Licenciado en música 10 0,0417 4,17% en porcentaje y con dos
X7: Licenciado en preescolar 30 0,1250 12,50% decimales.
X8: Tecnólogo 16 0,0667 6,67%
240 1,00 100%
ESTADÍSTICA

Una vez efectuada la tabla de frecuencias se puede realizar los respectivos gráficos,
diagramas de frecuencias absolutas, o bien, los histogramas de frecuencias

A continuación se mostrarán los gráficos respectivos

Diagrama de frecuencias absolutas Histograma y polígono de frecuencias


absolutas
fI fI

70 70
60 60
50 50
40 40
30 30
20 20
10 10
0 0
X1 X2 X3 X4 X5 X6 X7 X8 XI X1 X2 X3 X4 X5 X6 X7 X8 XI
Profesión
Profesión
De igual manera existen gráficos que reflejan la información analizada y que dan
cuenta de los datos obtenidos y organizados en un tabla de frecuencia, éstos gráficos son de
gran importancia cuando se presenta información para cualquier público.

Gráfico de barras Gráfico de sectores

Profesión PROFESIÓN
70 60
Frecuencias absolutas

60
X1:
50 42
Administrador
40 30
26 28 28 X2: Contador
30
20 16 16
10 42 X3: Licenciado
10 30
en Teología
0 10 26 X4: Educador
28
28 X5: Ingeniero
de sistemas
60 X6: Licenciado
en música
X7: Licenciado
en preescolar
Profesión X8: Tecnólogo

Gabriel Ovidio Clavijo Gañán 5


ESTADÍSTICA

Elaboración de tablas de frecuencia para variables cuantitativas


Variables discretas
Suponga que los resultados obtenidos para la variable 2 fueron los siguientes, éstos se
muestran de manera aleatoria:

1 3 2 12 7 8 12 4 5 6 1 4 5 4 2 5 2 2 3 3
8 2 2 4 5 2 4 5 6 7 7 1 4 4 5 7 8 8 8 7
7 1 3 6 4 5 4 12 4 7 8 8 8 7 1 4 10 4 1 4
1 11 4 5 4 7 8 2 4 1 1 11 5 4 2 8 3 6 4 5
Después de
1 3 4 7 8 5 4 2 1 2 2 2 4 5 4 7 8 7 1 2
hacer el conteo
1 1 3 2 1 4 4 10 4 4 5 2 3 10 5 4 7 2 1 10 de la misma
4 4 5 1 4 5 4 2 6 2 4 5 4 6 7 3 2 1 2 7 manera que en
5 7 7 2 1 4 5 7 8 5 11 1 4 4 4 3 5 3 2 1 la variable 1, se
4 11 4 2 2 3 2 4 3 4 2 1 5 5 5 2 2 3 1 3 construye la
7 4 7 1 2 1 12 2 2 2 2 1 2 3 4 3 5 6 6 7 tabla de
8 7 4 1 4 5 4 6 2 7 8 2 7 8 1 3 3 1 3 3 frecuencias
6 5 1 1 2 3 4 3 4 3 5 1 3 2 2 1 3 3 2 2

X: NÚMERO DE HIJOS
Xi fi Fi hi Hi
1 33 33 13,75% 13,75%
2 42 75 17,50% 31,25%
3 27 102 11,25% 42,50%
4 48 150 20,00% 62,50% Ahora se puede establecer la
5 28 178 11,67% 74,17% diferencia entre las tablas de
6 10 188 4,17% 78,33% frecuencias absolutas de variables
cualitativas y cuantitativas: las
7 24 212 10,00% 88,33%
variables nominales no acumulan
8 16 228 6,67% 95,00%
9 0 228 0,00% 95,00%
10 4 232 1,67% 96,67%
11 4 236 1,67% 98,33%
12 4 240 1,67% 100,00%
240 100,00%

Igualmente se pueden realizar los respectivos gráficos e histogramas vistos anteriormente,


además en las variables cuantitativas se pueden realizar histogramas de frecuencias
acumuladas y su respectiva ojiva, veamos:

Gabriel Ovidio Clavijo Gañán 6


ESTADÍSTICA

Histograma de frecuencias acumuladas y ojiva


Fi
240
N
u
m
e 180
r
o

d 120
e

f
a 60
m
i
l
i 30
a
s
0

0 1 2 3 4 5 6 7 8 9 10 11 12 Xi
Número de hijos
La ojiva es la representación gráfica para las frecuencias absolutas y relativas
acumuladas en una variable cuantitativa, se hace a través de una ojiva ascendente. Para
ello se determinan los puntos de intersección entre cada valor de la variable y su respectiva
frecuencia, luego se unen los puntos con trazos rectilíneos. Prácticamente es un polígono de
frecuencias con la diferencia de ser aplicado a una tabla de frecuencias acumuladas.

Elaboración de tablas de frecuencia para variables cuantitativas

Variables continuas
Las variables continuas son aquellas que admiten valores fraccionarios (o bien, reales)
pudiéndose establecer intervalos dada la cantidad de indicadores de medición que se
pueden llegar administrar.

Suponga que los resultados obtenidos, en el cuestionario mencionado, para la variable


3, peso (en kg), fueron los siguientes:

La construcción de la tabla de frecuencias para


las variables continúas se hace por medio de intervalos
que ayudan en el trabajo e interpretación de los datos

Gabriel Ovidio Clavijo Gañán 7


ESTADÍSTICA

60 74 76 81 54 68 74 72 88 61 64 68 72 74 70 64 62 61 60 60
64 72 70 71 74 75 64 64 63 62 64 58 56 61 62 64 65 66 63 56
72 56 58 60 60 60 58 60 58 60 58 60 58 68 70 65 71 76 74 54
71 50 56 54 58 64 65 54 81 80 54 87 80 68 63 64 64 65 66 67
70 64 66 65 63 66 64 67 68 65 62 64 65 65 64 63 62 60 64 65
61 64 66 65 64 68 68 69 70 71 75 74 72 70 60 61 64 74 65 72
63 60 61 62 61 65 63 65 64 66 67 67 65 62 62 63 64 65 58 52
58 56 61 72 74 71 64 74 74 82 65 60 70 65 74 56 65 81 80 54
54 54 62 65 75 75 65 75 75 60 68 65 74 64 75 58 54 56 58 58
52 58 65 65 74 74 68 71 74 84 74 84 71 68 74 62 57 68 65 65
52 59 63 68 76 61 74 80 75 60 78 72 70 72 71 54 58 78 85 68
62 60 65 74 74 60 71 62 81 62 80 74 78 74 72 74 72 82 82 69

Ponga especial cuidado en los pasos que se desarrollarán para la


construcción una tabla de frecuencias para variables cuantitativas
continuas:

1. Determine el Xi min y el Xi max, o sea, el valor menor y el valor mayor en la tabla de datos.
Para el presente caso, se puede notar que el Xi min = 50 y el Xi max = 88

2. Se determina el Rango o Recorrido que es la diferencia entre el valor máximo y el valor


mínimo, o sea, que R = 88 – 50 = 38

3. Ahora, determine I, que es el número de intervalos que se empleará en la construcción


de la tabla de frecuencias.
El valor de I se puede determinar de varias maneras, en la práctica se determina
atendiendo a varios factores, tales como: finalidad del estudio, grado de variabilidad de
los datos, necesidad de efectuar comparaciones con otros estudios que obligue a
mantener los intervalos y su número. Sin embargo, se recomienda, hasta donde sea
posible, que el número de intervalos no sea inferior a 5 ni superior a 16.

Para el trabajo en el curso se hará uso de la fórmula de Sturges: I = 1 + 3,3 log n, con
lo cual se obtiene para el presente ejercicio:
I = 1 + 3,3 log 240, por lo tanto, tenemos que: I = 8,85  9

4. Conocidos el rango y el número de intervalos, se puede hallar A, que es la amplitud del


intervalo.

Gabriel Ovidio Clavijo Gañán 8


ESTADÍSTICA

𝑹 𝟑𝟖
Luego, 𝑨 = , por lo tanto, se tiene que 𝑨 = = 4,2 ≅ 5, siempre se aproxima al
𝑰 𝟗
número inmediatamente superior, por pequeña que sea la fracción y así evitar que
queden valores observados por fuera del rango.

Note que se ha incrementado I y A, con lo cual se daría un leve incremento en el rango


inicial, obligando así a hallar un nuevo rango ampliado:

5. Como el caso lo amerita, se halla el rango ampliado:


𝑹𝒂 = 𝑰𝒙𝑨 𝑹𝒂 = 𝟗 𝒙 𝟓 = 𝟒𝟓

Con lo que el rango se ha ampliado en 7 unidades las cuales puede distribuir


equitativamente a extremo y extremo de los valores mínimos y máximos.

En este caso podemos distribuir 3 por debajo y cuatro por encima, quedando los nuevos
valores mínimos y máximos así:
𝑿𝒊 𝒎𝒊𝒏 = 𝟓𝟎 − 𝟑 = 𝟒𝟕 y el 𝑿𝒊 𝒎𝒂𝒙 = 𝟖𝟖 + 𝟒 = 𝟗𝟐

6. Finalmente se construyen los intervalos y se prosigue a la respectiva tabulación:


Tenga en cuenta el valor mínimo y la amplitud del intervalo.
(47 – 52
(52 – 57
(57 – 62
(62 – 67
(67 – 72
(72 – 77
(77 – 82
(82 – 87
(87 – 92
Analice que los intervalos tienen la forma abierta – cerrada lo cual evita dilemas con los
valores extremos. Finalmente, la tabla de distribución de frecuencias quedaría así:
X: PESO (en Kg.)
Intervalos Xi fi Fi hi Hi
(47 – 52] 49,5 4 4 1,67% 1,67%
(52 – 57] 54,5 18 22 7,50% 9,17%
(57 – 62] 59,5 54 76 22,50% 31,67%
(62 – 67] 64,5 67 143 27,92% 59,58%
(67 – 72] 69,5 43 186 17,92% 77,50%
(72 – 77] 74,5 34 220 14,17% 91,67%
(77 – 82] 79,5 15 235 6,25% 97,92%
(82 – 87] 84,5 4 239 1,67% 99,58%
(87 – 92] 89,5 1 240 0,42% 100,00%
240 100,00%

Gabriel Ovidio Clavijo Gañán 9


ESTADÍSTICA

7. NOTA: La columna Xi corresponde a la marca de clase o centro de casilla y es el valor


que representará al intervalo para efectos de cálculo y de análisis.
La marca de clase Xi, se halla como la suma entre los valores extremos del intervalo, así:
𝑿𝒊 𝒎𝒊𝒏+𝑿𝒊 𝒎á𝒙
𝑿𝒊 =
𝟐
Ahora ya se puede realizar los respectivos gráficos e histogramas vistos anteriormente.

Algunos ejemplos prácticos

Ejemplo 1
a. Indique dos ejemplos de distribuciones unidimensionales, dos de bidimensionales y
dos de multidimensionales, relacionadas con la economía del país.
b. Señale cuatro distribuciones de variable discreta, tres de variable continua y tres de
atributos1.

Solución
a. Unidimensional
Producción
Número de explotaciones agrícolas
Ingresos

Bidimensional
Producción e inversión
Número de explotaciones agrícolas y hectáreas cultivadas
Ingresos y gastos

Multidimensional
Producción, inversión y horas laboradas
Número de explotaciones agrícolas, hectáreas cultivadas y
número de obreros
Ingreso, gasto y número de familias
b. Variable discreta
Número de hijos por familia
Número de hermanos por estudiante
Número de piezas defectuosas
Continua
Ingresos
Peso en Kg.
Longitud
Atributos
Puertos colombianos para exportaciones
Consumo de cigarrillos por marcas
Calidad de los productos exportados
1
Ciro Martínez, Bencardino. Estadística y Muestreo. (2012). Décimo tercera edición. Pág. 52
Gabriel Ovidio Clavijo Gañán 10
ESTADÍSTICA

Ejemplo 2
En los ejemplos siguientes señale con A las series para datos cualitativos (Atributos) y
con V los datos cuantitativos (Variables).
a. Distribución de estudiantes por mes de nacimiento A
b. Distribución de estudiantes por nacionalidad A
c. Distribución de estudiantes por estatura y peso V
d. Distribución de oficiales por sueldo V
e. Distribución de accidentes por causa A

Señale con C las series de variables continua y con D las de variables discretas.
a. Distribución de obreros por salarios C
b. Distribución de fallecimientos por edades C
c. Distribución de estudiantes por número de hermanos D
d. Distribución de estudiantes por estatura C

Resumen
A. Qualitative Data: Data that are measured by either nominal or ordinal scales of
measurement. Each value serves as a name or label for
identifying an item.

B. Quantitative Data: Data that are measured by interval or ratio scales of


measurement. Quantitative data are numerical values on which
mathematical operations can be performed.

C. Bar Graph: A graphical method of presenting qualitative data that have been
summarized in a frequency distribution or a relative frequency
distribution.

D. Pie Chart: A graphical device for presenting qualitative data by subdividing


a circle into sectors that correspond to the relative frequency of
each class.

E. Frequency Distribution: A tabular presentation of data, which shows the frequency


of the appearance of data elements in several non
overlapping classes. The purpose of the frequency
distribution is to organize masses of data elements into
smaller and more manageable groups. The frequency
distribution can present both qualitative and quantitative
data.

F. Relative Frequency Distribution:


A tabular presentation of a set of data which shows the
frequency of each class as a fraction of the total frequency. The

Gabriel Ovidio Clavijo Gañán 11


ESTADÍSTICA

relative frequency distribution can present both qualitative and


quantitative data.

G. Percent Frequency Distribution:


A tabular presentation of a set of data which shows the
percentage of the total number of items in each class. The
percent frequency of a class is simply the relative frequency
multiplied by 100.

H. Class: A grouping of data elements in order to develop a frequency


distribution.

I. Class Width: The length of the class interval. Each class has two limits. The
lowest value is referred to as the lower class limit, and the
highest value is the upper class limit. The difference between
the upper and the lower class limits represents the class width.

J. Class Midpoint: The point in each class that is halfway between the lower and
the upper class limits.

K. Cumulative Frequency Distribution:


A tabular presentation of a set of quantitative data which shows
for each class the total number of data elements with values less
than the upper class limit.

L. Cumulative Relative Frequency Distribution:


A tabular presentation of a set of quantitative data which shows
for each class the fraction of the total frequency with values less
than the upper class limit.

M. Cumulative Percent Frequency Distribution:


A tabular presentation of a set of quantitative data which shows
for each class the fraction of the total frequency with values less
than the upper class limit.

N. Dot Plot: A graphical presentation of data, where the horizontal axis


shows the range of data values and each observation is plotted
as a dot above the axis.

O. Histogram: A graphical method of presenting a frequency or a relative


frequency distribution.

P. Ogive: A graphical method of presenting a cumulative frequency


distribution or a cumulative relative frequency distribution.

Q. Exploratory Data Analysis:

Gabriel Ovidio Clavijo Gañán 12


ESTADÍSTICA

The use of simple arithmetic and easy-to-draw pictures to look at


data more effectively.

R. Stem-and-Leaf Display:
An exploratory data analysis technique that simultaneously rank
orders quantitative data and provides insight into the shape of the
underlying distribution.

S. Crosstabulation: A tabular presentation of data for two variables. Rows and


columns show the classes of categories for the two variables.

T. Scatter Diagram: A graphical method of presenting the relationship between two


quantitative variables. One variable is shown on the horizontal and
the other on the vertical axis.

Gabriel Ovidio Clavijo Gañán 13

También podría gustarte