Está en la página 1de 12

CAPITULO II

DISTRIBUCIONES DE FRECUENCIAS CUADROS Y GRAFICAS

1. DISTRIBUCION DE FRECUENCIAS.

La distribución de frecuencias es un método para organizar y resumir datos. Bajo este


método los datos que componen una serie se clasifican y ordenan indicandose el número
de veces y la proporción (porcentaje) de veces que se repite el valor.

Unas veces, se investigan todas las unidades de la población, en otras ocasiones, sólo se
toma una parte, con las cuales se obtiene información que requieren ser organizados y
presentados en cuadros y gráficas.

1.1 DISTRIBUCION DE FRECUENCIAS PARA VARIABLE CUALITATIVA.

Para el estudio de la distribución de frecuencias para variable cualitativa partamos del


siguiente ejemplo: una encuesta realizada entre 40 hombres del barrio Normandía
poseedores de automóvil mostró las siguientes respuestas acerca de la marca del
automóvil que poseían: F, R, CH, M, F, R, CH, R, R, F, M, M, CH, R, F, R, M, R, F,
CH, M, M, M, R, R, R, CH, M, R, F, R, R, F, M, M, CH, R, R, R, M.

Donde : F : Ford R : Renault CH : Chevrolet M: Mazda

El objeto es contestar de una manera “rápida” las siguientes preguntas:

1 ) ¿Cuántas personas tienen vehículos de marca Renault, Mazda, etc.?

2 ) ¿Qué porcentaje de personas tiene vehículos de marca Renault, Mazda, etc.?

Para responder a estas dos preguntas básicas se construye el siguiente cuadro:

DISTRIBUCION DE 40 PERSONAS SEGÚN MARCA DE CARRO

MARCA Nº DE PERSONAS % DE PERSONAS


FORD 7 17.5
MAZDA 11 27.5
RENAULT 16 40
CHEVROLET 6 15
TOTAL 40 100

En la primera columna del cuadro aparece la característica que se está investigando, en


este caso la marca del carro, la segunda columna muestra el número de personas
(conteo) que tienen cada marca. Así lo que se ha hecho es mirar como se “reparten” las
personas de acuerdo a la característica en consideración, en este caso, las diferentes
marcas. A esta repartición es a lo que se conoce con el nombre de “distribución”. A la
repetición de la característica es lo que se conoce con el nombre de frecuencia. De esta
manera podemos considerar dos clases de frecuencia: frecuencias absolutas y
frecuencias relativas (porcentaje).

10
De este cuadro podemos observar que 16 personas poseen un carro marca Renault, las
cuales representan el 40% de la muestra (16*100/40); del mismo modo 11 personas
(27,5%) tienen un carro marca Mazda.

Gráficamente esta información se puede tratar mediante un diagrama de sectores o


pastel. La idea principal es que los 360º de la circunferencia corresponden al 100%. Por
ejemplo: para la marca Ford que tiene un 17,5% de representación tendrá un área que
se mide con 63o. ( 17,5.360º ), Mazda 99º,. Renault 144º, Chevrolet: 54º. Hoy en
100
día un computador personal realiza este gráfico muy rápidamente.

MARCA

15,0% 17,5%
FORD
MAZDA
RENAULT
27,5%
40,0% CHEVROLET

Normalmente en el análisis interesa mirar que “marca” se lleva la mayor tajada.

1.2 DISTRIBUCION DE FRECUENCIA PARA VARIABLE DISCRETA.

Para efectos posteriores es necesario familiarizarnos con algunos símbolos:

n = Se denomina el tamaño de la muestra.


N = Es el tamaño de la población o universo de donde se extraen las muestras.
Xi = Es el valor que asume la variable X en el individuo i. Para muestras los valores
serán X1, X2, ... Xn y para poblaciones X1, X2, ... , XN.
yi = Indica los valores que toma la variable. i= 1,2,..., m
ni = Frecuencia absoluta. Es el número de veces que se repite el valor de la variable.
(conteo) i= 1,2,..., m.
hi = Frecuencia relativa, valor proporcional obtenido al dividir la frecuencia absoluta
por el tamaño de la muestra.
hi = ni/n con i= 1,2,..., m
Ni = Frecuencia absoluta acumulada. i= 1,2,..., m
Hi = Frecuencia relativa acumulada. i= 1,2,..., m
m = Es el número de valores que toma la variable yi.

La tabla en forma esquemática adquiere la siguiente forma:

11
i Yi ni hi Ni Hi
1 Y1 n1 h1 N1 H1
2 Y2 n2 h2 N2 H2
3 Y3 n3 h3 N3 H3
... ... ... ... ... ...
m ym nm hm Nm Hm
 n 1 - -

Las frecuencias absolutas acumuladas se definen como:


k
Nk =  ni
i 1
Y las relativas como:
k
Hk =  hi
i 1

Indicando el número de casos (o proporciones) donde la variable toma valores a lo sumo


iguales a Yi.
3
Por ejemplo: N3 =  ni
i 1
= n 1 + n2 + n 3
4
H4 =  hi
i 1
= h1 + h2 + h3 + h4

Ejemplo:

Suponga que se tiene un universo de 200 cajas y se desea examinarlas contando el


número de artículos defectuosos (X) que contiene cada una. Se toma una muestra de 25
cajas encontrándose la siguiente información:

X1 = 4 X6 = 2 X11 = 1 X16 =1 X21 = 4


X2 = 2 X7 = 2 X12 = 1 X17 =2 X22 = 2
X3 = 3 X8 = 3 X13 = 0 X18 = 2 X23 = 2
X4 = 0 X9 = 2 X14 = 0 X19 = 2 X24 = 3
X5 = 2 X10 = 1 X15 = 1 X20 = 3 X25 = 2

En primer lugar se encuentran los valores yi de menor a mayor así: y1=0, y2=1, y3 =2,
y4=3, y5=4. Luego se cuenta el número de cajas que no tienen artículos defectuosos
(cero defectuosos), uno, dos, etc. La tabla queda conformada de la siguiente manera:

12
DISTRIBUCION DE 25 CAJAS SEGÚN EL NUMERO DE ARTICULOS
DEFECTUOSOS

NUMERO DE NUMERO PROPORCION NUMERO PROPORCION


ARTICULOS DE CAJAS DE CAJAS ACUMULADO ACUMULADA
DEFECTUOSOS DE CAJAS DE CAJAS
yi ni hi Ni Hi
0 3 0.12 3 0.12
1 5 0.20 8 0.32
2 11 0.44 19 0.76
3 4 0.16 23 0.92
4 2 0.08 25 1.00
TOTAL 25 1 - -

La tercer frecuencia absoluta, n3 = 11, significa que 11 cajas contienen 2 artículos


defectuosos cada una. La primer frecuencia absoluta, n1=3, indica que hay 3 cajas que
no tienen artículos defectuosos.

Las frecuencias relativas se obtienen de la siguiente manera:

h1 = n1/n = 3/25 = 0,12 ; h2 = n2/n = 5/25 = 0,20 ; h3 = n3/n = 11/25 = 0,44 ; etc.

La segunda frecuencia relativa, h2 = 0,20, significa que en el 20% de las cajas se tiene
de a un artículo defectuoso. La cuarta frecuencia relativa muestra que el 16% de las
cajas tiene 3 artículos defectuosos.

Las frecuencias absolutas acumuladas se obtienen así:

N1 = n1 = 3
N2 = n1 + n2 = 3 + 5 = 8 = N1 + n2
N3 = n1 + n2 + n3 = 3 + 5 +11 = 19 = N2 + n3 = 8 + 11 = 19
N4 = n1 + n2 + n3 + n4 = 3 + 5 +11 +4 = 23 = N3 + n4 = 19 + 4
N5 = n1 + n2 + n3 + n4 + n5 = 3+5+11+4+2 = 25 = N4 + n5 = 23+2

La tercera frecuencia absoluta acumulada ( N3 = 19) indica que hay 19 cajas que tienen
máximo dos artículos defectuosos. También se puede decir que se tienen a lo sumo dos,
hasta dos, entre cero y dos, a lo más dos, o menos de tres artículos defectuosos.

Las frecuencias relativas acumuladas resultan de:

H1 = h1 = 0,12
H2 = h1 + h2 = 0,12 + 0,20 = H1 + h2
H3 = h1 + h2 + h3 = 0,12 + 0,20 + 0,44 = 0,76 = H2 + h3
H4 = h1 + h2 + h3 + h4 = 0,12 + 0,20 + 0,44 + 0,16 = 0,92 = H3 + h4
H5 = h1 + h2 + h3 + h4 + h5 = 0,12 + 0,20 + 0,44 + 0,16 + 0,08 = H4 + h5

También se puede obtener como: Hi = Ni/ n por ejemplo:

H3 = N3 / n = 19 / 25 = 0,76.

13
La segunda frecuencia relativa acumulada (H2 = 0,32) significa que en el 32% de las
cajas se tiene a lo sumo un articulo defectuoso.

Más ejemplos:

n – N3: 25 – 19 = 6; significa que en seis cajas hay entre tres y cuatro artículos
defectuosos, o en otras palabras mínimo tres artículos defectuosos, (por los menos tres,
a lo menos tres).

1- H2: 1- 0.32 = 0.68; significa que en el 68% de las cajas hay mínimo dos artículos
defectuosos.

N4 – N2: 23 – 8 = 15; significa que en 15 cajas hay entre dos y tres artículos defectuosos,
o en otras palabras más de uno pero menos de cuatro artículos defectuosos.

H4 – H1: 0.92 – 0.12 = 0.80; significa que en el 80% de las cajas hay entre uno y tres
artículos defectuosos.

1.2.1 PROPIEDADES DE LAS FRECUENCIAS.

1 ) La suma de las frecuencias absolutas es igual a n ( o N)


m

 ni
i 1
= n

2 ) La suma de las frecuencias relativas es igual a 1.


m

 hi
i 1
=1

3 ) Las frecuencias absolutas son siempre valores enteros.

4) Las frecuencias relativas son siempre números entre 0 y 1. 0<hi<1.

5) La primera frecuencia absoluta (relativa) acumulada es equivalente a la primera


frecuencia absoluta (relativa) sin acumular.

6 ) El último valor de las frecuencias absolutas acumuladas es igual al número de datos


( n si es muestra o N si es población).

7 ) El último valor correspondiente a las frecuencias relativas acumuladas debe ser igual
a 1.

8 ) la k-ésima frecuencia absoluta (relativa ) acumulada es igual a la frecuencia absoluta


(relativa) acumulada anterior (k – 1) más la k-ésima frecuencia absoluta (relativa)
sin acumular, esto es:

Nk = Nk-1 + nk ; Hk = Hk-1 + hk

Ejemplo:

14
N5 = N4 + n5 ; H3 = H2 + h3
25 = 23 + 2 ; 0,76 = 0,32 + 0,44

9 ) La k-ésima frecuencia relativa acumulada es igual a la k-ésima frecuencia absoluta


acumulada dividida entre el número de datos.

Hk = Nk / n ; H3 = N3 / n = 19/ 25 = 0,76

Gráficamente la información se puede presentar mediante dos diagramas; el diagrama


de frecuencias y el diagrama de frecuencias acumuladas.

1.2.2 DIAGRAMA DE FRECUENCIAS. Consiste en un plano cartesiano donde en el


eje horizontal se colocan los distintos valores de la variable y i y en el eje vertical las
frecuencias absolutas (ni) ó relativas (hi). Este diagrama tambien se conoce con el
nombre de diagrama de barras. Para nuestro caso:

DISTRIBUCIÓN DE 25 CAJAS SEGÚN EL NÚMERO DE


ARTICULOS DEFECTUOSOS

15
NUMERO DE

10
CAJAS

5
0
0 1 2 3 4
NUMERO DE ARTICULOS DEFECTUOSOS

Sobre el eje horizontal se representan los m valores de la variable (y i). Luego en cada
uno de estos puntos se levanta un trazo cuya longitud equivale a la frecuencia absoluta
respectiva, marcada en el eje vertical izquierdo.

La escala de los ejes es independiente pero se debe mantener la uniformidad en ella. Si


se ha realizado con las frecuencias absolutas, también se puede colocar, de forma
opcional, los porcentajes correspondientes.

1.2.3 DIAGRAMA DE FRECUENCIAS ACUMULADAS. También consiste en un


plano cartesiano, donde en el eje horizontal se colocan los valores de la variable y en el
eje vertical las frecuencias absolutas (relativas) acumuladas.

15
Distribución Acumulada de Cajas según Número
de Artículos Defectuosos

30
25
25 23
Número Acumulado de Cajas

19
20

15

10 8

5 3

0
1 2 3 4 5
Número de Artículos Defectuosos

Se marcan sobre el eje horizontal los valores de la variable y i. Se levanta en cada uno
de estos puntos un segmento vertical de longitud equivalente a la frecuencia
acumulada respectiva. Se dibujan diversas tramas horizontales correspondientes a los
intervalos dentro de los cuales no pueden existir observaciones.

1.3 DISTRIBUCION DE FRECUENCIA PARA VARIABLE CONTINUA.

En el caso de variables continuas (o en variables discretas con gran diferencia entre el


máximo y el mínimo), es necesario fijar intervalos (también llamados clases), de
frecuencia, para llegar a un resumen efectivo de la información original. Así tomaremos
a m como el número de intervalos, el cual se aconseja esté entre 5 y 15, ya que un
número menor haría perder muchos detalles y uno más grande retendría demasiados.

Posteriormente determinamos el recorrido de la variable R(x) , que es la diferencia entre


la observación máxima y la mínima.

R(x) = Xmax – Xmin.

Es preferible, para simplificar los cálculos, que los intervalos tengan todos la misma
amplitud (C) la cual se puede calcular como:

C = R(x)/m = (Xmax – X min) / m.

Obteniéndose una amplitud constante.

16
Dado que no es posible considerar como clase cada valor de la variable, es preciso
agrupar varios de ellos en un intervalo. La clase o intervalo i-ésimo queda determinado
por un límite inferior Y’i-1 y un limite superior Y’i ; con i = 1,2,...,m. En consecuencia el
valor Y’i es al mismo tiempo, límite superior del intervalo i-ésimo y el límite inferior
del intervalo siguiente (i+1). Luego la partición de la recta real se puede obtener de la
siguiente manera:

Intervalo: i . 1 2 3 4 .... m .
Xmin y1 y2 y3 y4 .... ym xmax
Y’0 Y’1 Y’2 Y’3 ’
Y4 .... Y’m-1 Y’m

Así Y’0 es el límite inferior del primer intervalo, Y’1 el límite inferior del 2º, que a su vez
es el límite superior del primero, etc. El límite superior del i-ésimo intervalo será el
límite inferior del intervalo más la amplitud.

Y’i = Y’i-1 + C *

Ejemplo: Y’1 = Y’0 + C ; Y’2 = Y’1 + C ; etc.

En la metodología a practicar en este texto, el límite inferior del primer intervalo Y ’0


corresponderá al menor valor de las observaciones (Xmin), y el límite superior del último
intervalo (m-ésimo) corresponderá al máximo valor de las mismas (Xmax).

*En algunos casos se trabaja con amplitudes variables de tal manera que:

Ci = Y’i - Y’i-1.

Los intervalos quedan caracterizados por las marcas de clase, que son los valores: y1,
y2,...,ym , correspondientes a los puntos medios o semisuma de los límites inferior y
superior respectivos.

yi = (Y’i-1 +Y’i )/ 2 Ej: y1 = (Y’0 + Y’1 )/ 2 ; y2 = (Y’1 + Y’2 )/ 2 etc.

A menudo al efectuar la tabulación aparecen observaciones que coinciden con un valor


límite. Para evitar ambigüedad en su ubicación, una solución (no la única) es convenir
que todo valor igual a un límite de clases, se debe incluir en el intervalo del cual es
límite inferior. En este caso estamos hablando de intervalos “a menos de”.

Una tabla de distribución de frecuencias para variable continua y sus símbolos


correspondientes se presenta de la siguiente forma:

INTERVAL MARCAS FRECUENC FRECUENC FRECUENC FRECUENC


OS DE CLASE ABSOLUTA RELATIVA ABS.ACUM REL.ACUM
Y i-1- Y’i

yi ni hi Ni Hi
Y’0- Y’1 y1 n1 h1 N1 H1
Y’1- Y’2 y2 n2 h2 N2 H2
... ... ... ... ... ...
Y m-1- Y’m

ym nm hm Nm Hm

17
 n 1 - -

Ejemplo:

Los datos siguientes corresponden al ingreso mensual de un grupo de 50 padres de


familia en junio de 1.998 en miles de pesos.

325 328 350 600 620 540 380 420 592 381
425 428 583 601 425 482 486 484 482 490
405 410 423 392 396 391 333 410 408 600
388 443 595 515 522 521 500 499 462 485
400 502 480 472 425 525 500 561 524 555

Se desea clasificar la información en una tabla de distribución con cinco intervalos de


igual amplitud (m=5), para ello debemos encontrar la amplitud:

C = (Xmax – Xmin )/ m = (620-325) / 5 = 295 / 5 = 59

En este caso los límites de los intervalos son:

Y’0 = Xmin = 325


Y’1 = Y’0 + C = 325 + 59 = 384
Y’2 = Y’1 + C = 384 + 59 = 443
Y’3 = Y’2 + C = 443 + 59 = 502
Y’4 = Y’3 + C = 502 + 59 = 561
Y’5 = Y’m = Xmax = Y’4 + C = 561 + 59 = 620

Así los intervalos son:

[325,384), [384,443), [443,502), [502,561), [561,620].

Y las correspondientes marcas de clase son:

y1 = (Y’0 + Y’1)/2 = (325+384)/2 = 354,5


y2 = (Y’1 + Y’2)/2 = (384+443)/2 = 413,5
y3 = (Y’2 + Y’3)/2 = (443+502)/2 = 472,5
y4 = (Y’3 + Y’4)/ 2 = (502+561)/2 = 531,5
y5 = (Y’4 + Y’5)/ 2 = (561+620)/2 = 590,5

Cuando existan valores escasos, muy alejados de lo que podría llamarse una
concentración central, puede optarse por dejar los intervalos extremos abiertos.

Claramente, en este caso, interesa saber la cantidad de padres de familia que se


encuentran en cada uno de los intervalos construidos. Un padre con un ingreso mensual
de $502.000 se considerará en el intervalo 502-561 y no en el intervalo443-502. La
tabla de resultado es la siguiente:

18
DISTRIBUCIÓN DE 50 PADRES SEGÚN SU INGRESO MENSUAL

INGRESO INGRESO Nº.DE PROPORCI NUMERO PROPORCIÓN CONTEO


MENSUAL MEDIO PADRES ÓN DE ACUMULA ACUMULAD
(MILES DE $) PADRES DO DE A DE
INTERVALOS PADRES DE PADRES DE
FAMILIA FAMILIA
Y’i-1- Y’i yi ni hi Ni Hi
325-384 354,5 6 0,12 6 0,12 ///// /
384-443 413,5 15 0,30 21 0,42 ///// ///// //
///
443-502 472,5 13 0,26 34 0,68 ///// ///// //
/
502-561 531,5 8 0,16 42 0,84 ///// ///
561-620 590,5 8 0,16 50 1 ///// ///
TOTAL 50 1 -

1.3.1 INTERPRETACIÓN DE LAS FRECUENCIAS.

La segunda frecuencia absoluta “n2” indica que 15 padres de familia tienen ingresos
entre 384 y 443 miles de pesos. También se puede decir que esos 15 padres tienen un
ingreso medio mensual de 413,5 miles de pesos.

La tercer frecuencia relativa “h3” indica que el 26% de los padres tiene ingreso mensual
entre 443 y502 miles de pesos, o ingreso medio de 472,5 miles de pesos.

En este caso se supone que la distribución es “uniforme” a lo largo del intervalo.

La cuarta frecuencia absoluta acumulada N4 muestra que 42 padres de familia tienen


ingresos mensuales entre 325 y 561 miles de pesos. También se puede decir que tienen
ingreso mensual máximo (hasta, a lo sumo, a lo más), de 561 miles de pesos. En este
caso no hablamos de promedio ya que no es uniforme la distribución en los intervalos.

La tercera frecuencia relativa acumulada indica que el 68% de los padres de familia
tienen ingreso mensual entre 325 y 502 miles de pesos o máximo 502 miles de pesos.

Otros casos:

n - N2 = 50 - 21 = 29, (13+8+8). Muestra que 29 padres de familia tienen ingresos


entre 443 y 620 miles de pesos o en otras palabras mínimo (por lo menos, a lo menos),
443 miles de pesos.

N4 – N2 = 42 - 21 = 21, (13 + 8). Muestra que 21 padres de familia tienen ingresos


entre 443 y 561 miles de pesos.

Gráficamente la información se puede representar mediante las frecuencias sin acumular


(HISTOGRAMA) y las frecuencias acumuladas (OJIVA).

19
1.3.2 HISTOGRAMA.

Consiste en un plano cartesiano donde en el eje horizontal se ubican los intervalos de la


variable (Y’) y en el eje vertical las frecuencias absolutas o relativas no acumuladas. En
este caso se establecen rectángulos.

Distribución de Padres según


Ingreso Mensual

20
15
Número de

15 13
Padres

10 8 8
6
5
0
0
325 384 443 502 561 620
Ingreso Mensual (Miles de Pesos)

1.3.3 OJIVA.

Consiste en un plano cartesiano y en el cual se marcan puntos cuyas coordenadas


corresponden en un sentido, al extremo superior de cada intervalo, y en el otro, a la
frecuencia acumulada hasta finalizar el correspondiente intervalo, luego se unen los
puntos con trazos rectilíneos. En su construcción se ha supuesto que las observaciones
se distribuyen en forma homogénea dentro de cada intervalo, lo que se representa por un
crecimiento proporcional en cada clase y que dá origen a las rectas de unión entre los
puntos. En esta forma, si se considera solo la mitad del intervalo, el incremento también
es la mitad del correspondiente a todo el intervalo.

20
Distribución Acumulada de Padres
según Ingreso Mensual

60
Número acumulado de

50 50
40 42
Padres

34
30
20 21
10
6
0 0
325 384 443 502 561 620
Ingresos Mensuales (miles de $)

21

También podría gustarte