Está en la página 1de 8

SERIES DE FRECUENCIAS

Es la exposición de las unidades de un fenómeno clasificada por todas sus modalidades, de las cuales
podemos encontrar:

fenómenos con pocas observaciones, por ejemplo: si se analizan los montos de ventas diarios de
una semana de un restaurant marplatense, tendremos siete valores diferentes de ventas
(seguramente no se repetirá ningún importe) que representan las modalidades del fenómeno
estudiado: “ventas diarias” y siete observaciones, una por cada día de la semana. ESTA
EXPOSICIÓN SE DENOMINA SIMPLE
fenómenos con pocas modalidades y muchas observaciones, por ejemplo: la cantidad de
comensales sentados a las mesas de un restaurant durante el mes de enero, el fenómeno analizado
“cantidad de comensales” tiene una diversidad relativamente chica de modalidades, ya que podrán
sentarse 1, 2, 3, hasta 15 personas (o poco más), pero la frecuencia de estos valores a lo largo del
mes de enero puede ser amplia, en tal caso, mostrarlo en una serie simple puede ser poco efectivo.
ESTA EXPOSICIÓN SE DENOMINA DE FRECUENCIAS
fenómenos con muchas modalidades y muchas observaciones, por ejemplo: el valor de la adición por
grupo de consumo en un restaurante durante el mes de enero, en este caso el fenómeno analizado
“valor del consumo por grupo” puede tener gran cantidad de modalidades, es decir muchos importes
diferentes de gasto por grupo de comensales y por supuesto durante el mes de enero seguramente
generará muchas observaciones, sería aconsejable tratarlo mediante un agrupamiento de los valores
de la serie por intervalos de manera que se visualice más fácilmente el fenómeno estudiado. ESTA
EXPOSICIÓN SE DENOMINA DE FRECUENCIAS EN INTERVALOS DE CLASE

El análisis de estas series puede llevar a determinar diferentes características entre las que
encontramos:

Medidas de posición

Las medidas de posición facilitan información sobre la serie de datos analizada, permitiendo conocer
diversas características de la misma.

Las medidas de posición son de dos tipos:

• central: informan sobre los valores medios de la serie de datos.

• no centrales: informan de como se distribuye el resto de los valores de la serie.

1. Medidas de posición central

Las principales son las siguientes:

1.1. Media: es el valor medio ponderado de la serie de datos, se pueden calcular diversos tipos de
media, siendo las más utilizadas:

Media aritmética: se calcula multiplicando cada valor por el número de veces que se repite, la suma de
todos estos productos se divide por el total de datos de la serie, en simbología sería:
t t

∑ X i Ni t
N ∑X i
m( X ) = i =1
= ∑ X i f i → f i = i ; en las series simples: m( X ) = i =1
, donde : N i = 1 y en las
N i =1 N N
series expresadas en intervalos de clase la única diferencia que el valor de modalidad que se toma para
los cálculos es el promedio de los limites de cada intervalo, por lo arroja valores aproximados (con cierto
grado de error)1.

1
Algunos autores denominan al producto: X i Ni intensidad de la variable, considerando a la media aritmética como el
promedio de las intensidades.

1
Media geométrica: se eleva cada valor al número de veces que se ha repetido, se multiplican todos
estos resultados y al producto final se le calcula la raíz "n" (siendo "n" el total de datos de la muestra).
t t
mg = N ∏ X i Ni y en las series simples: mg = N ∏ X i , donde : N i = 1 .
i =1 i =1

Media armónica: se calcula dividiendo el total de datos de la serie por la suma de los cocientes entre el
número de veces que se repite y cada valor de la serie, en simbología sería:
N N
ma = t
y en las series simples: ma = t
, donde : N i = 1 .
Ni 1

i =1 X i

i =1 X i

Según el tipo de datos que se analice será más apropiado utilizar la media aritmética, la geométrica o la
armónica.

La media geométrica se suele utilizar en series de datos como tipos de interés anuales, inflación, etc.,
donde el valor de cada período (año, mes, etc.) tiene un efecto multiplicativo sobre el de los períodos
(años, mes, etc.) siguientes o tiene un efecto acumulativo con respecto a los períodos anteriores.
La media armónica se utiliza cuando la serie relaciona un valor que varía en función de otro fijo, como
por ejemplo el promedio de velocidad de un circuito (donde lo que varía es la velocidad del vehículo y lo
fijo es la longitud del circuito), el gasto promedio en un artículo cuando tiene asignado un presupuesto fijo
por período, etc.
En todo caso, la media aritmética es la medida de posición central más utilizada.

Lo más positivo de la media es que en su cálculo se utilizan todos los valores de la serie, por lo que no
se pierde ninguna información.

Sin embargo, presenta el problema de que su valor (tanto en el caso de la media aritmética como
geométrica) se puede ver muy influido por valores extremos, que se aparten en exceso del resto de
la serie. Estos valores anómalos podrían condicionar en gran medida el valor de la media, perdiendo
ésta representatividad.

El siguiente cuadro muestra en resumen el cálculo de estos tres promedios característicos:

Media para: Media aritmética Media geométrica Media armónica


2
2 modalidades: X + X2 mg = 2 X 1 ( ⋅ ) X 2 ma =
m( X ) = 1 1 1
X1 y X2 2 +
X1 X 2
t N
∑X t ma = t
mg = N ∏ X i
“N” modalidades de i
1
frecuencias simples m( X ) = i =1

N i =1 ∑
i =1 X i
t N
∑X N t ma = t
mg = N ∏ X i Ni
una serie de i i Ni
frecuencias m( X ) = i =1

N i =1 ∑
i =1 X i

NOTA: en el caso que la serie representara una muestra de la población, lo único que cambiaría es la
simbología indicada en este apartado, donde la media aritmética estaría representada por X y la
cantidad de observaciones o individuos de la muestra sería n .

Propiedades de la media aritmética:

1.1.1 La media de una serie de datos más una constante es igual a dicha media más la constante y la
media de una serie de datos multiplicada por una constante es igual a dicha media multiplicada

2
por la constante. Estas propiedades pueden demostrarse analíticamente, de manera individual o
conjunta, como lo muestra la siguiente expresión:

t t t t t
m( a +bX ) = ∑ ( a + bX i ) f i = ∑ afi + ∑ bX i fi = a ∑ fi + b ∑ X i fi = a + b ⋅ m( X )
i =1 i =1 i =1 i =1 i =1
1.1.2 La suma de las medias de dos series de datos es igual a la suma de las medias de cada serie
ponderada por la cantidad de observaciones o individuos de cada subgrupo. Esta propiedad
puede demostrarse analíticamente de la siguiente manera:

X1 + X 2 + ⋯ + X s Y1 + Y2 + ⋯ + Yt
m( X ) = y m(Y ) =
s t
( X + X 2 + ⋯ + X s ) + t (Y1 + Y2 + ⋯ + Yt )
s 1
X + X 2 + ⋯ + X s Y1 + Y2 + ⋯ + Yt s t
m( X +Y ) = 1 + = ⇒
s t s+t
s ⋅ m( X ) + t ⋅ m(Y )
m( X +Y ) =
s+t

Un caso particular de esta media ponderada es cuando ambos subgrupos tienen la misma
cantidad de observaciones o individuos entonces la media será un promedio simple, como puede
visualizarse en la siguiente demostración analítica:
s ⋅ m( X ) + s ⋅ m(Y ) m( X ) + m(Y )
s = t → m( X +Y ) = → m( X +Y ) =
2⋅s 2

1.1.3 La media del desvío, entendido como la diferencia entre cada modalidad de la serie y su media,
es igual a cero. Siendo su demostración analítica la siguiente:

( )
t t t t
m X −m = ∑ X i − m( X ) f i = ∑ X i f i − ∑ m( X ) f i = m( X ) − m( X ) ∑ f i = 0
( (X) ) i =1 i =1 i =1 i =1

1.2. Mediana: es el valor de la serie de datos que se sitúa justamente en el centro de la muestra (un 50%
de valores son inferiores y otro 50% son superiores). Simbólicamente: me .

No presenta el problema de estar influida por los valores extremos, pero en cambio no utiliza en su
cálculo toda la información de la serie de datos (no pondera cada valor por el número de veces que se
ha repetido).

Su determinación analítica consiste en encontrar la posición que ocupa el individuo que está en el centro
N N +1
de la serie, calculada como: Posición( m ) = o también como: , en la frecuencia acumulada que
e
2 2
la contiene, siendo la modalidad que representa dicha frecuencia acumulada la mediana.

En una serie simple si el valor está entre dos valores de la serie, se tomará el promedio aritmético de los
mismos.

Gráficamente se determina en el gráfico de distribución, o también denominado de frecuencias


acumuladas, visualmente se lo representa con una “escalera”.

En las series expresadas en intervalos de clase el procedimiento tanto analítico como gráfico es
similar, la diferencia radica:

Analíticamente encuentro no un valor de la serie sino un intervalo, por lo tanto hay que interpolar en
el mismo con la siguiente expresión:

3
Posición mediana − N acumulada anterior
me = X Limite inferior + w.
N i( mediana )
Gráficamente es similar, con la diferencia que el gráfico es continuo y se lo conoce como “ojiva”.

1.3. Modo: es el valor que más se repite en la muestra, representa la medida de posición central en las
variables cualitativas, considerando que ninguna de las otras medidas pueden calcularse.
Simbólicamente: mo , analíticamente es aquel valor de la serie que tiene una frecuencia más alta y
gráficamente se visualiza en el gráfico de frecuencia mediante la “barra” más alta.

En las series expresadas en intervalos de clase el procedimiento tanto analítico como gráfico es
similar, la diferencia radica:

Analíticamente encuentro un intervalo de la serie con la mayor frecuencia, por lo tanto hay que
interpolar en el mismo con la siguiente expresión:
d1 N i( modo ) − N i( anterior )
mo = X LI + w=
( ) ( )
w
d1 + d 2 N i( modo ) − N i( anterior ) + N i( modo ) − N i( siguiente )
Gráficamente es similar, con la diferencia que el gráfico es continuo y se lo conoce como
“histograma”, que es un gráfico de rectángulos adyacentes cuyas superficies son proporcionales a las
frecuencias2.

2. Medidas de posición no centrales

Las medidas de posición no centrales permiten conocer otros puntos característicos de la distribución
que no son los valores centrales. Entre otros indicadores, se suelen utilizar una serie de valores que
dividen la muestra en tramos iguales:

Cuartiles: son 3 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en
cuatro tramos iguales, en los que cada uno de ellos concentra el 25% de los resultados.

Deciles: son 9 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en
diez tramos iguales, en los que cada uno de ellos concentra el 10% de los resultados.

Percentiles: son 99 valores que distribuyen la serie de datos, ordenada de forma creciente o
decreciente, en cien tramos iguales, en los que cada uno de ellos concentra el 1% de los resultados.

Todas de determinan analítica y gráficamente igual que la mediana.

Medidas de dispersión

Estudia la distribución de los valores de la serie, analizando si estos se encuentran más o menos
concentrados, o más o menos dispersos, con respecto a un valor central.

Existen diversas medidas de dispersión, entre las más utilizadas podemos destacar las siguientes:

1. Rango o recorrido: mide la amplitud de los valores de la serie, se calcula por diferencia entre el valor
más elevado y el valor más bajo. En simbología: R = X MAX − X MIN

2. Varianza: mide la distancia existente entre los valores de la serie y su media, se calcula como
sumatorio de las diferencias al cuadrado entre cada valor y la media, multiplicadas por el número de
veces que se ha repetido cada valor, la sumatoria obtenida se divide por el total de observaciones de la
serie. En simbología:

2
Cuando los intervalos no son de amplitud constante, es decir tienen diferente amplitud, para lograr la definición del histograma
Ni
se debe calcular una auxiliar de cálculo denominada densidad de las frecuencias, cuyo cálculo y simbología sería: hi = .
wi

4
∑( X )
t 2
− m( X ) Ni
( )
i t 2 Ni
VAR = Vza( X ) = ϕ 2
(X ) =σ 2
(X ) = i =1
= ∑ X i − m( X ) fi → fi =
N i =1 N

Esta simbología es considerando la serie como una población, si fuera una muestra de la población el
cálculo es similar y el símbolo que lo representaría sería: S 2 ( X ) o simplemente S 2 y la cantidad de

observaciones o individuos de la muestra sería n .

∑( X )
t 2
i − m( X )
En las series simples su cálculo sería: σ 2 ( X ) = i =1
→ Ni = 1 .
N

La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más concentrados están los
valores de la serie alrededor de la media, por el contrario, cuanto mayor sea la varianza, más dispersos
están.

Propiedades de la varianza:

2.1 La varianza de una serie de datos más una constante es igual a dicha varianza y la varianza de una
serie de datos multiplicada por una constante es igual a dicha varianza multiplicada por el cuadrado
de la constante. Estas propiedades pueden demostrarse analíticamente, de manera individual o
conjunta, como lo muestra la siguiente expresión:

( ( )) ( ( ))
t 2 t 2
σ 2( a + bX ) = ∑ ( a + bX i ) − m( a +bX ) f i = ∑ ( a + bX i ) − a + b ⋅ m( X ) fi =
i =1 i =1

( ) (( )) ( )
t 2 t 2 t 2
= ∑ a + bX i − a − b ⋅ m( X ) f i = ∑ b X i − m( X ) f i = b 2 ∑ X i − m( X ) f i = b 2σ (2X )
i =1 i =1 i =1

2.2 La suma o la resta de las varianzas de dos series de datos independientes3 es igual a la suma de las
varianzas de cada serie. Esta propiedad puede demostrarse analíticamente de la siguiente manera,
tanto para la suma como la resta:

σ 2( X ±Y ) = σ (2X ) + σ (2Y )

∑( (
( X i + Yj ) − m( X +Y ) )) ∑ (( X (
+ Y j ) − m( X ) + m(Y ) ))
t s 2 t s 2
σ (2X +Y ) = ∑ f ij = ∑ i f ij =
i =1 j =1 i =1 j =1

∑ (( X ) ( )) f = ∑ ∑ (( x ) + ( y )) f = ∑ ∑ ( x + 2 xi y j + y 2j ) fij =
t s 2 t s 2 t s
=∑ i − m( X ) + Y j − m(Y ) ij i j ij
2
i
i =1 j =1 i =1 j =1 i =1 j =1
t s
= ∑ xi2 f i + ∑ y 2j f j = σ (2X ) + σ (2Y )
i =1 j =1
t s t
Auxiliar: ∑∑ f ij = f1 j + f 2 j + ⋯ + f tj = f j ∑ f i = f j
i =1 j =1 i =1

2.3 La varianza puede determinarse como la resta entre el momento absoluto de orden dos menos la
media o momento absoluto de orden uno elevado al cuadrado. Siendo su demostración analítica la
siguiente:

3
Si fueran dependientes surge un concepto, la covarianza, que se desarrollará más adelante en la asignatura.

5
( )
t 2 t t t
σ 2( X ) = ∑ X i − m( X ) fi = ∑ X i2 f i − ∑ 2 X i m( X ) fi + ∑ X i2 f i = m2( X ) − 2m( X ) m( X ) + m( X ) = m2 − m(2X )
i =1 i =1 i =1 i =1

3. Desviación típica, dispersión, sigma, desviación absoluta, etc.: se calcula como raíz cuadrada de

∑( X )
t 2
i − m( X ) Ni
∑( X )
t 2 Ni
la varianza. En simbología: σ ( X ) = i =1
= i − m( X ) fi → fi = .
N i =1 N

4. Coeficiente de variabilidad o de Pearson o desviación relativa: se calcula como cociente entre la


desviación típica y su media, puede expresarse en tanto por uno o en tanto por ciento (si se multiplica el
cociente por 100), muchos consideran que un parámetro de variabilidad moderado o aconsejable sería
aproximadamente del 10% (aunque no es un valor fijo), lo que implicaría que valores mayores estarían
considerando una serie de datos con “mucha” variabilidad o “muy” dispersa. En simbología:
σ(X ) σ(X )
CV = o ( ⋅)100 .
m( X ) m( X )

El interés del coeficiente de variación es que al ser un porcentaje permite comparar el nivel de dispersión
de dos series. Esto no ocurre con la desviación típica, ya que viene expresada en las mismas unidas que
los datos de la serie.

Por ejemplo, para comparar el nivel de dispersión de una serie de datos de la altura de los alumnos de
una clase y otra serie con el peso de dichos alumnos, no se puede utilizar las desviaciones típicas (una
viene vienes expresada en cm y la otra en kg), en cambio, sus coeficientes de variación son ambos
porcentajes, por lo que sí se pueden comparar.

Otra utilidad del coeficiente de variabilidad es para considerar la representatividad del promedio con
respecto a los valores de la serie de datos, es decir cuanto más concentrada sea una serie (más bajo
sea su CV), más representativo será el promedio determinado.

5. Desvío medio absoluto: es otra forma de calcular una medida de dispersión pero que trabaja con los
n

∑X i − m( X ) N i n
valores absolutos de los desvíos, en simbología sería: d m = i =1
= ∑ X i − m( X ) fi , siendo su
N i =1
interpretación similar a la dispersión.

6. Espacio semi-intercuartil: otro concepto para calcular una medida de variabilidad que utiliza las
q3 − q1
medidas de posición cuartiles, siendo su cálculo: Q =
2

Características superiores

Estas características permiten conocer qué forma tiene la curva que representa la serie de datos, se
pueden estudiar las siguientes características de la curva:

1. Asimetría: mide si la curva tiene una forma simétrica, es decir, si respecto al centro de la misma los
segmentos de curva que quedan a derecha e izquierda son similares.

Gráficamente sería:

6
Para medir el nivel de asimetría se utiliza el llamado Coeficiente de Asimetría de Fisher, que viene
definido como:

∑( X )n
n 3
i − m( X ) i
i =1

As = n
(σ ( ) )
3
X

Los resultados pueden ser los siguientes:

As = 0 ⇒ distribución simétrica; existe la misma concentración o dispersión de valores a la derecha y a la


izquierda de la media
As > 0 ⇒ distribución asimétrica positiva o derecha; existe mayor dispersión de valores a la derecha de
la media que a su izquierda, esto significa que tiene una larga cola a la derecha
As < 0 ⇒ distribución asimétrica negativa o izquierda; existe mayor dispersión de valores a la izquierda
de la media que a su derecha, esto significa que tiene una larga cola a la izquierda

m( X ) − mo
Otra manera de calcular la asimetría podría realizarse con la siguiente expresión: As = , de la
σ(X )
que si bien no se obtiene el mismo resultado numérico, arroja interpretaciones similares.

2. Curtosis: mide si los valores de la distribución están más o menos concentrados alrededor de los
valores medios de la serie de datos.

Gráficamente sería:

La Curtosis viene definida por la siguiente fórmula:

∑( X )
n 4
i − m( X ) Ni
i =1

K= N −3
( )
4
σ (X )

Los resultados pueden ser los siguientes:

7
K = 0 ⇒ distribución mesocúrtica, presenta un grado de concentración medio alrededor de los valores
centrales de la variable (el mismo que presenta una distribución normal).
K > 0 ⇒ distribución leptocúrtica, presenta un elevado grado de concentración alrededor de los valores
centrales de la variable.
K < 0 ⇒ distribución platicúrtica, presenta un reducido grado de concentración alrededor de los valores
centrales de la variable.

Distribuciones bidimensionales

Las distribuciones bidimensionales son aquellas en las que se estudian al mismo tiempo dos variables de
cada elemento de la población: por ejemplo: las ventas y los costos, el ingreso y el consumo, etc.
Para representar los datos obtenidos se utiliza una tabla de correlación:

X/Y Y1 Y2 ..... Ys-1 Ys


X1 N1,1 N1,2 … N1,s-1 N1,s
X2 N2,1 N2,2 … N2,s-1 N2,s
..... … … … … …
Xt-1 Nt-1,1 Nt-1,2 … Nt-1,s-1 Nt-1,s
Xt nt,1 Nt,2 … Nt,s-1 Nt,s

Las "X" representan una de las variables y las "Y" la otra variable y en cada intersección recoge el
número de veces que dicho par de valores se ha presentado conjuntamente, de tal forma que:

t s t s

∑ Ni = ∑ N j = ∑∑ Nij = N
i =1 j =1 i =1 j =1

Al analizar una distribución bidimensional, se puede centrar el estudio en el comportamiento de una de


las variables, con independencia de cómo se comporta la otra, en este caso se estaría en el análisis de
una distribución marginal, en conclusión de cada distribución bidimensional se pueden deducir dos
distribuciones marginales: una correspondiente a la variable X, y otra correspondiente a la variable Y, se
comportan como variables unidimensionales, por lo que pueden ser representadas en tablas de
frecuencias.

Bibliografía específica utilizada


http://www.aulafacil.com/CursoEstadistica/CursoEstadistica.htm

LES RECOMIENTO LA LECTURA DE LOS


CAPÌTULOS 3, 18 Y 19
Libro de referencia en la web

http://www.inet.edu.ar/programas/capacitacion/materiales/nuevos/estadistica.html

También podría gustarte