Está en la página 1de 8

ESTADISTICA

DESCRIPTIVA

(Distribuciones de frecuencias)
Variables, atributos y escalas
Como el lenguaje que utiliza la Estadística es el matemático, la primera abstracción con
que nos encontramos es la de asignar la idea de variable al carácter o fenómeno que
estemos estudiando en la realidad.

Sin embargo, no todos los caracteres que nos puedan llegar a interesar tienen
concreciones de naturaleza cuantitativa, como puede ocurrir cuando investigamos, por
ejemplo, el nivel de estudios de un colectivo, su sexo, las ramas de actividad económica,
etc. A estas «variables» no cuantitativas se las suele designar con el nombre de atributos.

Muchas son las clasificaciones que se suelen efectuar respecto a las variables utilizadas
como, por ejemplo, la de considerar la diferencia existente entre variables continuas o
variables discretas, o bien, en función de su referencia temporal, la de distinguir los
datos históricos, cuando las observaciones del carácter estudiado se efectúan
secuenciadas en el tiempo, de los datos crosssection o de corte transversal, que se
refieren a observaciones en un mismo instante o período de tiempo de un carácter en
diferentes sujetos (por ejemplo, los datos referentes a la producción, en un mismo año, de
los diferentes sectores económicos, o de las diferentes regiones económicas). Si se
combinan ambos tipos de datos, históricos con los de corte transversal, se dice que se
tiene datos panel.

Sin embargo, desde el punto de vista estadístico quizá adquiera mayor relevancia aquella
clasificación que hace referencia a las propiedades métricas de las escalas bajo las cuales
pueden aparecer nuestras observaciones, distinguiendo así:

(a) Escala nominal

Se dice que la información sobre un determinado carácter viene dada en escala nominal
cuando ésta se puede clasificar en categorías no numéricas mutuamente excluyentes,
entre las cuales no se puede establecer ninguna relación de orden, no pudiéndose fijar,
por tanto, ningún origen que sirva de referencia. Pertenecen a esta categoría las
observaciones correspondientes, por ejemplo, a las distintas ramas de actividad
económica, profesiones laborales, ideología política, estado civil, sexo, etc.

(b) Escala ordinal

Las medidas en escala ordinal son aquéllas que participando de las propiedades de la
escala nominal, se diferencian de éstas en que sí se puede establecer algún tipo de orden,
existiendo, pues, algún origen de referencia para tal ordenación. Las observaciones que
se puedan obtener sobre niveles de estudios (primarios, medios, superiores, y otros),
estratificaciones de familias por su capacidad de consumo (bajo, medio, alto, etc.)
pertenecen a este tipo de escala ordinal.

(c) Escala de intervalos

En este caso puede establecerse de antemano algún tipo de unidad de medida,


pudiéndose cuantificar numéricamente la distancia existente entre dos observaciones
cualesquiera. Ésta es una escala verdaderamente cuantitativa, encontrándose numerosos
ejemplos de ella en Economía, tales como datos referentes a salarios, presupuestos,
gastos, volúmenes de ventas, pasivos financieros, etc.

(d) Escala de proporción

En esta categoría se incluyen aquellas mediciones en las que además de ser relevantes
las propiedades de la escala de intervalos, tiene pleno sentido la fijación de un punto de
origen que marque un cero absoluto, como puede ocurrir con la edad de los individuos o el
número de unidades físicas de un stock inventariado, entre otros.
La importancia de la distinción entre estos cuatro tipos de escalas proviene de su
influencia en la elección de los métodos de estadística más adecuados, en cada caso,
para el análisis de los datos. En Economía, en general, nos encontraremos con caracteres
cuya concreción vendrá dada en términos de escala de intervalos o de proporción; no
obstante, en el capítulo 14 se hace referencia a los métodos más elementales que se
pueden utilizar en el caso de que nuestras observaciones sean nominales u ordinales.
DISTRIBUCIONES DE FRECUENCIAS

1. VARIABLE DISCRETA Y VARIABLE CONTINUA


Dentro de las variables existen dos tipos: discretas y continuas.

• Variable discreta. Se define como aquella variable que, entre dos valores próximos,
puede tomar a lo sumo un número finito de valores. Por ejemplo: número de hijos de una
familia, número de obreros de una fábrica, número de accidentes de trabajo etc.

• Variable continua. Es aquélla que puede tomar los infinitos valores de un intervalo.
Ejemplos: el peso, la estatura..., ya que, entre cada dos valores, puede tomar los infinitos
intermedios que existen entre ambos.

La distinción que acabamos de hacer es más teórica que práctica, puesto que la
limitación de los aparatos de medida hace que todas las variables, prácticamente, se
comporten como discretas cuando se pretende observarlas.

Por otra parte, y haciendo extensiva la noción de variable estadística continua, una
magnitud que pueda tomar un gran número de valores y muy próximos —aunque sean
valores aislados— será considerada como una variable continua. Así ocurre con
magnitudes monetarias como el salario mensual de un obrero, el beneficio anual de una
empresa, y otras.

No obstante, no hay que olvidar la naturaleza discreta o continua de la variable, ya que


en los modelos teóricos de la Estadística dicha distinción tiene gran importancia.

Dado que la variable es un símbolo matemático que representa a un conjunto de


valores, establecemos que si este conjunto toma un número infinito de valores, la variable
se representa por el símbolo X, Y, Z,... Si, por el contrario, tenemos un conjunto finito
representaremos la variable por Xi, Yi, Zi ,...

2. DISTRIBUCIONES DE FRECUENCIAS

2.1. Frecuencia absoluta y relativa


Consideremos, para la descripción de las mismas, la tabla siguiente donde se recogen los
ingresos diarios percibidos por 20 personas.

• Frecuencia absoluta. Es el número de veces que se repite cada valor o dato de la


variable.

En general, se representa por f1. En nuestro ejemplo, f5 = 5, es decir, el valor x5, que es
22.000 pesos, se repite 5 veces.
• Frecuencia relativa. Es igual a la frecuencia absoluta dividida por el número total de
datos. Se representa por hi.
Si n es el número total de datos

hi = 𝑓/𝑛

Por ejemplo, en nuestra tabla estadística,

h5 = f5 = 5 = 0.25 = 25%
n 20

es decir, que la frecuencia relativa también puede interpretarse como una participación
porcentual.

Ingresos Frecuencia Frecuencia Frecuencia Frec. relativa


diarios ($) absoluta Relativa acumulada acumulada
xi fi hi Fi Hi
1230 1 1/20 1 1/20
18000 3 3/30 4 4/20
19000 2 2/20 6 6/20
20000 3 3/20 9 9/20
22000 5 5/20 14 14/20
24300 1 1/20 15 15/20
27800 1 1/20 16 16/20
34200 2 2/20 18 18/20
45500 1 1/20 19 19/20
54800 1 1/20 20 20/20
n = 20 1

2.2. Frecuencias acumuladas


•Frecuencia absoluta acumulada. Nos dice el número de datos que hay igual al
considerado e inferiores a él Su símbolo es Fi. Así, por ejemplo,

F7 = 16, nos dice que valores iguales o inferiores a x7 = 27.800 hay 16.

•Frecuencia relativa acumulada. Es el resultado de dividir cada frecuencia acumulada por


el número total de datos. Se designa por Hi. En nuestro ejemplo,

H7 = F7 = 16
n 20

Es evidente que:
(a) La suma de todas las frecuencias relativas es igual a la unidad.

(b) La última frecuencia relativa acumulada es la unidad.

2.3. Distribución de frecuencias de una sola variable


Llamaremos distribución de frecuencias al conjunto de valores que ha tomado una variable
con sus frecuencias correspondientes una distribución de frecuencias debemos conocer
los diferentes valores de x1 y cualquiera de las columnas de frecuencias, ya que el paso de
una a otra es inmediato. Como normalmente la primera columna que obtenemos es la de
las fi, representaremos una distribución de frecuencias como los diferentes valores que, en
cada caso, toma el par (xi ; fi).

Para que dos distribuciones de frecuencias sean iguales han de ser iguales los
diferentes x1 y sus frecuencias relativas hi.

2.4. Agrupación de datos


Vamos a distinguir, por otra parte, dos tipos fundamentales de distribuciones de
frecuencias: las no agrupadas en intervalos y las agrupadas en intervalos.

Una vez recogida y tabulada la información, ésta se dispone asociando a cada valor su
frecuencia. En este caso, tendremos una distribución no agrupada en intervalos. Si las
frecuencias son todas iguales a 1, la distribución se denomina de frecuencias unitarias.

Pero si el número de valores distintos que ha tomado la variable es suficientemente


grande parece aconsejable, para mayor comodidad en el tratamiento de la información,
agrupar estos valores en clases o intervalos, teniendo en cuenta que lo que ganamos en
manejabilidad lo perdemos en información.

En la agrupación hay tres aspectos que debemos contemplar: Primero, que el máximo
de información lo tenemos al recogerla, disminuyendo al realizar la operación de
agrupación por intervalos.

Segundo, que en las distribuciones agrupadas en intervalos, estos intervalos no se


«presentan» realmente así, sino que es el investigador el que los crea para manejar los
datos más fácilmente.

Tercero, que al agrupar hay que tener en cuenta las frecuencias.

En general, representaremos una distribución de frecuencias agrupada en intervalos


por el par (li-1, - li.; fi), donde Li es el extremo o límite superior del intervalo y Li-1 su
límite o extremo inferior.
Para agrupar los datos en intervalos o clases, debemos comenzar determinando el
rango o recorrido de la variable, que se define como la diferencia entre el mayor y el
menor valor de la variable. Es decir,

R = máximo xi — mínimo xi
Este recorrido se divide entonces en intervalos.

Si denominamos amplitud de un intervalo a la diferencia entre los extremos superior e


inferior del mismo, o sea,

Ai = L i - Li-1

Los intervalos pueden ser de amplitud (o longitud) constante o variable. (Para el mejor
tratamiento de la información, es más cómodo que sean de amplitud constante). Si la
amplitud es constante se verificará que

R = Número de intervalos Ai

Esta relación nos permite deducir el número de intervalos si fijamos la amplitud, o esta
última si fijamos el número de intervalos.

En la fijación del número de intervalos no existen reglas fijas (suelen oscilar entre 5 y 15),
hasta el punto de que a veces se hacen varios ensayos. Un intervalo queda especificado
por sus extremos; en general, para el intervalo i-ésímo se representará por Li-1 - L1.

Aparece un problema cuando un valor de la variable coincide exactamente con un extremo


de intervalo, con lo que hay dudas sobre su inclusión o no en un determinado intervalo.
Por esto se establece, como regla general, que los intervalos son abiertos por la derecha y
cerrados por la izquierda, es decir, del tipo [a, b), lo que quiere decir que el intervalo se
compone de todos los puntos comprendidos entre a y b, incluido b y excluido a.

Por último cabe señalar que, como representante de cada intervalo o clase, elegimos su
punto medio al cual denominamos marca de clase (x1). Así, en el intervalo i-ésimo la
marca de clase será

xi = Li-1 - Li
2
2.5 REPRESENTACIONES GRÁFICAS
Aunque el par de columnas (xi; f i) encierra toda la información disponible, parece útil
traducirla en gráficos, de modo que la referencia visual sirva de punto de partida para el
análisis estadístico.

Como habíamos dicho, las distribuciones de frecuencias pueden ser de datos sin agrupar
y de datos agrupados, presentando estas últimas la particularidad de que los valores de la
variable no aparecen individualizados, sino agrupados en intervalos. En general, como ya
advertirnos anteriormente, consideraremos los intervalos abiertos por la izquierda y
cerrados por la derecha.

Existen diferentes tipos de gráficos según el software empleado para procesar los datos.
En nuestro caso, Statgraphics, ofrece varias alternativas sobresaliendo, para variables
numéricas el diagrama de caja y bigote.

También podría gustarte