Documentos de Académico
Documentos de Profesional
Documentos de Cultura
3 Estadistica Descriptiva - Distribucion de Frecuencias
3 Estadistica Descriptiva - Distribucion de Frecuencias
DESCRIPTIVA
(Distribuciones de frecuencias)
Variables, atributos y escalas
Como el lenguaje que utiliza la Estadística es el matemático, la primera abstracción con
que nos encontramos es la de asignar la idea de variable al carácter o fenómeno que
estemos estudiando en la realidad.
Sin embargo, no todos los caracteres que nos puedan llegar a interesar tienen
concreciones de naturaleza cuantitativa, como puede ocurrir cuando investigamos, por
ejemplo, el nivel de estudios de un colectivo, su sexo, las ramas de actividad económica,
etc. A estas «variables» no cuantitativas se las suele designar con el nombre de atributos.
Muchas son las clasificaciones que se suelen efectuar respecto a las variables utilizadas
como, por ejemplo, la de considerar la diferencia existente entre variables continuas o
variables discretas, o bien, en función de su referencia temporal, la de distinguir los
datos históricos, cuando las observaciones del carácter estudiado se efectúan
secuenciadas en el tiempo, de los datos crosssection o de corte transversal, que se
refieren a observaciones en un mismo instante o período de tiempo de un carácter en
diferentes sujetos (por ejemplo, los datos referentes a la producción, en un mismo año, de
los diferentes sectores económicos, o de las diferentes regiones económicas). Si se
combinan ambos tipos de datos, históricos con los de corte transversal, se dice que se
tiene datos panel.
Sin embargo, desde el punto de vista estadístico quizá adquiera mayor relevancia aquella
clasificación que hace referencia a las propiedades métricas de las escalas bajo las cuales
pueden aparecer nuestras observaciones, distinguiendo así:
Se dice que la información sobre un determinado carácter viene dada en escala nominal
cuando ésta se puede clasificar en categorías no numéricas mutuamente excluyentes,
entre las cuales no se puede establecer ninguna relación de orden, no pudiéndose fijar,
por tanto, ningún origen que sirva de referencia. Pertenecen a esta categoría las
observaciones correspondientes, por ejemplo, a las distintas ramas de actividad
económica, profesiones laborales, ideología política, estado civil, sexo, etc.
Las medidas en escala ordinal son aquéllas que participando de las propiedades de la
escala nominal, se diferencian de éstas en que sí se puede establecer algún tipo de orden,
existiendo, pues, algún origen de referencia para tal ordenación. Las observaciones que
se puedan obtener sobre niveles de estudios (primarios, medios, superiores, y otros),
estratificaciones de familias por su capacidad de consumo (bajo, medio, alto, etc.)
pertenecen a este tipo de escala ordinal.
En esta categoría se incluyen aquellas mediciones en las que además de ser relevantes
las propiedades de la escala de intervalos, tiene pleno sentido la fijación de un punto de
origen que marque un cero absoluto, como puede ocurrir con la edad de los individuos o el
número de unidades físicas de un stock inventariado, entre otros.
La importancia de la distinción entre estos cuatro tipos de escalas proviene de su
influencia en la elección de los métodos de estadística más adecuados, en cada caso,
para el análisis de los datos. En Economía, en general, nos encontraremos con caracteres
cuya concreción vendrá dada en términos de escala de intervalos o de proporción; no
obstante, en el capítulo 14 se hace referencia a los métodos más elementales que se
pueden utilizar en el caso de que nuestras observaciones sean nominales u ordinales.
DISTRIBUCIONES DE FRECUENCIAS
• Variable discreta. Se define como aquella variable que, entre dos valores próximos,
puede tomar a lo sumo un número finito de valores. Por ejemplo: número de hijos de una
familia, número de obreros de una fábrica, número de accidentes de trabajo etc.
• Variable continua. Es aquélla que puede tomar los infinitos valores de un intervalo.
Ejemplos: el peso, la estatura..., ya que, entre cada dos valores, puede tomar los infinitos
intermedios que existen entre ambos.
La distinción que acabamos de hacer es más teórica que práctica, puesto que la
limitación de los aparatos de medida hace que todas las variables, prácticamente, se
comporten como discretas cuando se pretende observarlas.
Por otra parte, y haciendo extensiva la noción de variable estadística continua, una
magnitud que pueda tomar un gran número de valores y muy próximos —aunque sean
valores aislados— será considerada como una variable continua. Así ocurre con
magnitudes monetarias como el salario mensual de un obrero, el beneficio anual de una
empresa, y otras.
2. DISTRIBUCIONES DE FRECUENCIAS
En general, se representa por f1. En nuestro ejemplo, f5 = 5, es decir, el valor x5, que es
22.000 pesos, se repite 5 veces.
• Frecuencia relativa. Es igual a la frecuencia absoluta dividida por el número total de
datos. Se representa por hi.
Si n es el número total de datos
hi = 𝑓/𝑛
h5 = f5 = 5 = 0.25 = 25%
n 20
es decir, que la frecuencia relativa también puede interpretarse como una participación
porcentual.
F7 = 16, nos dice que valores iguales o inferiores a x7 = 27.800 hay 16.
H7 = F7 = 16
n 20
Es evidente que:
(a) La suma de todas las frecuencias relativas es igual a la unidad.
Para que dos distribuciones de frecuencias sean iguales han de ser iguales los
diferentes x1 y sus frecuencias relativas hi.
Una vez recogida y tabulada la información, ésta se dispone asociando a cada valor su
frecuencia. En este caso, tendremos una distribución no agrupada en intervalos. Si las
frecuencias son todas iguales a 1, la distribución se denomina de frecuencias unitarias.
En la agrupación hay tres aspectos que debemos contemplar: Primero, que el máximo
de información lo tenemos al recogerla, disminuyendo al realizar la operación de
agrupación por intervalos.
R = máximo xi — mínimo xi
Este recorrido se divide entonces en intervalos.
Ai = L i - Li-1
Los intervalos pueden ser de amplitud (o longitud) constante o variable. (Para el mejor
tratamiento de la información, es más cómodo que sean de amplitud constante). Si la
amplitud es constante se verificará que
R = Número de intervalos Ai
Esta relación nos permite deducir el número de intervalos si fijamos la amplitud, o esta
última si fijamos el número de intervalos.
En la fijación del número de intervalos no existen reglas fijas (suelen oscilar entre 5 y 15),
hasta el punto de que a veces se hacen varios ensayos. Un intervalo queda especificado
por sus extremos; en general, para el intervalo i-ésímo se representará por Li-1 - L1.
Por último cabe señalar que, como representante de cada intervalo o clase, elegimos su
punto medio al cual denominamos marca de clase (x1). Así, en el intervalo i-ésimo la
marca de clase será
xi = Li-1 - Li
2
2.5 REPRESENTACIONES GRÁFICAS
Aunque el par de columnas (xi; f i) encierra toda la información disponible, parece útil
traducirla en gráficos, de modo que la referencia visual sirva de punto de partida para el
análisis estadístico.
Como habíamos dicho, las distribuciones de frecuencias pueden ser de datos sin agrupar
y de datos agrupados, presentando estas últimas la particularidad de que los valores de la
variable no aparecen individualizados, sino agrupados en intervalos. En general, como ya
advertirnos anteriormente, consideraremos los intervalos abiertos por la izquierda y
cerrados por la derecha.
Existen diferentes tipos de gráficos según el software empleado para procesar los datos.
En nuestro caso, Statgraphics, ofrece varias alternativas sobresaliendo, para variables
numéricas el diagrama de caja y bigote.