Está en la página 1de 8

ESTADÍSTICA DESCRIPTIVA I

1. Análisis de datos
Con mucha frecuencia contamos con información numérica de toda una población
y necesitamos algún método para poder obtener un resumen práctico y
significativo.

Por ejemplo podemos tener un listado de los sueldos o salarios de 1,000


trabajadores de una fábrica, en este listado además de los nombres de los
trabajadores nos encontramos con una cantidad similar de cifras que pueden ser
entre los $300, $450, $500 y otras más; pero también podemos tener un listado
con la información referida a los precios de venta de 2,000 casas en la gran Lima
o tal vez los puntajes obtenidos por los 4,000 postulantes a la Universidad
Católica, etc.

Tener información en esta forma no nos es de interés, debido a que es difícil


llegar a una conclusión adecuada con un listado tan grande de datos.

Pero para hacer frente a este problema contamos con tres técnicas descriptivas
que son:
a. Agrupar la información por categorías, llamadas distribuciones de
frecuencia, las cuales pueden ser presentadas en tablas, gráficos y ploteos.
b. Una segunda técnica es la buscar una medida de tendencia central, un
ejemplo de esta medida es el promedio que hemos calculado durante tantos
años.
c. Y por último buscaremos y mediremos el grado en el cual los números
(observaciones) varían hacia arriba o hacia abajo respecto al promedio, a
esta técnica se le conoce como medida de dispersión.

2. Distribución de frecuencias. Construcción de una tabla de distribución de


frecuencias
Como ya nos hemos podido dar cuenta la información estadística puede estar
compuesta por un gran número de observaciones, y mientras mayor sea este
número se vuelve más necesario y conveniente que esta información sea
presentada en forma resumida, en este resumen tal vez vayamos a omitir algunos
datos, pero también estaremos seguros que revelaremos su naturaleza general. A
este resumen se le conoce con el nombre de distribución de frecuencias.

Estas distribuciones de acuerdo a los datos que resume pueden ser:


a. De atributos, en este caso su construcción es muy simple, basta con
enumerar o listar los diversos atributos que sean reconocidos, con su
respectiva frecuencia de ocurrencia, o dicho de otra manera las veces que se
repite cada atributo. Veamos un ejemplo, en un aula de la asignatura de
estadística de 30 alumnos se les consultó acerca del área de especialización
en la que les gustaría desempeñarse, contestando de la
siguiente forma: Contabilidad, Contabilidad, Logística, Mercadeo,
Administración, Administración, Mercadeo, No sabe, Contabilidad,
Administración, Finanzas, Contabilidad, Mercadeo, Finanzas, Logística,
Contabilidad, Finanzas, Finanzas, Logística, Contabilidad, Mercadeo,
Logística, mercadeo, contabilidad, contabilidad, contabilidad, mercadeo,
administración, no sabe, finanzas.
Vista de esta manera no es significativa la información, pero la podemos
resumir en la siguiente tabla de frecuencia:

Área de Especialidad Número de alumnos


Administración 4
Contabilidad 9
Finanzas 5
Logística 4
Mercadeo 6
No sabe 2
Total 30

Área de Especialización de 30 Alumnos de una clase de Estadística

Esta Tabla puede ser representada gráficamente mediante un diagrama de barras


que veremos más adelante.

b. De variables, la construcción de una distribución de frecuencias de variables


es un poco más difícil, pero guarda el mismo principio de agrupación. La
dificultad se presenta debido a la gran cantidad de cifras o valores que asumen
las variables, por lo cabe la posibilidad de llegar a confeccionar resúmenes sin
significado si no tenemos los conceptos claros.

La dificultad del resumen de un conjunto de variables, se puede superar si


agrupamos los diversos valores en un número reducido de clases llamadas
intervalos de clase.
Debemos evitar crear intervalos de clase superpuestos, pues incurriríamos en
una doble contabilidad de datos.

Al punto medio entre dos extremos de clase consecutivas se le denomina


frontera superior, en el caso del primer intervalo y frontera inferior en el caso
del segundo. Con la finalidad de evitar ambigüedades las fronteras se expresan
con una cifra decimal adicional de como están expresadas las variables.
La diferencia entre la frontera superior e inferior de una clase se denomina
amplitud de clase.
El punto medio entre los dos extremos (fronteras) de una clase se llama marca
de clase. Al número de variables incluidas dentro de un intervalo de
clase se conoce como frecuencia de clase. Los siguientes son los saldos
en cientos de nuevos soles de 100 cuentas pendientes de cobrar de la tienda
Beta.
31, 38, 41, 52, 59, 69, 83, 78, 74, 77, 56, 69,
34, 33, 92, 74, 68, 83, 49, 34, 78, 48, 34, 50,
68, 77, 84, 41, 40, 38, 76, 99, 38, 94, 48, 55,
49, 54, 60, 62, 59, 68, 51, 87, 53, 69, 64, 61,
63, 78, 46, 74, 69, 39, 60, 35, 79, 80, 71, 65,
37, 60, 43, 51, 61, 71, 58, 83, 94, 66, 65, 64,
95, 92, 81, 38, 60, 67, 50, 86, 70, 80, 95, 98,
42, 70, 88, 94, 85, 51, 57, 54, 46, 46, 76, 55,
66, 73, 75, 64.

Construyamos una distribución de frecuencias con los datos anteriores.


Lo primero será decidir cuál, va a ser el número o cantidad de clases. Este
número no deberá ser ni muy grande ni muy pequeño, el primero sería
demasiado detallado y el segundo podría ocultar la naturaleza general de los
datos.
Una regla general es que el número de clases debe encontrarse entre 5 y 20.
Pero además contamos con una regla matemática llamada de Sturges (debido a
su creador), la cual nos puede dar una aproximación del número de clases que
requerimos. Esta regla dice:

NUMERO DE CLASES = 1 + 3 . 3 LOG N

N = Número de observaciones o datos

Para nuestro ejemplo tendremos:


# Clases = 1 + 3.3 log (100)
= 1+3.3*2
= 1+6.6=7.6 Clases

Para nuestra construcción escogeremos 7 clases. Lo segundo será calcular


cuál será la amplitud de la clase, esta amplitud será la misma para todas las
clases, su valor aproximado se halla mediante la siguiente formula:

AMPLITUD DE CLASE = VALOR MÁXIMO - VALOR MÍNIMO


# DE CLASES

En nuestro caso tendremos:


Ampl. = (99 -31) / 7 = 9.7

Para facilitar nuestro cálculos, y como regla general debemos seleccionar cifras
de fácil manejo, en este caso elegimos una amplitud de 10. El siguiente paso
es determinar el extremo inferior de la primera clase. La menor cifra de
nuestros datos es S/.31, luego el extremo inferior podrá ser 31 o menos, por
facilidad de manejo seleccionamos como extremo inferior a 30.00.

Ahora procederemos a determinar la frontera inferior de la clase, recordemos


que las fronteras se expresan con un decimal adicional, luego la frontera
inferior de la primera clase será el punto medio entre 29 y 30, es decir 29.5. La
frontera superior se determinará sumando a la frontera inferior la amplitud
clase:
FRONT. SUP. = 29.5 + 10 = 39.5
De lo que podemos deducir que el extremo superior de la clase será 39.
Los extremos y fronteras de las clases siguientes se obtienen sumando la
amplitud de clase. La marca de clase como sabemos es el punto medio entre
extremos o fronteras, para la primera clase será:
(30 + 3 9 ) / 2 m 34.5 ó
(29.5 + 39.5) / 2 = 34.5

Construidos los intervalos contaremos el número de cuentas por cobrar


incluidas en cada uno de estos, obteniendo las frecuencias absolutas
de los intervalos. La tabla completa será:
Interv. Amplit. F.Inf. F.Sup. Marca Frec.
30-39 10 29.5 39.5 34.5 11
40-49 10 39.5 49.5 44.5 12
50-59 10 49.5 59.5 54.5 16
60-69 10 59.5 69.5 64.5 23
70-79 10 69. 5 79.5 74.5 17
80-89 10 79.5 89.5 84.5 11
90-99 10 89.5 99.5 94.5 10

Una tabla aún más resumida y general será:

Intervalo Frecuencia
30-39 11
40-49 12
50-59 16
60-69 23
70-79 17
80-89 11
90-99 10

Tabla de Dist. de Frecuencias de Cuentas. por cobrar Tienda Beta. Esta tabla
la podemos representar gráficamente mediante un histograma.

c. De frecuencias acumuladas, una distribución de este tipo permite identificar


la cantidad de observaciones acumuladas incluidas bajo la frontera superior
de cada una de las clases de la distribución.
Podemos determinar la frecuencia acumulada para una clase, agregando la
frecuencia absoluta u observada para esa clase a la frecuencia acumulada de
la clase inmediata anterior. En nuestro ejemplo la tabla de distribución de
frecuencias acumulada será la que se muestra a continuación:
Intervalo Front. Sup. Frec. Abs. Frec. Acum.
30-39 39.5 11 11
40-49 49.5 12 11 + 12 = 23
50-59 59.5 16 23 + 16 = 39
60-69 69.5 23 39 + 23 = 62
70-79 79.5 17 62 + 17 = 79
80-89 89.5 11 79 + 11 = 90
90-99 99.5 10 90 + 10 = 100

3. Análisis gráfico
Los resultados obtenidos anteriormente también pueden ser presentados de
manera gráfica, un gráfico hace más fácil la comparación del tamaño relativo de
cada una de las clases.
En nuestro medio las presentaciones gráficas más empleadas son:

- Histograma y polígono de frecuencias, un histograma no es más


que una gráfica de barras de una distribución de frecuencias, en la cual las
fronteras de cada clase se representan sobre el eje horizontal, X o de la
abscisas, formando el ancho de cada barra. Para completar el gráfico las
frecuencias de cada clase se representa en el eje e vertical, Y o de las
ordenadas, conformando la altura de cada barra.

En el caso de un polígono de frecuencias, este es la gráfica lineal de una


distribución de frecuencias. En este caso los ejes funcionan en forma similar,
sino que ahora en el eje horizontal se representan las marcas de cada clase y
sobre el eje vertical se representa la frecuencias de la clase, esto nos forma un
punto por clase, para terminar la gráfica unimos estos puntos con segmentos
de recta, formándose una figura de varios lados o polígono.
Para el ejemplo de la Tienda Beta el histograma y polígono de frecuencias son
los que se presentan a continuación.

- Curvas de frecuencias, esta gráfica no es otra cosa que un polígono de


frecuencias pero suavizado. Estas curvas poseen algunas características
particulares respecto a su simetría y achatamiento (sesgo y curto sis) que
trataremos más adelante.

- Ojiva, como ya lo hemos mencionado la gráfica resultante de una distribución


de frecuencias acumuladas es una ojiva.
Si una gráfica de este tipo es suavizada obtendremos una curva ojiva.
La gráfica de nuestro ejemplo será como la que se muestra.

- Barras, una gráfica o diagrama de este tipo muestra cantidades de frecuencia


para diferentes categorías de datos u observaciones. La diferencia entre una
gráfica de barras y un histograma es que este se refiere siempre a datos de
una distribución de frecuencias, mientras que las barras ilustran cantidades
para cualquier tipo de categorías.
Una gráfica de barras y componentes incluye subdivisiones de las barra
(diferentes tipos), También cuando las categorías que se representan son
tiempos, podemos emplear una gráfica de línea, la cuál mediante segmentos
ilustra los cambios respecto al tiempo. Ejemplos de estos gráficos son los
siguientes, de acuerdo a los datos de la tabla que representan las ventas por
estación de la tienda deportiva XYZ.

Ventas por estación Tienda XYZ


(en US$)

Artículo Primavera Verano Otoño Invierno


Golf 4200 4700 3700 3200
Tennis 4700 6000 4500 3300
Básquet 3000 8200 4400 4100
Fútbol 2900 2900 4100 7600
Total 14800 21800 16700 18200

- Pastel o Pie, las gráficas denominadas así son apropiadas especialmente


para ilustrar divisiones de una cantidad total, como pueden ser la distribución
de ventas, ingresos o egresos de una determinada empresa. Esta misma
gráfica pero en porcentajes es la más usada, y nos permite de una manera
muy sencilla y rápida efectuar comparaciones de los datos. Empleando los
datos del cuadro anterior podemos obtener la participación de cada uno de los
artículos en las ventas sea por estación o anuales, pudiendo determinar cuál
es la estación más productiva en términos nominales.

También podría gustarte