Está en la página 1de 11

ESTADÍSTICA DESCRIPTIVA

La estadística descriptiva tiene como objetivo fundamental la recopilación, organización y


presentación de datos (generalmente a través de tablas o gráficas) para hacer más fácil su uso e
interpretación.

Por ejemplo, los datos de las ventas de 4 años de una empresa, se puden representar a través de la
siguiente gráfica:

Ventas (millones de pesos)

2
1
0
2013
2014
2015
2016

Visualmente y sin conocer mayor detalle del proceso de la empresa, la primera conclusión que
obtenemos de dicha gráfica es que, las ventas en el año 2013, fueron mayores respecto a los demás
años. De la misma manera, 2015 fue el año en el que hubo menos ventas.

Por ahora, es suficiente con comprender por qué es importante conocer el ámbito de estudio de la
estadística descriptiva y de qué manera nos puede ayudar en la toma decisiones. Más adelante
estudiaremos temas especificos del análisis de datos.

Respecto a los datos, estudiaremos dos tipos: datos agrupados y no agrupados. Los datos agrupados
son aquellos que, podemos consolidar por alguna característica cualitativa o cuantitativa, y de esta
manera, estudiarlos o analizarlos a través de dicha característica, mientras que en los datos no
agrupados no sucede esto. En ambos casos, podremos determinar medidas y valores que nos
ayuden a realizar ciertas conclusiones respecto a ellos.

Por ejemplo, la siguiente tabla representa fielmente el concepto de datos agrupados:

Prof. Jesús Ramos Rivas


Edad Alumnos
De 16 y hasta 18 años 7
De 19 y hasta 21 años 10
De 22 y hasta 24 años 3
De 25 y hasta 27 años 2
De 28 y hasta 30 años 4

Por el contrario, estos datos que representan las calificaciones de un grupo de secundaria, no tienen
la caractarística de agrupamiento:

10 8 9 9 9 7 9 8
6 7 9 5 6 7 10 10

Los datos son parte de una muestra o de una población. En estadística, la población es la totalidad
de los datos, mientras que la muestra solo es una parte de esa población. La mayoría de los estudios
estadísticos se realizan con muestras, pues resulta muy complicado obtener todos los datos de la
población, sobre todo cuando esta es, en términos prácticos, muy grande.

Una variable estadística es una cualidad o característica de una población o muestra. Por ejemplo,
la estatura promedio de los estudiantes de una escuela o el número de autos en una localidad. Si se
trata de la población, estudiaremos las variables estadísticas a través de parámetros, mientras que
para las muestras, será a través de estadísticos. Más adelante, estudiaremos con más detalle los
parámetros y estadísticos, pero por ahora, será suficiente con entender que uno aplica a
poblaciones (parámetro) y el otro, a muestras (estadístico).

En este punto, analizaremos algunos conceptos relativos a datos agrupados, que utilizaremos más
adelante. Para ello, tomemos el escenario siguiente: la tabla que se muestra a continuación contiene
las edades de los trabajadores de una empresa refresquera:

19 22 18 23 25 26 22 18 30 32
30 19 38 41 44 40 39 52 56 61
43 45 48 49 50 52 27 23 22 63
66 33 34 25 28 27 29 32 39 41
18 19 22 26 29 51 27 22 45 44
43 44 19 26 27 33 34 39 33 37
22 20 40 48 34

Prof. Jesús Ramos Rivas


Observa que en la tabla hay 65 datos (edades) en total y por el momento no están agrupados.

Para un observador que no tenga ninguna relación con la empresa, al ver esta tabla, le resultará un
poco complicado emitir alguna conclusión al respecto. Imagina la misma situación para una empresa
en la que laboran 4000 empleados.

El primer concepto que aprenderemos es el de distribución de frecuencias (a veces también se le


llama tabla de frecuencias). Una distribución de frecuencias es una tabla en la que se muestran los
datos, ya sea de forma individual o grupal (en intervalos) junto con sus frecuencias (es decir, su
conteo).

Para el escenario de la empresa refresquera, una posible distribución de frecuencias sería la


siguiente:

Edad Frecuencia

18 – 27 25

28 – 37 14

38 – 47 15

48 – 57 8

58 – 67 3

Ahora, los datos ya están agrupados por intervalos y estos se muestran junto con su respectivo
conteo o frecuencias. La tabla anterior representa la distribución de frecuencias de las edades de
los trabajadores de la empresa refresquera. Por ahora, no es importante saber cómo se construye
(más adelante se estudiará cómo hacerlo), sino lo que representa.

Utilizaremos la distribución de frecuencias de este ejemplo para introducir los demás conceptos que
necesitamos conocer y que mencionaremos a continuación:

• Clase: Es cada uno de los intervalos. En la tabla anterior tenemos 5 clases o intervalos.

• Frecuencia de clase: Es el número de elementos que pertenecen a una clase. Se representa


como 𝒇𝒊 . También se le conoce como frecuencia absoluta de clase.

• Límite inferior de clase: Es el dato más pequeño de cada clase o intervalo. En la tabla de
distribución de frecuencias los límites inferiores de cada clase son 18, 28, 38, 48 y 58
respectivamente. Se representa como LIC.

Prof. Jesús Ramos Rivas


• Límite superior de clase: Es el dato más grande de cada clase o intervalo. En la tabla de
distribución de frecuencias los límites inferiores de cada clase son 27, 37, 47, 57 y 67
respectivamente. Se representa como LSC.

• Marca de clase: Es el punto medio de la clase o intervalo. Las marcas de clase se calculan
sumando el respectivo límite inferior con el límite superior de cada clase y dividiendo entre
2. Las marcas de clase de la tabla de distribuciones de frecuencia de nuestro ejemplo son
22.5, 32.5, 42.5, 52.5 y 62.5 respectivamente. Se representa como 𝒙𝒊 .

• Amplitud de clase: Es la diferencia entre los límites superiores o inferiores de dos clases
continuas.

• Frontera de clase: Son los puntos medio que existen entre los límites de intervalos
consecutivos y se utilizan para separar las clases, pero sin los espacios creados por los límites
de clase. Entre la primera clase y la segunda, los límites que interactúan son 27 y 28
respectivamente. El punto medio entre ambos es 27.5. Entre la segunda clase y la tercera,
los límites que interactúan son 37 y 38 respectivamente. El punto medio entre ambos es
37.5. Si continuamos con el proceso, encontraremos que los puntos medios siguientes son
47.5 y 57.5 respectivamente. Observa que el límite superior de la última clase no tiene
interacción. En este caso, la frontera de clase se puede calcular siguiendo el patrón
detectado, es decir restándole 0.5 a cada límite inferior o sumándole 0.5 a cada límite
superior. De esta manera, las fronteras de clase completas serían 27.5, 37.5, 47.5, 57.5 y
67.5. El número de fronteras de clase es el mismo que el número de clases. Las fronteras de
clase son útiles cuando construimos histogramas.

A veces, también es muy conveniente, utilizar la distribución de frecuencias relativas. Para


construirla, cada frecuencia de clase se divide entre la suma total de frecuencias. En nuestro caso,
la suma total de frecuencias es 65. También es común que la frecuencia relativa este expresada en
términos porcentuales. La tabla de frecuencia relativa quedaría de la siguiente manera:

Edad Frecuencia Frecuencia relativa

18 – 27 25 38.46%

28 – 37 14 21.54%

38 – 47 15 23.08%

48 – 57 8 12.31%

58 – 67 3 4.62%

Prof. Jesús Ramos Rivas


La distribución de frecuencias acumuladas es otra variante de la distribución de frecuencias. La
frecuencia acumulada para una clase se obtiene de la suma de la frecuencia absoluta para esa clase
y todas las anteriores. Para la primera clase, la única frecuencia es 25, por lo tanto, la frecuencia
acumulada también es 25. Para la segunda clase, la frecuencia absoluta es 14 más la frecuencia de
la clase anterior, en este caso, 25, por lo tanto, la frecuencia acumulada es 25 + 14 = 39. Para la
tercera clase, la frecuencia acumulada sería 15 + 14 + 25 = 54, y así sucesivamente. La tabla de
frecuencias acumuladas quedaría entonces como:

Edad Frecuencia Frecuencia acumulada

18 – 27 25 25

28 – 37 14 39

38 – 47 15 54

48 – 57 8 62

58 – 67 3 65

Observa que la última frecuencia acumulada debe ser igual a la suma de todas las frecuencias
absolutas. De esta manera podemos verificar si nuestra tabla es correcta. La frecuencia acumulada
se representa como Fi.

Ahora, es el momento de conocer cómo se construye de forma apropiada, una tabla de distribución
de frecuencias. Utilicemos el siguiente algoritmo:

1. Calcula el número de clases utilizando la regla de Sturges. Esta regla establece que el número de
clases c, se puede calcular como c = 1 + 3.322 log (n), donde n representa el número de datos o
tamaño de la muestra. Si el resultado contiene decimales, se deberá considerar el entero más
cercano (hacia arriba o hacia abajo, según corresponda).

2. Determina la amplitud de clase a través de la siguiente operación:

𝐷𝑎𝑡𝑜 𝑚𝑎𝑦𝑜𝑟 − 𝑑𝑎𝑡𝑜 𝑚𝑒𝑛𝑜𝑟


𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒 =
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒𝑠

Si el resultado contiene decimales, se deberá redondear siempre al siguiente entero (por ejemplo,
si el resultado es 4.05, entonces se redondea a 5).

3. Determina el límite inferior de la primera clase. Por conveniencia, este debe ser el valor más
pequeño o uno menor.

Prof. Jesús Ramos Rivas


4. A partir del valor del punto anterior, calcula los demás límites inferiores de clase utilizando la
amplitud de clase del punto número 2. Con estos valores, podrás también calcular de forma
sencilla los límites superiores de cada clase.

5. Finalmente, se procede a colocar las correspondientes frecuencias absolutas para cada clase.

Ejemplo: Los siguientes datos representan las edades de los estudiantes de la carrera de medicina
de una universidad. Elabora la tabla de distribución de frecuencias.

18 20 23 24 22 27 26 25 25 26
29 22 23 24 22 25 34 30 28 25
22 22 26 23 23 26 28 29 24 21
30 29 26 25 24

Solución: Apliquemos el algoritmo en cuestión paso a paso. Observemos que el número de datos
en la tabla es de 35, es decir, n = 35.

1. Calculemos el número de clases o intervalos: c = 1 + 3.322 log (n)

c = 1 + 3.322 log(35) = 1 + (3.322)(1.544) = 1 + 5.129 = 6.129 ≈ 6

2. Calculemos la amplitud de clase:

𝐷𝑎𝑡𝑜 𝑚𝑎𝑦𝑜𝑟 − 𝐷𝑎𝑡𝑜 𝑚𝑒𝑛𝑜𝑟 34 − 18 16


𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑 = = = = 2.6 ≈ 3
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒𝑠 6 6

3. Cálculo del límite inferior de la primera clase: elegimos 18, ya que es el dato más pequeño.

4. Cálculo de los demás límites inferiores:

• Límite inferior de la segunda clase: 18 + 3 = 21


• Límite inferior de la tercera clase: 21 + 3 = 24
• Límite inferior de la cuarta clase: 24 + 3 = 27
• Límite inferior de la quinta clase: 27 + 3 = 30
• Límite inferior de la sexta clase: 30 + 3 = 33

Con estos valores, es relativamente sencillo calcular los límites superiores de cada clase:

• Límite superior de la primera clase: 20 (se obtuvo al restar 1 del límite inferior
de la segunda clase)
• Límite superior de la segunda clase: 20 + 3 = 23
• Límite superior de la tercera clase: 23 + 3 = 26
• Límite superior de la cuarta clase: 26 + 3 = 29
• Límite superior de la quinta clase: 29 + 3 = 32
• Límite superior de la sexta clase: 32 + 3 = 35

Prof. Jesús Ramos Rivas


5. Se procede a construir la tabla de distribución de frecuencias:

Edad Frecuencia

18 – 20 2

21 – 23 10

24 – 26 14

27 – 29 6

30 – 32 2

33 – 35 1

Es importante mencionar que habrá situaciones en las que los valores del número de clases, así
como el de la amplitud, tendrán que ajustarse para que la tabla sea más precisa. Observa que la
tabla anterior la construimos a partir de datos no agrupados. Si ya se encuentran agrupados, el
número de clases o intervalos ya es un dato conocido.

Ejercicio: Para la siguiente tabla, verifica para las clases indicadas, que los valores de la frecuencia
acumulada, frecuencia relativa, marca de clase y frontera de clase, sean los que se indican.

Frecuencia Frecuencia Marca de Frontera de


Clase Frecuencia
acumulada relativa clase clase
5–9 8 8 14.81% 7 9.5
10 – 14 3 11 5.56% 12 14.5
15 – 19 4 15 7.41% 17 19.5
20 – 24 1 16 1.85% 22 24.5
25 – 29 6 22 11.11% 27 29.5
30 – 34 9 31 16.67% 32 34.5
35 – 39 12 43 22.22% 37 39.5
40 – 44 1 44 1.85% 42 44.5
45 – 49 3 47 5.56% 47 49.5
50 – 54 7 54 12.96% 52 54.5

Prof. Jesús Ramos Rivas


REPRESENTACIÓN GRÁFICA DE DATOS
Siempre es útil que los datos puedan ser interpretados de una forma sencilla para obtener a partir
de esa interpretación, algunas conclusiones sobre el fenómeno que estemos estudiando.

Algunos tipos de representación gráfica que son muy útiles en estadísctica son las graficas de barras,
las gráficas circulares (pastel) y los histogramas entre otros. Si bien es importante saber cómo se
construyen, es mucho más relevante la información que de ellas se puede obtener.

Gráfica de barras: Una gráfica de barras es una forma de resumir un conjunto de datos por
categorías. La altura de cada barra representa un dato cuantitativo de alguna categoría que se desee
mostrar. En este tipo de gráficas, se pueden incluir varias características relativas a la categoría en
cuestión.

Ventas por producto (mdp)


6

5
5
4 4.4 4.5
4.3

3 3.5
3
2.8
2 2.4 2.5
2 2
1.8
1

0
2014 2015 2016 2017
Autos Camiones Camionetas

En la gráfica antrior, la categoría ventas incluye tres productos diferentes durante los últimos 4 años.

Se recomienda utilizar los gráficos de barras cuando tus datos están categorizados. Así, de esta
manera, el análisis de la información es más sencilla de realizar.

Por otra parte, observa que en este tipo de gráficos, existe una separación entre cada categoría.
Visualmente, esto los hace diferentes de los histogramas.

Prof. Jesús Ramos Rivas


Gráfica circular: Este tipo de gráfica es muy útili cuando se pretende representar procentajes y
proporciones.

Ventas (mdp)

2014 2015 2016 2017

La gráfica circular anterior, intenta enfatizar que, en el año 2014, las ventas superaron por mucho a
las de los otros años. Se obtiene esa conclusión de forma general y por inspección solamente de
cómo se presentan los datos en este tipo de gráficas.

Histograma: El histograma es una gráfica de barras de la representación de la distribución de


frecuencias. En el eje de las abcisas se utilizan las fronteras de clase, los intervalos de clase o las
marcas de clase, mientras que en el eje de las ordenadas se utilizan los valores de frecuencia.

Un histograma tipicamente se vería de la siguiente manera:

Prof. Jesús Ramos Rivas


Observa que no hay separación entre las barras. Esta es una característica fundamental y distintiva
de los histogramas.

Polígono de frecuencias: Se obtiene a partir del histograma y para crearlo, bastará con unir las
marcas de clase con una línea recta. Es importante mencionar que tanto el inicio com el fin de la
gráfica, deben “tocar” el eje de las abcisas. Para ello, se adicionarán dos clases, una al inicio y otra
al final, con frecuencia cero. Esto permitirá que la gráfica inicie y termine sobre el ejer de las
abscisas.

Ojiva: Es un gráfico que, mediante el trazado de una línea, muestra las frecuencias acumuladas. Si
representa frecuencias acumuladas se llama simplemente ojiva, y si representa los porcentajes de
las frecuencias relativas acumuladas, se llama ojiva porcentual.

Prof. Jesús Ramos Rivas


BIBLIOGRAFÍA
Triola, M. (2013). Estadística. México: Pearson Educación.

Prof. Jesús Ramos Rivas

También podría gustarte