Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Cuando se manejan conjuntos extensos de datos, el procedimiento preliminar más adecuado para
su tratamiento consiste en distribuirlos en clase o categorías de acuerdo con el número de casos que
pertenecen a cada una de dichas clases.
Supongamos, por ejemplo, que se quiere estudiar la demanda existente en el mercado respecto de
un artículo y que, para ello, se procede a recoger las cantidades de artículos vendidos en una semana en
48 puntos de ventas, obteniéndose la siguiente colección de valores
Para 75 82 68 90 facilitar
62 88 88 73 el
60 93 71 59 75 87 74 62
95 78 82 75 94 77 69 74
89 83 75 95 60 79 97 97
78 85 76 65 73 67 88 78
62 76 73 81 72 63 76 75
laborioso, será entonces necesario condensar los datos. El modo más sencillo y práctico de hacerlo es
agruparlos mediante una tabla que indique para cada uno de los valores de la colección, el número de
veces que aparece, es decir, su frecuencia de aparición.
97 - 59 = 38
La distribución de las frecuencias con que se representa cada uno de los valores de la variable puede
representarse mediante un diagrama de barras, utilizando una frecuencia cartesiana cuyo eje de abscisas
se llevan los valores de las variables, mientras que sus correspondientes frecuencias de aparición se llevan
sobre el eje de ordenadas.
fr = fi
n= fi
n =∑ f1
Frecuencias agrupadas.
Cuando un conjunto de datos estadístico corresponde a muchas observaciones de los valores de una
variable, el manejo de todos ellos suele ser engorrosos, por eso se recurre a menudo a agrupar los datos en
clases o categorías.
Intervalos de clases.
59 - 63 7
64 - 68 3
69 - 73 6
74 - 78 14
79 - 83 5
84 - 88 5
89 - 93 3
94 - 98 5
3 - Determinar el número de observaciones que caen dentro de cada intervalo de clase, es decir
encontrar la frecuencia de clases.
Histograma
Un histograma de frecuencia está formado por una serie de rectángulos que tienen su base sobre un eje
horizontal (Eje X) abscisas siendo cada una de ellas igual a un segmento de longitud correspondiente a la
amplitud de la clase que representa.
Polígono de Frecuencia.
59 - 63 = 7 7
64 - 68 = 3 10
69 - 73 = 6 16
74 - 78 = 14 30
79 - 83 = 5 35
84 - 88 = 5 40
89 - 93 = 3 43
94 - 98 = 5 48
Frecuencia Relativa acumulada (%)
Las medidas de centralización condensan en un solo valor el resultado de todos los datos. Las
más importantes son: la media aritmética, la moda y la mediana.
Las medidas de dispersión, en cambio nos dicen la proporción en que los resultados de la muestra
se acercan o alejan de los parámetros de centralización.
Ejemplos
Calcula la media aritmética.
La media aritmética es la suma de todos los valores de la variable dividida por el número total de valores.
X = 37, 15°
Pero para que los resultados obtenidos puedan ser representativos, se necesita que la muestra sea grande.
En la siguiente tabla se han recogido más temperaturas y se han ordenado indicando la frecuencia
absoluta con que aparece cada una.
Xi fi
37o 2
37, 5° 4
38o 6
38, 5o 4
39o 2
Ahora calculamos la media aritmética haciendo la suma de todos los productos resultantes de multiplicar
cada valor por su frecuencia y dividiendo dicha suma por el número total de datos o, lo que es lo mismo,
la suma de frecuencia absoluta
18
37o . 2 = 74
37, 5o .4 = 150
38 o. 6 = 228
39o. 2= 78
18 684 / 18 = 38o
2) Se están estudiando las precipitaciones caídas en un país en un determinado mes, por eso se registran
los litros/m2 caídos en diferentes municipios
10 - 20 15 4
20 - 30 25 2
30 - 40 35 3
40 - 50 45 1
50 - 60 55 2
60 - 70 65 1
Aquí a diferencia del caso anterior, los valores son intervalos, de manera que, a la hora de calcular la
media aritmética, tomamos como valor la marca de clase o valor central de cada intervalo.
13
Calcula la moda.
La moda en estadística se define como el valor de la variable estadística que es más frecuente
Puede haber varias. Cuando la variable se presenta en intervalos de clase hablamos de intervalos o clase
modal.
Vamos a calcular la moda de los ejemplos cuya media aritmética hemos hallado en el cálculo anterior
1. En este caso, si observamos las temperaturas del ejercicio anterior, se verá que el valor que más se
repite es 38o . Es el de mayor frecuencia., 6 es la moda.
2. Aquí los datos vienen agrupados en intervalos de clase. Como el intervalo más frecuente es 10 - 20,
ésta es la clase modal. La moda será la marca de clase del intervalo, 15
Calcula a continuación la media aritmética y la moda a partir del número de puntos anotados por un
equipo de voleibol en los últimos 12 sets disputados.
10 15 8 12 15 14 8 12 11 6 7 12
Calcula la mediana
La mediana es, una vez dispuesto los valores de la variable estadística en un orden creciente o
decreciente, el valor de la variable situada en el centro.
Si el número de datos es impar no hay problema, pero si es par, tendremos dos valores centrales y la
mediana será entonces la media de estos dos valores.
4, 0, 3, 2, 1 y 4 goles
Para calcular la mediana primero los ordenamos de menor a mayor 0, 1, 2, 3, 4, 4. Hay dos valores
centrales 2 y 3 por lo tanto, la mediana será su media.
M = 2 + 3 = 3,5
2. Los tiempos obtenidos por seis atletas en una prueba de 100 metros lisos son:
12 13,5 15 14 16
los ordenamos: 12 13,5 14 15 16 y vemos que el valor que ocupa el lugar central es 14. Ésta es la
mediana.
Intenta ahora resolver el siguiente caso:
Se pregunta a veintes personas el número de veces que han ejercido el derecho a voto en los
últimos 2 años. Las respuestas son:
10 8 7 2 4 3 8 5 8 7
4 8 10 3 8 7 5 10 5 7
La varianza (S2) se define como la media aritmética de los cuadrados de las desviaciones respecto
a la media.
Ahora vamos a calcularlas utilizando el ejemplo de las temperaturas que vimos al principio.
Pasos a seguir:
2. Calcular la desviación, respecto a la media aritmética para cada valor de la media aritmética, X I - X
(puede resultar con valores positivo o negativo).
La desviación para el primer valor es: X I - X = 37o - 38o = - 1o, los resultados para el resto están abajo.
3. Eleva al cuadrado cada una de las desviaciones obtenidas (X I-X). Si los valores se han dado con
frecuencia absoluta (fi), habrá que multiplicar cada cuadrado por su frecuencia (X I - X)2.. fi = ( -1 )2. 2 = 2
X fi XI - X ( XI - X ) 2 ( X I - X ) 2 . fi
37o 2 -1 1 2
38 o 6 0 0 0
39o 2 1 1 2
4. Suma todos los resultados obtenidos en el paso anterior (XI - X )2 . fi y dividir el resultado de esta
suma por el número total de valores dados N.
18 18
5. Hallar la raíz cuadrada del resultado anterior, está será la desviación típica de la variable estudiada. Si
hacemos la raíz cuadrada de la varianza tenemos que la desviación típica es:
S = √ 0,33
Histograma.
El histograma es un medio alternativo de expresar la forma de distribución que resulta útil cuando
se dispone de un número apreciable de datos.
Para facilitar el conocimiento de esta procederemos indicar la fórmula de cálculo del Índice del
desarrollo Humano Municipal de los 335 municipios de Venezuela datos registrados para el año 2012.
Con los datos suministrados por el INE, construiremos un histograma, procediendo de la siguiente
manera:
1. Calculamos el rango (R) de valores del IDH - M, identificando para ello el municipio con el menor
valor del índice de desarrollo humano que resultó ser el municipio J.A Díaz en el estado Delta Amacuro
(0,3135) y el municipio con el máximo valor del desarrollo humano que resultó ser el municipio Chacao
del estado Miranda con (0,8769) en consecuencia se obtuvo R = 0,8769 - 0,8769 = 0,5634.
2. Determinado el número de clases c y su amplitud a de forma tal que cubra la totalidad de los datos,
esto es, determinamos valores de c (el cual debe ser elegido convenientemente para que el histograma
muestre la información en forma satisfactoria) y el de la amplitud a tal que c. a ≥R. Siendo R = 0,5634 y
habiendo elegido c = 23 clases, se determina que la amplitud común a = 0,5634 / 23 = 0,0245.
3. Contamos los municipios con valores del IDH M que caen en cada clase, para obtener la distribución
de frecuencia presentada al lado.
4. Finalmente, dibujamos en el sistema de ejes cartesiano, con escala conveniente, las barras que
representan a cada clase, asentando la base de la barra en el eje de abscisas y marcando sobre el eje de
ordenadas la frecuencia de los municipios que caen en la clase respectiva.
0,31345 0,33795 1
0,33795 0,36245 0
0,36245 0,38695 1
0,38695 0,41145 1
0,41145 0,43595 3
0,43595 0,46045 10
0,46045 0,48495 24
0,48495 0,50945 38
0,50945 0,53395 36
0,53395 0,55845 41
0,55845 0,58295 43
0,58295 0,60745 45
0,60745 0, 63195 21
0, 63195 0,65645 12
0,65645 0,68095 14
0,68095 0,70545 10
0,70545 0,72995 7
0,72995 0,75445 5
0,75445 0,77895 7
0,77895 0,80345 5
0,80345 0,82795 5
0,82795 0,85245 2
0,85245 0,87695 4
Total 335
El histograma para datos sobre el desarrollo humano de los 335 municipios de Venezuela en el año 2012
se presenta a continuación.
Como pueden apreciar, el histograma supone la construcción de una distribución de frecuencias. Cada
clase de la distribución se presenta pictóricamente en el histograma, con una barra cuya altura es
directamente proporcional al número de casos de la clase.