Está en la página 1de 12

Introducción a la Estadística

27

UNIDAD II: TRATAMIENTO DE LOS DATOS ESTADÍSTICOS.


DISTRIBUCIÓN DE FRECUENCIAS.

1. DATOS NO ORDENADOS. DIAGRAMA DE TALLO Y HOJAS. ORDENAMIENTO.


CÁLCULO DEL RANGO.

¿Para qué necesitamos recolectar datos? Pueden darse cuatro razones importantes:
1. Proporcionar la introducción imprescindible para un estudio o investigación.
2. Medir el desempeño en un servicio o proceso en curso.
3. Ayudar en la formulación de cursos alternativos de acción en un proceso de toma de de-
cisiones.
4. Satisfacer nuestra curiosidad.

Para el estadístico o investigador, la información requerida proviene de los datos. Son el recurso
básico del investigador, su trabajo consiste en transformar los datos en información útil para la toma de
decisiones. La calidad del trabajo depende de la calidad de los datos.

Se pueden presentar errores durante la recopilación de los datos. Cualquier dato disponible que
se utiliza sin un análisis previo, o bien, el empleo de datos que se obtuvieron con poco cuidado puede
ocasionar que se obtenga información engañosa o se tomen malas decisiones. Sin embargo, si se asegu-
ra que los datos sean exactos, se contribuye a obtener información confiable y valiosa para la toma de
decisiones.

Los datos no ordenados o datos brutos o sin procesar, son aquellos datos recolectados a partir
de una muestra que no han sido arreglados de acuerdo con algún criterio convencional, por lo que se
presentan en el orden en que han sido obtenidos.

Ejemplo: la siguiente información corresponde a una muestra de 80 autos vendidos por una
concesionaria en el último año, considerando el precio de los vehículos, la edad de los compradores y
el origen de los autos (1 = nacionales. 0 = importados).

PRECIO PRECIO
(en miles EDAD ORIGEN (en miles EDAD ORIGEN
$) $)
92,788 46 0 82,568 39 1
93,488 48 0 87,924 43 1
81,816 40 1 96,208 56 0
94,364 40 0 103,196 44 0
Introducción a la Estadística
28

PRECIO PRECIO
(en miles EDAD TIPO (en miles EDAD TIPO
$) $)
106,604 46 1 63,176 30 1
109,812 37 1 73,052 39 1
69,064 32 1 143,700 53 0
72,084 29 1 69,596 29 1
114,732 38 1 71,872 30 1
123,488 43 0 81,424 44 0
78,348 32 0 85,768 41 1
92,676 47 0 86,888 41 0
143,404 56 0 77,324 35 1
77,004 42 1 91,268 51 1
80,188 28 1 79,064 44 1
97,140 56 0 82,532 51 1
97,296 50 1 83,848 49 1
98,436 31 1 91,380 41 1
114,68 51 1 105,14 44 0
62,184 26 1 111,584 37 0
63,740 25 1 116,304 42 1
79,492 45 1 129,968 51 0
101,004 56 1 75,560 31 1
101,108 47 0 86,960 39 0
112,136 38 1 89,496 53 0
98,120 51 0 98,284 55 1
109,772 39 0 101,796 40 0
79,556 44 1 113,348 46 0
80,016 46 1 82,568 35 1
69,428 28 1 94,452 47 1
80,620 33 1 96,880 58 1
78,752 35 1 122,62 51 0
94,628 35 0 89,768 41 1
106,452 42 1 71,564 33 1
83,580 35 0 83,272 46 1
80,812 36 1 104,948 47 0
95,060 48 0 81,780 34 1
103,132 53 1 86,224 43 1
106,644 46 1 86,556 37 1
129,108 55 0 97,184 47 0
Introducción a la Estadística
29

El diagrama de tallo y hoja es una herramienta valiosa y versátil para organizar un conjunto de
datos y entender la distribución y agrupación de los valores dentro del intervalo de observaciones en el
conjunto. Separa los datos en dígitos guía o “tallos” y dígitos que le siguen u “hojas”.
Esta técnica muestra los valores reales de los datos, pues los valores específicos no se pierden
por efecto de su agrupamiento. No obstante, sólo es aplicable y significativa si el primer dígito de la
medición, o los dos primeros, sirven efectivamente de base para la separación de los datos en grupos.
Cuando únicamente se usa el primer dígito para agrupar las medidas, la denominación “tallo y
hojas” alude al hecho de que el primer dígito es el tallo, mientras que cada una de las medidas con va-
lor a partir de ese primer dígito pasa a ser una hoja en el contexto de esta representación.
Diagrama de tallo y hoja para el precio de los 80 autos vendidos:
Tallo Hoja
6 233999
7 1123577 88999
8 0000111 22233356666799
9 11223444566777888
10 1 1 1 3 3 4 5 6 6 6 9 9
11 1 2 3 4 4 6
12 2 3 9 9
13
14 3 3

Sin importar si se selecciona una clasificación ordenada o un diagrama de tallo y hojas para or-
ganizar los datos, al crecer el número de observaciones se hace necesario condensar en datos de resu-
men apropiados, a fin de presentar, analizar e interpretar los resultados de forma correcta. Entonces se
puede agrupar los datos en clases (o categorías) de acuerdo con una división establecida que conviene
al intervalo de las observaciones.

El ordenamiento es un arreglo convencional de los datos obtenidos en una investigación mues-


tral. Si ordenamos los datos sin procesar de menor a mayor o viceversa, la secuencia ordenada obtenida
se denomina clasificación ordenada. Esta facilita la observación de sus principales características.

Como regla general, cuando una serie de datos contiene 20 o más observaciones, la manera de
examinar tales datos es presentarlos en forma de resumen a través de tablas o gráficos.
Precios (en miles $)
62,184 80,620 91,380 103,196
63,176 80,812 92,676 104,948
63,740 81,424 92,788 105,140
69,064 81,780 93,488 106,452
69,428 81,816 94,364 106,604
69,596 82,532 94,452 106,644
71,564 82,568 94,628 109,772
Introducción a la Estadística
30

71,872 82,568 95,060 109,812


72,084 83,272 96,208 111,584
73,052 83,580 96,880 112,136
75,560 83,848 97,140 113,348
77,004 85,768 97,184 114,680
77,324 86,224 97,296 114,732
78,348 86,556 98,120 116,304
78,752 86,888 98,284 122,620
79,064 86,960 98,436 123,488
79,492 87,924 101,004 129,108
79,556 89,496 101,108 129,968
80,016 89,768 101,796 143,404
80,188 91,268 103,132 143,700
A medida que se avanza en el trabajo estadístico pasando de una etapa a la otra, en cada paso
que se da, el método debe permitir encontrar las soluciones para cada problema que se presente sin re-
troceder a la etapa anterior, tomando los datos en su nueva forma de presentación.
Con los datos ordenados puede obtenerse el Rango. Es la primera medida estadística que
puede calcularse, y se obtiene haciendo la diferencia entre los valores extremos del conjunto de
datos ordenados. Sólo puede calcularse, precisamente, con los datos previamente ordenados.
R  xM  xm donde xM es el valor máximo y xm es el valor mínimo del conjunto.
R  xM  xm = 143,700 – 62,184 = $ 81,516

2. DISTRIBUCIÓN DE FRECUENCIAS: REGLAS PARA SU CONSTRUCCIÓN. COM-


PONENTES PARA VARIABLES CONTINUAS Y DISCRETAS. FRECUENCIAS AB-
SOLUTA, ACUMULADA Y RELATIVA.

La distribución de frecuencias es una forma de presentación de los datos que facilita su trata-
miento conjunto y permite una comprensión diferente de ellos. Es un ordenamiento tabular de los datos
en clases con las observaciones (frecuencias) que corresponden a cada una. La frecuencia de clase es el
número de individuos que pertenecen a cada clase.
Para variables cualitativas, las observaciones pueden registrarse en tablas resumen, asociando
cada categoría de la variable objeto de estudio con el número de veces que se repite dicha categoría.

Origen de los automóviles Cantidad


Nacionales 50
Importados 30
Total 80
Introducción a la Estadística
31

Esta distribución de frecuencias proporciona un resumen de cómo se distribuyen las ventas de


autos según el origen.
Para variables cuantitativas los datos se agrupan o arreglan en clases o categorías ordenadas
en forma numérica, establecidas de modo conveniente.
Los datos pierden la individualidad (se deja de conocer el valor particular de cada uno) porque
se presentan en clases o categorías que agrupan a un conjunto de valores. Estos grupos se denominan
intervalos de clases.
Para construir una distribución de frecuencias se debe:
 Seleccionar el número apropiado de intervalos de clase
 Obtener el tamaño de cada intervalo de clase
 Establecer los límites de cada clase para evitar superposiciones
El siguiente cuadro constituye un ejemplo de los Componentes principales para casos conti-
nuos. Los datos originales corresponden al precio de los autos (en miles de pesos). A continuación del
cuadro se definen los diferentes elementos que lo integran.
Precios de los automóviles vendidos (en miles de $)

Frecuencia Frecuencia
Frecuencia Frecuencia
Precios Nº de Verdadero Punto Frecuencia Relativa Relativa
Acumulada Acumulada
(miles de $) autos Límite Medio Relativa Acumulada Acumulada
Menor que Mayor que
Menor que Mayor que
fi VL xi Fi(-) Fi(+) hi Hi(-) Hi(+)

60 - 71,999 8 60 66 8 80 10,00% 10,00% 100,00%

72 - 83,999 23 72 78 31 72 28,75% 38,75% 90,00%

84 - 95,999 17 84 90 48 49 21,25% 60,00% 61,25%

96 - 107,999 18 96 102 66 32 22,50% 82,50% 40,00%

108 - 119,999 8 108 114 74 14 10,00% 92,50% 17,50%

120 - 131,999 4 120 126 78 6 5,00% 97,50% 7,50%

132 - 143,999 2 132 138 80 2 2,50% 100,00% 2,50%


80 100,00%
Intervalo de clase: Es un intervalo entre dos valores de la variable bajo estudio, elegido en
forma convencional y conveniente, y constituye la primera columna de la distribución, que lleva como
título el nombre de la variable que se está midiendo o presentando (en este caso "Precios (en miles de
$"). Si bien existen fórmulas para definir cuál es el número de intervalos de clase para cada distribu-
ción (la fórmula de Sturges es un ejemplo en la que el Número de Intervalos: NI = 1 + 3,3 log.n),
Introducción a la Estadística
32

ellas no toman en cuenta todos los elementos disponibles, ya que el Rango, por ejemplo, podría ser una
buena información a tomar en cuenta para definir el número de los intervalos, pero no aparece partici-
pando en ninguna de las fórmulas conocidas. Normalmente una distribución debería tener entre 5 y 12
intervalos de clase, y depende de cada investigador la cantidad definitiva que construirá, y su formato.
En una distribución de frecuencias, existe una relación entre el número de intervalos (NI), el
Rango (R) y la amplitud (c), que se puede observar en la siguiente expresión:
R R
NI  c
c NI
Esto significa que, conocido el rango, puede establecerse indistintamente uno de los otros dos
valores: o la amplitud c o el Nº de intervalos NI. Si se decide construir una distribución con una am-
plitud determinada, se aplica la primera fórmula para obtener el Número de Intervalos. En cambio, si se
desea construir la distribución con un número de intervalos determinado, la amplitud se puede obtener
con la segunda fórmula. Eso facilita la construcción del cuadro de la Distribución.
En el ejemplo, se decidió trabajar con 7 intervalos de clase, por lo que se calculó la amplitud de
cada intervalo aplicando la fórmula:
R 81,526
c   11,6451  12
NI 7
Límite inferior del intervalo de clase (LI): Es el menor valor de cada intervalo de clase. En
cada uno de los intervalos, los límites inferiores son los valores ubicados a la izquierda. El Límite infe-
rior del primer intervalo debe ser, como mínimo, igual o menor que x m, que resulta ser el menor valor
del conjunto ordenado de datos, y en ese caso se recomienda elegir un "número redondo" (en el ejem-
plo se eligió 60)
Límite superior del intervalo de clase (LS): Es el mayor valor de cada intervalo de clase.
Si no existe uno de los límites el intervalo de clase es abierto.
Frecuencia absoluta (fi): Es la cantidad de casos que pertenecen a cada clase. Suele indicarse
colocando el nombre de los elementos que componen esa cantidad (en el ejemplo, "Número de au-
tos")
Total de elementos (n): es la suma total de las frecuencias absolutas, lo que da el total de ele-
mentos en la muestra. Es decir que fi  n .

Verdadero Límite o Límite Real del intervalo de clase (VL): Se obtiene haciendo la semi-
suma de un Límite Superior y el siguiente Límite Inferior. En particular, el VL que interesa es el Ver-
dadero Límite Inferior, es decir, VLI:
LS  LI
i i 1
VLI 
i 1 2
En las Distribuciones de frecuencias para variables continuas se conviene en que los Verdaderos
Límites Inferiores coinciden con los Límites Inferiores, por lo que la fórmula de cálculo de los VLI se
Introducción a la Estadística
33

aplica fundamentalmente en los casos de Distribuciones para variables discretas.


Amplitud o tamaño del intervalo de clase (c): Es la diferencia, en valor absoluto, entre dos
Verdaderos Límites Inferiores consecutivos: c  VLI  VLI
i i 1

Si la distribución de frecuencias tuviera todos sus intervalos con igual amplitud, se la denomina
equiespaciada o monomodular.
El que la distribución sea equiespaciada resulta una importante ventaja para la organización del
trabajo estadístico debido a la simplificación que eso significa en el uso de las fórmulas estadísticas y
en los cálculos propiamente dichos.
Punto medio del intervalo de clase (xi): Se calcula haciendo la semisuma entre dos Verdade-
ros Límites Inferiores consecutivos, valor que se atribuye al intervalo que corresponde al menor de
ellos. Es decir que
VLI  VLI
i 1
x  i
i 2
Si la distribución de frecuencias es equiespaciada, a partir del primer punto medio se pueden
obtener los siguientes sumándoles sucesivamente la amplitud c.
xi  xi 1  c
Representan los datos de la clase. Para análisis matemáticos posteriores, todas las observaciones
pertenecientes a un intervalo de clase se suponen coincidentes con los puntos medios.
Frecuencia acumulada creciente o "menor que"(Fi(-)): Es el total de elementos menores o
iguales que un límite superior cualquiera LSk.
Se obtiene por adición sucesiva de las frecuencias absolutas, comenzando desde el primer inter-
valo hasta el último. El resultado final debe coincidir con n.
Frecuencia acumulada decreciente o "mayor que" (Fi(+)): Es el total de elementos mayores o
iguales que un límite inferior cualquiera LIk.
Se obtiene por adición sucesiva de las frecuencias absolutas, comenzando desde el último inter-
valo y concluyendo en el primero.
Frecuencia relativa (hi): Es la relación entre las frecuencias absolutas y el total de elementos n.
f
Es decir que hi  i 100. Suele expresarse en forma de porcentajes.
n
Es importante para determinar la proporción de observaciones que pertenece a cada intervalo de
clase.
Frecuencias relativas acumuladas "menor que" y "mayor que" (H i(-) y Hi(+)): Son similares
a las correspondientes Frecuencias acumuladas F(-) y Fi(+), pero calculadas a partir de las frecuencias
relativas.
Para variables discretas, como “edad de los compradores”, se debe prestar atención a los Ver-
Introducción a la Estadística
34

daderos límites (ya que no coinciden con los límites), y al cálculo de los puntos medios de los Inter-
valos de Clase.
Edades de los compradores de automóviles
Frecuencia Frecuencia
Nº Frecuencia Frecuencia
Verdadero Punto Frecuencia Relativa Relativa
Edades de Acumulada Acumulada
Límite Medio Relativa Acumulada Acumulada
autos Menor que Mayor que
Menor que Mayor que
(-) (+)
fi VL xi Fi Fi hi Hi(-) Hi(+)
25 - 29 6 24,5 27 6 80 7,50% 7,50% 100,00%

30 – 34 9 29,5 32 15 74 11,25% 18,75% 92,50%

35 – 39 15 34,5 37 30 65 18,75% 37,50% 81,25%

40 – 44 18 39,5 42 48 50 22,50% 60,00% 62,50%

45 – 49 15 44,5 47 63 32 18,75% 78,75% 40,00%

50 – 54 10 49,5 52 73 17 12,50% 91,25% 21,25%

55 - 59 7 54,5 57 80 7 8,75% 100,00% 8,75%


80 100,00%

3. HISTOGRAMAS. POLÍGONOS DE FRECUENCIAS. OJIVAS.


El Histograma es un gráfico de la distribución de frecuencias, que se construye con rectán-
gulos de superficie proporcional al producto de la amplitud por la frecuencia absoluta (o relati-
va) de cada uno de los intervalos de clase.
Está formado por una serie de rectángulos, la variable de interés se representa en el eje horizon-
tal, el número o porcentaje de observaciones se representa en el eje vertical. La base está sobre el eje
horizontal y el centro en el punto medio. Los extremos de cada rectángulo coinciden con los verdaderos
límites. La longitud es el tamaño de cada intervalo de clase y la superficie es proporcional a la frecuen-
cia. La superficie total del histograma representa el 100 % de los datos.
La figura siguiente corresponde al Histograma de la Distribución de frecuencias de la variable
continua " Precios (en miles de $")
Introducción a la Estadística
35

A continuación se presenta el gráfico que corresponde al caso de la variable discreta "Edad de


los compradores de autos".

A diferencia de un gráfico de barras, un histograma no tiene separación entre los rectángulos de


las clases adyacentes.
El polígono de frecuencias es un gráfico lineal que se construye a partir de un histograma
uniendo los puntos medios de los lados opuestos a las bases de los rectángulos, incluyendo además, si
correspondiere, el punto medio del intervalo de clase inmediato anterior al primer intervalo y el punto
Introducción a la Estadística
36

medio del intervalo de clase inmediato posterior al último intervalo de clase, lo cual permite obtener
una figura poligonal cerrada con similar superficie que el histograma.
En el trazado del polígono hay sectores que se pierden y otros que se ganan respecto del histo-
grama propiamente dicho.
El polígono de frecuencias permite mostrar cómo sería, de una manera sumamente esquemática,
la verdadera distribución teórica de la variable bajo estudio, distribución ésta que nunca puede obte-
nerse realmente. Si en un histograma se supone que la amplitud de los intervalos disminuyera al mis-
mo tiempo que aumentara el número total de observaciones, se produciría un aumento en el número de
intervalos. Cuando la amplitud tiende a cero, el número de intervalos de clase se vuelve infinito, y el
histograma se convierte en una línea continua que debe considerarse como la verdadera distribución
teórica. Lo que hace el polígono es, como ya se dijo, mostrar una aproximación eminentemente prácti-
ca de ese proceso.
Sin embargo, la mayor utilidad de este gráfico consiste en la comparación de la distribución
empírica de los datos proporcionados por el cuadro de distribución de frecuencias con una distribución
estándar denominada distribución normal.

Las curvas de frecuencia provienen de la suavización de los polígonos de frecuencias de la


muestra, se conocen como polígonos de frecuencia suavizados, como se ve en el gráfico siguiente.
Introducción a la Estadística
37

Los polígonos de frecuencia relativa se obtienen cambiando la escala vertical de frecuencia ab-
soluta a frecuencia relativa.
La Ojiva se utiliza para graficar las "Frecuencias Acumuladas Menor que", es la representa-
ción de esas Frecuencias Acumuladas en particular, y se construye a partir de los “Verdaderos Límites
Superiores” para obtener una línea poligonal creciente, llamada en algunos textos ojiva creciente.

En el gráfico se muestra, también, la representación de las "Frecuencias acumuladas ma-


Introducción a la Estadística
38

yor que" y de la ojiva correspondiente que, como se ve, tiene una forma claramente decreciente.
Si graficamos las dos ojivas juntas veremos que interceptan en el valor correspondiente al 50% de las
observaciones.
Las ojivas suavizadas provienen de la suavización de las ojivas.

PREGUNTAS TEÓRICAS
1) ¿Cuánto vale la suma de las frecuencias relativas?
a) n b) Fi c) 100
2) En una distribución de frecuencias, si se desea saber cuál es la frecuencia de los valores me-
nores o iguales que un límite superior cualquiera, ¿a través de que dato se la obtiene?
a. la frecuencia absoluta
b. la frecuencia relativa
c. la frecuencia acumulada "menor que"

También podría gustarte