Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Unidad II - Tratamiento de Los Datos Estadísticos - 240320 - 091220
Unidad II - Tratamiento de Los Datos Estadísticos - 240320 - 091220
27
¿Para qué necesitamos recolectar datos? Pueden darse cuatro razones importantes:
1. Proporcionar la introducción imprescindible para un estudio o investigación.
2. Medir el desempeño en un servicio o proceso en curso.
3. Ayudar en la formulación de cursos alternativos de acción en un proceso de toma de de-
cisiones.
4. Satisfacer nuestra curiosidad.
Para el estadístico o investigador, la información requerida proviene de los datos. Son el recurso
básico del investigador, su trabajo consiste en transformar los datos en información útil para la toma de
decisiones. La calidad del trabajo depende de la calidad de los datos.
Se pueden presentar errores durante la recopilación de los datos. Cualquier dato disponible que
se utiliza sin un análisis previo, o bien, el empleo de datos que se obtuvieron con poco cuidado puede
ocasionar que se obtenga información engañosa o se tomen malas decisiones. Sin embargo, si se asegu-
ra que los datos sean exactos, se contribuye a obtener información confiable y valiosa para la toma de
decisiones.
Los datos no ordenados o datos brutos o sin procesar, son aquellos datos recolectados a partir
de una muestra que no han sido arreglados de acuerdo con algún criterio convencional, por lo que se
presentan en el orden en que han sido obtenidos.
Ejemplo: la siguiente información corresponde a una muestra de 80 autos vendidos por una
concesionaria en el último año, considerando el precio de los vehículos, la edad de los compradores y
el origen de los autos (1 = nacionales. 0 = importados).
PRECIO PRECIO
(en miles EDAD ORIGEN (en miles EDAD ORIGEN
$) $)
92,788 46 0 82,568 39 1
93,488 48 0 87,924 43 1
81,816 40 1 96,208 56 0
94,364 40 0 103,196 44 0
Introducción a la Estadística
28
PRECIO PRECIO
(en miles EDAD TIPO (en miles EDAD TIPO
$) $)
106,604 46 1 63,176 30 1
109,812 37 1 73,052 39 1
69,064 32 1 143,700 53 0
72,084 29 1 69,596 29 1
114,732 38 1 71,872 30 1
123,488 43 0 81,424 44 0
78,348 32 0 85,768 41 1
92,676 47 0 86,888 41 0
143,404 56 0 77,324 35 1
77,004 42 1 91,268 51 1
80,188 28 1 79,064 44 1
97,140 56 0 82,532 51 1
97,296 50 1 83,848 49 1
98,436 31 1 91,380 41 1
114,68 51 1 105,14 44 0
62,184 26 1 111,584 37 0
63,740 25 1 116,304 42 1
79,492 45 1 129,968 51 0
101,004 56 1 75,560 31 1
101,108 47 0 86,960 39 0
112,136 38 1 89,496 53 0
98,120 51 0 98,284 55 1
109,772 39 0 101,796 40 0
79,556 44 1 113,348 46 0
80,016 46 1 82,568 35 1
69,428 28 1 94,452 47 1
80,620 33 1 96,880 58 1
78,752 35 1 122,62 51 0
94,628 35 0 89,768 41 1
106,452 42 1 71,564 33 1
83,580 35 0 83,272 46 1
80,812 36 1 104,948 47 0
95,060 48 0 81,780 34 1
103,132 53 1 86,224 43 1
106,644 46 1 86,556 37 1
129,108 55 0 97,184 47 0
Introducción a la Estadística
29
El diagrama de tallo y hoja es una herramienta valiosa y versátil para organizar un conjunto de
datos y entender la distribución y agrupación de los valores dentro del intervalo de observaciones en el
conjunto. Separa los datos en dígitos guía o “tallos” y dígitos que le siguen u “hojas”.
Esta técnica muestra los valores reales de los datos, pues los valores específicos no se pierden
por efecto de su agrupamiento. No obstante, sólo es aplicable y significativa si el primer dígito de la
medición, o los dos primeros, sirven efectivamente de base para la separación de los datos en grupos.
Cuando únicamente se usa el primer dígito para agrupar las medidas, la denominación “tallo y
hojas” alude al hecho de que el primer dígito es el tallo, mientras que cada una de las medidas con va-
lor a partir de ese primer dígito pasa a ser una hoja en el contexto de esta representación.
Diagrama de tallo y hoja para el precio de los 80 autos vendidos:
Tallo Hoja
6 233999
7 1123577 88999
8 0000111 22233356666799
9 11223444566777888
10 1 1 1 3 3 4 5 6 6 6 9 9
11 1 2 3 4 4 6
12 2 3 9 9
13
14 3 3
Sin importar si se selecciona una clasificación ordenada o un diagrama de tallo y hojas para or-
ganizar los datos, al crecer el número de observaciones se hace necesario condensar en datos de resu-
men apropiados, a fin de presentar, analizar e interpretar los resultados de forma correcta. Entonces se
puede agrupar los datos en clases (o categorías) de acuerdo con una división establecida que conviene
al intervalo de las observaciones.
Como regla general, cuando una serie de datos contiene 20 o más observaciones, la manera de
examinar tales datos es presentarlos en forma de resumen a través de tablas o gráficos.
Precios (en miles $)
62,184 80,620 91,380 103,196
63,176 80,812 92,676 104,948
63,740 81,424 92,788 105,140
69,064 81,780 93,488 106,452
69,428 81,816 94,364 106,604
69,596 82,532 94,452 106,644
71,564 82,568 94,628 109,772
Introducción a la Estadística
30
La distribución de frecuencias es una forma de presentación de los datos que facilita su trata-
miento conjunto y permite una comprensión diferente de ellos. Es un ordenamiento tabular de los datos
en clases con las observaciones (frecuencias) que corresponden a cada una. La frecuencia de clase es el
número de individuos que pertenecen a cada clase.
Para variables cualitativas, las observaciones pueden registrarse en tablas resumen, asociando
cada categoría de la variable objeto de estudio con el número de veces que se repite dicha categoría.
Frecuencia Frecuencia
Frecuencia Frecuencia
Precios Nº de Verdadero Punto Frecuencia Relativa Relativa
Acumulada Acumulada
(miles de $) autos Límite Medio Relativa Acumulada Acumulada
Menor que Mayor que
Menor que Mayor que
fi VL xi Fi(-) Fi(+) hi Hi(-) Hi(+)
ellas no toman en cuenta todos los elementos disponibles, ya que el Rango, por ejemplo, podría ser una
buena información a tomar en cuenta para definir el número de los intervalos, pero no aparece partici-
pando en ninguna de las fórmulas conocidas. Normalmente una distribución debería tener entre 5 y 12
intervalos de clase, y depende de cada investigador la cantidad definitiva que construirá, y su formato.
En una distribución de frecuencias, existe una relación entre el número de intervalos (NI), el
Rango (R) y la amplitud (c), que se puede observar en la siguiente expresión:
R R
NI c
c NI
Esto significa que, conocido el rango, puede establecerse indistintamente uno de los otros dos
valores: o la amplitud c o el Nº de intervalos NI. Si se decide construir una distribución con una am-
plitud determinada, se aplica la primera fórmula para obtener el Número de Intervalos. En cambio, si se
desea construir la distribución con un número de intervalos determinado, la amplitud se puede obtener
con la segunda fórmula. Eso facilita la construcción del cuadro de la Distribución.
En el ejemplo, se decidió trabajar con 7 intervalos de clase, por lo que se calculó la amplitud de
cada intervalo aplicando la fórmula:
R 81,526
c 11,6451 12
NI 7
Límite inferior del intervalo de clase (LI): Es el menor valor de cada intervalo de clase. En
cada uno de los intervalos, los límites inferiores son los valores ubicados a la izquierda. El Límite infe-
rior del primer intervalo debe ser, como mínimo, igual o menor que x m, que resulta ser el menor valor
del conjunto ordenado de datos, y en ese caso se recomienda elegir un "número redondo" (en el ejem-
plo se eligió 60)
Límite superior del intervalo de clase (LS): Es el mayor valor de cada intervalo de clase.
Si no existe uno de los límites el intervalo de clase es abierto.
Frecuencia absoluta (fi): Es la cantidad de casos que pertenecen a cada clase. Suele indicarse
colocando el nombre de los elementos que componen esa cantidad (en el ejemplo, "Número de au-
tos")
Total de elementos (n): es la suma total de las frecuencias absolutas, lo que da el total de ele-
mentos en la muestra. Es decir que fi n .
Verdadero Límite o Límite Real del intervalo de clase (VL): Se obtiene haciendo la semi-
suma de un Límite Superior y el siguiente Límite Inferior. En particular, el VL que interesa es el Ver-
dadero Límite Inferior, es decir, VLI:
LS LI
i i 1
VLI
i 1 2
En las Distribuciones de frecuencias para variables continuas se conviene en que los Verdaderos
Límites Inferiores coinciden con los Límites Inferiores, por lo que la fórmula de cálculo de los VLI se
Introducción a la Estadística
33
Si la distribución de frecuencias tuviera todos sus intervalos con igual amplitud, se la denomina
equiespaciada o monomodular.
El que la distribución sea equiespaciada resulta una importante ventaja para la organización del
trabajo estadístico debido a la simplificación que eso significa en el uso de las fórmulas estadísticas y
en los cálculos propiamente dichos.
Punto medio del intervalo de clase (xi): Se calcula haciendo la semisuma entre dos Verdade-
ros Límites Inferiores consecutivos, valor que se atribuye al intervalo que corresponde al menor de
ellos. Es decir que
VLI VLI
i 1
x i
i 2
Si la distribución de frecuencias es equiespaciada, a partir del primer punto medio se pueden
obtener los siguientes sumándoles sucesivamente la amplitud c.
xi xi 1 c
Representan los datos de la clase. Para análisis matemáticos posteriores, todas las observaciones
pertenecientes a un intervalo de clase se suponen coincidentes con los puntos medios.
Frecuencia acumulada creciente o "menor que"(Fi(-)): Es el total de elementos menores o
iguales que un límite superior cualquiera LSk.
Se obtiene por adición sucesiva de las frecuencias absolutas, comenzando desde el primer inter-
valo hasta el último. El resultado final debe coincidir con n.
Frecuencia acumulada decreciente o "mayor que" (Fi(+)): Es el total de elementos mayores o
iguales que un límite inferior cualquiera LIk.
Se obtiene por adición sucesiva de las frecuencias absolutas, comenzando desde el último inter-
valo y concluyendo en el primero.
Frecuencia relativa (hi): Es la relación entre las frecuencias absolutas y el total de elementos n.
f
Es decir que hi i 100. Suele expresarse en forma de porcentajes.
n
Es importante para determinar la proporción de observaciones que pertenece a cada intervalo de
clase.
Frecuencias relativas acumuladas "menor que" y "mayor que" (H i(-) y Hi(+)): Son similares
a las correspondientes Frecuencias acumuladas F(-) y Fi(+), pero calculadas a partir de las frecuencias
relativas.
Para variables discretas, como “edad de los compradores”, se debe prestar atención a los Ver-
Introducción a la Estadística
34
daderos límites (ya que no coinciden con los límites), y al cálculo de los puntos medios de los Inter-
valos de Clase.
Edades de los compradores de automóviles
Frecuencia Frecuencia
Nº Frecuencia Frecuencia
Verdadero Punto Frecuencia Relativa Relativa
Edades de Acumulada Acumulada
Límite Medio Relativa Acumulada Acumulada
autos Menor que Mayor que
Menor que Mayor que
(-) (+)
fi VL xi Fi Fi hi Hi(-) Hi(+)
25 - 29 6 24,5 27 6 80 7,50% 7,50% 100,00%
medio del intervalo de clase inmediato posterior al último intervalo de clase, lo cual permite obtener
una figura poligonal cerrada con similar superficie que el histograma.
En el trazado del polígono hay sectores que se pierden y otros que se ganan respecto del histo-
grama propiamente dicho.
El polígono de frecuencias permite mostrar cómo sería, de una manera sumamente esquemática,
la verdadera distribución teórica de la variable bajo estudio, distribución ésta que nunca puede obte-
nerse realmente. Si en un histograma se supone que la amplitud de los intervalos disminuyera al mis-
mo tiempo que aumentara el número total de observaciones, se produciría un aumento en el número de
intervalos. Cuando la amplitud tiende a cero, el número de intervalos de clase se vuelve infinito, y el
histograma se convierte en una línea continua que debe considerarse como la verdadera distribución
teórica. Lo que hace el polígono es, como ya se dijo, mostrar una aproximación eminentemente prácti-
ca de ese proceso.
Sin embargo, la mayor utilidad de este gráfico consiste en la comparación de la distribución
empírica de los datos proporcionados por el cuadro de distribución de frecuencias con una distribución
estándar denominada distribución normal.
Los polígonos de frecuencia relativa se obtienen cambiando la escala vertical de frecuencia ab-
soluta a frecuencia relativa.
La Ojiva se utiliza para graficar las "Frecuencias Acumuladas Menor que", es la representa-
ción de esas Frecuencias Acumuladas en particular, y se construye a partir de los “Verdaderos Límites
Superiores” para obtener una línea poligonal creciente, llamada en algunos textos ojiva creciente.
yor que" y de la ojiva correspondiente que, como se ve, tiene una forma claramente decreciente.
Si graficamos las dos ojivas juntas veremos que interceptan en el valor correspondiente al 50% de las
observaciones.
Las ojivas suavizadas provienen de la suavización de las ojivas.
PREGUNTAS TEÓRICAS
1) ¿Cuánto vale la suma de las frecuencias relativas?
a) n b) Fi c) 100
2) En una distribución de frecuencias, si se desea saber cuál es la frecuencia de los valores me-
nores o iguales que un límite superior cualquiera, ¿a través de que dato se la obtiene?
a. la frecuencia absoluta
b. la frecuencia relativa
c. la frecuencia acumulada "menor que"