Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadística Descriptiva
Jhon F. Bernedo Gonzales • 2022
Índice
3. Distribución de frecuencias 11
3.1. Variables cualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.1.1. Gráficas para datos cualitativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2. Variables cuantitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2.1. Gráficas para datos cuantitativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3. Distribución de frecuencias por intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4. Forma de la distribución 30
4.1. Distribuciones Multimodales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.2. Distribución uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.3. Distribución simétrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.4. Distribución asimétrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5. Ejercicios resueltos 35
1
Probabilidad y Estadística 1. Análisis de datos y Estadística
En computación, datos es la información que fue transformada en una forma mas con-
veniente para procesarlo o moverlo. Generalmente la información es transformada en un
formato digital binario.
Los datos pueden ser registrados de forma periódica (secuencial), tal como la temperatura del ambiente,
la humedad relativa, el número de pacientes que llegan a un hospital por día entre otros.
Para obtener información útil de los datos, se debe de saber el contexto de los valores numéricos y
no numéricos de estos. Por ejemplo, suponga que sea obtenga un valor registrado para Felipe, este
valor es igual a 2350, ahora este valor no es útil sin un marco de referencia, esto es, un contexto. Así,
este valor de 2350 puede significar el dinero que gana mensualmente o puede ser su código postal ó
su registro en su colegio profesional. Por tanto, si los datos están dispersos sin estructura los valores
registrados (numéricos o no numéricos) proporcionarán poca o nula información para el investigador,
empresa, gobierno, entre otros.
Para tener una visión mas clara de los datos es necesario organizarlos en una tabla tal como se observa
en la Tabla 1. Nótese que este arreglo ayuda a entender mejor los datos, donde en la parte superior se
indica los nombres de las características y cada fila es asociada a un individuo u objeto bajo estudio.
Además, cada fila (denominado caso) tiene p características.
En resumen, la tabla mostrada abajo es denominada tabla de datos, matriz de datos o conjunto de
datos (en inglés se indica como data set). En este sentido, la mayoría de los softwares estadísticos
organizan los datos en forma de tabla de datos.
2
Probabilidad y Estadística 1. Análisis de datos y Estadística
nombre dependiendo del tipo de estudio que se esta realizando. En general, las filas de una tabla de
datos son denominados de casos, registros, items, o unidades elementales. También, usualmente a las
filas se les indica también como observaciones
Cada columna de la tabla de datos indica una característica o atributo que comparten todos los casos.
Estos atributos deben de tener un nombre en la tabla de datos.
Ejemplo 1.1.
En la Tabla 2 se presenta una tabla de datos relacionada con algunas características de la municipali-
dades del Perú. Los datos presentados en esta tabla es una muestra tomada de toda la población de
municipalidades. En esta tabla de datos se puede observar que:
la primera columna con el nombre idmuni muestra el código de cada municipalidad, así una fila
de esta tabla de datos representa unicamente una municipalidad (observación o caso).
la segunda columna tipomuni indica el tipo de municipalidad que puede ser distrital o provincial
la columna telcod registra el código de de ciudad del telefono fijo asociado a la municipalidad.
la columna total ingreso indica la cantidad de dinero (en soles) que recibió la municipalidad
hasta el día de la entrevista
la columna total gastos indica la cantidad que gastó la municipalidad hasta el día de la entrevista
En la tabla anterior se puede observar las diferentes características asociadas a las municipalidades
tanto numéricas como no numéricas. El número de características mostradas en la Tabla 2 es 8 si
embargo se tienen mas características.
3
Probabilidad y Estadística 1. Análisis de datos y Estadística
Tabla 2: Tabla de datos o conjunto de datos para las características de algunas municipalidades.
idmuni tipomuni agencias direvia direnum telcod telnum total ingreso total gastos
20304 Distrital 0 Avenida S/N 43 2264748.4 1959603.8
50304 Distrital 0 Otro 1 66 966020438 3587570.8 3254580
60907 Distrital 0 Calle 1 76 10936135 10794034
90613 Distrital 0 Otro S/N 67 2526946.6 2438933.6
100208 Distrital 0 Otro S/N 62 962755973 3513606.4 3936576
100317 Distrital 0 Jirón 130 62 977176473 8144084.5 10315007
100501 Provincial 0 Jirón 310 62 942186630 32914724 33346424
110113 Distrital 0 Avenida S/N 56 3181649.2 3025343.4
120426 Distrital 0 Jirón 231 64 2622014.9 2417070.9
120433 Distrital 0 Jirón S/N 64 979471511 966702.76 984681.92
120601 Provincial 0 Jirón 312 64 545463 89429426 91194341
120608 Distrital 0 Otro S/N 64 831116 39305921 36865796
130504 Distrital 0 Jirón S/N 44 672954 4963819 4992810.7
140105 Distrital 0 Avenida 2151 74 942699643 38040086 27098900
140203 Distrital 3 Calle S/N 74 287242 11868801 9290797.6
150142 Distrital 4 Avenida S/N 1 3192530 107758126 88086389
150609 Distrital 0 Otro S/N 1 980586365 883244.43 876990.13
151019 Distrital 0 Calle 110 1 993946749 2370440 2359568.1
190113 Distrital 0 Avenida S/N 63 505449 17228537 13283102
190201 Provincial 0 Jirón S/N 63 949400353 16823908 19399528
190304 Distrital 0 Avenida 152 63 838002 13655591 12170990
200402 Distrital 1 Avenida 576 73 480366 3401570 3350273.9
200802 Distrital 3 Avenida S/N 73 942927695 5073692.5 4930260.5
200806 Distrital 1 Avenida S/N 73 969954370 1826997.1 1840301.8
210209 Distrital 1 Otro S/N 51 961984340 6250059.7 8650487.1
210704 Distrital 0 Otro S/N 51 983046956 1472791.9 1516952.4
220305 Distrital 0 Otro 104 42 630287 1277247.4 3478172.1
230101 Provincial 0 Calle 404 52 411716 152938817 127594147
230107 Distrital 0 Carretera S/N 52 318350 7743449.7 7520660.8
230408 Distrital 0 Calle S/N 52 1113863.1 1106573.6
240202 Distrital 0 Otro 112 72 978751146 5850448.2 5480922
Nótese que estos datos es una muestra de la población de municipalidades del Perú, para mas detalles
sobre este conjunto de datos se puede consultar en http://iinei.inei.gob.pe/microdatos/ en la
encuesta Registro Nacional de Municipalidades (RENAMU) año 2019.
Las características registradas en cada columna para cada municipalidad son denominados de variables
o variable estadística.
Definición 1.1. Una variable estadística es una característica de interés observada que puede
tomar diferentes valores para diferentes casos bajo estudio.
El término variable indica que los valores asociados a los individuos u objetos varían entre ellos.
4
Probabilidad y Estadística 1. Análisis de datos y Estadística
Los diferentes valores registrados para una variable se denomina observaciones o valores observados.
Estos valores pueden ser de naturaleza numérica tal como el volumen de agua que almacenado en una
represa, el salario de una persona entre otros.
Las observaciones también pueden ser de naturaleza no numérica, en este caso cada valor observado
pertenece a una categoría o nivel, como por ejemplo el nivel de satisfacción de un cliente que puede:
ser muy malo, malo, regular, bueno y muy bueno.
Por otro lado, el número de variables registradas para cada elemento u observación de una muestra o
población indica la dimensión y complejidad del conjunto de datos. Así, si se tiene uno, dos o mas
variables en el conjunto de datos, estos se clasifican usualmente como conjunto de datos univariado,
bivariado o multivariado respectivamente.
a) Datos univariados: Conjunto de datos en que se tiene sólo una variable. En la práctica, gráficos y
métodos estadísticos son utilizados para resumir las propriedades de esa variable.
Ejemplo: Una compañía farmacéutica desea saber si un medicamento experimental que se está
probando en laboratorios tiene algún efecto en la presión sanguínea sistólica. A 15 personas
seleccionadas al azar se les dio el medicamento y se registraron sus presiones sanguíneas sistólicas
(en milímetros).
b) Datos bivariados: Conjuntos de datos que consideran 2 variables. En general, el análisis de datos
bivariados comienza con obtener información de cada variable y luego explorar la relación entre
las 2 variables.
Ejemplo: El artículo “Characterization of Highway Runoff in Austin, Texas, Area” (J. of Envir.
Engr., 1998: 131-137) presenta los siguientes datos en que x = volumen de precipitación pluvial
(m3 ) y y =volumen de escurrimiento (m3 ) en un lugar particular (sólo es mostrado un parte de
la muestra).
x 5 12 14 17 23 30 40 47
y 4 10 13 15 15 25 27 46
5
Probabilidad y Estadística 1. Análisis de datos y Estadística
y x1 x2 y x1 x2
15 25 4 1 20 0
16 1 5 16 12 4
2 6 3 18 15 5
3 30 1 13 6 4
12 29 2 2 16 2
i) Individuos o elementos Personas u objetos que contienen información que se desea estudiar.
ii) Población Conjunto de individuos o elementos que cumplen ciertas propiedades y características
comunes.
iii) Características: Propiedades, rasgos o cualidades de los elementos de la población. Estos caracteres
pueden dividirse en cualitativos y cuantitativos.
vi) Estadístico Es una función definida sobre los valores numéricos de una muestra.
6
Probabilidad y Estadística 2. Clasificación de las variables
Cualitativa ordinal
Una variable cualitativa es ordinal si existe un orden o rango en las categorías. Así, se puede indicar
cual es el primero (que dependería de la intensidad de la categoría y el contexto), el segundo, el tercero
y así sucesivamente. Y de esta forma se puede clasificar los datos de acuerdo al orden definido y esta
clasificación ayudará en el análisis de esta variable.
Ejemplo 2.1.
Algunos ejemplos de variables ordinales
El rango en una empresa. Por ejemplo puede ser clasificado como: presidente, vicepresidente, jefe
de departamento, empleados.
El grado de instrucción de una persona. Por ejemplo: analfabeto, primaria, secundaria, tecnico
superior, superior universitario.
El riesgo de una persona ante la exposición de un virus: Por ejemplo puede ser clasificado como:
alto, medio, bajo.
Cualitativa nominal
Una variable cualitativa es nominal si unicamente se tiene las categorías y no existe un orden o rango
en las categorías. Descriptivamente, para esta variable nominal se realiza un conteo y se indica el
porcentaje de observaciones que pertenecen a cada categoría. Una medida resumen usada para esta
variables es la moda (la categoría que tiene mayor frecuencia).
Ejemplo 2.2.
Algunos ejemplos de variables nominales
El distrito de residencia de los alumnos que llevan el curso de estadística básica. Por ejemplo:
Cercado, Selva Alefre, Cayma, Paucarpata, entre otros
El color de los ojos
Las marcas de diferentes chocolates
7
Probabilidad y Estadística 2. Clasificación de las variables
Variable Discreta
Una variable cuantitativa es discreta si esta tiene un número contable de valores distintos. Esto
es, lo valores posibles de la variable discreta corresponden a puntos aislados en la recta numérica.
Frecuentemente, los valores son enteros y provienen de conteo ("número de").
Ejemplo 2.3.
Algunos ejemplos de variables cuantitativas discretas
Variable Continua
Una variable cuantitativa es continua si sus valores caen en un intervalo de la recta real. Las variables
continuas surgen de realizar mediciones físicas, por ejemplo, distancia, peso, tiempo, velocidad.
También, pueden provenir de variables financieras tal como ventas, activos, ratios precio/ganancias,
porcentajes, entre otros.
Ejemplo 2.4.
Algunos ejemplos de variables continuas
8
Probabilidad y Estadística 2. Clasificación de las variables
Escala Nominal
Los datos que están en escala nominal (del latín nomen, que significa "nombre") identifican una categoría
(ó nivel). Los datos ”nominales” son los mismos que los datos cualitativos nominales ó categóricos ó
clasificación. Se debe de indicar que las categorías son colectivamente exhaustivas (disjuntas) es usual
utilizar la categoria “Otro” como último elemento de la lista.
Para las etiquetas (ó nombres) de las categorias de una variable en escala nominal usualmente se les
codifica con abreviaturas de los propios nombres ó números.
Ejemplo 2.5.
Suponga que en un estudio se hace las siguientes preguntas
1) Claro
2) Movistar
3) Entel
4) Bitel
5) Otros
Nótese que se puede codificar los datos nominales usando valores numéricos. Sin embargo, los números
empleados carecen de significado numérico, y así es inadecuado realizar un análisis matemático en
ellos.
Escala Ordinal
La escala de medición de una variable es ordinal si los datos indican una categoria (escala nominal) y
orden ó rango. Así, como la escala nominal, se pueden usar abreviaturas ó numeros para etiquetar las
diferentes categorías. En este caso, si se utilizas números para indicar las categorias, estos números
reflejan el orden que existe en la variable.
Ejemplo 2.6.
Suponga que en un estudio se hace las siguientes preguntas
excelente
bueno
regular
malo
pésimo
9
Probabilidad y Estadística 2. Clasificación de las variables
1) Nunca
2) Pocas veces
3) Frecuentemente
4) Siempe
Escala de intervalo
Una variable posee la escala de intervalo si tiene la propiedad de una variable en escala ordinal y
además las diferencias entre dos valores de datos tiene un significado. Sin embargo, los datos en este
nivel no tienen punto de partida cero natural inherente (donde nada de la cantidad está presente).
Ejemplo 2.7.
Temperaturas: Las temperaturas corporales de 36.4ºC y 36.8ºC son ejemplos de datos con escala de
medición de intervalo. Dichos valores están ordenados, y podemos determinar su diferencia, que es en
este caso 0.4ºC. Sin embargo, no existe un punto de inicio natural. El valor de 0ºC es un punto de inicio
pero éste es arbitrario (referencial) y no representa la ausencia total de calor. Así, el valor 0ºC no es un
punto de partida cero natural, sería incorrecto decir que 40ºC es dos veces más caliente que 20ºC.
Escala de razón
El nivel de medición ó escala de razón es similar a la escala de intervalo con la propiedad adicional
de que sí tiene un punto de partida cero natural (donde el cero indica que nada de la cantidad está
presente). Para datos en este nivel, tanto las diferencias como las proporciones tienen significado.
Ejemplo 2.8.
Los pesos (en quilates) de aros en oro (el 0 realmente representa la ausencia de peso y 4 quilates es dos
veces el peso de 2 quilates).
10
Probabilidad y Estadística 3. Distribución de frecuencias
3 Distribución de frecuencias
Después de la recopilación o colecta de datos, es necesario resumirlos y presentarlos en forma tal, que
faciliten su comprensión y posterior análisis y utilización. Así, si se tiene datos univariados (una sola
variable) los valores observados son ordenados en tablas o cuadros. A esta tabla donde se ordenan los
datos se denominada tabla de distribución de frecuencias.
En la tabla de distribución de frecuencias se describe las frecuencias (conteo) de los valores asumidos
por las observaciones.
a) Frecuencia absoluta (fi ): es el número de veces (cuantas veces se repite) que un valor aparece en
los datos. Nótese que
f1 + f2 + . . . + fk = n
X
i
Fi = fi = f1 + f2 + . . . + fi , i = 1, 2, . . . , k
j=1
c) Frecuencia relativa (hi ): es la proporción de las observaciones que pertenecen un mismo grupo
(categoria, classe) y es dado por
fi
hi =
n
La suma de las frecuencias relativas es igual a 1
h1 + h2 + . . . + hk = 1.00
X
i
Hi = hi = h 1 + h2 + . . . + hi , i = 1, 2, . . . , k
j=1
El último valor de las frecuencias relativas acumuladas debe ser igual a 1.00, Hk = 1
hi % = 100 × hi
11
Probabilidad y Estadística 3. Distribución de frecuencias
Así, la tabla de distribución de frecuencias para una variable cualitativa es dada por
Observación:
En el caso que X es una variable cualitativa ordinal entonces la construcción de la tabla de distribución
de frecuencias debe de ser considerando el orden de la variable.
En general, el análisis descriptivo de una variable cualitativa es compuesto de la tabla de distribución
de frecuencias junto con un gráfico asociado a las frecuencias.
Ejemplo 3.1.
En la siguiente tabla se registran 143 empresas que cotizan en la bolsa de valores de algún país de
acuerdo al sector al que pertenecen. Sea X el tipo de empresa que cotiza en la bolsa de valores. Nótese
que el tamaño de muestra es dado por n = 143
12
Probabilidad y Estadística 3. Distribución de frecuencias
Ejemplo 3.2.
Considere los siguientes datos sobre el tipo de problemas de salud (J=hinchazón de las articulaciones,
F=Fatiga, B=dolor de espalda, M=debilidad muscular, C=tos, N=nariz suelta/irritación, O=otro) que
aquejan a los plantadores de árboles.
Construir la distribución de frecuencias para el tipo de problema de salud.
O O N J C F B B F O J O O M
O F F O O N O N J F J B O C
J O J J F N O B M O J M O B
O F J O O B N C O O O M B F
J O F N
13
Probabilidad y Estadística 3. Distribución de frecuencias
Gráfico de barras
Un gráfico de barras muestra la distribución de frecuencias de la variable categórica (cualitativa). En
este gráfico se muestra el conteo para cada categoría o nivel de la variable para poderlos comparar.
Nótese que las barras deben de estar ligeramente separadas y además las barras tienen una misma
base. Se puede reemplazar el conteo en cada categoría por el porcentaje. Por alguna razón algunos
softwares estadísticos indican como gráfico de barras a cualquier gráfico de barras. Sólo se indica como
gráfico de barras cuando se analiza a una variable cualitativa (nominal u ordinal)
Ejemplo 3.3.
EL gráfico de barras asociada a la tabla de frecuencias para los diferentes tipos de empresa que cotizan
en la bolsa de valores dado en el Ejemplo 3.1.
14
Probabilidad y Estadística 3. Distribución de frecuencias
Ejemplo 3.4.
Para construir el gráfico de sectores circulares para el Ejemplo 3.1 se calcula los ángulos centrales para
cada categoría. La tabla abajo muestra los ángulos centrales para cada empresa. Usualmente
X hi angulo central
industriales 0.3706 0.3706×360o =133.42o
agrarias 0.4755 0.4755×360o =171.18o
mineras 0.1049 0.1049×360o =37.76o
financieras 0.049 0.049×360o =17.64o
total 1.0000 360o
Luego, usando los angulos centrales calculados para cada categoría se construye la gráfica circular que
es mostrada en la Figura 3.2.
Figura 3.2: Gráfico circular (pie chart) para las empresas que cotizan en la bolsa de valores.
15
Probabilidad y Estadística 3. Distribución de frecuencias
Ejemplo 3.5.
En una encuesta de opinión acerca de la preferencia de ciertas bebidas gaseosas por sus colores:
Negro(N), Blanco (B), Rojo (R), 20 consumidores proporcionaron las siguientes respuestas:
B, N, N, B, R, N, N, B, B, N, B, N, N, R, B, N, B, R, B, N
Con estos datos se construirá la distribución de frecuencias así como la gráfica de barras y circular. Así,
sea X : el color de la bebida gaseosa, nótese que que las categorías que puede asumir esta variable son
{N, B, R}. Luego, la distribución de frecuencias es
Tabla 6: Distribución de frecuencias para el color preferido de una marca de bebida gaseosa
X fi Fi hi Hi hi %
Negro (N)
Blanco (B)
Rojo (R)
total
a) En lo posible no utilize efectos de visuales tales como sombras o efectos 3D, esto debido a que
dificulta entender los datos.
a) Indique el nombre para cada categoria o segmento del gráfico circular. El color puede ser
distinguido en algunas personas pero en otras no (personas con daltonismo).
Sugerencia: Es recomendable utilizar el gráfico de barras en vez del gráfico circular!. En el siguiente
link se da ejemplos del mal uso del gráfico por sectores circulares
www.businessinsider.com/pie-charts-are-the-worst-2013-6
16
Probabilidad y Estadística 3. Distribución de frecuencias
Gráfico de Pareto
Una gráfica de Pareto es un gráfica de barras ordenadas de acuerdo con las frecuencias (pueden ser
relativas) de las categorías en forma decreciente (de izquierda a derecha).
El objetivo de la gráfica de Pareto es identificar las categorías mas importantes y comunes en la muestra
ó población. En este sentido, esta gráfica muestra el principio de Pareto, que indica que un subconjunto
de categorías contiene la mayoría de las observaciones.
17
Probabilidad y Estadística 3. Distribución de frecuencias
Nótese que las frecuencias absolutas f1 , f2 , . . . , fk representan el número de repeticiones que se observa
para cada uno de los valores distintos, x1 , x2 , . . . , xk , i.e., , que en la muestra se tiene que x1 se observó
(se repitió) f1 veces, x2 se observó f2 veces y así hasta el último valor diferente xk .
Observación. Cuando es grande el número de datos observados de una variable discreta, su organiza-
ción es engorrosa. En este caso, para resumir los datos y poder calcular las medidas descriptivas, es
conveniente seguir el método de organización de datos de una variable continua por intervalos que se
describirá mas adelante.
Ejemplo 3.6.
Se tiene el reporte de 105 semanas acerca del número de accidentes, por semana, ocurridos en la fábrica
de alimentos Alconti el último mes.
0 0 1 0 0 1 3 5 1 1 2 2 2 1 5 3 4 1
1 1 4 3 3 3 3 4 3 3 3 2 2 1 3 4 1 1
2 2 2 2 2 0 0 2 2 2 2 1 1 2 3 3 5 0
1 2 2 2 2 3 3 3 2 2 3 1 1 2 2 4 2 2
2 5 2 2 1 3 1 1 3 3 0 0 1 2 3 1 1 2
0 2 2 2 4 2 2 2 2 1 1 1 2 2 2
Se desea obtener información relacionado con el número de accidentes (X). A priori se puede afirmar
que el número de accidentes está en un rango de 0 a 5, más no se sabe con que frecuencia ocurren. A
fin de obtener mas información se procederá a construir una distribución de frecuencias para estos
datos.
18
Probabilidad y Estadística 3. Distribución de frecuencias
19
Probabilidad y Estadística 3. Distribución de frecuencias
Ejemplo 3.7.
Transductores de temperatura de cierto tipo se envían en lotes de 50. Se seleccionó una muestra de 60
lotes y se determinó el número de transductores en cada lote que no cumplen con las especificaciones
de diseño y se obtuvieron los datos siguientes:
2 1 2 4 0 1 3 2 0 5 3 3 1 3 2 4 7 0 2 3
0 4 2 1 3 1 1 3 4 1 2 3 2 2 8 4 5 1 3 1
5 0 2 3 2 1 0 6 4 2 1 6 0 3 3 3 6 1 2 3
Tabla 9: Distribución de frecuencias para el color preferido de una marca de bebida gaseosa
X fi Fi hi Hi hi %
0
1
2
3
4
5
6
7
total
b) ¿Qué proporción de lotes muestreados tienen a lo sumo cinco transductores que no cumplen
con las especificaciones? ¿Qué proporción tiene menos de cinco? ¿Qué proporción tienen por lo
menos cinco unidades que no cumplen con las especificaciones?
20
Probabilidad y Estadística 3. Distribución de frecuencias
Gráfico de Puntos
Esta gráfica presenta los datos a lo largo de una escala que ser horizontal o vertical. La frecuencia (fi )
de los datos son representados en la escala opuesta.
El gráfico de puntos indica que tan dispersos son los datos así como sobre que valores los datos se
concentran.
La Figura 3.4 muestra el gráfico de puntos para los datos del Ejemplo 3.6.
Figura 3.4: Gráfico de puntos para el número de accidentes del Ejemplo 3.6
21
Probabilidad y Estadística 3. Distribución de frecuencias
Histograma
Para el histograma se puede utilizar las frecuencias absolutas (fi ), frecuencias relativas (hi ) o las
frecuencias relativas porcentuales (hi %).
Figura 3.5: Histograma para para el número de accidentes del Ejemplo 3.6
Atención:
1. El término histograma es usado para un gráfico con barras (rectángulos) para representar la
distribución de frecuencias para datos cuantitativos.
2. El término gráfico de barras es utilizado para indicar un gráfico con barras representando la
distribución de frecuencias para datos cualitativos.
Sin embargo, algunos autores utilizan gráficos de barras para representar la distribución de frecuencia
de variables cuantitativas discretas.
22
Probabilidad y Estadística 3. Distribución de frecuencias
ii) Número de intervalos(k), el número de intervalos puede ser determinado considerando la regla
de Sturges, sin embargo pueden ser considerados otra reglas para determinar el número de
intervalos.
Regla de Sturges:
23
Probabilidad y Estadística 3. Distribución de frecuencias
Límites
Intervalo (Ii ) inferior superior
I1 Xmin ; Xmin + A [
I2 [ Xmin + A ; Xmin + 2A [
I3 [ Xmin + 2A ; Xmin + 3A [
.. .. ..
. . .
Ik [ Xmin + (k − 1)A ; Xmin + kA ]
R
Observe que se cierra el último intervalo. Esto se debe a que si la división k es exacta en el
número de decimales de los datos ningun dato quedara fuera.
Cuando los datos son organizados por medio de una distribución de frecuencias por intervalos existe
perdida de información sin embargo a cambio se tiene una mejor visualización del conjunto de datos.
Ejemplo 3.8.
Los salarios quincenales en cientos de soles, son presentados en una muestra de n = 45 trabajadores
63 89 36 49 56 64 59 35 78
43 51 70 57 62 43 68 62 26
64 72 52 51 62 60 71 61 55
59 60 67 57 67 61 67 51 81
50 64 76 44 73 56 62 63 60
24
Probabilidad y Estadística 3. Distribución de frecuencias
Luego, se sigue los pasos para la construcción de una distribución de frecuencias por intervalos.
De los datos, se tiene Xmax = 89 y Xmin = 26. El rango de los datos es: Rango: R= 89-26=63
el cual se aproxima a k = 7
Amplitud
63
A= =9
7
Y se obtiene los limites de los intervalos (clases)
Límites
Intervalo (Ii ) inferior superior
I1 [ 26 ; 35 [
I2 [ 35 ; 44 [
I3 [ 44 ; 53 [
I4 [ 53 ; 62 [
I5 [ 62 ; 71 [
I6 [ 71 ; 80 [
I7 [ 80 ; 89 ]
Con los limites definidos se puede construir la tabla de distribución de frecuencias para los datos. Para
obtener las frecuencias absolutas fi para cada intervalo se procede de la siguiente manera:
En el primer intervalo I1 = [ 26; 35 [, se tiene un dato en ese rango, el dato 26 y así la frecuencia
absoluta en I1 es f1 = 1.
En el segundo intervalo I2 = [ 35; 44 [, se tienen cuatro datos en ese rango que son 35,36,43 y 43 y
así la frecuencia absoluta en I2 es f2 = 4.
En el tercer intervalo I2 = [ 44; 53 [, se tienen 7 datos en ese rango que son 44,49,50,51,51,51 y 52 y
así la frecuencia absoluta en I3 es f3 = 7 y así se procede para encontrar las frecuencias absolutas
en todos los intervalos.
Finalmente se tiene la distribución de frecuencia para los datos agrupados por intervalos (clases)
25
Probabilidad y Estadística 3. Distribución de frecuencias
Ii fi Fi hi Hi hi %
[ 26; 35 [ 1 1 0.022 0.022 2.2
[ 35; 44 [ 4 5 0.089 0.111 8.9
[ 44; 53 [ 7 12 0.156 0.267 15.6
[ 53; 62 [ 12 24 0.267 0.534 26.7
[ 62; 71 [ 14 38 0.311 0.845 31.1
[ 71; 80 [ 5 43 0.111 0.956 11.1
[ 80; 89 ] 2 45 0.044 1.000 4.4
total 45 - 1.000 - 100
Algunos comentarios
Una vez organizados los datos en la tabla de distribución de frecuencias se pueden realizar los
siguientes comentarios
Los intervalos con menores porcentajes de datos son los intervalos [ 26; 35 [ y [ 80; 89 [ con 2.2 % y
4.4 % respectivamente.
En el intervalo [ 62; 71 [ contiene el mayor porcentaje de los datos, 31.1 %, en relación a los otros
intervalos
En el intervalo [ 53; 71 [ se observa que se tiene 26 personas que representan mas del 50 % de los
datos, esto es, el 57.8 % de esta forma los datos están mas concentrados en este intervalo. Nótese
que este porcentaje es obtenido por sumar h4 + h5 .
Marca de clase
La marca de clase de un intervalo es el número mi , que se define como el punto medio del intervalo,
Li + Ls
mi = , i = 1, 2, . . . , k
2
en que Li : es el límite inferior de la clase y Ls : es el límite superior de la clase. Por ejemplo, la marca de
clase en el intervalo I4 = [ 53; 62 ] es dada por:
53 + 62
m4 = = 57.5
2
A continuación se tiene la tabla de distribución de frecuencias ya adicionando la marca de clase
26
Probabilidad y Estadística 3. Distribución de frecuencias
Ii mi fi Fi hi Hi hi %
[ 26; 35 [ 30.5 1 1 0.022 0.022 2.2
[ 35; 44 [ 39.5 4 5 0.089 0.111 8.9
[ 44; 53 [ 48.5 7 12 0.156 0.267 15.6
[ 53; 62 [ 57.5 12 24 0.267 0.534 26.7
[ 62; 71 [ 66.5 14 38 0.311 0.845 31.1
[ 71; 80 [ 75.5 5 43 0.111 0.956 11.1
[ 80; 89 ] 84.5 2 45 0.044 1.000 4.4
total - 45 - 1.000 - 100
27
Probabilidad y Estadística 3. Distribución de frecuencias
Ejemplo 3.9.
Las velocidades de 55 automóviles (en km/h) fueron medidas por un aparato de radar en una calle de
una ciudad
16 23 26 29 35
18 23 26 29 36
18 23 26 29 37
18 23 27 29 38
20 24 27 30 38
21 24 27 31 41
21 24 27 32 43
22 25 28 32 43
22 25 28 33 45
22 25 28 33 48
23 25 28 34 53
Solución
Ii mi fi Fi hi Hi hi %
total - 55 - - 100
28
Probabilidad y Estadística 3. Distribución de frecuencias
Graficas
Histograma
Se construye a partir de la tabla de distribución de frecuencias, representando sobre cada intervalo, un
rectángulo que tiene a este segmento como base. El criterio para calcular la altura de cada rectángulo
es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de cada intervalo y el
área de los mismos.
Ejemplo 3.10.
En la Figura 3.6 se muestra el histograma para los datos del Ejemplo 3.8.
Polígono de frecuencias
El polígono de frecuencias es también una representación gráfica de una distribución de frecuencias
por intervalos. La construcción es realizada uniendo los puntos de coordenadas:
en el eje de las abscisas: los puntos medios de cada intervalo (marcas de clase) y
en el eje de las ordenadas: las frecuencias absolutas o relativas para ese intervalo.
El polígono de frecuencias debe ser cerrado en el eje de las abscisas. Así, se debe adicionar una clase a
la izquierda del primer intervalo y una a la derecha del último intervalo. Los intervalos adicionados
deben tener frecuencias absolutas (relativas) iguales a cero.
Ejemplo 3.11.
La Figura 3.7 se muestra el polígono de frecuencias para los datos del Ejemplo 3.8
29
Probabilidad y Estadística 4. Forma de la distribución
Figura 3.7: Polígono de frecuencias para los datos del Ejemplo 3.8
4 Forma de la distribución
El histograma de la distribución de frecuencias puede tener diferentes formas.
30
Probabilidad y Estadística 4. Forma de la distribución
En el caso que los datos son organizados en una distribución de frecuencias por intervalos, la distribu-
ción es simétrica es caracterizada dependiendo del número de intervalos
31
Probabilidad y Estadística 4. Forma de la distribución
Ii fi Fi hi
[ L1 ; L2 [ f1 = f5 F1 h1 = h 5
[ L2 ; L3 [ f2 = f4 F2 h2 = h 4
[ L3 ; L4 [ f3 F3 h3
[ L4 ; L5 [ f4 = f2 F4 h4 = h 2
[ L5 ; L6 [ f5 = f1 F5 = n h5 = h 1
total n - 1.00
32
Probabilidad y Estadística 4. Forma de la distribución
Ii fi Fi hi
[ L1 ; L2 [ f1 = f6 F1 h1 = h6
[ L2 ; L3 [ f2 = f5 F2 h2 = h5
[ L3 ; L4 [ f3 = f4 F3 h3 = h4
[ L4 ; L5 [ f4 = f3 F4 h4 = h3
[ L5 ; L6 [ f5 = f2 F5 h5 = h2
[ L6 ; L7 [ f6 = f1 F6 = n h6 = h1
total n - 1.00
33
Probabilidad y Estadística 4. Forma de la distribución
Ejemplo 4.1.
Considerando la distribución de frecuencias por intervalos del Ejemplo 3.9
34
Probabilidad y Estadística 5. Ejercicios resueltos
5 Ejercicios resueltos
Ejercicio 5.1.
Considerando la distribución de frecuencias por intervalos del Ejemplo 3.9 encuentre el porcentaje de
datos que se ubican entre 48 y 75 considerando la tabla de distribución de frecuencias por intervalos.
Solución:
Para calcular el porcentaje en los limites indicados se debe de observar las frecuencias relativas en la
tabla de distribución de frecuencias por intervalos tal como se muestra abajo. Sin embargo, no se tiene
intervalos con limites 48 y 75 ante ello se debe de interpolar a fin aproximar el % de datos entre 48 y 75.
Ii mi fi Fi hi Hi hi %
[ 26; 35 [ 30.5 1 1 0.022 0.022 2.2
[ 35; 44 [ 39.5 4 5 0.089 0.111 8.9
[ 44; 53 [ 48.5 7 12 0.156 0.267 15.6
[ 53; 62 [ 57.5 12 24 0.267 0.534 26.7
[ 62; 71 [ 66.5 14 38 0.311 0.845 31.1
[ 71; 80 [ 75.5 5 43 0.111 0.956 11.1
[ 80; 89 ] 84.5 2 45 0.044 1.000 4.4
total - 45 - 1.000 - 100
x 0.156 5 × 0.156
= →x= → x = 0.0867
53 − 48 53 − 44 9
35
Probabilidad y Estadística 5. Ejercicios resueltos
Ejercicio 5.2.
La tabla de distribución de frecuencias (incompleta) acerca de las estaturas en centímetros de un grupo
de 50 personas
estatura fi Hi
[ ; [
[ ; [
[ ; 170[
[ ; [ 10 0.96
[ ; 180] 1
Complete la tabla anterior si la distribución de datos es simétrica y de todos los intervalos tienen la
misma amplitud.
Solución
Para obtener la amplitud del intervalo se tiene que
estatura fi hi Hi
[ ; [ f1 = f5 h1 = h5 h1
[ ; [ f2 = f4 h2 = h4 h1 + h2
[ ; 170[ f3 h3 h1 + h2 + h3
[170; 170 + A[ f4 = f2 = 10 h4 = h2 h1 + h2 + h3 + h4 =0.96
[170 + A; 170 + 2A = 180] f5 = f1 h5 = h1 h1 + h2 + h3 + h4 + h5 =1.00
total n=50 1.00 –
luego
170 + 2A = 180 ⇒ A = 5
La ultima frecuencia relativa, h5 es dada por
h1 + h2 + h3 + h4 + h5 = 1.00
h5 = 1 − (h1 + h2 + h3 + h4 )
h5 = 1 − 0.96 = 0.04
f5
h5 = ⇒ f5 = 50 × 0.04 = 2,
50
y como la distribución es simetrica entonces f1 = f5 = 2 y f2 = f4 = 10 y para saber el valor de f3 se sabe
que
f1 + f2 + f3 + f4 + f5 = 50
2 + 10 + f3 + 10 + 2 = 50 → f3 = 26
36
Probabilidad y Estadística 5. Ejercicios resueltos
intervalos mi fi hi Hi
155 160 157.5 2 0.04 0.04
160 165 162.5 10 0.2 0.24
165 170 167.5 26 0.52 0.76
170 175 172.5 10 0.2 0.96
175 180 177.5 2 0.04 1.00
- - 50 1.00 -
37