Está en la página 1de 37

Probabilidad y Estadística ÍNDICE

Estadística Descriptiva
Jhon F. Bernedo Gonzales • 2022

Última revisión: 3 de mayo de 2023

Índice

1. Análisis de datos y Estadística 2


1.1. Elementos, población, muestra, caracteres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2. Clasificación de las variables 7


2.1. Variables cualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2. Variables cuantitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3. Escalas ó niveles de medición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3. Distribución de frecuencias 11
3.1. Variables cualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.1.1. Gráficas para datos cualitativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2. Variables cuantitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2.1. Gráficas para datos cuantitativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3. Distribución de frecuencias por intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4. Forma de la distribución 30
4.1. Distribuciones Multimodales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.2. Distribución uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.3. Distribución simétrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.4. Distribución asimétrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

5. Ejercicios resueltos 35

1
Probabilidad y Estadística 1. Análisis de datos y Estadística

1 Análisis de datos y Estadística


En la actualidad, con el gran avance en la tecnología en almacenar datos se tiene una cantidad de datos
disponibles es enorme.
Los datos colectados provienen de muchas fuentes, por ejemplo, el registro das informaciones de los
clientes de un banco. También, puede ser las respuestas de un cuestionario aplicado a un grupo de
personas
Que son datos?

En computación, datos es la información que fue transformada en una forma mas con-
veniente para procesarlo o moverlo. Generalmente la información es transformada en un
formato digital binario.

Datos es una colección de números, nombres, etiquetas, símbolos y el contexto de estos


valores.
Frecuentemente, los datos son tomados de un subconjunto de una población. Por ejemplo, los datos
pueden ser

las compras de un cliente en una farmacia en un mes determinado

los productos que compra un cliente en un supermercado en un día

las notas de un estudiante en una universidad en un semestre.

Los datos pueden ser registrados de forma periódica (secuencial), tal como la temperatura del ambiente,
la humedad relativa, el número de pacientes que llegan a un hospital por día entre otros.
Para obtener información útil de los datos, se debe de saber el contexto de los valores numéricos y
no numéricos de estos. Por ejemplo, suponga que sea obtenga un valor registrado para Felipe, este
valor es igual a 2350, ahora este valor no es útil sin un marco de referencia, esto es, un contexto. Así,
este valor de 2350 puede significar el dinero que gana mensualmente o puede ser su código postal ó
su registro en su colegio profesional. Por tanto, si los datos están dispersos sin estructura los valores
registrados (numéricos o no numéricos) proporcionarán poca o nula información para el investigador,
empresa, gobierno, entre otros.
Para tener una visión mas clara de los datos es necesario organizarlos en una tabla tal como se observa
en la Tabla 1. Nótese que este arreglo ayuda a entender mejor los datos, donde en la parte superior se
indica los nombres de las características y cada fila es asociada a un individuo u objeto bajo estudio.
Además, cada fila (denominado caso) tiene p características.
En resumen, la tabla mostrada abajo es denominada tabla de datos, matriz de datos o conjunto de
datos (en inglés se indica como data set). En este sentido, la mayoría de los softwares estadísticos
organizan los datos en forma de tabla de datos.

Filas y columnas de la tabla de datos


Como se comentó anteriormente, las filas de la tabla de datos corresponden a casos individuales sobre
quién (o sobre el cual) se registra algunas características de interés. Cada fila o caso debe de tener un

2
Probabilidad y Estadística 1. Análisis de datos y Estadística

Tabla 1: conjunto de datos o matriz de datos


id característica 1 característica 2 característica 3 ··· característica p
1 x11 x12 x13 ··· x1p
2 x21 x22 x23 ··· x2p
3 x31 x32 x33 ··· x3p
.. .. .. .. .. ..
. . . . . .
n xn1 xn2 xn3 ··· xnp

nombre dependiendo del tipo de estudio que se esta realizando. En general, las filas de una tabla de
datos son denominados de casos, registros, items, o unidades elementales. También, usualmente a las
filas se les indica también como observaciones
Cada columna de la tabla de datos indica una característica o atributo que comparten todos los casos.
Estos atributos deben de tener un nombre en la tabla de datos.

Ejemplo 1.1.
En la Tabla 2 se presenta una tabla de datos relacionada con algunas características de la municipali-
dades del Perú. Los datos presentados en esta tabla es una muestra tomada de toda la población de
municipalidades. En esta tabla de datos se puede observar que:

la primera columna con el nombre idmuni muestra el código de cada municipalidad, así una fila
de esta tabla de datos representa unicamente una municipalidad (observación o caso).

la segunda columna tipomuni indica el tipo de municipalidad que puede ser distrital o provincial

la columna agencias registra el número de agencias municipales

la columna direvia indica la dirección donde esta ubicado la municipalidad

la columna direnum indica el número de la dirección donde esta ubicado la municipalidad

la columna telcod registra el código de de ciudad del telefono fijo asociado a la municipalidad.

la columna telnum registra el número de telefono de cada municipalidad

la columna total ingreso indica la cantidad de dinero (en soles) que recibió la municipalidad
hasta el día de la entrevista

la columna total gastos indica la cantidad que gastó la municipalidad hasta el día de la entrevista

En la tabla anterior se puede observar las diferentes características asociadas a las municipalidades
tanto numéricas como no numéricas. El número de características mostradas en la Tabla 2 es 8 si
embargo se tienen mas características.

3
Probabilidad y Estadística 1. Análisis de datos y Estadística

Tabla 2: Tabla de datos o conjunto de datos para las características de algunas municipalidades.
idmuni tipomuni agencias direvia direnum telcod telnum total ingreso total gastos
20304 Distrital 0 Avenida S/N 43 2264748.4 1959603.8
50304 Distrital 0 Otro 1 66 966020438 3587570.8 3254580
60907 Distrital 0 Calle 1 76 10936135 10794034
90613 Distrital 0 Otro S/N 67 2526946.6 2438933.6
100208 Distrital 0 Otro S/N 62 962755973 3513606.4 3936576
100317 Distrital 0 Jirón 130 62 977176473 8144084.5 10315007
100501 Provincial 0 Jirón 310 62 942186630 32914724 33346424
110113 Distrital 0 Avenida S/N 56 3181649.2 3025343.4
120426 Distrital 0 Jirón 231 64 2622014.9 2417070.9
120433 Distrital 0 Jirón S/N 64 979471511 966702.76 984681.92
120601 Provincial 0 Jirón 312 64 545463 89429426 91194341
120608 Distrital 0 Otro S/N 64 831116 39305921 36865796
130504 Distrital 0 Jirón S/N 44 672954 4963819 4992810.7
140105 Distrital 0 Avenida 2151 74 942699643 38040086 27098900
140203 Distrital 3 Calle S/N 74 287242 11868801 9290797.6
150142 Distrital 4 Avenida S/N 1 3192530 107758126 88086389
150609 Distrital 0 Otro S/N 1 980586365 883244.43 876990.13
151019 Distrital 0 Calle 110 1 993946749 2370440 2359568.1
190113 Distrital 0 Avenida S/N 63 505449 17228537 13283102
190201 Provincial 0 Jirón S/N 63 949400353 16823908 19399528
190304 Distrital 0 Avenida 152 63 838002 13655591 12170990
200402 Distrital 1 Avenida 576 73 480366 3401570 3350273.9
200802 Distrital 3 Avenida S/N 73 942927695 5073692.5 4930260.5
200806 Distrital 1 Avenida S/N 73 969954370 1826997.1 1840301.8
210209 Distrital 1 Otro S/N 51 961984340 6250059.7 8650487.1
210704 Distrital 0 Otro S/N 51 983046956 1472791.9 1516952.4
220305 Distrital 0 Otro 104 42 630287 1277247.4 3478172.1
230101 Provincial 0 Calle 404 52 411716 152938817 127594147
230107 Distrital 0 Carretera S/N 52 318350 7743449.7 7520660.8
230408 Distrital 0 Calle S/N 52 1113863.1 1106573.6
240202 Distrital 0 Otro 112 72 978751146 5850448.2 5480922

Nótese que estos datos es una muestra de la población de municipalidades del Perú, para mas detalles
sobre este conjunto de datos se puede consultar en http://iinei.inei.gob.pe/microdatos/ en la
encuesta Registro Nacional de Municipalidades (RENAMU) año 2019.
Las características registradas en cada columna para cada municipalidad son denominados de variables
o variable estadística.

Definición 1.1. Una variable estadística es una característica de interés observada que puede
tomar diferentes valores para diferentes casos bajo estudio.

El término variable indica que los valores asociados a los individuos u objetos varían entre ellos.

4
Probabilidad y Estadística 1. Análisis de datos y Estadística

Los diferentes valores registrados para una variable se denomina observaciones o valores observados.
Estos valores pueden ser de naturaleza numérica tal como el volumen de agua que almacenado en una
represa, el salario de una persona entre otros.
Las observaciones también pueden ser de naturaleza no numérica, en este caso cada valor observado
pertenece a una categoría o nivel, como por ejemplo el nivel de satisfacción de un cliente que puede:
ser muy malo, malo, regular, bueno y muy bueno.
Por otro lado, el número de variables registradas para cada elemento u observación de una muestra o
población indica la dimensión y complejidad del conjunto de datos. Así, si se tiene uno, dos o mas
variables en el conjunto de datos, estos se clasifican usualmente como conjunto de datos univariado,
bivariado o multivariado respectivamente.

a) Datos univariados: Conjunto de datos en que se tiene sólo una variable. En la práctica, gráficos y
métodos estadísticos son utilizados para resumir las propriedades de esa variable.
Ejemplo: Una compañía farmacéutica desea saber si un medicamento experimental que se está
probando en laboratorios tiene algún efecto en la presión sanguínea sistólica. A 15 personas
seleccionadas al azar se les dio el medicamento y se registraron sus presiones sanguíneas sistólicas
(en milímetros).

172 148 123


140 108 152
123 129 133
130 137 128
115 161 142

b) Datos bivariados: Conjuntos de datos que consideran 2 variables. En general, el análisis de datos
bivariados comienza con obtener información de cada variable y luego explorar la relación entre
las 2 variables.
Ejemplo: El artículo “Characterization of Highway Runoff in Austin, Texas, Area” (J. of Envir.
Engr., 1998: 131-137) presenta los siguientes datos en que x = volumen de precipitación pluvial
(m3 ) y y =volumen de escurrimiento (m3 ) en un lugar particular (sólo es mostrado un parte de
la muestra).

x 5 12 14 17 23 30 40 47
y 4 10 13 15 15 25 27 46

c) Datos multivariados: Son datos en que el número de variables es mayor o igual a 3.


Ejemplo: Para estudiar la relación de publicidad e inversión de capital con utilidades corporativas,
los datos siguientes, registrados en unidades de $100 000, se recolectaron para 10 empresas de
mediano tamaño en el mismo año. La variable y representa utilidad para el año, x1 representa
inversión de capital y x2 representa gasto en publicidad.

5
Probabilidad y Estadística 1. Análisis de datos y Estadística

y x1 x2 y x1 x2
15 25 4 1 20 0
16 1 5 16 12 4
2 6 3 18 15 5
3 30 1 13 6 4
12 29 2 2 16 2

Estadística descriptiva. Describe, analiza y representa un grupo de datos utilizando métodos


numéricos y gráficos que resumen y presentan la información contenida en ellos.

Estadística inferencial. Apoyándose en el cálculo de probabilidades y a partir de datos muestrales,


efectúa estimaciones, decisiones, predicciones u otras generalizaciones sobre un conjunto mayor
de datos.

1.1 Elementos, población, muestra, caracteres


Establecemos a continuación algunas definiciones de conceptos básicos y fundamentales como son: ele-
mento, población, muestra, características, variables, etc., a las cuales haremos referencia continuamente
a lo largo del texto

i) Individuos o elementos Personas u objetos que contienen información que se desea estudiar.

ii) Población Conjunto de individuos o elementos que cumplen ciertas propiedades y características
comunes.

iii) Características: Propiedades, rasgos o cualidades de los elementos de la población. Estos caracteres
pueden dividirse en cualitativos y cuantitativos.

iv) Muestra Subconjunto de una población.

v) Parámetro Valores numéricos de características medibles de una población. Es posible investigar


también un parametro de la población que es función de otros parametros.

vi) Estadístico Es una función definida sobre los valores numéricos de una muestra.

6
Probabilidad y Estadística 2. Clasificación de las variables

2 Clasificación de las variables


Las variables (o variable) en un conjunto de datos no necesariamente son de la misma naturaleza y
así no pueden ser tratados de la misma forma. En este sentido, las variables estadísticas pueden ser
clasificadas en 2 grupos: variables cualitativas y cuantitativas

2.1 Variables cualitativas


Una variable es clasificada como cualitativa si cada observación pertenece sólo a una categoría de un
conjunto de categorías. Por ejemplo, el distrito de residencia de una persona, la marca del celular que
posee, si posee un seguro médico, el grado de escolaridad entre otros. Las variables cualitativas son
también denominada de variables categóricas.
Las variables cualitativas se dividen en 2 sub grupos que son variables cualitativas nominales y
ordinales

Cualitativa ordinal
Una variable cualitativa es ordinal si existe un orden o rango en las categorías. Así, se puede indicar
cual es el primero (que dependería de la intensidad de la categoría y el contexto), el segundo, el tercero
y así sucesivamente. Y de esta forma se puede clasificar los datos de acuerdo al orden definido y esta
clasificación ayudará en el análisis de esta variable.
Ejemplo 2.1.
Algunos ejemplos de variables ordinales
El rango en una empresa. Por ejemplo puede ser clasificado como: presidente, vicepresidente, jefe
de departamento, empleados.
El grado de instrucción de una persona. Por ejemplo: analfabeto, primaria, secundaria, tecnico
superior, superior universitario.
El riesgo de una persona ante la exposición de un virus: Por ejemplo puede ser clasificado como:
alto, medio, bajo.

Cualitativa nominal
Una variable cualitativa es nominal si unicamente se tiene las categorías y no existe un orden o rango
en las categorías. Descriptivamente, para esta variable nominal se realiza un conteo y se indica el
porcentaje de observaciones que pertenecen a cada categoría. Una medida resumen usada para esta
variables es la moda (la categoría que tiene mayor frecuencia).
Ejemplo 2.2.
Algunos ejemplos de variables nominales
El distrito de residencia de los alumnos que llevan el curso de estadística básica. Por ejemplo:
Cercado, Selva Alefre, Cayma, Paucarpata, entre otros
El color de los ojos
Las marcas de diferentes chocolates

7
Probabilidad y Estadística 2. Clasificación de las variables

2.2 Variables cuantitativas


Una variable es clasificada como cuantitativa si valores registrados asumen valores numéricos que
representan diferentes magnitudes. Los números registrados indican la cantidad medida u observada
de esta variable considerando unidades elementales. Las variables cuantitativas provienen de conteo,
mediciones o algún tipo de operación matemática.
Ejemplos de variables cuantitativas pueden ser: la cantidad de lluvia que cayó en una ciudad que es
medido en litros, el número de reclamos a una empresa de teléfono, los indicadores económicos, la
edad de una persona medido en años, entre otros. Dentro de este tipo de variable se divide en dos sub
grupos: variables discretas y continuas.

Variable Discreta
Una variable cuantitativa es discreta si esta tiene un número contable de valores distintos. Esto
es, lo valores posibles de la variable discreta corresponden a puntos aislados en la recta numérica.
Frecuentemente, los valores son enteros y provienen de conteo ("número de").

Ejemplo 2.3.
Algunos ejemplos de variables cuantitativas discretas

Número de computadoras operativas en una empresa.

Número de clientes que llegan a un supermercado

Número de pétalos de un tipo flor

Número de reclamos a una central telefónica.

Variable Continua
Una variable cuantitativa es continua si sus valores caen en un intervalo de la recta real. Las variables
continuas surgen de realizar mediciones físicas, por ejemplo, distancia, peso, tiempo, velocidad.
También, pueden provenir de variables financieras tal como ventas, activos, ratios precio/ganancias,
porcentajes, entre otros.

Ejemplo 2.4.
Algunos ejemplos de variables continuas

El peso de una caja de galletas medido en gramos

La altura de una persona (en metros)

La cantidad de de energía consumida por una casa en un mes

2.3 Escalas ó niveles de medición


En fase de colecta de datos se clasifica tambien en una de las siguientes escalas de medición: nominal,
ordinal, intervalo o razón. La escala de medición determina la cantidad de información contenida en
los datos y también la forma apropiada de analizar los datos.

8
Probabilidad y Estadística 2. Clasificación de las variables

Escala Nominal
Los datos que están en escala nominal (del latín nomen, que significa "nombre") identifican una categoría
(ó nivel). Los datos ”nominales” son los mismos que los datos cualitativos nominales ó categóricos ó
clasificación. Se debe de indicar que las categorías son colectivamente exhaustivas (disjuntas) es usual
utilizar la categoria “Otro” como último elemento de la lista.
Para las etiquetas (ó nombres) de las categorias de una variable en escala nominal usualmente se les
codifica con abreviaturas de los propios nombres ó números.

Ejemplo 2.5.
Suponga que en un estudio se hace las siguientes preguntas

i) tiene ud. un seguro de vida?


Si No

ii) Cual de la siguiente empresa le provee el servicio de internet?

1) Claro
2) Movistar
3) Entel
4) Bitel
5) Otros

Nótese que se puede codificar los datos nominales usando valores numéricos. Sin embargo, los números
empleados carecen de significado numérico, y así es inadecuado realizar un análisis matemático en
ellos.

Escala Ordinal
La escala de medición de una variable es ordinal si los datos indican una categoria (escala nominal) y
orden ó rango. Así, como la escala nominal, se pueden usar abreviaturas ó numeros para etiquetar las
diferentes categorías. En este caso, si se utilizas números para indicar las categorias, estos números
reflejan el orden que existe en la variable.

Ejemplo 2.6.
Suponga que en un estudio se hace las siguientes preguntas

i) Como ud. califica la atención en la recepción de la empresa?

excelente
bueno
regular
malo
pésimo

ii) Con que fecuencia al día ud. accede a su banca móvil?

9
Probabilidad y Estadística 2. Clasificación de las variables

1) Nunca
2) Pocas veces
3) Frecuentemente
4) Siempe

Escala de intervalo
Una variable posee la escala de intervalo si tiene la propiedad de una variable en escala ordinal y
además las diferencias entre dos valores de datos tiene un significado. Sin embargo, los datos en este
nivel no tienen punto de partida cero natural inherente (donde nada de la cantidad está presente).

Ejemplo 2.7.
Temperaturas: Las temperaturas corporales de 36.4ºC y 36.8ºC son ejemplos de datos con escala de
medición de intervalo. Dichos valores están ordenados, y podemos determinar su diferencia, que es en
este caso 0.4ºC. Sin embargo, no existe un punto de inicio natural. El valor de 0ºC es un punto de inicio
pero éste es arbitrario (referencial) y no representa la ausencia total de calor. Así, el valor 0ºC no es un
punto de partida cero natural, sería incorrecto decir que 40ºC es dos veces más caliente que 20ºC.

Escala de razón
El nivel de medición ó escala de razón es similar a la escala de intervalo con la propiedad adicional
de que sí tiene un punto de partida cero natural (donde el cero indica que nada de la cantidad está
presente). Para datos en este nivel, tanto las diferencias como las proporciones tienen significado.

Ejemplo 2.8.
Los pesos (en quilates) de aros en oro (el 0 realmente representa la ausencia de peso y 4 quilates es dos
veces el peso de 2 quilates).

10
Probabilidad y Estadística 3. Distribución de frecuencias

3 Distribución de frecuencias
Después de la recopilación o colecta de datos, es necesario resumirlos y presentarlos en forma tal, que
faciliten su comprensión y posterior análisis y utilización. Así, si se tiene datos univariados (una sola
variable) los valores observados son ordenados en tablas o cuadros. A esta tabla donde se ordenan los
datos se denominada tabla de distribución de frecuencias.
En la tabla de distribución de frecuencias se describe las frecuencias (conteo) de los valores asumidos
por las observaciones.

3.1 Variables cualitativas


Sea X que denota la variable cualitativa con k categorias por ejemplo C1 , . . . , Ck . Las categorias de X
son denominadas también de niveles o clases. La distribución (tabla) de frecuencias para una variable
cualitativa es generalmente compuesto por

a) Frecuencia absoluta (fi ): es el número de veces (cuantas veces se repite) que un valor aparece en
los datos. Nótese que
f1 + f2 + . . . + fk = n

b) Frecuencia acumulada (Fi ): Es la suma de las frecuencias absolutas

X
i
Fi = fi = f1 + f2 + . . . + fi , i = 1, 2, . . . , k
j=1

El último valor de las frecuencias acumuladas debe ser igual a n, Fk = n

c) Frecuencia relativa (hi ): es la proporción de las observaciones que pertenecen un mismo grupo
(categoria, classe) y es dado por
fi
hi =
n
La suma de las frecuencias relativas es igual a 1

h1 + h2 + . . . + hk = 1.00

d) Frecuencia relativa acumulada (Hi ): Es la suma de las frecuencias relativas

X
i
Hi = hi = h 1 + h2 + . . . + hi , i = 1, 2, . . . , k
j=1

El último valor de las frecuencias relativas acumuladas debe ser igual a 1.00, Hk = 1

e) Frecuencia relativa porcentual (hi %):

hi % = 100 × hi

La suma de los %hi ’s debe ser igual 100 %

11
Probabilidad y Estadística 3. Distribución de frecuencias

Así, la tabla de distribución de frecuencias para una variable cualitativa es dada por

Tabla 3: Tabla de distribución de frecuencias para una variable cualitativa


X fi Fi hi Hi hi %
f1
C1 f1 F1 = f1 h1 = n H1 = h1 100 × h1
f2
C2 f2 F2 = f1 + f2 h2 = n H2 = h1 + h2 100 × h2
f3
C3 f3 F3 = f1 + f2 + f3 h3 = n H3 = h1 + h2 + h3 100 × h2
.. .. .. .. .. ..
. . . . . .
fk
Ck fk Fk = f1 + . . . + fk = n hk = n Hk = h1 + . . . + hk = 1.00 100 × hk
total n 1.00 100

Observación:
En el caso que X es una variable cualitativa ordinal entonces la construcción de la tabla de distribución
de frecuencias debe de ser considerando el orden de la variable.
En general, el análisis descriptivo de una variable cualitativa es compuesto de la tabla de distribución
de frecuencias junto con un gráfico asociado a las frecuencias.

Ejemplo 3.1.
En la siguiente tabla se registran 143 empresas que cotizan en la bolsa de valores de algún país de
acuerdo al sector al que pertenecen. Sea X el tipo de empresa que cotiza en la bolsa de valores. Nótese
que el tamaño de muestra es dado por n = 143

Tipo de empresa (X) fi


industriales 53
agrarias 68
mineras 15
financieras 7
total 143

Se desea construir la tabla de distribución de frecuencias. Así, en la Tabla 4

Tabla 4: Tabla de distribución de frecuencias para el tipo de empresas


X fi Fi hi Hi hi %
industriales 53 53 0.3706 0.3706 37.06
agrarias 68 121 0.4755 0.8461 47.55
mineras 15 136 0.1049 0.951 10.49
financieras 7 143 0.049 1.00 4.9
total 143 1.00 100

12
Probabilidad y Estadística 3. Distribución de frecuencias

Ejemplo 3.2.
Considere los siguientes datos sobre el tipo de problemas de salud (J=hinchazón de las articulaciones,
F=Fatiga, B=dolor de espalda, M=debilidad muscular, C=tos, N=nariz suelta/irritación, O=otro) que
aquejan a los plantadores de árboles.
Construir la distribución de frecuencias para el tipo de problema de salud.

O O N J C F B B F O J O O M
O F F O O N O N J F J B O C
J O J J F N O B M O J M O B
O F J O O B N C O O O M B F
J O F N

Tabla 5: Tabla de distribución de frecuencias para el tipo de problemas de salud.


X fi Fi hi Hi hi %
B
C
F
J
M
N
O
total

13
Probabilidad y Estadística 3. Distribución de frecuencias

3.1.1. Gráficas para datos cualitativos


Los gráficos asociados a la distribución de frecuencias para datos cualitativos (nominal u ordinal) son
generalmente
Gráfico de barras
Gráfico de sectores circulares (pie chart)
Diagrama de Pareto
Pictogramas: son un tipo de gráficos de barras.
Observación: Se debe de prestar atención a los pictogramas debido a que pueden llevar a malas
interpretaciones.

Gráfico de barras
Un gráfico de barras muestra la distribución de frecuencias de la variable categórica (cualitativa). En
este gráfico se muestra el conteo para cada categoría o nivel de la variable para poderlos comparar.
Nótese que las barras deben de estar ligeramente separadas y además las barras tienen una misma
base. Se puede reemplazar el conteo en cada categoría por el porcentaje. Por alguna razón algunos
softwares estadísticos indican como gráfico de barras a cualquier gráfico de barras. Sólo se indica como
gráfico de barras cuando se analiza a una variable cualitativa (nominal u ordinal)
Ejemplo 3.3.
EL gráfico de barras asociada a la tabla de frecuencias para los diferentes tipos de empresa que cotizan
en la bolsa de valores dado en el Ejemplo 3.1.

Figura 3.1: Gráfico de barras (bar chart)

14
Probabilidad y Estadística 3. Distribución de frecuencias

Gráfica circular o por sectores circulares


Las gráficas circulares son utilizados también para visualizar datos cualitativos. Para construir una
gráfica circular, se divide el círculo en las proporciones adecuadas para cada categoría. Así, el tamaño
en el circulo para cada categoría varia de acuerdo con el porcentaje de cada una de estas. Por ejemplo,
la categoría Ci tiene una frecuencia relativa hi entonces la proporción que le corresponde en el circulo
es hi % y entonces el angulo central asociado es igual hi × 360o . De esta manera se calcula para todas
las categoría y se etiqueta cada sector circular con el nombre respectivo para cada categoría.

Ejemplo 3.4.
Para construir el gráfico de sectores circulares para el Ejemplo 3.1 se calcula los ángulos centrales para
cada categoría. La tabla abajo muestra los ángulos centrales para cada empresa. Usualmente

X hi angulo central
industriales 0.3706 0.3706×360o =133.42o
agrarias 0.4755 0.4755×360o =171.18o
mineras 0.1049 0.1049×360o =37.76o
financieras 0.049 0.049×360o =17.64o
total 1.0000 360o

Luego, usando los angulos centrales calculados para cada categoría se construye la gráfica circular que
es mostrada en la Figura 3.2.

Figura 3.2: Gráfico circular (pie chart) para las empresas que cotizan en la bolsa de valores.

15
Probabilidad y Estadística 3. Distribución de frecuencias

Ejemplo 3.5.
En una encuesta de opinión acerca de la preferencia de ciertas bebidas gaseosas por sus colores:
Negro(N), Blanco (B), Rojo (R), 20 consumidores proporcionaron las siguientes respuestas:

B, N, N, B, R, N, N, B, B, N, B, N, N, R, B, N, B, R, B, N

Con estos datos se construirá la distribución de frecuencias así como la gráfica de barras y circular. Así,
sea X : el color de la bebida gaseosa, nótese que que las categorías que puede asumir esta variable son
{N, B, R}. Luego, la distribución de frecuencias es

Tabla 6: Distribución de frecuencias para el color preferido de una marca de bebida gaseosa
X fi Fi hi Hi hi %
Negro (N)
Blanco (B)
Rojo (R)
total

Algunas recomendaciones para el gráfico de sectores circulares


a) Se recomienda el uso del gráfico de sectores circulares cuando el número de categorias de la
variable cualitativa sean menores que 6. Una vez que exceda esa cantidad el gráfico tiende a ser
confuso y perderá el impacto visual.

a) Certifique se que la suma de los porcentajes sea 100 %

a) En lo posible no utilize efectos de visuales tales como sombras o efectos 3D, esto debido a que
dificulta entender los datos.

a) Indique el nombre para cada categoria o segmento del gráfico circular. El color puede ser
distinguido en algunas personas pero en otras no (personas con daltonismo).

Sugerencia: Es recomendable utilizar el gráfico de barras en vez del gráfico circular!. En el siguiente
link se da ejemplos del mal uso del gráfico por sectores circulares
www.businessinsider.com/pie-charts-are-the-worst-2013-6

16
Probabilidad y Estadística 3. Distribución de frecuencias

Gráfico de Pareto
Una gráfica de Pareto es un gráfica de barras ordenadas de acuerdo con las frecuencias (pueden ser
relativas) de las categorías en forma decreciente (de izquierda a derecha).
El objetivo de la gráfica de Pareto es identificar las categorías mas importantes y comunes en la muestra
ó población. En este sentido, esta gráfica muestra el principio de Pareto, que indica que un subconjunto
de categorías contiene la mayoría de las observaciones.

Figura 3.3: Gráfica de Pareto

17
Probabilidad y Estadística 3. Distribución de frecuencias

3.2 Variables cuantitativas


Variable cuantitativa discreta
Si los datos son cuantitativos discretos (relacionado con conteo), la distribución de frecuencias es similar
al caso de variables cuantitativas. Así, dado un conjunto de n datos en que se tiene k (k < n) valores
distintos x1 , x2 , . . . , xk , ordenados de forma ascendente (o descendente). Para cada uno de los k valores
distintos se tienen asociados sus frecuencias absolutas respectivas, esto por que existen valores que se
repiten entre los n valores. Puede ocurrir que los n datos sean distintos entre si, la frecuencia para cada
uno de los valores es igual a 1, fi = 1.

Tabla 7: Tabla de distribución de frecuencias para datos cuantitativos discretos


Xi fi Fi hi Hi hi %
x1 f1 F1 h1 H1 100 × h1
x2 f2 F2 h2 H2 100 × h2
x3 f3 F3 h3 H3 100 × h3
.. .. .. .. .. ..
. . . . . .
xk fk n hk 1.00 100 × hi
total n - 1.00 - 100 %

Nótese que las frecuencias absolutas f1 , f2 , . . . , fk representan el número de repeticiones que se observa
para cada uno de los valores distintos, x1 , x2 , . . . , xk , i.e., , que en la muestra se tiene que x1 se observó
(se repitió) f1 veces, x2 se observó f2 veces y así hasta el último valor diferente xk .
Observación. Cuando es grande el número de datos observados de una variable discreta, su organiza-
ción es engorrosa. En este caso, para resumir los datos y poder calcular las medidas descriptivas, es
conveniente seguir el método de organización de datos de una variable continua por intervalos que se
describirá mas adelante.

Ejemplo 3.6.
Se tiene el reporte de 105 semanas acerca del número de accidentes, por semana, ocurridos en la fábrica
de alimentos Alconti el último mes.

0 0 1 0 0 1 3 5 1 1 2 2 2 1 5 3 4 1
1 1 4 3 3 3 3 4 3 3 3 2 2 1 3 4 1 1
2 2 2 2 2 0 0 2 2 2 2 1 1 2 3 3 5 0
1 2 2 2 2 3 3 3 2 2 3 1 1 2 2 4 2 2
2 5 2 2 1 3 1 1 3 3 0 0 1 2 3 1 1 2
0 2 2 2 4 2 2 2 2 1 1 1 2 2 2

Se desea obtener información relacionado con el número de accidentes (X). A priori se puede afirmar
que el número de accidentes está en un rango de 0 a 5, más no se sabe con que frecuencia ocurren. A
fin de obtener mas información se procederá a construir una distribución de frecuencias para estos
datos.

18
Probabilidad y Estadística 3. Distribución de frecuencias

La Tabla 8 muestra la distribución de frecuencias para el número de accidentes.

Tabla 8: Tabla de distribución de frecuencias para el número de accidentes.


Xi fi Fi hi Hi hi %
0 10 10 0.0952 0.0952 9.52
1 25 35 0.2381 0.3333 23.81
2 40 75 0.3809 0.7142 38.09
3 20 95 0.1905 0.9047 19.05
4 6 101 0.0571 0.9618 5.71
5 4 105 0.0382 1.0000 3.82
total 105 - 1.0000 - 100 %

Se pueden realizar las siguientes preguntas

a) Cuantos accidentes ocurren con mayor frecuencia?


De acuerdo con la tabla anterior se puede observar que mayormente se tiene 2 accidentes por
semana, esto porque su frecuencia es 40 (38.09 %).

b) Que porcentaje de los datos se tiene entre 3 a 5 accidentes.


El porcentaje de datos entre a 3 a 5 accidentes es 19.05+ 5.71+3.82 = 28.58 %.

c) En que rango se tiene la mayor parte de los datos?


En el rango de 1 a 3 accidentes, esto porque se tiene el 23.81+38.09+19.05 = 80.95 %

19
Probabilidad y Estadística 3. Distribución de frecuencias

Ejemplo 3.7.
Transductores de temperatura de cierto tipo se envían en lotes de 50. Se seleccionó una muestra de 60
lotes y se determinó el número de transductores en cada lote que no cumplen con las especificaciones
de diseño y se obtuvieron los datos siguientes:

2 1 2 4 0 1 3 2 0 5 3 3 1 3 2 4 7 0 2 3
0 4 2 1 3 1 1 3 4 1 2 3 2 2 8 4 5 1 3 1
5 0 2 3 2 1 0 6 4 2 1 6 0 3 3 3 6 1 2 3

a) Construya una distribución de frecuencias para X =número de transductores en un lote que no


cumple con las especificaciones

Tabla 9: Distribución de frecuencias para el color preferido de una marca de bebida gaseosa
X fi Fi hi Hi hi %
0
1
2
3
4
5
6
7
total

b) ¿Qué proporción de lotes muestreados tienen a lo sumo cinco transductores que no cumplen
con las especificaciones? ¿Qué proporción tiene menos de cinco? ¿Qué proporción tienen por lo
menos cinco unidades que no cumplen con las especificaciones?

20
Probabilidad y Estadística 3. Distribución de frecuencias

3.2.1. Gráficas para datos cuantitativos


Entre los gráficos asociado con la distribución de frecuencias para datos discretos están el gráfico,
gráfico de puntos (dot plot) y el histograma.

Gráfico de Puntos
Esta gráfica presenta los datos a lo largo de una escala que ser horizontal o vertical. La frecuencia (fi )
de los datos son representados en la escala opuesta.
El gráfico de puntos indica que tan dispersos son los datos así como sobre que valores los datos se
concentran.

La Figura 3.4 muestra el gráfico de puntos para los datos del Ejemplo 3.6.

Figura 3.4: Gráfico de puntos para el número de accidentes del Ejemplo 3.6

21
Probabilidad y Estadística 3. Distribución de frecuencias

Histograma
Para el histograma se puede utilizar las frecuencias absolutas (fi ), frecuencias relativas (hi ) o las
frecuencias relativas porcentuales (hi %).

Figura 3.5: Histograma para para el número de accidentes del Ejemplo 3.6

Atención:

1. El término histograma es usado para un gráfico con barras (rectángulos) para representar la
distribución de frecuencias para datos cuantitativos.

2. El término gráfico de barras es utilizado para indicar un gráfico con barras representando la
distribución de frecuencias para datos cualitativos.

Sin embargo, algunos autores utilizan gráficos de barras para representar la distribución de frecuencia
de variables cuantitativas discretas.

22
Probabilidad y Estadística 3. Distribución de frecuencias

3.3 Distribución de frecuencias por intervalos


La distribución de frecuencias por intervalos o clases se usa cuando la variable estadística es continua
o cuando el número de valores distintos de una variable discreta es muy grande. Esta distribución es
agrupada en k intervalos o clases. En general, entre 5 y 20 intervalos son recomendables para agrupar
los datos.
Para la construcción de la distribución de frecuencias por intervalos se debe de seguir los siguientes
pasos

Construcción: distribución de frecuencias por intervalos (amplitudes iguales)


i) Calcular el rango (R)
R = Xmax − Xmin ,
en que:
Xmax : representa el valor máximo de los datos y
Xmin : representa el valor mínimo de los datos.

ii) Número de intervalos(k), el número de intervalos puede ser determinado considerando la regla
de Sturges, sin embargo pueden ser considerados otra reglas para determinar el número de
intervalos.
Regla de Sturges:

k = 1 + 3.3 log10 (n),


en que n es el total de los datos.
Nótese que el valor encontrado k no siempre es un número entero y por tal motivo se tiene que
redondear al entero inmediato mayor.
iii) Calcular la amplitud (A)
R
A= ,
k
la amplitud no necesariamente es número entero positivo, se puede obtener amplitudes con cifras
decimales. Se adopta la siguiente regla para el cálculo de la amplitud.
Regla Práctica:
a) Si los datos son números enteros, por ejemplo, 74 89 80 93 64 67 72 . . . entonces la amplitud
A debe asumir un valor entero positivo.
Así, si la amplitud A es un número decimal se tiene que redondear al número entero
inmediato, por ejemplo
Si A=5.325 ⇒ A=6
Si A=7.869 ⇒ A=8
b) En el caso que los datos tienen cifras decimales entonces se considera los siguientes pasos
para fijar la amplitud del intervalo (A)
Si los datos tienen una cifra decimal tales como

74.5 89.1 80.0 93.3 64.7 67.8 72.9 . . .

23
Probabilidad y Estadística 3. Distribución de frecuencias

y si la amplitud es igual a A = 3.248 (con 3 decimales) entonces debe de redondear para


1 decimal en que esta cifra decimal se redondea al número entero inmediato así A = 3.3.
Si los datos poseen 2 cifras decimales como por ejemplo

74.53, 89.18, 80.03, 93.39, 64.76, 67.84, 72.95 . . .

entonces la amplitud debe de ser redondeada a 2 decimales en que el segundo decimal se


debe redondear para el número inmediato mayor. Por ejemplo si se tiene que la amplitud
es igual a A = 3.231 entonces se redondea A = 3.24. Y así sucesivamente cuando los
datos tienen mas decimales
iv) Construir los limites de los intervalos:

Límites
Intervalo (Ii ) inferior superior

I1 Xmin ; Xmin + A [
I2 [ Xmin + A ; Xmin + 2A [
I3 [ Xmin + 2A ; Xmin + 3A [
.. .. ..
. . .
Ik [ Xmin + (k − 1)A ; Xmin + kA ]

R
Observe que se cierra el último intervalo. Esto se debe a que si la división k es exacta en el
número de decimales de los datos ningun dato quedara fuera.

Cuando los datos son organizados por medio de una distribución de frecuencias por intervalos existe
perdida de información sin embargo a cambio se tiene una mejor visualización del conjunto de datos.
Ejemplo 3.8.
Los salarios quincenales en cientos de soles, son presentados en una muestra de n = 45 trabajadores

63 89 36 49 56 64 59 35 78
43 51 70 57 62 43 68 62 26
64 72 52 51 62 60 71 61 55
59 60 67 57 67 61 67 51 81
50 64 76 44 73 56 62 63 60

Construya en una distribución de frecuencias por intervalos.


Solución
El objetivo es construir una tabla de distribución de frecuencias. Para tal fin es recomendable ordenar
los datos de forma ascendente o descendente.
26 35 36 43 43 44 49 50 51
51 51 52 55 56 56 57 57 59
59 60 60 60 61 61 62 62 62
62 63 63 64 64 64 67 67 67
68 70 71 72 73 76 78 81 89

24
Probabilidad y Estadística 3. Distribución de frecuencias

Luego, se sigue los pasos para la construcción de una distribución de frecuencias por intervalos.

De los datos, se tiene Xmax = 89 y Xmin = 26. El rango de los datos es: Rango: R= 89-26=63

Número de intervalos se obtiene considerando la regla de Sturges:

k = 1 + 3.3 × log10 (45) = 6.4556,

el cual se aproxima a k = 7

Amplitud
63
A= =9
7
Y se obtiene los limites de los intervalos (clases)

Límites
Intervalo (Ii ) inferior superior
I1 [ 26 ; 35 [
I2 [ 35 ; 44 [
I3 [ 44 ; 53 [
I4 [ 53 ; 62 [
I5 [ 62 ; 71 [
I6 [ 71 ; 80 [
I7 [ 80 ; 89 ]

Con los limites definidos se puede construir la tabla de distribución de frecuencias para los datos. Para
obtener las frecuencias absolutas fi para cada intervalo se procede de la siguiente manera:

En el primer intervalo I1 = [ 26; 35 [, se tiene un dato en ese rango, el dato 26 y así la frecuencia
absoluta en I1 es f1 = 1.

En el segundo intervalo I2 = [ 35; 44 [, se tienen cuatro datos en ese rango que son 35,36,43 y 43 y
así la frecuencia absoluta en I2 es f2 = 4.

En el tercer intervalo I2 = [ 44; 53 [, se tienen 7 datos en ese rango que son 44,49,50,51,51,51 y 52 y
así la frecuencia absoluta en I3 es f3 = 7 y así se procede para encontrar las frecuencias absolutas
en todos los intervalos.

Recordar que los límites del ultimo intervalo son cerrados.

Finalmente se tiene la distribución de frecuencia para los datos agrupados por intervalos (clases)

25
Probabilidad y Estadística 3. Distribución de frecuencias

Ii fi Fi hi Hi hi %
[ 26; 35 [ 1 1 0.022 0.022 2.2
[ 35; 44 [ 4 5 0.089 0.111 8.9
[ 44; 53 [ 7 12 0.156 0.267 15.6
[ 53; 62 [ 12 24 0.267 0.534 26.7
[ 62; 71 [ 14 38 0.311 0.845 31.1
[ 71; 80 [ 5 43 0.111 0.956 11.1
[ 80; 89 ] 2 45 0.044 1.000 4.4
total 45 - 1.000 - 100

Algunos comentarios
Una vez organizados los datos en la tabla de distribución de frecuencias se pueden realizar los
siguientes comentarios

Los intervalos con menores porcentajes de datos son los intervalos [ 26; 35 [ y [ 80; 89 [ con 2.2 % y
4.4 % respectivamente.

En el intervalo [ 62; 71 [ contiene el mayor porcentaje de los datos, 31.1 %, en relación a los otros
intervalos

En el intervalo [ 53; 71 [ se observa que se tiene 26 personas que representan mas del 50 % de los
datos, esto es, el 57.8 % de esta forma los datos están mas concentrados en este intervalo. Nótese
que este porcentaje es obtenido por sumar h4 + h5 .

Marca de clase
La marca de clase de un intervalo es el número mi , que se define como el punto medio del intervalo,

Li + Ls
mi = , i = 1, 2, . . . , k
2
en que Li : es el límite inferior de la clase y Ls : es el límite superior de la clase. Por ejemplo, la marca de
clase en el intervalo I4 = [ 53; 62 ] es dada por:

53 + 62
m4 = = 57.5
2
A continuación se tiene la tabla de distribución de frecuencias ya adicionando la marca de clase

26
Probabilidad y Estadística 3. Distribución de frecuencias

Ii mi fi Fi hi Hi hi %
[ 26; 35 [ 30.5 1 1 0.022 0.022 2.2
[ 35; 44 [ 39.5 4 5 0.089 0.111 8.9
[ 44; 53 [ 48.5 7 12 0.156 0.267 15.6
[ 53; 62 [ 57.5 12 24 0.267 0.534 26.7
[ 62; 71 [ 66.5 14 38 0.311 0.845 31.1
[ 71; 80 [ 75.5 5 43 0.111 0.956 11.1
[ 80; 89 ] 84.5 2 45 0.044 1.000 4.4
total - 45 - 1.000 - 100

27
Probabilidad y Estadística 3. Distribución de frecuencias

Ejemplo 3.9.
Las velocidades de 55 automóviles (en km/h) fueron medidas por un aparato de radar en una calle de
una ciudad

16 23 26 29 35
18 23 26 29 36
18 23 26 29 37
18 23 27 29 38
20 24 27 30 38
21 24 27 31 41
21 24 27 32 43
22 25 28 32 43
22 25 28 33 45
22 25 28 33 48
23 25 28 34 53

Construya la tabla de distribución de frecuencias por intervalos y realice algunos comentarios en


relación a la distribución de frecuencias

Solución

Ii mi fi Fi hi Hi hi %

total - 55 - - 100

28
Probabilidad y Estadística 3. Distribución de frecuencias

Graficas
Histograma
Se construye a partir de la tabla de distribución de frecuencias, representando sobre cada intervalo, un
rectángulo que tiene a este segmento como base. El criterio para calcular la altura de cada rectángulo
es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de cada intervalo y el
área de los mismos.
Ejemplo 3.10.
En la Figura 3.6 se muestra el histograma para los datos del Ejemplo 3.8.

Figura 3.6: Histograma para los salarios del Ejemplo 3.8

Polígono de frecuencias
El polígono de frecuencias es también una representación gráfica de una distribución de frecuencias
por intervalos. La construcción es realizada uniendo los puntos de coordenadas:
en el eje de las abscisas: los puntos medios de cada intervalo (marcas de clase) y
en el eje de las ordenadas: las frecuencias absolutas o relativas para ese intervalo.
El polígono de frecuencias debe ser cerrado en el eje de las abscisas. Así, se debe adicionar una clase a
la izquierda del primer intervalo y una a la derecha del último intervalo. Los intervalos adicionados
deben tener frecuencias absolutas (relativas) iguales a cero.
Ejemplo 3.11.
La Figura 3.7 se muestra el polígono de frecuencias para los datos del Ejemplo 3.8

29
Probabilidad y Estadística 4. Forma de la distribución

Figura 3.7: Polígono de frecuencias para los datos del Ejemplo 3.8

4 Forma de la distribución
El histograma de la distribución de frecuencias puede tener diferentes formas.

4.1 Distribuciones Multimodales


Si el histograma de los datos tiene sóla una elevación (pico) se dice que la distribución tiene sóla
una moda o es unimodal. Si el histograma tiene 2 picos se dice que la distribución es bimodal. Si la
distribución tiene mas de 2 picos se dice que la distribución es multimodal.

Figura 4.1: Dist. Unimodal Figura 4.2: Dist. Bimodal

30
Probabilidad y Estadística 4. Forma de la distribución

4.2 Distribución uniforme


Si el histograma de la distribución de frecuencias no presentan un pico de forma evidente y todos los
rectangulos del histograma tienen casi la misma altura.

Figura 4.3: Distrib. aproximadamente uniforme.

4.3 Distribución simétrica


Una distribución unimodal es denominada simétrica si un lado de la distribución abajo de un valor
central es una imagen reflejada del lado superior del valor central.

Figura 4.4: Distrib. aprox. simétricas

En el caso que los datos son organizados en una distribución de frecuencias por intervalos, la distribu-
ción es simétrica es caracterizada dependiendo del número de intervalos

31
Probabilidad y Estadística 4. Forma de la distribución

Número impar de intervalos


Si el número de intervalos es impar entonces se tiene un intervalo central, este intervalo tiene la mayor
frecuencia en relación a los demás intervalos. Los intervalos opuestos alrededor del intervalo central
tienen la misma frecuencia absoluta o relativa.
Por ejemplo, en la tabla de distribución de frecuencias mostrada abajo se observa 5 intervalos. Luego,
el intervalo central es el tercer intervalo, [ L3 ; L4 [, este debe de tener la mayor frecuencia, y así los
intervalos opuestos a este intervalo poseen la misma frecuencia absoluta y relativa.

Ii fi Fi hi
[ L1 ; L2 [ f1 = f5 F1 h1 = h 5
[ L2 ; L3 [ f2 = f4 F2 h2 = h 4
[ L3 ; L4 [ f3 F3 h3
[ L4 ; L5 [ f4 = f2 F4 h4 = h 2
[ L5 ; L6 [ f5 = f1 F5 = n h5 = h 1
total n - 1.00

Figura 4.5: Distrib. aprox. simétricas

32
Probabilidad y Estadística 4. Forma de la distribución

Número par de intervalos


Si el número de intervalos es par entonces se tiene dos intervalos centrales, estos intervalos tienen la
mayor frecuencia en relación a los otros intervalos. Los intervalos opuestos alrededor de estos intervalos
centrales tienen la misma frecuencia absoluta o relativa.
Por ejemplo, en la tabla de distribución de frecuencias mostrada abajo se observa 6 intervalos. Luego,
los intervalos centrales son el tercer y cuarto intervalo, [ L3 ; L4 [ y [ L4 ; L5 [, y estos deben poseen la
misma frecuencia y esta frecuencia es mayor en relación a los otros intervalos. Luego, los intervalos
opuestos a estos intervalos poseen la misma frecuencia absoluta y relativa.

Ii fi Fi hi
[ L1 ; L2 [ f1 = f6 F1 h1 = h6
[ L2 ; L3 [ f2 = f5 F2 h2 = h5
[ L3 ; L4 [ f3 = f4 F3 h3 = h4
[ L4 ; L5 [ f4 = f3 F4 h4 = h3
[ L5 ; L6 [ f5 = f2 F5 h5 = h2
[ L6 ; L7 [ f6 = f1 F6 = n h6 = h1
total n - 1.00

Figura 4.6: Distrib. aprox. simétricas

33
Probabilidad y Estadística 4. Forma de la distribución

4.4 Distribución asimétrica


Los extremos de una distribución que en general son colas delgadas. Si una cola se estira más que la
otra, se dice que el histograma está sesgado al lado de la cola más larga.

Figura 4.7: asimétrica a la izquierda Figura 4.8: asimétrica a la derecha

Ejemplo 4.1.
Considerando la distribución de frecuencias por intervalos del Ejemplo 3.9

a) Elabore el histograma y el polígono de frecuencias

b) Indique la forma de la distribución de los datos

34
Probabilidad y Estadística 5. Ejercicios resueltos

5 Ejercicios resueltos
Ejercicio 5.1.
Considerando la distribución de frecuencias por intervalos del Ejemplo 3.9 encuentre el porcentaje de
datos que se ubican entre 48 y 75 considerando la tabla de distribución de frecuencias por intervalos.
Solución:
Para calcular el porcentaje en los limites indicados se debe de observar las frecuencias relativas en la
tabla de distribución de frecuencias por intervalos tal como se muestra abajo. Sin embargo, no se tiene
intervalos con limites 48 y 75 ante ello se debe de interpolar a fin aproximar el % de datos entre 48 y 75.

Ii mi fi Fi hi Hi hi %
[ 26; 35 [ 30.5 1 1 0.022 0.022 2.2
[ 35; 44 [ 39.5 4 5 0.089 0.111 8.9
[ 44; 53 [ 48.5 7 12 0.156 0.267 15.6
[ 53; 62 [ 57.5 12 24 0.267 0.534 26.7
[ 62; 71 [ 66.5 14 38 0.311 0.845 31.1
[ 71; 80 [ 75.5 5 43 0.111 0.956 11.1
[ 80; 89 ] 84.5 2 45 0.044 1.000 4.4
total - 45 - 1.000 - 100

La figura abajo muestra la representación de como debe de plantearse en la distribución de frecuencias


para obtener el % entre 48 y 75 Así, el porcentaje entre 48 y 75 es x + 0.267 + 0.311 + y. El valor de x es

desconocido así se recurre a interpolación.


Para calcular x nótese que x esta contenido en el intervalo [ 44; 53 [, luego se plantea

x 0.156 5 × 0.156
= →x= → x = 0.0867
53 − 48 53 − 44 9

Para calcular y es similar al caso anterior


y 0.111 4 × 0.111
= →y= → y = 0.0493
75 − 71 80 − 71 9

Por lo tanto, el porcentaje de datos entre 48 y 75 es 0.0867+0.267+0.311+0.0493 = 0.714 (71.4 %).

35
Probabilidad y Estadística 5. Ejercicios resueltos

Ejercicio 5.2.
La tabla de distribución de frecuencias (incompleta) acerca de las estaturas en centímetros de un grupo
de 50 personas

estatura fi Hi
[ ; [
[ ; [
[ ; 170[
[ ; [ 10 0.96
[ ; 180] 1

Complete la tabla anterior si la distribución de datos es simétrica y de todos los intervalos tienen la
misma amplitud.
Solución
Para obtener la amplitud del intervalo se tiene que

estatura fi hi Hi
[ ; [ f1 = f5 h1 = h5 h1
[ ; [ f2 = f4 h2 = h4 h1 + h2
[ ; 170[ f3 h3 h1 + h2 + h3
[170; 170 + A[ f4 = f2 = 10 h4 = h2 h1 + h2 + h3 + h4 =0.96
[170 + A; 170 + 2A = 180] f5 = f1 h5 = h1 h1 + h2 + h3 + h4 + h5 =1.00
total n=50 1.00 –

luego
170 + 2A = 180 ⇒ A = 5
La ultima frecuencia relativa, h5 es dada por

h1 + h2 + h3 + h4 + h5 = 1.00
h5 = 1 − (h1 + h2 + h3 + h4 )
h5 = 1 − 0.96 = 0.04

luego como con n = 50 personas entonces

f5
h5 = ⇒ f5 = 50 × 0.04 = 2,
50
y como la distribución es simetrica entonces f1 = f5 = 2 y f2 = f4 = 10 y para saber el valor de f3 se sabe
que

f1 + f2 + f3 + f4 + f5 = 50
2 + 10 + f3 + 10 + 2 = 50 → f3 = 26

luego se completa la tabla

36
Probabilidad y Estadística 5. Ejercicios resueltos

intervalos mi fi hi Hi
155 160 157.5 2 0.04 0.04
160 165 162.5 10 0.2 0.24
165 170 167.5 26 0.52 0.76
170 175 172.5 10 0.2 0.96
175 180 177.5 2 0.04 1.00
- - 50 1.00 -

NOTA: La marca de clase no era necesario calcular.

37

También podría gustarte