Documentos de Académico
Documentos de Profesional
Documentos de Cultura
CAPITULO I
ESTADÍSTICA DESCRIPTIVA.
Definimos la estadística, como la ciencia que nos proporciona un conjunto de métodos, técnicas o
procedimientos mediante las cuales se recopilan, organizan (clasifican, agrupan), representan y
analizan datos. A partir de este análisis se extraen conclusiones que sirven de base para tomar
decisiones.
Los administradores aplican algunas técnicas estadística a virtualmente todas las ramas de las
empresas públicas y privadas. Estas técnicas son tan diversas que los estadísticos, por lo general,
la dividen en dos grandes categorías: estadística descriptiva y estadística inferencial.
La estadística descriptiva incluye las técnicas que se relacionan con el resumen en y la descripción
de datos numéricos. Estos métodos pueden, ser tablas (o gráficos) o pueden, incluir análisis
mediante cálculos de determinadas medidas estadísticas, como: medidas de posición, medidas de
variabilidad e índices.
La inferencia estadística comprende aquellas técnicas por medio de las cuales se toman
decisiones sobre un universo basados en una muestra. Debido a que esas decisiones se toman en
condiciones de incertidumbre, se requiere el uso de conceptos de probabilidad. Considerando que
las características medidas en una muestra se denominan estadísticas muéstrales, las
características medidas en un universo se llaman parámetros poblaciones. El proceso de medir las
características de todos los miembros de un universo definido recibe el nombre de censo.
Universo.
Se denomina universo, a un conjunto de elementos (que consiste de personas, objetos, etc. ) que
contienen una o más características observables de naturaleza cualitativa o cuantitativa que se
pueden medir en ellos.
Unidad elemental o unidad estadística.
A cada elemento de un universo se denomina unidad elemental.
Por ejemplo, los empleados de una empresa en un día laborable, constituyen un Universo en la
que cada empleado (unidad estadística), tiene muchas características a ser observadas, como por
ejemplo: sexo, estado civil, lugar de procedencia, grado de instrucción, etc. (característica
cualitativa), o número de hijos, ingresos mensuales, etc. (característica cuantitativas).
El resultado de medir una característica observable de una unidad elemental, se denomina dato
estadístico o valor observado o simplemente observación.
Población.
Por otra parte, el universo viene definido por la investigación estadística a realizarse. Y como la
medición de la característica especificada por la investigación se hace a cada unidad elemental, se
puede considerar a la población como la totalidad de valores posibles de una característica
particular especificada por la investigación estadística.
Parámetro.
Se denomina parámetro a una medida descriptiva que resume una característica de la población,
tal como la media (µ) o la varianza (σ2), calculada a partir de los datos observados de toda la
población.
Muestra
Es una parte extraída de la población, con el fin de obtener información acerca de la población de
la cual proviene. La muestra debe ser seleccionada de manera que sea representativa de la
población.
Estadística o estadígrafo:
Es una medida descriptiva que resume una característica de la muestra, tal como la media ( X ) o
la varianza (S2 ) calculada a partir de los datos observados de una muestra aleatoria.
Una variable estadística es una característica de la población que interesa y que puede tomar
diferentes valores. Las variables estadísticas generalmente se denotan con las letras X, Y, Z, etc.
Las variables se pueden clasificar de la forma siguiente:
1.4.1. Variable Cuantitativa.- son aquellas variables que se obtienen como resultado de
mediciones y conteos. Son variables cuantitativas: el peso de las personas, temperatura, la presión
sanguínea, el salario mensual, el número de personas por hogar, el número de piezas
ensambladas que se han encontrado defectuosos.
Las variables cuantitativas se clasifican en Discretas y continuas.
a) Una variable discreta sólo puede tener valores observados en puntos aislados a lo largo
de la escala. En la estadística de negocios, esa información suele presentarse a través del
proceso de conteo; de ahí que los valores se expresen generalmente como números
enteros. Como ejemplo de datos discretos se cita el número de personas por hogar, las
unidades de un articulo en inventario, la asistencia a la reunión anual de una determinada
b) Una variable continua puede tomar cualquier valor en un intervalo especificado. Los datos
continuos se generan por el proceso de medición. Ejemplo de datos continuos son el
salario, el peso de un embarque, la presión sanguínea, el tiempo transcurrido antes de que
falle un dispositivo y el número promedio de personas por hogar en una comunidad
grande.
En algunas situaciones, no es posible obtener datos en forma directa, sino que, más bien, la
información debe obtenerse a partir de respuestas individuales. Una encuesta estadística es el
proceso de recopilar datos pidiendo a personas que proporcionen información. Los datos pueden
obtenerse con métodos como la entrevista personal o telefónica, o través de un cuestionario
escrito.
1.5.1. Métodos de muestreo aleatorio.
El muestreo aleatorio es aquél en el que cada uno de los elementos de la población a estudiar, o
población objetivo, como se le conoce tiene una probabilidad conocida, y frecuentemente igual, de
ser elegido para la muestra. A las muestras aleatorias se les denomina también muestras
probabilísticas. Son cuatro los principales métodos de muestreo aleatorio: aleatorio simple,
sistemático, estratificado y por conglomerado.
Una muestra aleatoria simple es aquélla en la que los elementos se escogen en forma individual y
al azar de la totalidad de la población. Está selección al azar es similar a la que se realiza en la
extracción aleatoria de números en una lotería. Sin embargo en el muestreo estadístico, por lo
general se utiliza un programa computarizado de tablas de números aleatorios o un generador de
números aleatorios para identificar los elementos numerados de la población que se eligen para la
muestra.
Una muestra sistemática es una muestra aleatoria en la cual se eligen los elementos de la
población a intervalos uniformes, a partir de un listado ordenado, tal como elegir cada décima
cuenta por cobrar para la muestra. La primera de las cuentas de la muestra se elegiría al azar
(quizás utilizando una tabla de números aleatorios).
Después de obtener un conjunto de datos, es necesario presentarlos en forma tal, que facilite su
compresión y su posterior análisis y utilización. No servirá de nada que estas medidas se
presenten en un simple listado. Lo mejor será ordenarlos en tablas o cuadros y luego representarlo
en gráficos.
Si se tienen pocos datos, y estos son valores discretos, entonces conviene presentar una
distribución de frecuencias sin intervalos; pero si se tiene valores continuos o muchos valores
discretos, conviene presentar una distribución de frecuencia por intervalos.
1.6.1. Distribución de frecuencias sin intervalos:
Supóngase que ante la pregunta del numero de hijos por familia (variable X) una muestra de 20
hogares, marcó las siguientes respuestas:
2, 1, 2, 4, 1, 3, 2, 3, 2, 0, 3, 2, 1, 3, 2, 3, 3, 1, 2, 4.
Al ordenar estos datos en forma ascendente, se obtienen cinco valores distintos 0, 1, 2, 3, 4 que se
repiten respectivamente 1, 4, 7, 6,2 veces. La distribución de frecuencias de X se da en la tabla 1.1
Tabla 1.1.- Distribución de frecuencias del número de hijos por familia.
Número de Frecuencias Frecuencias Frecuencias
hijos Absolutas Relativas Porcentajes
Xi ni hi hi (%)
O 1 0.05 5
1 4 0.20 20
2 7 0.35 35.
3 6 0.30 30
4 2 0.10 10
Total 20 1.00 100
Fuente.- datos obtenidos de los formularios de la encuesta .
Gráfica.
La representación gráfica más común para este tipo distribución de frecuencias es el diagrama de
barras que consiste en trazar en cada valor distinto de la variable, segmentos de líneas
Número de familias
proporcionales a su frecuencia.
2 1.5.2.
0
0 1 2 3 4
Numero de Hijos
Distr
ibución de frecuencias por intervalos.
La distribución de frecuencia por intervalos o clases se usa cuando la variable estadística es
continúa o cuando el número de valores distintos de una variable discreta es grande.
Elaboración de las tablas de frecuencias.
Para esclarecer la construcción de la tabla de frecuencias para datos agrupados en intervalos de
clase, desarrollaremos un ejemplo, tomando como datos las observaciones del número de
pasajeros a bordo de 50 autobuses cuando salen del terminal terrestre de castilla a los distintos
distritos de la provincia de Piura. Los autobuses tienen 55 asientos cada uno y los pasajeros
adicionales deben viajar de pie.
56 42 59 50 38 46 45 49 57 48 47 53 48 39 55 51 50 51 64 48 45 40 56 51 52
46 51 47 48 31 49 42 54 50 51 47 56 46 53 58 41 50 49 52 48 55 45 35 36 43.
Solución
1º. Debemos de determinar el rango (R) de variación de los datos que se define
por:
R = Xmax - Xmin
Luego el rango es R = 64 – 31 = 33
2º. Tenemos que calcular ¿Cuántas clases deben formarse?.- para eso se usa la fórmula de
Sturges:
K = 1 + 3.322 log n
Donde: K=número de clases
n=número de elementos en la muestra (tamaña de la muestra).
Está formula es muy útil porque orienta el principiante. Sin embargo, es un poco conservador y
tiende a dar un número de clases un poco menor del que se utiliza en la practica.
4°. Teniendo en cuenta que este recorrido es mayor que el recorrido original, buscamos el exceso:
Exceso = 35 – 32= 2 pasajeros
Debemos repetir este exceso a los dos extremos del recorrido original, mitad a cada lado, en este
caso 1 a cada extremo. Sumamos el número 1 al valor máximo: 64 + 1 = 65 y restamos el número
1 al valor mínimo: 31 – 1 = 30.
30 35 40 45 50 55 60 65
Figura 1.2
Sin embargo una dificultad se presenta cuando algunos de los datos coincide con cualquier de los
puntos de división: 35, 40, 45, 50, 55 y 60.
5°. Supongamos que un dado es 35 ¿Dónde lo colocamos?.- ¿en el primer intervalo cuyos
extremos son 30 y 35?.- (ver la fig. 2.1) ó ¿en el segundo intervalo que tiene por extremos 35 y 40?
Para aclarar está ambigüedad adoptamos, el intervalo abierto por la izquierda que no incluye al
valor 30 (límite inferior del intervalo) y cerrado por la derecha que incluye al valor 35 (límite
Intervalo (30 - 35] (35 - 40] (40 - 45] (45 - 50] (50 - 55] (55 - 60] (60 - 65]
de clases
Nota.- También existen otros dos tipos de intervalos de clases, definidas como:
inferior del intervalo) y abierto por la derecha (no incluye al límite superior del intervalo).
6°. Es conveniente que todos y cada uno de los datos que se hallen dentro de un mismo intervalo,
estén representados por un mismo valor. Este valor caracteriza a la clase y por eso se llama marca
de clase, se obtiene promediando los límites de cada intervalo. Una fórmula para calcular la marca
de clase de un intervalo es:
Yi'1 Yi'
Yi
2
7°. A continuación debemos realizar la clasificación y conteo de los datos (ver tabla 1.2), es decir,
colocar cada uno de ellos dentro de su clase, todos representados por un mismo signo: una tarja
Tabla 1.2
30 – 35 32.5
35 – 40 37.5
40 – 45 42.5
45 – 50 47.5
50 – 55 52.5
55 – 60 57.5
60 – 65 62.5
Total 50 1.00
Fuente.- Registro de salida del terminal de autobuses de la cuidad de Piura. 15 de Enero del 2002.
Propiedades.- n1 + n2 + …. + nk =
Ni = n1 + n2 + …. + ni =
Ni
hi= , 0≤ hi ≤ 1 , i=1,2,….,k
n
Propiedades.- h1 +h2 + …. + hk = 1
Hi =
Interpretación.-
n2 = 4, se significa que 4 autobuses tuvieron a bordo un número mayor de 35 pasajeros y menor o
igual a 40 pasajeros.
N4 = 31, significa que 31 autobuses tuvieron a bordo un número mayor de 30 y menor o igual que
50 pasajeros o también significa que 31 autobuses tuvieron a bordo un número menor o igual a 50
pasajeros.
h3 = 0.14, significa que el 14 % de los autobuses tuvieron a bordo número mayor de 40 pasajeros y
menor o igual a 45 pasajeros.
H5 = 0.86, significa que el 86% del total de autobuses tuvieron a bordo un número mayor que 30 y
menor o igual que 55 pasajeros, o también significa que 86% del total de autobuses tuvieron a
bordo un número menor o igual a 55 pasajeros.
N6 – N2 =49 – 6 = 43 autobuses tuvieron a bordo un número mayor que 40 y menor o igual que 60
pasajeros.
Las gráficas más usadas son: Histograma, Polígono de frecuencias y polígono de frecuencias
acumuladas u ojiva.
a) Histograma.
Es una representación gráfica de una distribución de frecuencias agrupadas en intervalos de
clase, mediante una serie de rectángulos contiguos que tienen:
sus bases sobre un eje horizontal y cuya longitud será igual al tamaño de los intervalos de
clase.
Las alturas proporcionales a la frecuencia (absoluta o relativa).
Número( d autobuses (ni)
Histograma de frecuencias del número de pasajeros a bordo de los autobuses
18
15
12
8
0
30 35
40 45 50 55 60 65
Numero de Hijos
b)Polígono de frecuencia.
21
Número de buses autobuses
18
15
12
3
0
27,5 32,5 37,5 42,5 47,5 52,5 57,5 62,5 67,5 Número de Pasajeros
Figura 1.4. Polígono de frecuencias del número de pasajeros por autobús de la tabla 1.3.
c) Polígono de frecuencias acumuladas u ojivas.
Está representación es válida para variables estadísticas agrupadas en intervalos de clase. En el
eje de las abscisas representamos los distintos intervalos de clase que han de estar naturalmente
traslapados, En el extremo superior de cada intervalo se levanta una vertical con altura igual a la
frecuencia (absoluta o relativa) acumulada, luego se unen los extremos superiores de las verticales
con segmentos rectilíneos. Así el polígono de frecuencias acumuladas absolutas alcanzará su
máxima altura en el último intervalo.
50
Número de autobuses
40
30
20
10
30 35 40 45 50 55 60 65
Número de pasajeros
Figura 1.5. Polígono de frecuencias acumuladas del número de pasajeros por autobús de la
tabla 1.3.
B,N,N,B,R,N,N,B,B,N,B,N,N,R,B,N,B,R,B,N.
Rojo (R)
Gráficas.
Las graficas más comunes para la distribución de frecuencias de variable cualitativa son la de
diagrama de barras y la de sectores circulares. En un Diagrama de rectángulos los datos de cada
una de las modalidades (caracteres cualitativos) se representa por un rectángulo vertical (u
horizontal), cuya altura (o largo) es proporcional a su frecuencia (absoluta o relativa). Los
10
Total →360º
Parte → Xº
En el Capitulo anterior estudiamos de que manera los datos podrían ser presentados en forma
compacta, comprensible mediante tablas y gráficos. Sin embargo, con frecuencia necesitamos
resumir aún más para facilitar el análisis e interpretación de la información. Cuando la variable en
estudio es cuantitativa, el investigador puede estar interesado en encontrar un solo valor, que
pueda caracterizar más nítidamente la naturaleza de los datos que se están midiendo.
Un valor que refleja la tendencia de los datos puede darse mediante las medidas de tendencia
central o de posición. Las más importantes y muy usadas son: la media aritmética o media, la
mediana, la media geométrica y la media armónica. También podemos mencionar a la moda, los
cuartiles, los percentiles, etc. Estas medidas o estadígrafos son considerados como medidas de
localización, puesto que señalan la localización de los valores más frecuentes o de valores
extremos.
a) Datos no agrupados.
Sea X1, X2,..., Xn valores de la variable X. La media aritmética simple de X representada por X es
dado por:
X
= donde n: es el tamaño de la muestra.
b) Datos agrupados.
Sean X1, X2,..., Xk valores de la variable X ponderada por sus respectivas frecuencias absolutas: n 1,
n2,..., nk. La media aritmética de la variable X es dado por:
n
x .n i i
, donde n =
k
n i
X i 1 i 1
n
Yi Ni Yi ni
( ]
30 – 35 32.5 2 65
35 – 40 37.5 4 150
40 – 45 42.5 7 297.5
45 – 50 47.5 18 855
50 – 55 52.5 12 630
55 – 60 57.5 6 345
60 – 65 62.5 1 62.5
Total 50 2405
y .n i i
= 48.1 pasajeros por autobús
Y i 1
n
Observación.-
X
= =
Donde n =
Si p1, p2,…pr son los pesos o ponderaciones asociados a los valores de la variable X: x 1,x2,
…xr respectivamente, entonces la media aritmética ponderada será:
p .x
i 1
i i
X p = r
p
i 1
i
Ejemplo. La empresa a tiene 100 empleados, con un sueldo promedio mensual por empleado de
S/. 1500. La empresa B tiene 200 empleados con un sueldo promedio mensual de S/. 1400.
a) ¿Cuál es el sueldo promedio mensual de las dos empresas en conjunto?
b) Si a las dos empresas se agrega una tercera con 50 empleados y un sueldo promedio
mensual por empleado de S/. 1600,¿Cuál es el sueldo promedio para las tres empresas en
conjunto ?
Solución.-
X = = = S/. 1433.33
Entonces, = = 1457.14
2.- No se puede calcular la 'media aritmética en las distribuciones que tienen intervalos de clase
abierto en los extremos.
2.1.2.- La Mediana.
La mediana es un valor que divide a un conjunto de observaciones ordenadas en forma
ascendente o descendente en dos grupos de igual número de observaciones. La notación que
vamos a emplear será:
~
X = Med (X) = mediana
Calculo de la mediana
a) Datos no agrupados.
Para calcular el valor de la mediana de los dalos X I, X2,.., Xn se tendrá el cuenta el siguiente
procedimiento:
X n / 2 X n / 2 1
Me =
2
Esto quiere decir, que el valor de la mediana se encuentra entre los valores cuya posición
son: n/2 y (n/2+1).
Ejemplo 1.- Las siguientes cifras son los importes del consumo (en soles) de 13 personas en un
restaurante:
13,15, 20, 20, 25,35, 25, 40,44, 48, 50, 44, 30.
Solución.
Ordenando la información en forma ascendente, tenemos:
13,15, 20, 20, 25, 30, 35,40, 44, 44, 48, 50.
Como el número de datos es impar (n=13), se tiene que la posición de la mediana es:
~
= 7 , luego la mediana de los importes es : X = Med(x) =…… soles
Esto significa que el 50% de las personas (es decir, 6 de ellos) tienen un importe menor o igual
que 30 soles y el 50% restante de las personas tienen un importe mayor que 30 soles.
Ejemplo 2 - Un experto en estándares de trabajo observa el tiempo que se requiere para preparar
una muestra de 10 cartas de negocios en una oficina, y obtiene los siguientes resultados en orden
y redondeados al minuto más próximo: 5, 5, 5, 7, 9, 14, 15, 15, 16 y 18. Determine la mediana para
este grupo de valores.
Solución.
En este caso, n es par, por consiguiente la mediana se localiza cutre los valores centrales X 5 y X6 ,
es decir, entre los valores 9 y 14. Por tanto, el valor mediano es:
Me = = 11.5 puntos
b) Datos agrupados.
En este caso el problema consiste en determinar un punto dentro del intervalo en que está
comprendida la mediana.
Procedimiento:
2°. Por las frecuencias acumuladas se identifica la clase que contiene a la mediana, esto es la
clase para el cual se cumple:
Con lo cual la mediana estará en la clase que tiene como frecuencia acumulada N i 3°. Utilizar la
n
N j 1
~
X X 'j 1 c. 2
N j N j 1
fórmula: =
Donde:
X 'j 1 = limite inferior de la clase que contiene a la mediana.
n = tamaño de la muestra.
c = amplitud de la clase que contiene a la mediana.
Nj = frecuencia acumulada de la clase que contiene a la mediana.
Nj-1 = frecuencia acumulada de la clase inmediatamente anterior a la clase que contiene a la
mediana.
Yi ni Ni
( ]
30 – 35 32.5 2 2
35 – 40 37.5 4 6
40 – 45 42.5 7 13
45 – 50 47.5 18 31
50 – 55 52.5 12 43
55 – 60 57.5 6 49
60 – 65 62.5 1 50
Total 50
1°. posición
2°. Se identifica la clase que contiene a la mediana por la frecuencia acumulada, esto es, a
través de la desigualdad.
N3 = 13 < 25 < N4 = 31
X = 45 + 5. = 48.33 pasajeros
Interpretación.- Este valor mediano significa, que el 50% de los autobuses tuvieron a bordo un
número menor o igual que 48.33 pasajeros, en tanto que el otro 50% tuvieron a bordo un número
Ventajas de la mediana.
l. Algunas veces es un valor más representativo de un conjunto de dalos que otros promedios (por
ejemplo, que la media aritmética), gracias a su independencia, a sus valores extremos.
2. La mediana se puede calcular aún cuando los intervalos de clase de la distribución de
Q1 Q2 Q3
Figura 2.1
Q1= 1er cuartil, deja 25% de las observaciones menores o iguales a él y el 75% superior a él.
Q3= 3er cuartil, deja 75% de las observaciones inferiores o iguales a él y el 25% superiores a él.
Es importante notar que entre dos cuartiles se derivan de la formula utilizada para calcular la
mediana y los pasos para el cálculo son los mismos.
Procedimiento:
2°. Se identifica la clase que contiene a Q r por medio de las frecuencias acumuladas, esto es, por
la desigualdad:
Qr = r = 1,2,3.
Donde:
Xj-1 = limite inferior de Ia clase que contiene a la mediana.
n = tamaño de la muestra.
c = amplitud de la clase que contiene a Qr.
Nj = frecuencia acumulada de la clase que contiene a Q r.
Nj-1 = frecuencia acumulada de la clase inmediatamente anterior a la clase que contiene a Q r.
Ejemplo. Dado la siguiente distribución, determinar los cuartiles Q 1 y Q3
Yi ni Ni
( ]
30 – 35 32.5 2 2
35 – 40 37.5 4 6
40 – 45 42.5 7 13
45 – 50 47.5 18 31
50 – 55 52.5 12 43
55 – 60 57.5 6 49
60 – 65 62.5 1 50
Total 50
Solución.-
1 °. = = 12.5 , = = 37.5
2°. Por las frecuencias acumuladas identificamos la clase que contiene a Q 1 y Q3. Como
como N4 =31 = 37.5 43 = N5 , entonces el intervalo de clases que contiene a Q3 es (50 - 55].
Q1 = = 40 + 5 [ ] = 44.64 pasajeros
Q3 = = 50 + 5 [ ] = 52.71 pasajeros
2.1.4. Percentiles.-
Son valores que dividen la muestra ordenada en forma ascendente o descendente en 100 partes
iguales.
P1= 1er percentil, deja 1% de las observaciones menores o iguales a él y el 99% superior a él.
P99= 99vo percentil, deja 99% de las observaciones menores o iguales a él y el 1% superior a él.
Las fórmulas para determinar los percentiles, son parecidos a los cuartiles, así:
Pr = , r = 1,2,…, 99.
Donde:
Xj-1 = límite inferior de Ia clase que contiene a Pr = 1,2,.., 99.
n = tamaño de la muestra.
c = amplitud de la clase que contiene a Pr.
Nj = frecuencia acumulada de la clase que contiene a P r
Nj-1 = frecuencia acumulada de la clase anterior a la clase que contiene a P r.
Ejemplo. Determinar los valores de los puntos percentiles 10 y 90, para los datos de la altura de
los alumnos de la tabla 2.1 (página 18).
2.1.5. La Moda.-
La moda denotada por = M0 , es un valor de la variable que tiene la más alta frecuencia, esto
es, es el valor más frecuente en un conjunto de datos. La moda puede no existe, incluso si existe
puede no ser única.
Ejemplo 1.- En mes, 8 vendedores de artículos electrónicos vendieron los siguientes números
de aparatos: 8, 11, 5, 14, 8, 11, 16 y 11. Considerando a este mes como a la población estadística
que interesa, el número modal de unidades vendidas es:
= M0 =….
Ejemplo 2.- Considere la distribución de los pesos (en kilos) de adultos: 63, 67, 70, 69, 81, 57,
63, 73, 68, 63, 71, 71, 71, 83. La moda de estas observaciones es:
Donde:
Xj-1 = límite inferior de Ia clase que modal.
Yi ni
( ]
30 – 35 32.5 2
35 – 40 37.5 4
40 – 45 42.5 7
45 – 50 47.5 18
50 – 55 52.5 12
55 – 60 57.5 6
60 – 65 62.5 1
Total 50
Solución.
1º. El intervalo de clase de mayor frecuencia absoluta (18) es el cuarto intervalo: ( 45 - 50]
=18-7=11 =18-12=6
c=5.
2°. Aplicando la formula tenemos:
= 45 48.235 pasajeros
Este valor modal significa que: el número de pasajeros a bordo más frecuente en los autobuses es
de 48; o también que la mayoría de los autobuses tienen a bordo de número de pasajeros igual a
48.
2.2. Relación entre la Media, Mediana y Moda.
a) Distribuciones simétricas.
Se dice que una distribución de frecuencia es simétrica cuando valores de la variable equidistantes
de un valor central tienen las mismas frecuencias. Es importante destacar en este caso que:
b) Para una distribución sesgada hacia la derecha (si la cota mayor se presenta a la derecha de
Ejercicio. Considerando la distribución de la tabla 2.1 (pagina 18), se pide analizar la asimetría
de la distribución.
2.3.1. La varianza.-
Definición 1. (Para datos no agrupados). La varianza de una muestra X1, X2,…,Xn de la
variable X, es dado por:
S2 =
Definición 2. (Para datos agrupados). La vat1anza de los valores una muestra y1, y2,..., yk de Y
con frecuencias absolutas n1., n2,..., nk respectivamente, es dado por:
V (Y) = S2 =
Observaciones.
1. La varianza poblacional se defina en términos de la medida poblacional µ, esto es:
σ2 =
Y
k
2
k
xi .ni
S2 =
1
n 1 xi2 .ni i 1
n
para datos agrupados
i 1
El valor numérico de S cuantifica el grado de dispersión de los valores de una variable con
respecto a su media. Mientras mayor es la dispersión de las observaciones, mayor es la magnitud
de sus desviaciones respecto a la media y por ende, más alto el valor numérico de la desviación
estándar.
Ejemplo 1.- Se determinó los pesos de una muestra de cartas procesadas en una oficina postal,
pesadas hasta el gramo más próximo, son: 21, 18, 30, 12, 14, 17, 28, 10, 16 y 25.
Determine a) la varianza y b) la desviación estándar.
Solución.-
a) Cálculo de la varianza.
= = = = 19.1 gramos.
Luego:
S2 = = = 45.6555
S= = 6.7569 gramos.
Total 50 2132
Solución.-
a) Aplicando la fórmula del a definición.
Se sabe que la media aritmética de está distribución es:
= 48.1 pasajeros
30 – 35 32.5 2 65 2112.5
Luego tenemos:
k
2
k
xi .ni
1 1 2
117812 .5 50 2405 =43.5102
S2 =
1
n 1 xi2 .ni i 1
n
=
49
i 1
Observación.
Si el C:V es menor del 10% hay poca dispersión
Si el C:V oscila entre el 10% y 33% la dispersión es aceptable
Si el C:V oscila entre el 33% y 50 % hay alta dispersión
Pero si el C:V es mayor del 50% la dispersión es muy alta.
Ejemplo 1.- Calcular la dispersión relativa para los datos de la tabla 2.1
6.596226
C:V = *100 = 13.71%
48.1
Como el valor del C:V = 13.71% se encuentra entre 10% y ··%, indica que la dispersión es
aceptable.
Ejemplo 2.- Para 2 acciones comunes de empresa de la industria electrónica, el precio promedio
de cierre en el mercado de valores durante un mes fue, para la acción A, de $1500, con una
desviación estándar de $500. Para la acción B, el precio promedio fue de $5000, con una
desviación estándar de $300.
a) Efectuar una comparación de la variabilidad absoluta de las acciones.
b) Realizar una comparación de la variabilidad con respeto al nivel medio de los precios.
Solución.-
a) Al hacer una comparación absoluta, resulto ser superior la variabilidad en el precio de la
acción a debido a que muestra una mayor desviación estándar.
b) Con respecto a la variabilidad relativa, deben compararse los respectivos coeficientes de
variación:
Por ello, puede concluirse que el precio de la acción A ha sido casi 5 veces más variable que el
precio de la acción B (con respecto al precio promedio para cada una de las dos)
FIN
PRACTICA DIRIGIDA I
1. Indicar el tipo de variable estadística:
a. Distribución de alumnos de la UAP por lugar de procedencia.
b. Distribución de profesionales por estatura y peso.
c. Distribución de accidentes por causa.
d. Distribución de docentes de la UAP por sueldo.
e. Consumo de corriente (kw) mensual en un año.
f. Estado civil, opinión pública, lugar de nacimiento de las personas que viven en Piura.
g. Marca y país de procedencia de los automóviles vendidos durante el año en el Perú.
h. Tiempo de servicio de los empleados de una empresa.
i. Número de cheques girados diariamente en un mes.
j. Número de acciones comunes cada día en la Bolsa de Valores de Lima.
k. Nivel educacional y religión de las Piuranas.
l. Temperatura y humedad diaria de Lima.
m.- Nivel educacional, estatura y color ojos de las cajamarquinas
2.- Indica si es verdadero o falso los siguientes enunciados. De ser falso argumenta tu respuesta.
4.- Dé contestación a los siguientes puntos, señalando con una X si es cierto o falso.
a) H 5 = 0.36 N 4 = 30 n5 =6 n = 50
b) Para calcular las marcas de clase, se suman el límite inferior al superior del intervalo y se
divide entre dos
d)Si H 6 = 0.7 y H 4 = 0.3 un 40% de los valores de la variable es menor que Y 6 y mayor que Y 4
64 76 53 78 81 60 62 66 76 59 65 85 60 57 67
76 52 70 72 72 77 63 81 73 60 80 75 63 79 62
64 54 75 66 76 80 58 86 71 69 65 73 70 67 86
67 56 83 78 65 77 70 66 58 71 68 82 70 84 58
6.- En una compañía, el sueldo mínimo y máximo de 200 empleados es de $150 y $300
respectivamente. Tales sueldos se tabulan en una distribución de frecuencias de 5 intervalos
de igual amplitud. Si se sabe que 20 empleados ganan al menos $150, pero menos de $180,
60 ganan menos de $210, 110 ganan menos de $240, 180 ganan menos de $270 y el 10%
restante de empleados ganan a lo más $300; reconstruir la distribución y graficar su polígono
de frecuencias.
Gramos 10 - 14 15 - 19 20 - 24 25 - 29 30 - 34
9.-De 500 estudiantes de secundaria, cuya estatura media es de 160.96 centímetros se divide en
dos grupos, uno con una estatura media de 163.4 centímetros y otro con una de 157.3
centímetros. ¿Cuántos estudiantes hay en cada grupo?
10.- El sueldo promedio de 200 empleados de una empresa es S/400. Se proponen dos alternativas de
aumento:
11.- En un curso hay 35 hombres con una edad media de 17.5 años y 15 mujeres las que, en promedio,
son 22% más jóvenes. ¿Cuál es la edad media del curso
12.- Una estación de servicio automotriz gasta $500 en latas de aceite que cuestan $10 la docena; $500
en latas que cuestan $12.5 la docena; $500 más en latas que cuestan $20 la docena y $500 en
otras que cuestan $25 la docena.
Li Ls Xi fi Fi X i fi X i2 fi
30 - 15 495 16335
39 25
- 48 45 91125
51 140
54 - 175 1995 113715
63 25
Li Ls hi Hi
0.18
ab 7% m
- 13%n
- ba 0.25 0.90
-
15.- La siguiente tabla presenta los datos obtenidos de 20 ex-presos políticos.
Edad a Número de
Identificación Ocupación Militancia política Instrucción Meses preso
la aprensión hijos
c) Calcule el valor más frecuente (moda) para cada uno de las variables estudiadas.
Lince 15 45 32 22 18 60
Lima 50 32 28 35 44 22
Pueblo libre 15 36 45 32 60 18
Surco 40 24 14 46 45 24
PRACTICA DIRIGIDA II
1. Dado el siguiente cuadro estadístico con ancho de clase constante igual a 20. Determine
la media de los datos.
Li Ls Xi fi Fi X i fi
880
1950
35 1800
13
200)
4 70
50 y menos de 55 8
55 y menos de 60 13
60 y menos de 65 15
65 y menos de 70 10
70 y menos de 75 3
75 y menos de 80 1
3. Los siguientes datos pertenecen a la distribución de la producción de papas (en Tn.) en 40
zonas del país: Y1´=20 f2-f5=2 Y5´= 100 f1=4 f3=20. Si se sabe que la
distribución es simétrica y presenta 5 intervalos de clase.
a) Reconstruya los intervalos de clase y obtenga las frecuencias absolutas
b) Calcule la media, la mediana y moda e interprételos
c) Calcule la variancia, desviación estándar y coeficiente de variabilidad
4. De las edades de cuatro personas, se sabe que la media es igual a 24 años, la mediana es 23
y la moda es 22. Encuentre las edades de las cuatro personas.
5. En el curso de Estadística I; se tiene las notas de los alumnos distribuidas según el siguiente
histograma de frecuencias, entonces la nota promedio del curso es:
Alumnos
16
14
12
10
8
6
4
2
0
Notas 4 6 8 10 12 14
8. De una muestra de tamaño tres se sabe: la suma de los cubos de las tres observaciones es
1971, la media aritmética es 7 y la mediana es 6. Calcular el valor de cada una de las
observaciones.
9. El sueldo promedio de 200 empleados de una empresa es S/400. Se proponen dos alternativas
de aumento: a) S/. 75 a cada uno, b) 15% de su sueldo más 10 soles a cada uno. Si la
empresa dispone a lo más de S/. 94,000 para pagar sueldos, ¿cuál alternativa es más
conveniente?.
10. Al calcular la medía de 125 datos, resultó 42. Un chequeo posterior mostró que en lugar del
valor 12.4 se introdujo 124. Corregir la media.
11. El siguiente cuadro muestra la distribución de la renta anual (en miles de soles) en que
incurren 50 viviendas:
Marca de Clase 18.85 21.55 24.25 26.95 29.65 32.35 35.05
N° de Viviendas 3 2 7 7 11 11 9
b) Estime el porcentaje de viviendas con rentas superiores o iguales a 26 000 soles pero menores
que 32 000 soles.
c) Si las rentas menores que 28 300 soles se incrementaron en 2 500 soles y las rentas mayores
o iguales que 28 300 soles se redujeron en un 30%. Calcule la nueva renta promedio.
PROBLEMAS
22 31 33 34 35 36 37 38 38 39
40 40 40 41 41 42 42 42 42 42
43 43 44 45 46 46 46 46 50
Los datos anteriores al ser dispuestos en una tabla de distribución de frecuencias se obtuvo
la siguiente tabla resultante.
clases fi
21.5 –1
26.5
31.5 –4
36.5
36.5 –9
Problema #2: El peso en kilogramos de
41.5
un grupo de estudiantes del sexo masculino
en un curso de educación física, son los
41.5 – 13 siguientes:
46.5
46.5 –1
51.5.
Total 29
Encuentre la media, la mediana y la Moda.
clases fi Compare los resultados utilizando la fórmula
señalada anteriormente en el texto relativa a
la correspondencia entre estas tres medidas
52.5 – 8 de tendencia central.
57.5
57.5 – 9
62.5
62.5 – 6
67.5 Problema #3:SANDOVALICH ha
decidido utilizar un promedio ponderado al
67.5 – 4 calcular las calificaciones finales de los
72.5 estudiantes que asistieron Al curso de
Métodos Estadísticos. El promedio de las
tareas hechas en casa representan el 20% de
72.5 – 2
cada calificación, el examen parcial, 25%; el
77.5
examen final, 35%; el examen trimestral,
10% y los problemas de practica, 10%. Con
77.5 – 1 los datos anexos calcule el promedio final de
82.5. los cinco estudiantes que asistieron al
seminario
Total 30
Examen
Alumno Tarea escolar Problemas Examen Examen
trimestral parcial final
1 85 89 94 87 90
2 78 84 88 91 92
3 94 88 95 86 89
4 82 79 83 84 93
5 95 90 92 82 88
Problemas 04
I. Si x1=4; x2=8; x3=10; x4=12; x5=15; x6=5; x7=4; x8=14; x9=16 lleva a cabo las
siguientes operaciones
II. Dado que
x1=4; x2=6; x3=-5; x4=1; y1=2; y2=3; y3=5; y4=7; z1=3; z2=8; z39; z4=10
Halla
Para cada uno de los siguientes datos, presente los datos utilizando la distribución de
frecuencias adecuada, construya el histograma y la ojiva, diagrama rectangular y pastel
según el caso, determine la media, mediana, moda, varianza, coeficiente de variación,
determine e interprete el tercer cuartel, el decil 8, percentil 60.
1.- Los siguientes datos muestran las observaciones del número de pasajeros a bordo de 50
autobuses, cuando salen del Terminal terrestre de castilla a los distintos distritos de la
provincia de Piura. Los autobuses tienen 55 asientos cada uno y los pasajeros adicionales
deben viajar de pie.
56 42 59 50 38 46 45 49 57 48 47 53 48 39 55 51 50 51 64 48 45 40
56 51 52 46 51 47 48 31 49 42 54 50 51 47 56 46 53 58 41 50 49 52
48 55 45 35 36 43 .
2.- En una encuesta de opinión acerca de las preferencias de una marca de bebidas gaseosas
por sus colores: Negro(N), Blanco (B), Rojo(R), 20 consumidores dieron las siguientes
respuestas:
B N N B R N N B B N B N N R B N B R B N.
3.- La agencia de viaje Sandovalich, ofreces tarifas especiales en ciertas travesías por el Caribe
a ciudadanos de la tercera edad. El presidente de la agencia quiere información adicional
sobre las edades de las personas que trabajan. Una muestra aleatoria de 40 clientes que
hicieron un crucero el año pasado dio a conocer las siguientes edades:
77 18 63 84 38 54 50 59 54 56 36 26 50 34 44 41 58 58 53 51 62
43 52 53 63 62 62 65 61 52 60 60 45 66 83 71 63 58 61 71 .
4..- Los siguientes datos presenta las cantidades semanales ( en dólares) gastadas en
comestibles según una muestra de 45 hogares.:
271 363 159 76 227 337 295 319 250 279 205 279 266 199 177 162 232
303 192 181 321 309 246 278 50 42 335 116 100 151 240 474 297 170
188 320 429 294 570 342 279 235 434 123 325
5.- Los datos siguientes representan las declaraciones trimestrales de impuestos sobre las
ventas, que 50 establecimientos comerciales de una tienda del mercado de Piura
presentaron a la SUNAT.
10.3 13.0 11.1 10.0 9.3 11.1 11.2 10.2 12.9 11.5 9.6 7.3 11.1 9.2 10.7 9.0
5.3 9.9 10.0 11.6 14.5 12.5 9.8 12.8 7.8 13.0 8.0 11.6 12.5 10.5 6.7 11.8
15.1 9.3 7.6 11.0 8.7 12.5 10.4 10.1 8.4 10.6 6.5 12.7 8.9 10.3 9.5 7.5
10.5 8.6.