Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Nombre de la asignatura:
Estadística para la Administración I
Carrera: Licenciatura en Administración.
Clave: LAD-1016
Hrs. teoría - Hrs. práctica - Créditos: 2 - 3 - 5
EN EL ESTADO DE CAMPECHE
TEMARIO
U N I D A D 3
U N I D A D 3
Medidas de posición y variación para datos agrupados
y no agrupados
3.1 Media aritmética, Mediana y Moda.
Datos no agrupados
MEDIDAS DE DISPERSIÓN (datos no agrupados)
R = VM – Vm
Donde:
R = rango o recorrido
VM = valor mayor en la muestra
Vm = valor menor en la muestra
Ejemplo:
1. Se han tomado como muestras las mediciones de la resistencia a la tensión de la soldadura usada para unir dos cables,
estas son: 78.5kg, 82.4, 87.3, 78.0, 90.0, 86.5, 77.9, 92.4, 75.9, determine su rango o recorrido.
Solución:
VM = 92.4 kg
Vm = 75.9 kg
R = VM – Vm = 92.4 – 75.9 = 16.5 kg
2. Se toman las mediciones de la cantidad de grasa de la leche en gramos por cada 100 ml de leche que entra a un proceso de
pasteurización, a continuación se enumeran; 14.85, 15.32, 12.76, 16.29, 15.84, 17.3, 17.61, 16.33, determine el rango o
recorrido de la cantidad de grasa de la leche.
Solución:
VM = 17.61
Vm = 12.76
n _
_ xi − x
i =1
d=
n
Donde:
xi = dato i
_
x = media aritmética de la muestra
n = número de datos en la muestra
Ejemplo:
1. Determine la desviación absoluta media de los siguientes datos que son las
concentraciones de plomo de algunas muestras, las que a continuación se
enumeran: 18gr, 12, 21, 19, 16, 20, 22
Solución:
Para determinar la desviación absoluta media o promedio, lo primero que hay que
hacer es calcular la media aritmética de los datos de la muestra, la que es 128/7
=18.286, luego se procede a calcular el promedio de las diferencias absolutas entre
cada dato y la media calculada.
_
0.286 + 6.286 + 2.714 + 0.714 + 2.286 + 1.714 + 3.714 17.714
d= = = 2.5305 gr
7 7
¿Por qué sacar el valor absoluto de las diferencias entre cada dato y la media
aritmética? Si solo se hicieran diferencias entre cada dato y la media aritmética,
estas tendrían signos positivos y negativos ya que algunos datos son menores que la
media y otros son mayores que la media, luego al sumar las diferencias, con sus
signos correspondientes, éstas se irían anulando unas con otras y no sería posible
medir leal grado de alejamiento promedio de los datos en la muestra.
entre cada valor que se tiene en la muestra (xi) y la media aritmética ( x ) de los
datos y se determina de la siguiente manera:
n
_
2
xi − x
S2 =
i =1
n −1
Solución:
Lo primero que hay que calcular es la media aritmética de la muestra como ya se
ha hecho anteriormente.
2 2 2
( 14.2 − 14.86 ) + ( 12.1 − 14.86 ) + .... + ( 14.3 − 14.86 )
s =
2
=
5 −1
Desviación estándar (s). Es la desviación o diferencia promedio que existe entre cada dato de la muestra y la media
aritmética de la muestra. Y se obtiene a partir de la varianza, sacándole raíz cuadrada.
2
s= s
donde:
s2= varianza o variancia
2
s= 4.853mg = 2.2029mg
La interpretación de este resultado sería, que la cantidad de glucosa encontrada en la muestra es en promedio de
14.86 miligramos y que la cantidad de glucosa en la muestra se aleja o dispersa en promedio 2.2029 mg alrededor
de la media.
En este caso solo nos interesa conocer el significado de la desviación estándar, aunque es necesario decir que s es la
desviación de la muestra y que es la desviación de la población, así como s2 es la varianza de la muestra y 2 es la
varianza de la población.
MEDIDA DE ASIMETRÍA
Si las frecuencias descienden más lentamente por la izquierda que por la derecha
diremos que la distribución es asimétrica a la izquierda.
EJEMPLO 1
El número de días necesarios por 10 equipos de trabajadores para terminar 10 instalaciones de iguales
características han sido: 21, 32, 15, 59, 60, 61, 64, 60, 71, y 80 días. Calcular la media, mediana, moda, varianza
y desviación típica.
SOLUCIÓN:
La media: suma de todos los valores de una variable dividida entre el número total de datos de los que se
dispone:
La mediana: es el valor que deja a la mitad de los datos por encima de dicho valor y a la otra mitad por debajo.
Si ordenamos los datos de mayor a menor observamos la secuencia:
Como quiera que en este ejemplo el número de observaciones es par (10 individuos), los dos valores que se
encuentran en el medio son 60 y 60. Si realizamos el cálculo de la media de estos dos valores nos dará a su vez
60, que es el valor de la mediana.
La varianza S2: Es la media de los cuadrados de las diferencias entre cada valor de la variable y la media
aritmética de la distribución.
Sx2=
S = √ 427,61 = 20.67
80 - 15 = 65 días
CV = 20,67/52,3 = 0,39
Coeficiente de variación.
Coeficiente de variación
Exigimos que:
Se calcula:
Hemos visto que las medidas de centralización y dispersión nos dan información sobre una
muestra. Nos podemos preguntar si tiene sentido usar estas magnitudes para comparar dos
poblaciones. Por ejemplo, si nos piden comparar la dispersión de los pesos de las poblaciones
de elefantes de dos circos diferentes, nos dará información útil.
¿Pero qué ocurre si lo que comparamos es la altura de unos elefantes con respecto a su peso?
Tanto la media como la desviación típica, y , se expresan en las mismas unidades que la
variable. Por ejemplo, en la variable altura podemos usar como unidad de longitud el metro
y en la variable peso, el kilogramo. Comparar una desviación (con respecto a la media)
medida en metros con otra en kilogramos no tiene ningún sentido.
El problema no deriva sólo de que una de las medidas sea de longitud y la otra sea de masa.
El mismo problema se plantea si medimos cierta cantidad, por ejemplo la masa, de dos
poblaciones, pero con distintas unidades. Este es el caso en que comparamos el peso en
toneladas de una población de 100 elefantes con el correspondiente en miligramos de una
población de 50 hormigas.
El problema no se resuelve tomando las mismas escalas para ambas poblaciones. Por
ejemplo, se nos puede ocurrir medir a las hormigas con las mismas unidades que los elefantes
(toneladas). Si la ingeniería genética no nos sorprende con alguna barbaridad, lo lógico es
que la dispersión de la variable peso de las hormigas sea prácticamente nula (¡Aunque haya
algunas que sean 1.000 veces mayores que otras!)
Basta dar una rápida mirada a la definición del coeficiente de variación, para ver que las
siguientes consideraciones deben ser tenidas en cuenta:
• Sólo se debe calcular para variables con todos los valores positivos. Todo índice de
variabilidad es esencialmente no negativo. Las observaciones pueden ser positivas o
nulas, pero su variabilidad debe ser siempre positiva. De ahí que sólo debemos
trabajar con variables positivas, para la que tenemos con seguridad que .
• No es invariante ante cambios de origen. Es decir, si a los resultados de una medida
Observación
Es importante destacar que los coefientes de variación sirven para comparar las
variabilidades de dos conjuntos de valores (muestras o poblaciones), mientras que si
deseamos comparar a dos individuos de cada uno de esos conjuntos, es necesario usar los
valores tipificados.
Ejemplo
Dada la distribución de edades (medidas en años) en un colectivo de 100 personas, obtener:
1.
La variable tipificada Z.
2.
Valores de la media y varianza de Z.
3.
Coeficiente de variación de Z.
Horas trabajadas Num. empleados
0 -- 4 47
4 -- 10 32
10 -- 20 17
20 -- 40 4
100
Solución:
A partir de estos valores podremos calcular los valores tipificados para las marcas de clase
de cada intervalo y construir su distribución de frecuencias:
zi ni zi ni zi2 ni
-0,745 47 -35,015 26,086
0,011 32 0,352 0,004
1,220 17 20,720 25,303
3,486 4 13,944 48,609
n=100 0,021 100,002
A pesar de que no se debe calcular el coeficiente de variación sobre variables que presenten
valores negativos (y Z los presenta), lo calculamos con objeto de ilustrar el porqué:
Las dos siguientes medidas utilizan dos parámetros que ya nos son familiares: el rango y la
desviación; con el primero trabajamos en la construcción de intervalos de clase y con el
segundo en la construcción de la varianza y de la desviación absoluta media.
Muestra 1: 0, 45, 50, 55, 100 (la media para este conjunto de datos la media y mediana
es igual a 50)
Muestra 2: 47, 49.5, 50, 51.5, 52 (la media para este conjunto de datos la media y mediana
es igual a 50)
Coeficiente de variación.
Una de las medidas suficientemente útil es la obtención del coeficiente de variación, el cual
se define como el cociente entre la desviación estándar y la media aritmética, mostrando para
bajos valores una alta concentración de los datos. En el caso en que la media es igual a cero
esta medida no esta definida, por lo que se recurre a cualquiera de las anteriores. Su
expresión es dada por
Sx
C.V =
x
x y Sx
donde son la media y la desviación estándar, respectivamente, para una misma
población.
En ocasiones se suele presentar la información mediante el por ciento, sobre todo al momento
de comparar dos muestras, por lo que el coeficiente suele presentarse como:
Sx
C.V = 100
x
Su utilidad radica en que podemos determinar que tanta variabilidad existe entre dos muestra
en las que inclusive la información no tienen las mismas unidades o se trata de datos
diferentes. En el siguiente ejemplo se muestra la utilidad del coeficiente de variación
Ejemplo.
Dos profesores que imparten diferentes materias a un mismo grupo deciden investigar como
es el coeficiente de variación de en una y otra materia, para lo cual se obtiene la media y la
desviación estándar respectivamente, por lo que:
1.2
C.V = = 0.190
6.3
Resultados de la materia B: x = 8; SA = 3
3
C.V = = 0.375
8
por lo que se concluye que aunque las calificaciones en promedio son igual a 8 las
calificaciones son mucho mas dispersas ya que el coeficiente de variación es mayor para la
segunda muestra.
Como podremos analizar más adelante uno de los teoremas fundamentales de la estadística
nos lleva a la siguiente proposición y por consiguiente a los conceptos de cuasivarianza y
cuasidesviación.
por N ( N − 1) mediciones nos conduce a un resultado con menor error. A dicha medición
se le conoce como cuasivarianza.
Cuasivarianza
N
S N2 −1 = S2
N −1
Cuasidesviación
N
S N −1 = S
N −1
Es importante comentar que para valores grandes de N, para N>30, no existe gran diferencia.
Datos agrupados
b. Establecer el número de clases (k) en que se van a agrupar los datos tomando
como base para esto la siguiente tabla.
El uso de esta tabla es uno de los criterios que se puede tomar en cuenta para
establecer el número de clases en las que se van a agrupar los datos, existen otros
para hacerlo.
c. Determinar la amplitud de clase para agrupar (C).
Rango
C=
k
Ejemplo:
Los siguientes datos se refieren al diámetro en pulgadas de un engrane.
a) Agrupando datos;
Para formar la primera clase se toma un valor un poco menor que el valor menor
encontrado en la muestra; luego,
LI LS Frecuencia Marca de Límite real Límite real Frecuencia Frecuencia
clase inferior superior relativa Relativa
acumulada
5.97 – 6.18 2 6.075 5.965 6.185 2/40 = 0.05 0.05
6.19 – 6.40 5 6.295 6.185 6.405 5/40=0.125 0.175
6.41 – 6.62 7 6.515 6.405 6.625 0.175 0.350
6.63 – 6.84 13 6.735 6.625 6.845 0.325 0.675
6.85 – 7.06 7 6.955 6.845 7.065 0.175 0.850
7.07 – 7.28 6 7.175 7.065 7.285 0.15 1.000
Total 40 1.000
b) Gráficas:
HISTOGRAMA
16 13
FRECUENCIA
5.965 - 6.185
11
7 7 6 6.185 - 6.405
5
6 6.405 - 6.625
2
6.625 - 6.845
1
6.845 - 7.065
-4 7.065 - 7.285
LIMITES REALES
POLIGONO DE FRECUENCIA
16
14
FRECUENCIA
12
10
8
6
4
2
0
5.635 5.855 6.075 6.295 6.515 6.735 6.955 7.175 7.395 7.615
MARCA DE CLASE
OJIVA "MENOR QUE" O CRECIENTE
1 1
FRECUENCIA RELATIVA
0. 85
0.8
ACUMULADA
0. 675
0.6
0.4
0. 35
0.2 0. 1 75
0. 05
0 0
LIMITES REALES
DISTRIBUCION DE PROBABILIDAD
0.4
PROBABILIDAD
0.325
5.965 - 6.185
0.3
6.185 - 6.405
0.175 0.175
0.2 0.15 6.405 - 6.625
0.125
a) Media ( x ).
− x * f i i
( 6.075 )( 2 ) + ( 6.295 )( 5 ) + ... + ( 7.175 )( 6 ) 12.15 + 31.475 + ... + 43.05
x= i =1
= = =
n 40 40
268.52
= = 6.713 pu lg adas
40
Donde:
k = número de clases
xi = marca de clase i
fi = frecuencia de la clase i
k
f
i =1
i =
n= número de datos en la muestra
b) Mediana (Xmed).
n / 2 − Fme − 1 40 / 2 − 14
Xmed = Li + A = 6.625 + ( 0.22 ) = 6.7265
fme 13
Donde:
Li = límite real inferior de la clase que contiene a la mediana
Fme-1 = sumatoria de las frecuencias anteriores a la clase en donde se encuentra la
mediana
fme = frecuencia de la clase en donde se encuentra la mediana
A = amplitud real de la clase en donde se encuentra la mediana
A = LRS-LRI
LRS = límite real superior de la clase que contiene a la mediana
LRI = límite real inferior de la clase que contiene a la mediana
N = número de datos en la muestra
f) Moda (Xmod).
d1 6
X mod = Li + A = 6.625 + 6 + 6 ( 0.22 ) = 6.735 pu lg adas
d1 + d 2
Donde:
Li = límite real inferior de la clase que contiene a la moda
fmo − fmo − 1 13 − 7 = 6
d1 = =
fmo − fmo + 1 13 − 7 = 6
d2 = =
fmo = frecuencia de la clase que contiene a la moda
fmo-1= frecuencia de la clase anterior a la que contiene a la moda
fmo+1= frecuencia de la clase posterior a la que contiene a la moda
A = amplitud real de la clase que contiene a la moda
A = LRS – LRI
LRS = límite real superior de la clase que contiene a la moda
LRI = límite real inferior de la clase que contiene a la moda
Donde:
xi = marca de clase i
_
x = media aritmética
fi = frecuencia de la clase i
k
1. ASIMETRÍA
Esta medida nos permite identificar si los datos se distribuyen de forma
uniforme alrededor del punto central (Media aritmética). La asimetría presenta
tres estados diferentes, cada uno de los cuales define de forma concisa como
están distribuidos los datos respecto al eje de asimetría. Se dice que la
asimetría es positiva cuando la mayoría de los datos se encuentran por
encima del valor de la media aritmética, la curva es Simétrica cuando se
distribuyen aproximadamente la misma cantidad de valores en ambos lados
de la media y se conoce como asimetría negativa cuando la mayor cantidad
de datos se aglomeran en los valores menores que la media.
Desde luego entre mayor sea el número (Positivo o Negativo), mayor será la
distancia que separa la aglomeración de los valores con respecto a la media.
2. CURTOSIS
Esta medida determina el grado de concentración que presentan los valores
en la región central de la distribución. Por medio del Coeficiente de Curtosis,
podemos identificar si existe una gran concentración de valores
(Leptocúrtica), una concentración normal (Mesocúrtica) ó una baja
concentración (Platicúrtica).
Para calcular el coeficiente de Curtosis se utiliza la ecuación:
Donde (g2) representa el coeficiente de Curtosis, (Xi) cada uno de los valores,
( ) la media de la muestra y (ni) la frecuencia de cada valor. Los resultados
de esta fórmula se interpretan:
Las definiciones plasmadas en este capítulo han sido extraídas de los libros
Estadística para administradores escrito por Alan Wester de la editorial
McGraw-Hill y el libro Estadística y Muestreo escrito por Ciro Martínez
editorial Ecoe editores (Octava edición). No necesariamente tienes que
guiarte por estos libros ya que en las librerías encontraras una gran variedad
de textos que pueden ser de bastante utilidad en la introducción a esta
ciencia.