ESTADÍSTICA SUMARIA
Tendencia central
Se refiere al punto medio de una distribución. Las medidas de tendencia central
se conocen también como medidas de disposición. En la siguiente figura la
posición central de la curva B está a la derecha de la disposición central de la
curva A y C; observe que la posición central de la curva A es la misma que la de
la curva C.
Dispersión
Se refiere a la extensión de los datos en una distribución, es decir, el grado en
que las observaciones se distribuyen. Note que la curva A de la Fig. 3.2 tiene
una mayor extensión o dispersión que la curva B.
1
Sesgo
Las curvas A y B de la Fig. 3.4 son curvas sesgadas. Están sesgadas porque
los valores de su distribución de frecuencias están concentrados en el extremo
inferior o superior de la escala de medición del eje horizontal. Los valores no
están igualmente distribuidos. La curva A tiene sesgo derecho o positivo. La
curva B tiene un sesgo izquierdo o negativo.
2
Figura 3.4 Comparación de dos curvas sesgadas
Curtosis
Cuando medimos la curtosis de una distribución, estamos midiendo la agudeza
en grados, o su grado de agudez.
En la Fig. 3.5, por ejemplo, las curvas difieren entre sí solamente en que una
tiene un pico más agudo que la otra. Tienen la misma posición, la misma
dispersión y ambas son simétricas.
Figura 3.5 Dos curvas con la misma posición central pero diferente curtosis.
3
PRIMERA MEDIDA DE TENDENCIA CENTRAL: LA MEDIA
ARITMÉTICA
Generador 11 2 3 4 5 6 7 8 9 10
Días fuera de servicio 7 7 23 4 8 2 12 6 13 9 4
SÍMBOLOS CONVENCIONALES
4
CÁLCULO DE LA MEDIA A PARTIR DE DATOS NO AGRUPADOS
µ = x ( 3.1 )
N
Número de elementos de
la población
Pero en nuestro ejemplo de generadores esos diez son una fracción del
banco total de 30 generadores, entonces estamos hablando de:
¯X = x ( 3.2)
n
Número de elementos de
de la muestra
5
Tabla 3.2 Aumento percentil en resultados de examen de admisión
Estudiante 1 2 3 4 5 6 7
Aumento 9 7 7 6 4 4 2
6
primera clase: 24.995, se convierte en 25.00 después multiplicamos cada punto
medio por la frecuencia de las observaciones de dicha clase, sumamos todos
los resultados y dividimos esta suma entre el número total de las observaciones
de la muestra. La fórmula es la siguiente:
¯X = (ƒ x) ( 3-3)
N
En la cual:
¯X = Media de la muestra
= Símbolo que significa “la suma de”
ƒ = Frecuencia (número de observaciones) de cada clase
x = Punto medio de cada clase de la muestra
n = Número de observaciones de la muestra
7
Clase Punto medio Frecuencia ƒxx
(1) (x) (f) [(3) (2)] = 4
(2) (3) (4)
¯X = (ƒ x x)
n
= 85,350
600
= 142.25
Nota: Aquí variará un poco el estilo de trabajo; como pueden notar, la tabla
siguiente cuenta con varias columnas, de las cuales, algunas contienen datos y
otras hay que obtener el cálculo de esos datos por lo cual están en blanco.
Cada columna con su nombre y por debajo de ella una serie de números, los
cuales son la fórmula de obtención pero dichos números son el número de las
columnas, hay que multiplicarlo, sumarlo o restarlo según sea el caso y no es
por ejemplo en el caso anterior [(3) (2)] = 4, ya que: (3)(2)= 6, ESTO
SIGNIFICA QUE: La columna 3 la vamos a multiplicar con la 2 y el resultado
será la columna 4. La literal que está entre paréntesis es su símbolo para
obtención del cálculo en la fórmula.
En nuestro ejemplo anterior vemos que los puntos medios van siendo
acumulativos clase por clase, por los rangos de cada una de las clases. Si no lo
hiciéramos así no obtendríamos nuestra media muestral de 142.25. Esta es
nuestra aproximación hecha a partir de la distribución de frecuencias. Observa
que debido a que no conocemos cada uno de los puntos de datos de la
muestra, suponemos que todos los valores que están en una clase son iguales
a su punto medio. Nuestros resultados, entonces, sólo pueden ser una
aproximación del promedio real del saldo mensual.
CODIFICACIÒN
8
En aquella situación en donde no se cuente con una máquina
calculadora y tengamos que realizar operaciones manualmente podemos
simplificar mucho el trabajo si hacemos uso de una técnica a la que se conoce
como “codificación”; con dicha técnica podemos eliminar el problema de tener
puntos medios muy grandes e inadecuados. En lugar de utilizar los puntos
medios reales para llevar a efecto nuestros cálculos, se asignan valores
enteros consecutivos de valor pequeño, conocidos como códigos a cada uno
de los puntos medios. El entero cero puede ser asignado a cualquier punto
medio, pero para que nuestros enteros sean pequeños, asignaremos el entero
cero al punto medio de la parte media de la distribución o la parte más cercana
a ésta. Entonces podemos asignar enteros negativos a los valores menores a
dicho punto medio y enteros positivos a valores más grandes de la siguiente
manera:
(uxf) ( 3-4)
¯X = X 0 + W n
Donde:
¯X = Media de la muestra
X 0 = Valor del punto medio al que se le asignó el código cero
W = Ancho numérico del intervalo de clase
u = Código asignado a cada punto medio de clase
f = Frecuencia o número de observaciones de cada clase
n = Número total de observaciones de la muestra
Veamos un ejercicio para aplicación de nuestra formula anterior. En la
siguiente tabla se ilustra cómo codificar los puntos medios y encontrar la
media de la muestra de la caída pluvial anual en el estado de Zacatecas:
9
Clase Punto medio Código frecuencia uxf
(1) (x) (u) (f) [(3) (4)] = 5
(2) (3) (4) (5)
0- 7 3.5 -2 x 2 = -4
8 – 15 11.5 -1 x 6 = -6
16 - 23 19.5 X 0 0 x 3 = 0
24 – 31 27.5 1 x 5 = 5
32 – 39 35.5 2 x 2 = 4
40 – 47 43.5 3 x 2 = 6
20 5
( u x f ) ( 3-4)
¯X = X 0 + W n
LA MEDIA PESADA
10
por unidad producida
Nivel de Salario por hora Producto 1 Producto 2
trabajo (x)
No calificado $ 5.00 1 4
Semi 7.00 2 3
calificado
Calificado 9.00 5 3
8 10
¯X = x
n
¯X = 5 + 7 + 9 = 21 = $7.00
3 3
11
Pero esto no es lo más sano…
Estos promedios pesados nos dan el valor correcto para los costos
promedio por hora de trabajo para los dos productos, ya que toma en cuenta
las diferentes cantidades de cada nivel de trabajo que se utilizan en la
elaboración de los productos. Para calcular la media pesada deberemos de
utilizar la siguiente fórmula:
¯Xw = (w x x) (3.5)
w
Donde:
12
Producto 1: ¯Xw = ( 1/8 x 5) + (2/8 x 7) + (5/8 x 9)
1/8 + 2/8 + 5/8
13
del año
1 7% 1.07 107.00
2 8 % 1.08 115.56
3 10 % 1.10 127.12
4 12 % 1.12 142.37
5 18 % 1.18 168.00
1 + tasa de interés
100
MG = n
producto de todos los valores de x
14
= 5
1.07 x 1.08 x 1.10 x 1.12 x 1.18
= 5
1.679965 = 1.1093 ≈ 10.93%
En 1994 con una economía con altas tasas de inflación, los bancos
pagaron altas tasas de intereses para captar ahorradores. Supón que en un
periodo de 5 años en régimen económico que se estaba viviendo con un
increíble alto índice de inflación, los bancos pagaban tasas de interés anual del
100, 200, 250, 300, 400 y 500% que corresponden a un factor de crecimiento
de 2, 3, 3.5, 4 y 5. Entonces un depósito inicial de $100 en cinco años crecerá:
(2 + 3 + 3.5 + 4 + 5 / 5) = 3.5
MG = n
producto de todos los valores de x
= 5
2 x 3 x 3.5 x 4 x 5
15
= 420
5
= 3.347 Factor de crecimiento promedio
16
2
Donde: n = número de elementos del arreglo
Mediana = 7 + 1 = 4
2
Elemento del
Arreglo de datos 1 2 3 4 5 6 7
Mediana
17
Elemento del
Arreglo de datos 1 2 3 4 5 6 7 8
Número de pacientes 86 52 49 43 35 31 30 11
Mediana de 39
Mediana = 8 + 1 = 4.5
2
Muy a menudo tenemos acceso a los datos después que han sido
agrupados en una distribución de frecuencia. Por ejemplo, aquí no conocemos
cada observación que nos llevó a la construcción de la tabla 3.12, la cual
representa el saldo mensual bancario de 600 clientes. En este caso tenemos
10 intervalos de clase y un registro de frecuencia con las cuales las
observaciones aparecen en cada uno de los intervalos.
Tabla 3.12
18
Clase en pesos frecuencia Frecuencia
acumulada
00.00 – 49.99 78 78
50.00 – 99.99 123 201 Para
llevar a 100.00 – 149-99 187 388 cabo
esto 150.00 – 199.99 82 470
200.00 – 249.99 51 521
250.00 – 299.99 47 568
300.00 – 349.99 13 581
350.00 – 399.99 9 590
400.00 – 449.99 6 596
450.00 – 499.99 4 600
600
debemos sumar las frecuencias que aparecen en la respectiva columna de la
tabla anterior hasta que alcancemos el elemento número ( n + 1 ) / 2. Como
tenemos 600 cuentas el valor para ( n + 1 ) / 2 es 300.5 que es el promedio de
los elementos número 300 y 301.
19
1° Elemento de la clase
siguiente 1° Elemento de la
clase mediana
20
m = ( n+1 ) / 2 – ( F + 1 ) W + Lm ( 3- 8)
fm
En donde:
m = Mediana de la muestra.
n = Número total de elementos de la distribución
F = Suma de todas las frecuencias de clase hasta, pero sin incluir, la clase
mediana
fm = Frecuencia de la clase mediana
W = Ancho del intervalo de clase
Lm = Limite inferior del intervalo de clase mediano
m = ( n+1 ) / 2 – ( F + 1 ) W + Lm ( 3- 8)
fm
21
LA MEDIDA FINAL DE TENDENCIA CENTRAL: LA MODA
Tabla 3.13
0 2 5 7 15
0 2 5 7 15 Moda
1 4 6 8 15
1 4 6 12 19
Clase Modal
22
Cuando los datos ya se encuentran agrupados en una distribución de
frecuencias, podemos suponer que la moda está localizada en la clase que
contiene el mayor número de elementos, es decir la clase que tiene mayor
frecuencia. Para determinar un solo valor de esta moda partiendo de la clase
modal, utilizaremos la siguiente ecuación:
Mo = Lmo + d1 . W
d1 + d 2 (3-9)
En donde:
Mo = Moda
Lmo = Limite inferior de la clase modal
d1= Frecuencia de la clase modal menos la frecuencia de la clase que se
encuentra inmediatamente por debajo de ella
d2= Frecuencia de la clase modal menos la frecuencia de la clase que se
encuentra inmediatamente por encima de ella
W= Ancho del intervalo de clases
Mo = Lmo + d1 . W
d1 + d 2
Mo = $100 + 64 . $ 50 = 64 + 105
24
Dos medidas son también importantes dentro del estudio de la
estadística: la Varianza y la Desviación Estándar, ambas nos dan una distancia
promedio de cualquier observación de un conjunto de datos con respecto a la
media de distribución.
Varianza de la Población
σ² = (x - µ)² = x² - µ² (3-12)
N N
En donde:
σ ² = varianza de población
x = elemento u observación
µ = media de población
N = número total de elementos de la población
= suma de todos los valores (x - µ)² o valor de todas la x 2
25
Desviación estándar de la población
En donde:
σ ² = Varianza de la población
σ = Desviación estándar de la población
= Suma de todos los valores ( x - µ ) 2 o todos los valores de x2
µ = Media de la población
N = Número total de elementos de la población
x = Observaciones
Tabla 3.18
26
desviación estándar de cada valor con respecto a la media (columna 3);el
cuadrado de la desviación de cada valor con respecto a la media (columna 4 )
y por último la suma de cuadrado de las desviaciones. Teniendo todo esto
podemos ya calcular la varianza e inmediatamente después extraerle la raíz de
esa varianza y poder obtener el cálculo de la desviación estándar, las cuales
serán: de varianza 0.0034 % al cuadrado, y desviación estándar de 0.058%,
comprobarlo, para ello veamos el ejemplo que manejamos en la siguiente tabla.
27
σ = √ σ² = √ 0.0034 = 0.058% (3.13)
28
3.- Aproximadamente el 99% de los valores estarán en el intervalo que
va desde 3 desviaciones estándar por debajo de la media hasta 3
desviaciones estándar por arriba de la media de distribución.
Teorema de Chebyshev:
K = 2 / 0.6 = 3.33, entonces tenemos que K = 3.33 por lo tanto diremos que:
29
En el caso del ejemplo anterior obtuvimos el 91% entre 498 y 502 hojas,
pero podría haber un porcentaje mayor dentro de estos límites, todo esto se
puede graficar en distribución de frecuencias, muy comunes en la curva normal
en forma de campana donde obtenemos más información sobre la variabilidad
de los datos.
0.282 = 0.58K = 4
La desviación estándar es también útil para describir qué tan lejos las
desviaciones individuales de una distribución se apartan de la media de
distribución. Una medida que se conoce como resultado estándar, nos da el
número de observaciones estándar que una observación en particular ocupa
por debajo o por encima de la media. Si hacemos que X simbolice la
observación, entonces el resultado estándar calculado a partir de los datos de
la población es:
En donde:
30
Para hacer uso de nuestra fórmula anterior veamos el siguiente ejemplo:
Aplicamos la fórmula:
(x - µ) = (3.14)
σ
31
800 – 899 7
900 –999 8
1000 – 1099 10
1100 – 1199 12
1200 – 1299 17
1300 – 1399 13
1400 – 1499 10
1500 – 1599 9
1600 – 1699 7
1700 – 1799 2
1800 – 1899 1
(3-16)
σ= σ² = ƒ (x - µ)² = ƒ x² - µ²
N N
En donde:
σ² = Varianza de población
σ = Desviación estándar de población
ƒ = Frecuencia de cada una de las clases
x = Punto medio de cada clase
µ = Media de población
N = Tamaño de la población
32
Tabla 3.20 Determinación de la varianza y la desviación estándar de la
venta de 100 restaurantes de comida rápida (datos agrupados en clases x
1000)
33
Ahora ya estamos listos para calcular la Estadística de muestra análoga
a la varianza de población ( σ2 ) y a la desviación estándar de la población (σ).
Se trata de la Varianza de la muestra la cual se representa (S2) y la Desviación
Estándar de la muestra (S). Como podemos observar, hemos cambiado la
notación de letras griegas (que denotan parámetros de población) a literales
latinas que corresponden a la estadística de muestra.
S2 = ( x – ¯x ) 2 = x 2 - n¯x 2 ( 3 – 17 )
n–1 n -1 n -1
S= S2 = ( x – ¯x ) 2 = x 2 - n¯x 2 ( 3 – 18 )
n -1 n -1 n -1
En donde:
S2 = Varianza de la muestra
S = Desviación estándar de la muestra
X = Valor de cada una de las n observaciones
¯x = Media de la muestra
n – 1= Número de observaciones de la muestra menos 1
Tabla 3.21
34
3
(1) (2) (3) (4) (5)
S2 = ( x – ¯x ) 2
n -1
S= S2 = ( x – ¯x ) 2 = x 2 - n¯x 2
n -1 n -1 n -1
En donde:
36