Está en la página 1de 87

ESTADÍSTICA

MODULO 4

Descripción de datos

Preparado por: Ing. Gilda A. Espinosa P.


Revisando el conceptos…..

 Un conjunto de datos no agrupados se convierten en


un conjunto de datos agrupados cuando éstos son
organizados en una distribución de frecuencias de
clase.

• Parámetro: Características de una población


• Estadístico de prueba: medida resumen de la
característica de una muestra.
Estadísticos de forma intuitiva
Descripción de datos
 Medidas de Posición  Medidas de Dispersión
(Tendencia central)  Rango
 Media aritmética  Varianza
(poblacional y muestral)  Desviación estándar
 Rango medio • De población y de muestra
 Media Ponderada  Coeficiente de variación
 Mediana • Poblacional y muestral
 Moda

 Medidas de forma
 Curtosis
 Simetría
 Medidas de Posición (promedios): Señala en centro
de un conjunto de valores. También se le conoce como
Medidas de tendencia central o de ubicación.
Las medidas de posición facilitan información sobre la
serie de datos que se está analizando. Estas medidas
permiten conocer diversas características de una serie
de datos.

 Medidas de Dispersión: Variación o propagación de


datos. También llamadas variabilidad.

 Medidas de Forma: Permiten conocer que forma tiene


la curva que representa la serie de datos de la muestra.
Medidas de Posición o de Tendencia Central
Media aritmética (promedio)

Es el valor medio de la serie de datos. Es la mejor


medida de tendencia central y su cálculo tiene como
propósito obtener un valor al cual tienden a agruparse
o resumirse los datos en promedio.

Se pueden calcular diversos tipos de media: media


ponderada y geométrica.

• Media poblacional
• Media de una muestra
• Media aritmética (Poblacional)

Suma de todos los valores observados en la población


Número de valores en la población

es decir;

Donde:
representa la media poblacional
N es el número de valores de la población
Xi representa cualquier valor particular
∑ Xi es la suma de Xi valores en la población
• Media aritmética (Muestra /muestral)

Para un conjunto de datos x1 ………xn, de una


muestra, en su forma no agrupada, la media aritmética
se obtiene sumando todas las observaciones del
conjunto de datos y se divide por el número total de
observaciones de la muestra :

x i
x i 1
( Muestra )
n
Propiedades de la Media Aritmética
• Es el promedio de los valores de una variable.
• Es la suma de los valores dividido por el tamaño muestral
o poblacional.
• Es el centro de gravedad de un conjunto de datos.
• Muy sensible a valores extremos.
• Conveniente cuando los datos se concentran
simétricamente con respecto a ese valor.
• La suma de las desviaciones de cada valor de la media es
cero.
 (X  X)  0
ESTADÍSTICAS POBLACIÓN MUESTRA
DESCRIPTIVAS
MEDIA ARITMÉTICA
Ejemplos #1

Los ingresos (en miles de dólares) diarios de un


establecimiento se presentan a continuación:
2.0, 2.5, 3.2, 3.1, 4.0, 1.8

Se desea conocer los ingresos promedios diarios que tuvo


el establecimiento.
 Aplicando la fórmula dada:
Ecuaciones para el cálculo de la Media
para Datos Agrupados

 Para un conjunto de datos de una Población o


Muestra que se agrupa en una distribución de
frecuencias
Tabla de Distribución de Frecuencias
D
a CLASES MC (Xi) fi (Xi)(fi)
t 1 X1 f1 (X1)(f1)
o 2 X2 f2 (X2)(f2)
s 3 X3 f3 (X3)(f3)
4 X4 f4 (X4)(f4)
A . . . .
g . . . .
r
. . . .
u
. . . .
p
. . . .
a
m Xm fm (Xm)(fm)
d
m m
o
s
TOTALES  fi 
i 1
X i fi
i 1
m

X i fi
Para la Población  i 1
m

i 1
fi

X i fi
Para la Muestra X  i 1
m

 i 1
fi

Nota: El cálculo es el mismo, solo cambia la simbología utilizada


La media Aritmética para datos agrupados se calcula
por la expresión:

 ( f i MC )

x n
Donde:

x designa la media muestral


MC es el punto medio de cada clase
f es la frecuencia de cada clase
fM es la frecuencia de cada clase multiplicada por el punto medio de la clase
 fM es la suma de estos productos
n es el número total de frecuencias

Ver ejemplo en la pág.. 89 del libro de Lind


Ejemplo # 2 (Pág. 46 del libro de Herrera, Daly y Cardoze)

• Un analista de tiempos y movimientos ha concentrado su


atención en una operación de un operario en la línea de
montaje. Los siguientes datos representan el tiempo de dicha
operación en segundos.
1000 1100 1010 1070 1030 1000 1150 990 1090
1080 1150 1200 1050 1030 1120 1050 1030 1150
1230 1170 1180 1110 1160 1100 1100 1060 1130
1105 935 1210.

Caso1. Cálculo para valores individuales (No Agrupados)

1000 + 1100 + 1010 + 1070 + 1030 + 1000 + 1150 + 990 + …..+ 1210
X=
30

X = 1093.3 segundos
Caso 2. Cálculo para valores agrupados Media de datos
agrupados: según
Tabla de Resumen la formula
Tiempo para ejecutar las operaciones de
ensamblado
Marcas de  (f i MC)

Tiempo en Clases - MC
segundos (Punto
Frecuencia fi
(N° de
fi * MC
x n
operaciones)
Medio- xi)
930 -980 955 1 955 32650
980 - 1030 1005 7 7035 X=
1055 5 5275 30
1030 -1080
1080 -1130 1105 8 8840
1130 -1180 1155 6 6930
X = 1088.3
1180 -1230 1205 3 3615
Total ∑ fi = 30 32650

Media de datos agrupados: 1088.3 segundos


Rango Medio
• El Rango Medio de un conjunto de valores numéricos
X = { x1, ….., xn} es la media del menor y mayor valor.

Ejemplo:
Para el conjunto de valores del ejemplo anterior (2.0, 2.5,
3.2, 3.1, 4.0, 1.8); el Rango Medio seria:

1.8 + 4.0 = 2.9


Rango Medio=
2
Media Ponderada
Constituye un caso especial de la media aritmética, se
presenta cuando hay varias observaciones con el mismo valor.
Formula: Para una serie de datos
X = { x1, x2, ..., xn}

a la que corresponden los pesos


W = { w1, w2, ..., wn}

xw  ( xw )
w
Donde w es el peso asignado (ponderación) a cada observación
Ejemplo:
• Suponga que Wendy´s Restaurant, vende refrescos
medianos, grandes y gigantes a $0.90; $1.25, $1.50. De
las 10 ultimas bebidas que vendieron 3 eran medianas, 4
grandes y 3 gigantes.
Para determinar el precio promedio de las ultimas 10
bebidas vendidas utilizamos la siguiente fórmula:

xw  ( xw )
w Suma de las Ponderaciones (10)

w =
3 ($0.90)+ 4($1.25) + 3($1.50)
10
w = $1.22

Variable de estudio: Precio de las ultimas 10 bebidas


Mediana

Punto medio de los valores una vez que se han


ordenado de menor a mayor o de mayor a menor.

Es el valor del elemento central, cuando los datos están


dispuestos en orden ascendente o descendente.

Es el valor de la serie de datos ordenados que se sitúa


justamente en el centro de la muestra (un 50% de
valores son inferiores y otro 50% son superiores)
Cálculo de la Mediana

Para Datos No agrupados

• Con un número impar de observaciones:


. Se ordenan las observaciones por orden de magnitud
. Se ubica la observación que está en el medio del
conjunto de datos.

• Con un número par de observaciones:


. Se ordenan las observaciones por magnitud.
. Se calcula el promedio de las dos observaciones
centrales.
Mediana
Ejemplo:
Ejemplo:
Suponga le informan que el precio típico de los apartamentos disponibles
en un cierta área es de $110,000. Si usted ha fijado un presupuesto de $
75,000, podría comprarlo?. Sin embargo, si verificáramos los precios de
las unidades individuales, esto podría hacerle cambiar de idea?. Los
costos son: $65,000.00, $70,000.00, $80,000.00 y $275000 (penthouse).

Precios ordenados de Precios ordenados


menor a mayor de mayor a menor

$ 60,000 $ 275,000
65,000 80,000
70,000 Mediana 70,000
80,000 65,000
275,000 60,000
Ejemplo pág. 64 del Libro de Lind, Marchal, Wathen
Cálculo de la Mediana

Para Datos Agrupados


• Se ubica hasta que intervalo hay 50% de las
observaciones.
• Se aplica la fórmula con los datos de la distribución de
frecuencias.

 Es conveniente cuando los datos son asimétricos.


 No presentan el problema de estar influido por los valores
extremos, pero en cambio no utiliza en su cálculo toda la
información de la serie de datos (no pondera cada valor
por el número de veces que se ha repetido).
Cálculo de la Mediana de un
Conjunto de Datos Agrupados

 n / 2  f acum uladaanterior 
Me  LRI     cr
 fme 
LRI: límite real inferior de la clase mediana
n: frecuencia total
f
: acumuladaanterior frecuencia acumulada anterior al intervalo
donde esta localizada la mediana
fme frecuencia del intervalo donde está localizada la mediana

cr: ancho real del intervalo


Moda
Es el valor de la observación que ocurre con mayor
frecuencia en un conjunto de datos.

Es el (los) valor (es) donde la distribución de frecuencia


alcanza un máximo.

Para Datos No agrupados Para Datos Agrupados


• Es el valor que se repite • Se ubica el intervalo
con mayor frecuencia con la frecuencia mayor

• Si hay dos valores que se • Se aplica la fórmula


repiten con mayor correspondiente para
frecuencia entonces existen encontrar la moda.
dos modas.
Moda
Ejemplo: Una encuesta de mercado determinó que la mayoría de
los encuestados se inclinó por el aceite de baño Lamoure; por
consiguiente Lamoure representa la Moda.

Moda Ejemplo pág. 66 del Libro de Lind, Marchal, Wathen


Relación entre media, mediana y moda

Se pueden estudiar las siguientes características de la


curva en una distribución de datos:

Simetría: mide si la curva tiene una forma simétrica, es


decir, si respecto al centro de la misma (centro de
simetría) los segmentos de curva que quedan a derecha
e izquierda son similares.

Concentración: mide si los valores de la variable están


más o menos uniformemente repartidos a lo largo de la
muestra.
Relación entre media, mediana y moda
En cualquier distribución donde la moda, la mediana y la
media son iguales, existe una Distribución Simétrica.

Simetría

Frecuencia
La distribución
puede ser
simétrica cuando
los valores
pequeños y
grandes se
equilibran entre si. Años

Media = 27.5
Moda = 27.5
Mediana = 27.5
Media < mediana asimétrica negativa o sesgo negativo
• La mayoría de los valores están en la parte inferior de la
distribución. La distorsión hacia la izquierda es provocada por
algunos valores muy pequeños.

Media > mediana asimétrica positiva o sesgo derecho


• La mayoría de los valores están en la parte superior de la
distribución. La distorsión hacia la derecha es provocada por
algunos valores muy grandes.

$2600 $3000 $300 $700


$2800 $500
¿Cuál medida de tendencia central se debe utilizar?

• En una distribución simétrica las tres medidas coinciden,


por lo cual se puede utilizar cualquiera.
• La media aritmética debe utilizarse cuando el conjunto de
datos es homogéneo.
• Cuando los datos no son homogéneos se debe utilizar la
mediana, ya que esta no es sensible a los valores
extremos, y además no se ve altamente influida por la
frecuencia de aparición de un solo valor.
• Cuando la población está sesgada ya sea positiva o
negativamente la mediana resulta ser la mejor medida de
posición.
• La moda se utiliza más que todo para datos categóricos.
Medidas de Dispersión o de
Variabilidad
Se refiere a la extensión de los datos de una distribución, es
decir el grado en que las observaciones se distribuyen.

• Rango
• Varianza
• Desviación Típica o estándar
•Coeficiente de Variación
Importancia de la Dispersión

 Proporciona información adicional que permite juzgar la


confiabilidad de la medida de tendencia central. Si los
datos se encuentran ampliamente dispersos, la posición
central es menos representativa de los datos.

 Quizá se desee comparar la propagación en dos o más


distribuciones o en diferentes muestras. Si no se desea
tener una amplia dispersión de valores con respecto al
centro de distribución o esto presenta riesgos
inaceptables, es necesario reconocerlo y evitar escoger
distribuciones que tengan las dispersiones más
grandes.
Medidas de Dispersión
Rango
• Mide la amplitud de los valores de la población o de una
muestra.
• Representa la diferencia entre el valor máximo y el valor
mínimo de un conjunto de datos

R  Vmáximo  Vmínimo
Datos no
agrupados

R  LRSloultimo int ervalo  LRI primer int ervalo


Datos
agrupados
Ejemplo # 1:

• Diez adultos jóvenes que viven en California, elegidos al


azar, calificaron el sabor de una nueva pizza de sushi con
atún, arroz y kelp, en una escala de 1 a 50, en la que 1
indica que no les gusta el sabor y 50 que si les gusta. Las
calificaciones fueron las siguientes:

34 39 40 46 33 31 34 14 15 45

14 15 31 33 34 34 39 40 45 46

R= 46 -14
R = 32
Varianza

• Es la media aritmética de las desviaciones de la


media elevadas al cuadrado; es decir es la
dispersión de los datos alrededor de la media.
• Es un indicador de la variabilidad expresado en
unidades cuadradas.
• Mide la distancia existente entre los valores de la
serie y la media.
• Se calcula como la sumatoria de las diferencias al
cuadrado entre cada valor y la media, multiplicadas
por el número de veces que se ha repetido cada
valor.
Calculo de Varianza para Datos No Agrupados
N
2
 ( X  )

i

2 i 1
Población
N

 (X i  X) 2

 i 1
2
Muestra
Factor de corrección de Bessel para
S n 1
muestras menores a 30

Nota: Para muestras mayores o iguales a 30 observaciones no se aplica el


factor de corrección, se utiliza el total de n.
Desviación Típica o Estándar

La desviación estándar es una medida absoluta de la


dispersión que expresa la variación en las mismas
unidades que los datos originales.

Es la raíz cuadrada de la varianza (sumatoria de los


cuadrados de las desviaciones respecto a la media).
Es un indicador de la variabilidad expresado en unidades
absolutas.
Cálculo de Desviación Estándar
Datos No Agrupados
N

 (X i  ) 2

Población  i 1

 (X i  X) 2

Muestra S i 1

n 1
Factor de corrección de Bessel
Ejemplo # 2
• El informe anual de Dennis Industries incluyó las siguientes
ganancias primarias por acción común durante los pasados 5
años: $ 2.68, 1.03, 2.26, 4.30, 3.58. Si supone que estos son
valores poblacionales; calcule la varianza y desviación estándar.

Media:
2.68 1.03 2.26 4.3 3.58 = 13.85

N 5
= 2.77

Varianza y Desviación estándar

= (2.68-2.77)2 +(1.03-2.77)2 + (2.26-2.77)2 + (4.3-2.77)2 + (3.58-2.77) 2

= 1.26  = 1.12 *Resolver para valores de una muestra


SIMBOLOGÍA

ESTADÍSTICAS POBLACIÓN MUESTRA


DESCRIPTIVAS


VARIANZA 2 2
S
DESVIACIÓN
ESTÁNDAR
 S
Ecuaciones para el cálculo de la
Varianza y la Desviación Estándar para
Datos Agrupados

 Para un conjunto de datos de una Población o


Muestra que se agrupa en una distribución de
frecuencias dada:
Para una Población
CLASES MC (Xi) fi ( X i   ) ( X i   ) fi
2 2

1 X1 f1 ( X 1   ) 2 ( X 1   ) 2 f1
2 X2 f2 ( X 2  ) 2
( X 2   ) 2
f2
3 X3 f3 ( X 3   )2 ( X 3   )2 f3
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
m Xm fm . .
m m
Totales 
i 1
fi (X
i 1
i  ) f i
2
De los datos de la tabla anterior se obtiene el
cálculo de la Varianza de la Población por la
expresión:

m
 (Xi  )
2
fi
 2
 i 1
m
 f
i 1 i
CÁLCULO DE LA DESVIACIÓN ESTÁNDAR DE LA
POBLACIÓN (DATOS AGRUPADOS)

m 2
 ( Xi  ) f i
 i 1
m
 f
i 1 i
Para una Muestra
CLASES MC (Xi) fi ( X i  X ) ( X i  X ) fi
2 2

1 X1 f1 ( X 1  X ) ( X 1  X ) f1
2 2

2 X2 f2 ( X 2  X ) ( X 2  X ) f2
2 2

3 X3 f3 ( X 3  X )2 ( X 3  X )2 f3
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
m Xm fm . .
m m m
Totales  fi 
i 1
( X i  )2
 i
( X  X ) 2
fi
i 1 i 1
CÁLCULO DE LA VARIANZA DE LA MUESTRA
(Datos agrupados)
m 2
 (x  x) fi
S  i 1 i
2
m
  1  ( n  1)
f
i 1 i

Se utiliza n – 1 como denominador en lugar de n. Los especialistas en


estadística pueden demostrar que si tomamos muchas muestras de una
población dada, si encontramos la varianza de la muestra para cada
muestra y promediamos los resultados, entonces este promedio no tiende a
tomar el valor de la varianza de la población, a menos que tomemos (n – 1)
grados de libertad, como denominador de los cálculos.
Para muestras menores de 30
DESVIACIÓN ESTANDAR DE LA MUESTRA PARA
DATOS AGRUPADOS

m 2
 ( xi  x ) fi
S i 1
m
 f 1
i 1 i

Donde:

S es el símbolo de la Desviación estándar de la muestra


x representa la media muestral
n es el número de muestras
Xi representa el punto medio de cada intervalo de clase
∑ fi es la suma de fi valores en la muestra
Coeficiente de Variación

No se puede conocer la dispersión de un conjunto de datos


hasta que se conocen su desviación estándar, su media y
cómo se compara la desviación estándar con respecto a la
media.

Es necesario una medida relativa que proporcione una


estimación de la magnitud de la desviación con respecto a la
magnitud de la media.

El coeficiente de variación es una de estas medidas


relativas de dispersión. Se relaciona la desviación estándar y
la media, expresando la desviación estándar como
porcentaje de la media.
Coeficiente de Variación

Es una medida relativa de dispersión, en la cual se expresa


la desviación estándar como un porcentaje de la media.
El coeficiente de variación al ser un porcentaje permite
comparar el nivel de dispersión de dos muestras. Esto no
ocurre con la desviación estándar, ya que viene expresada
en las mismas unidades que los datos de la serie.

Por ejemplo, para comparar el nivel de dispersión de una


serie de datos de la altura de los alumnos de una clase y otra
serie con el peso de dichos alumnos, no se puede utilizar las
desviaciones típicas (una viene expresada en cm y la otra en
kg). En cambio, sus coeficientes de variación son ambos
porcentajes, por lo que sí se pueden comparar.
Coeficiente de Variación
S
CV 
x
• Es la razón entre la desviación estándar y la media.

– Mide la desviación típica en forma de:


“qué tamaño tiene con respecto a la media”
– También se la denomina variabilidad relativa.
– Es frecuente mostrarla en porcentajes
• Si la media es 80 y la desviación típica 20 entonces:

CV=20/80=0,25=25% (variabilidad relativa)


Coeficiente de Variación S
CV 
x
• Es una cantidad adimensional. Interesante para
comparar la variabilidad de diferentes variables.
– Si el peso tiene CV=30% y la altura tiene CV=10%,
los individuos presentan más dispersión en peso que
en altura.

• No debe usarse cuando la variable presenta valores


negativos o donde el valor 0 sea una cantidad fijada
arbitrariamente.
– Por ejemplo 0ºC ≠ 0ºF

PARA LA POBLACIÓN
CV 

S
PARA LA MUESTRA cv 
X
Interpretación para el valor del Coeficiente de Variación

Valor del Coeficiente Interpretación del Coeficiente


(Porcentaje) Variabilidad Estabilidad
Igual a 0 Nula Perfecta
Mayor de 0 hasta 10 Muy baja Muy Alta
Mayor de 10 hasta 20 Baja Alta
Mayor de 20 hasta 40 Moderadamente baja Moderadamente alta
Mayor de 40 hasta 60 Moderada Moderada
Mayor de 60 hasta 80 Moderadamente alta Moderadamente baja
Mayor de 80 hasta 90 Alta Baja
Mayor de 90 hasta 100 Muy Alta Muy baja
Mayor de 100 Extrema Nula
Ejemplo # 2 Datos agrupados

Tabla de Resumen
Cálculo de la desviación estándar del
Tiempo para ejecutar las operaciones de ensamblado

Marcas de Frecuencia fi
Tiempo en
Clases (Punto (N° de
segundos
Medio- xi) operaciones)

930 -980 955 1 -133.3 17777.8 17777.8

980 - 1030 1005 7 -83.3 6944.4 48611.1

1030 -1080 1055 5 -33.3 1111.1 5555.6

1080 -1130 1105 8 16.7 277.8 2222.2

1130 -1180 1155 6 66.7 4444.4 26666.7

1180 -1230 1205 3 116.7 13611.1 40833.3


Total 30 Total 141666.7
Caso 2. Cálculo para valores agrupados Media de datos
agrupados: según
Tabla de Resumen la formula
Tiempo para ejecutar las operaciones de
ensamblado
Marcas de  (f i MC)

Tiempo en Clases - MC
segundos (Punto
Frecuencia fi
(N° de
fi * MC
x n
operaciones)
Medio- xi)
930 -980 955 1 955 32650
980 - 1030 1005 7 7035 X=
1055 5 5275 30
1030 -1080
1080 -1130 1105 8 8840
1130 -1180 1155 6 6930
X = 1088.3
1180 -1230 1205 3 3615
Total ∑ fi = 30 32650

Media de datos agrupados: 1088.3 segundos


Calculo de Varianza, Desviación Estándar y Coeficiente de Variación

m
 i  2
 4722.22
S
2
 i 1
( x
m
x ) fi
S

fi
 68.7segundos
i 1
S
2 141666.7 S
S 
30
CV 
x
68.7
2 CV  *100
S  4722.22 1088.3

CV  6.3%
Interpretación para el valor del Coeficiente de Variación

Valor del Coeficiente Interpretación del Coeficiente


(Porcentaje) Variabilidad Estabilidad
Muy baja Muy Alta
6.3%
(Mayor de 0 hasta 10)
Distribución del numero de operaciones evaluadas según el
Tiempos para ejecutarlas
9

7
Número de Operaciones

5
Series1
4

Tiempo en segundos
SIMBOLOGÍA
ESTADÍSTICAS POBLACIÓN MUESTRA
DESCRIPTIVAS

MEDIA  x

2
VARIANZA 2
S
DESVIACIÓN  S
ESTANDAR
COEFICIENTE CV cv
DE VARIACIÓN
Asignación Práctica

Ejercicios Págs. 63- 68 (cap. 3) Daly,


Herrera y Cardoze.

Asignación Práctica

Ejercicios Págs. 82, 84 y 85; 91 y 92


Lind - Marchal-Wathen
Usos de la Desviación Estándar:
TEOREMA DE CHEBYSCHEV Y
REGLA DE LA NORMAL
Teorema de Chebyschev
Basados en el hecho de que una desviación estándar
pequeña de un conjunto de valores indica que estos datos se
localizan cerca de la media y lo contrario indica que están
muy dispersos.
El matemático ruso Pafnuti Lvóvich Chebyschev (1821-1894),
estableció un teorema que nos permite determinar la mínima
cantidad de valores que se encuentran a cierta cantidad de
desviaciones estándares de la media.

Según este Teorema por lo menos tres de cuatro valores o


75% deben encontrarse entre la media y ± 2 desviaciones
estándares; ocho de nueve (88.9%) entre la media y ± 3; y por
lo menos 24 de 25 valores (96%) entre ± cinco desviaciones
estándares de la media.
Teorema de Chebyschev
Según este teorema por lo menos tres de cuatro
valores o 75% deben encontrarse entre la media y ±
dos desviaciones estándares; ocho de nueve (88.9%)
entre la media y ± tres; y por lo menos 24 de 25 valores
(96%) entre ± cinco desviaciones estándares de la
media. El teorema de Chebyshev dice que no importa
qué forma tenga la distribución.

3/4 ó 75 % - 2 Desv. Estánd. Media + 2 Desv. Estánd.


8/9 ó 88.9% - 3 Desv. Estánd. Media + 3 Desv. Estánd.
24/25 ó 96% - 5 Desv. Estánd. Media + 5 Desv. Estánd.
Teorema de Chebyschev

En cualquier conjunto de observaciones (muestra


o población), la proporción de valores que se
encuentran a k desviaciones estándares de la
media es de por lo menos 1 - 1/k2 , siendo K
cualquier constante mayor que 1.
Ejemplo:

La media aritmética de la suma quincenal que aportan los


empleados de Dupree Saint al plan de reparto de utilidades
de la compañía es de $ 51.54 y la desviación estándar, de
$ 7.51; ¿Por lo menos qué porcentaje de las aportaciones
se encuentra en mas 3.5 desviaciones estándares y menos
3.5 desviaciones de la media?

1- 1
K2
= 1- 1
(3.5)2
= 1- 1
12.25
= 0.92

Resp. Por lo menos 92 % de las aportaciones.


REGLA DE LA NORMAL
• En cualquier distribución simétrica con forma de
campana, es posible ser precisos en la explicación de la
dispersión en torno a la media. Esta relación la explica La
regla de la Normal , también llamada Regla empírica.

Regla empírica: En cualquier distribución de frecuencias


simétrica con forma de campana , aproximadamente 68%
de las observaciones se encontrarán entre ± una
desviación estándar de la media; cerca del 95% de las
observaciones se encontrarán entre ± dos desviaciones
estándares y la media; y 99.7 % o casi todas estarán entre
± tres desviaciones estándares de la media.
Regla Empírica
• La regla empírica ayuda a medir la distribución de los
valores por encima y debajo de la media, esto permite
identificar los valores atípicos cuando se analiza un
conjunto de datos numéricos.
• En los conjuntos de datos con un valor menor que la
media, el agrupamiento se presenta a la izquierda de la
media.
• En los conjuntos de datos con un valor mayor que la
media, el agrupamiento se presenta a la derecha de la
media.
• Cuando este conjunto de datos tiende a agruparse
alrededor de la media y la mediana, genera una
distribución con forma de campana
Regla empírica
La Regla empírica

68 % - 1 Desv. Estánd. Media + 1 Desv. Estánd.


95 % - 2 Desv. Estánd. Media + 2 Desv. Estánd.
99.7 % - 3 Desv. Estánd. Media + 3 Desv. Estánd.

68 % -1σ µ +1σ
95 % - 2σ µ +2σ
99.7% - 3σ µ +3σ
Aplicación de la Regla de la Normal
Medida de la eficiencia
DPMO (Defectos por millón de Unidades)

DPMO= ( 1.000.000 x Número de defectos)


(Número de unidades x Número de oportunidades)

1 σ = 690.000 DPMO = 31% de eficiencia


2 σ = 308.538 DPMO = 69% de eficiencia
3 σ = 66.807 DPMO = 93,3% de eficiencia
4 σ = 6.210 DPMO = 99,38% de eficiencia
5 σ = 233 DPMO = 99,977% de eficiencia
6 σ = 3,4 DPMO = 99,99966% de eficiencia.
MEDIDAS DE FORMA
(Grado de concentración)

• Curtosis
• Simetría

Las medidas de forma son el patrón de distribución de


los valores de los datos a través del rango de todos los
valores.

La distribución puede ser simétrica cuando los valores


pequeños y grandes se equilibran entre si. Puede ser
asimétrica cuando muestra un desequilibrio entre los
valores pequeños y grandes.
En concreto, podemos estudiar las siguientes
características de la curva:

Concentración: mide si los valores de la variable están


más o menos uniformemente repartidos a lo largo de la
muestra.

Asimetría: mide si la curva tiene una forma simétrica, es


decir, si respecto al centro de la misma (centro de
simetría) los segmentos de curva que quedan a derecha
e izquierda, son similares.
Simetría

• Una distribución es simétrica si la mitad izquierda


de su distribución es la imagen especular de su
mitad derecha.

• En las distribuciones simétricas la media y la mediana


coinciden. Si sólo hay una moda también coincide.
• Se dice de que una Distribución es Simétrica o con
sesgo cero.
Medidas de Forma
Asimetría o sesgo

El concepto de asimetría se refiere a si la curva que


forman los valores de la serie presenta la misma forma a
izquierda y derecha de un valor central (media aritmética)-

•La asimetría es positiva o negativa en función de a qué


lado se encuentra la cola de la distribución.
•Las discrepancias entre las medidas de centralización son
indicación de asimetría.
• Para medir el nivel de asimetría se utiliza el llamado
Coeficiente de Asimetría de Fisher.
Simetría y Asimetría (Sesgo)
La distribución puede ser asimétrica cuando muestra un
desequilibrio entre los valores pequeños y grandes.

• Curvas Asimétricas (sesgo)


Asimetría o sesgo

La media tiende a desplazarse hacia las valores


extremos (colas).

Media < mediana asimétrica negativa o sesgo


negativo

• La mayoría de los valores están en la parte inferior


de la distribución. La distorsión hacia la izquierda
es provocada por algunos valores muy pequeños.
Asimetría o sesgo

Media > mediana asimétrica o positiva o sesgo


derecho

• La mayoría de los valores están en la parte superior


de la distribución.
• La distorsión hacia la derecha es provocada por
algunos valores muy grandes.
Curtosis

Es una medida de forma que mide si los valores de la


distribución están más o menos concentrados alrededor de
los valores medios de la muestra.

Estudia la proporción de la varianza que se explica por la


combinación de datos extremos respecto a la media en
contraposición con datos poco alejados de la misma.

La Curtosis indica el grado de apuntamiento


(aplastamiento) de una distribución con respecto a la
distribución normal o gaussiana. Es adimensional.
Curtosis

Una mayor Curtosis implica una mayor concentración de


datos muy cerca de la media de la distribución, describe al
mismo tiempo una relativamente elevada frecuencia de
datos muy alejados de la misma. Esto explica una forma de
la distribución de frecuencias con colas muy elevadas y con
un centro muy apuntado.
Los gráficos poseen la misma media y desviación
típica, pero diferente grado de apuntamiento o curtosis.

160

140

120

100

80
Frecuencia

60

40
45 48 51 54 57 60 63 66 69 72 75 78 81 84

Platicúrtica
Los gráficos poseen la misma media y desviación
típica, pero diferente grado de apuntamiento o curtosis.

300 400

300

200

200

100

100
Frecuencia

0 0
27 37 45 53 61 69 77 85 93 3 27 37 47 57 67 77 87 97 108
32 41 49 57 65 73 81 89 99 16 32 42 52 62 72 82 92 102 138

Mesocúrtica Leptocúrtica
El Coeficiente de Curtosis analiza el grado de
concentración que presentan los valores alrededor de
la zona central de la distribución.

El Coeficiente de Curtosis está definido por la siguiente


fórmula:
Asignación Práctica del Módulo

Capítulo 3 del Libro de Lind,


Marchal, Wathen

También podría gustarte