Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2
• Variabilidad Entre-Sujetos: Ejemplo: Los clientes por su edad tienen
comportamientos, hábitos de compras, características y gustos distintos. Una
forma de visualizar la variabilidad es observando como se distribuyen los
clientes en cuanto a comportamiento, hábitos de compras, características y
gustos distintos.
• Variabilidad lntra-Sujetos: Ejemplo: Los clientes de un mismo grupo de
edad pueden variar en gustos y preferencias.
• Variabilidad muestral:
Se introduce al estudiar una muestra de la población. En muchas
investigaciones de mercado al estudiar una población objetivo mediante una
encuesta, debemos hacerlo a través de una muestra.
4
Medidas de Dispersión Absoluta
Miden el grado de dispersión (variabilidad) de los datos,
independientemente de su causa.
5
La desviación absoluta media con respecto a la Moda, se
define como:
1 n
D Mo = ∑ X i − Mo
n i =1
Solución
7
Varianza Muestral (datos tabulados): Se define como:
( )
k k
1 1
∑ i ∑ i i
2
s’2 = X − X ∗ f i = X 2
* f − X 2
n i =1 n i =1
Es sensible a valores extremos (alejados de la media).
s =
2 1 k
∑
n − 1 i =1
( X i − X ) * fi
2
∑ ( xi − µ) ∑ (x − x)
2 2
i
σ2 = i =1 S2 = i =1
N n −1
1 n 2 2
equivalentes S =
2
∑ i
n − 1 i =1
x − n x
Desviación Estándar :
Población Muestra
σ = σ2 S = S2
Comúnmente se utiliza la varianza muestral como un estimado de una
varianza poblacional desconocida. Si se utiliza n en el denominador de la
varianza muestral tenderá a subestimar la varianza poblacional. Por lo tanto,
al utilizar n-1 en la varianza muestral se obtiene una mejor estimación de la
varianza poblacional.
9
Si dos conjuntos de datos poseen medias similares, es más disperso aquel
que tenga mayor varianza (desviación estándar).
DEFECTOS A DIAS
1 1
2 3
3 5
4 7
5 5
6 3
7 1
1 2 3 4 5 6 7
DEFECTOS B DÍAS
1 6
2 4
3 2
4 1
5 2 + dispersión
6 4
7 6
1 2 3 4 5 6 7
Ejemplo:
11
Solución
s ' = ∑ (X i − X ) ∗ f i
2 1 k 2
Primera forma: n i =1
12
1 k
Segunda forma: s ' = ∑ X i2 * f i − X 2
2
n i =1
13
Propiedades de la varianza
14
3. Si los datos se multiplican por una constante a
cualquiera, la varianza queda multiplicado por el
cuadrado de dicha constante
Yi = aX i Y = aX
n 2 n 2 n 2
∑ (Y − Y )
i ∑ ( aX
i − aX ) a 2
∑ ( X i − X ))
=2
ys =
i 1 =i 1
= =i 1
= a 2 sx2
n n n
15
4. Dados k grupos con n1, n2, ..., nk observaciones
con medias X 1 , X 2 ,..., X k y con varianzas s12 , s22,...., sk2
media ponderada de varianza ponderada
las varianzas de las medias
parciales parciales
∑n s ∑n (X − XT )
k k
2 2
j j j j
= j 1 =j 1
=s2
T +
n n
S2w :intra-grupos S2b :entre-grupos
COMPONENTES DE VARIANZA
16
Observación
• Hay que indicar que la desviación típica no es una medida robusta
de la dispersión. El hecho de que se calcule evaluando los
cuadrados de las desviaciones hace que sea muy sensible a
observaciones extremas, bastante más que la desviación media
(dado que aparece un cuadrado).
17
Ejemplo:
Solución
18
Ejemplo:
Tasas de retorno de dos fondos de inversiones durante 10 años
¿Cual de los dos es más riesgoso?
Fondo A: 8.3, -6.2, 20.9, -2.7, 33.6, 42.9, 24.4, 5.2, 3.1, 30.05
Fondo B: 12.1, -2.8, 6.4, 12.2, 27.8, 25.3, 18.2, 10.7, -1.3, 11.4
Solución
Fondo A: 8.3, -6.2, 20.9, -2.7, 33.6, 42.9, 24.4, 5.2, 3.1, 30.05
Media: 14.6 Desvío estándar: 16.74
Fondo B: 12.1, -2.8, 6.4, 12.2, 27.8, 25.3, 18.2, 10.7, -1.3, 11.4
Media: 11.75 Desvío estándar: 9.97
El fondo A es mas riesgoso dado que su desvío estándar es
mayor.
19
Rango o recorrido:de X,
2, 1, 4, 3, 8, 4. El rango es 8-1=7
Recorrido Intercuartílico:
• El Intervalo Intercuartílico de X, se encuentra: [ Q1 , Q3 ]
(50 % de las observaciones más centradas)
• El rango Intercuartílico de X, se define como: IQR = Q3 – Q1
Q = (Q3 - Q1) / 2
21
22
Ejemplo:
Solución
23
Ejemplo
Considérese el conjunto de notas:
15, 45, 47, 53, 58, 58, 60, 62, 67, 74, 75, 78, 80, 80,
81, 85, 85, 85, 90, 92
Obtener la desviación cuartil
Solución
• Los cuartiles son:
Q1 = 58, Q2 = Me = 74.5 y Q3 = 83
24
Ejercicio
Construir un diagrama de cajas para el ejemplo anterior de 20
notas.
Solución
• Cuartiles:
Q1 = 58, Q2 = Me = 74.5, Q3 = 83
• Desviación cuartil:
Q = 12.5.
• Límite inferior permitido:
a = Q1 – 2Q = 58 – 25 = 33
• Límite superior permitido: a
b = Q3 + 2Q = 83 + 25 = 108
• Valor más pequeño normal: xa = 45 > 33
• Valor más grande normal: xb = 92 < 108.
25
Ejemplo:
La distribución salarial en una empresa es como sigue:
Categoría Tamaño Media Varianza
laboral
Obreros 300 400 160000
El bajo valor del coeficiente de variación indica que los valores están muy
concentrados y que la media representa aceptablemente al conjunto de la
distribución.
29
Ejemplo:
Solución
CV=(5/28)+100=20.83%
30
Desigualdad de Chebyshev
Ejemplo
31
Ejercicios resueltos
Ejercicio 1:
A partir del cuadro adjunto donde se muestra datos organizados en
intervalos de clase:
32
Histograma de frecuencias
Solución
a)
33
b)
34
35
c)
36
Ejercicio 2:
En una compañía aérea se sabe que, por término medio, el 65% de los
vuelos tiene retraso. La distribución de los vuelos retrasados es la
siguiente:
Duración del
retraso Número de
(centésimas de vuelos
hora) retrasados
00 - 10 2000
10 - 20 3000
20 - 30 2500
30 - 50 2000
50 -100 500
37
Se pide:
a) Determinar el retraso medio y la desviación típica del tiempo de
retraso para los vuelos retrasados.
b) Determinar el percentil del 60% e interpretarlo.
c) La compañía ha determinado que por cada vuelo con retraso se
producen unas pérdidas fijas de 17000 u.m. y unas pérdidas variables
de 10000 u.m. por cada minuto de retraso. ¿Entre qué cantidades se
encuentran al menos las tres cuartas partes de las pérdidas generadas
por cada vuelo retrasado? Analizar la heterogeneidad de los datos en
cada caso.
d) Resolver el apartado (a) para el total de los vuelos. ¿Es
representativa la nueva media? En caso negativo propones
razonadamente otra medida de centralización.
38
Solución
a) Sea la variable estadística X: tiempo de retraso de un vuelo
retrasado, y consideremos la tabla de frecuencias siguiente obtenida a
partir de la dada con las marcas de clase
xi 5 15 25 40 75
hi 0.2 0.3 0.25 0.2 0.05
39
b) De la tabla de frecuencias acumuladas siguiente
40
c) Sea la variable estadística Y: pérdidas que se producen por un vuelo
con retraso, se verifica que
41
el coeficiente de variación:
42
Ejercicio:
Se ha realizado una estadística en el Mercado sobre los gastos al menudeo
(u.m.) que una familia tiene cuando realiza sus compras un día cualquiera de la
semana. Este estudio nos aporta la siguiente tabla:
Intervalos Frecuencias
0-5 1000
5-10 1100
10-20 1600
20-50 1000
50-100 300
43
Se pide:
a) ¿Cuál es el motivo por el que los datos se presentan en intervalos?
b) ¿Te parece coherentes los datos de la tabla, o bien tendrías que
estudiar su procedencia antes de continuar el estudio?
c) Halla el gasto medio, modal y mediano de cada familia.
d) Si a todas las familias que gastan más de 40 u.m., se les obsequia
con una cafetera, valorada en 2.5 u.m. Hallar el porcentaje de
clientes que se benefician de ellos.
e) Hallar el primer cuartil. ¿Qué significado tiene?
f) Estudiar la representatividad del gasto medio. ¿Es representativa?
¿ Por qué?
g) Analizar la variabilidad de los datos.
h) De las diez personas encargadas de realizar la encuesta se sabe, de
años anteriores, que tres de ellos se equivocan al elaborar la
encuesta un 10% de las veces; cuatro rellenan ellos mismos el
cuestionario y se equivocan el 75% de las veces y el resto son muy
detallistas y cumplen perfectamente su trabajo. Se pide: ¿Cuál es la
variable? ¿Cuál es la frecuencia? ¿Por qué los datos no se dividen
en intervalos? Hallar la media de la variable.
44
Ejercicio
Las dos muestras siguientes tienen la misma dispersión absoluta
(desviación típica y varianza) pero diferente dispersión relativa (coeficiente
variación):
45
Ejercicio
46
Medidas de Forma: Asimetría
Perfil horizontal de la distribución.
Tipos:
47
Cuando realizamos un estudio descriptivo es altamente improbable que la
distribución de frecuencias sea totalmente simétrica. En la práctica diremos que
la distribución de frecuencias es simétrica si lo es de un modo aproximado.
48
Medidas de Forma: Asimetría
Coeficientes de Asimetría
1º Coeficiente de Asimetría de PEARSON de X:
X − Mo
As = (sólo variables con
distribución acampanada)
S
Si: AS = 0 ⇒ Situación de Simetría
AS > 0 ⇒ Situación de Asimetría a la Derecha
AS < 0 ⇒ Situación de Asimetría a la Izquierda
49
Medidas de Forma: Asimetría
50
Medidas de Forma: Asimetría
51
Una pista para saber si una distribución de frecuencias es
asimétrica positiva la descubrimos observando la figura siguiente:
Q3 − Q2 > Q2 − Q1.
52
53
Medidas de Forma: Asimetría
• Coeficiente de Asimetría Clásico de FISHER de X:
M3 1 1 k
As = 3 = 3 ∗ ∑ (X i − X ) ∗ f i
3 (todo tipo de
variables)
S S n i =1
X − Mo X − Mo
As = >0 As = <0
S S
X X
Mo Mo
X − Mo
As = =0
S
Simétrica
55
Mo
X
Medidas de Forma: Curtosis
Perfil vertical de la distribución.
La curtosis nos indica el grado de apuntamiento (aplastamiento) de una
distribución con respecto a la distribución normal o gaussiana. Es
adimensional.
Coeficiente de Curtosis Clásico de Fisher
1 1 k
Ap = 4 ∗ ∑ ( X i − X ) ∗ f i − 3
4 24
Con error estándar =
S n i =1 n
Interpretación:
Ap= 0 Ap> 0 Ap< 0
Mesocúrtica Leptocúrtica Platicúrtica
56
Medidas de Forma: Curtosis
Usando cuantiles:
Q3 − Q1
k= − 0.263 Kelley
2( P90 − P10 )
Interpretación:
Ap= 0 Ap> 0 Ap< 0
Mesocúrtica Leptocúrtica Platicúrtica
57
Otras medidas de asimetría y curtosis
Asimetría
Curtosis
58
Intervalos de confianza para grado de deformación
59
400 300
300
200
200
100
100
Frecuencia
Frecuencia
0 0
3 27 37 47 57 67 77 87 97 108 27 37 45 53 61 69 77 85 93
16 32 42 52 62 72 82 92 102 138 32 41 49 57 65 73 81 89 99
Leptocúrtica Mesocúrtica
60
Esta aproximación no funciona en distribuciones
asimétrica como la distribución de los ingresos.
61
1. Si las observaciones están muy dispersos respecto a las medidas centrales,
la distribución es platicúrtica y el índice de curtosis es negativo (figura B)
2. Si las observaciones están concentrados respecto a las medidas centrales,
la distribución es leptocúrtica y el índice de curtosis es positivo (figura C)
3. En una distribución normal (curva normal) la distribución es mesocúrtica y el
índice de curtosis vale cero (figura A)
B
A
Ap = 4 ∗ ∑ (X i − X ) − 3 > 0
1 1 n 4
S n i =1
Ap = 4 ∗ ∑ (X i − X ) − 3 = 0
1 1 n 4
S n i =1
Ap = 4 ∗ ∑ (X i − X ) − 3 < 0
1 1 n 4
S n i =1
62
Ojivas vs. Asimetría
Las ojivas o curvas de frecuencias acumuladas, presentan formas
particulares según el tipo de asimetría. Por ejemplo, en la figura 3.2a la
curva dc frecuencia acumulada A es de una distribución con asimetría
extrema negativa. La Ojiva C es de asimetría extrema positiva. La ojiva B
es de una distribución simétrica.
63
Ojivas vs. Apuntamiento
64
Ejemplo
Dada la distribución de
edades (medidas en años) Num.
Edad (años)
personas
en un colectivo de 100
personas, obtener:
0 -- 4 47
1. La variable tipificada Z. 4 -- 10 32
2. Valores de la media y
10 -- 20 17
varianza de Z.
3. Coeficiente de variación 20 -- 40 4
de Z.
100
65
Solución:
20 -- 40 30 4 120 3.600
66
A partir de estos valores podremos calcular los valores
tipificados para las marcas de clase de cada intervalo y
construir su distribución de frecuencias:
67
zi ni zi ni zi2 ni
68
Ejemplo
Las edades de un grupo de Intervalos ni
personas se reflejan en la tabla 7 -- 9 4
siguiente:
9 -- 11 18
Determinar la variabilidad de
la edad mediante los 11 -- 12 14
estadísticos varianza, 12 -- 13 27
desviación típica, coeficiente
13 -- 14 42
de variación y rango
intercuartílico. Estudie la 14 -- 15 31
simetría de la variable. 15 -- 17 20
17 -- 19 1
69
Solución:
Intervalos ni xi Ni x i ni xi2 ni
En primer 7 -- 9 4 8 4 32 256
lugar 9 -- 11 18 10 22 180 1.800
realizamos 11 -- 12 14 11,5 36 161 1.851,5
los cálculos 12 -- 13 27 12,5 63 337,5 4.218,75
necesarios a 13 -- 14 42 13,5 105 567 7.654,5
partir de la
14 -- 15 31 14,5 136 449,5 6.517,75
tabla de
frecuencias: 15 -- 17 20 16 156 320 5.120
17 -- 19 1 18 157 18 324
70
La media es años
71
Para el coeficiente de asimetría es preciso el cálculo de los cuartiles:
72
Figura: La distribución de frecuencias de la edad presenta una
ligera asimetría negativa.
OBSERVACIÓN:
Distribuciones con
intervalos de clase
de diferente amplitud
requieren emplear
“densidad”.
Obtenga la densidad
y recalcule los
indicadores
solicitados.
Comente sus
resultados.
73
Ejercicios resueltos
Ejercicio 3:
La siguiente es la distribución de los ingresos de los hogares a partir de la
muestra de la Encuesta Nacional de Hogares de un mes
Se pide:
1. Calcular la distribución de frecuencias y representarla gráficamente.
2. Calcular la función de distribución acumulada de frecuencias relativas y
representarla
gráficamente.
3. Calcular las medidas de posición e interpretar su significado.
4. Calcular las medidas de dispersión.
5. Calcular las medidas de simetría y apuntamiento.
74
Solución
Para los cálculos que se solicitan elaboramos el cuadro siguiente:
1) La distribución de frecuencias
relativas en el caso de variables
continuas no se grafica (intervalos
con diferente amplitud). La función
que interesa graficar es ni / ci:
75
2) La función de distribución acumulada de frecuencias relativas la
tenemos calculada en la quinta columna en los puntos extremos de
intervalo. El gráfico es una poligonal que pasa por dichos puntos y se
completa con: H(y) = 0 si y < 1000 y H(y) = 1 si y > 15000.
76
Ejercicio 4:
Los sueldos que paga una empresa a sus
empleados, vienen dados por la tabla adjunta. La
empresa propone al personal dos posibles arreglos
de negociación:
Se pide:
a) ¿Cuál es el sueldo promedio que paga la empresa?
b) ¿Cuál es el nuevo sueldo promedio U, según el Arreglo 1?
c) ¿Cuál es la mediana del sueldo según el Arreglo 2?
d) ¿Sobre qué sueldo yi , están el 20% de los sueldos superiores?
e) ¿Qué porcentaje del dinero destinado a pagar sueldos representan los
sueldos de las personas que ganan más de yi = $ 18.000?
f) ¿Cuál es la varianza de los sueldos U, según el Arreglo 1?
g) ¿Cuál es el coeficiente de variación de los sueldos U, según el Arreglo 1?
h) ¿Cuál es el coeficiente de variación de los sueldos T, según el Arreglo 2?
77
Solución
Elaboramos el siguiente cuadro que muestra los cálculos para los datos
originales y para los dos posibles acuerdos:
78
79