Está en la página 1de 79

Medidas de Dispersión

• Los estudiantes de estadística reciben diferentes


calificaciones en la asignatura (variabilidad). ¿A qué
puede deberse?
Diferencias individuales en el conocimiento de la
materia.
• ¿Podría haber otras razones (fuentes de variabilidad)?
Por ejemplo supongamos que todos los alumnos
poseen el mismo nivel de conocimiento. ¿Las notas
serían las mismas en todos? Seguramente No.
• Horas de estudio adicionales.
Tiempo de adquisición de experiencias, marcará
diferencias individuales en la habilidad para hacer un
examen.
• El examen no es una medida perfecta del conocimiento.
Variabilidad por error de medida.
• En alguna pregunta difícil, se duda entre varias
opciones, y al azar se elige la mala.
Variabilidad por azar, aleatoriedad.
1
Observaciones
• El concepto de variabilidad está instalado en el centro de la
estadística como disciplina, ya que a través de sus herramientas
podemos cuantificar, entender, y explicar las diferentes fuentes de
variabilidad en un problema dado.
• Nada que no tenga variabilidad podría ser de interés en este
contexto, ya que el estudiar un solo objeto o un solo individuo sería
suficiente para dar respuesta a todas nuestras preguntas

2
• Variabilidad Entre-Sujetos: Ejemplo: Los clientes por su edad tienen
comportamientos, hábitos de compras, características y gustos distintos. Una
forma de visualizar la variabilidad es observando como se distribuyen los
clientes en cuanto a comportamiento, hábitos de compras, características y
gustos distintos.
• Variabilidad lntra-Sujetos: Ejemplo: Los clientes de un mismo grupo de
edad pueden variar en gustos y preferencias.
• Variabilidad muestral:
Se introduce al estudiar una muestra de la población. En muchas
investigaciones de mercado al estudiar una población objetivo mediante una
encuesta, debemos hacerlo a través de una muestra.

Supongamos que hemos tomado una muestra representativa de la


población, es decir, que ha sido elegida aleatoriamente de ella. En ese
escenario, los resultados del análisis de la encuesta en nuestra muestra
arrojarán valores distintos, cuantificablemente distintos, a los valores que
arrojarían en otra muestra de la misma población. Incluso usando el mismo
mecanismo o esquema de muestreo. A esta fuente de variabilidad la
llamamos variabilidad muestra!, y es el tema central de la inferencia
estadística.
• Variabilidad muestral:
Se introduce al estudiar una muestra de la población. En muchas
investigaciones de mercado al estudiar una población objetivo
mediante una encuesta, debemos hacerlo a través de una muestra.

Supongamos que hemos tomado una muestra representativa de la


población, es decir, que ha sido elegida aleatoriamente de ella. En
ese escenario, los resultados del análisis de la encuesta en nuestra
muestra arrojarán valores distintos, cuantificablemente distintos, a los
valores que arrojarían en otra muestra de la misma población. Incluso
usando el mismo mecanismo o esquema de muestreo. A esta fuente
de variabilidad la llamamos variabilidad muestra!, y es el tema central
de la inferencia estadística.

4
Medidas de Dispersión Absoluta
Miden el grado de dispersión (variabilidad) de los datos,
independientemente de su causa.

Desviación Absoluta Media (datos sin tabular)


La desviación absoluta media con respecto a la Mediana
(Me), se define como:
1 n
D Me = ∑ X i − Me
n i =1

La desviación absoluta media con respecto a la Media, se


define como: n
1
DX = ∑
n i =1
Xi − X

5
La desviación absoluta media con respecto a la Moda, se
define como:
1 n
D Mo = ∑ X i − Mo
n i =1

Desviación Absoluta Media (datos tabulados)


La desviación absoluta media con respecto a la Mediana
(Me), se define como:
1 k
D Me = ∑ X i − Me ∗ f i
n i =1

La desviación absoluta media con respecto a la Media, se


define como: 1 k
DX =
n
∑ X
i =1
i − X ∗ fi

Análogamente se puede obtener para el caso de la Desviación 6


Absoluta Modal.
Ejemplo:

Solución

7
Varianza Muestral (datos tabulados): Se define como:

( )
k k
1 1
∑ i ∑ i i
2
s’2 = X − X ∗ f i = X 2
* f − X 2

n i =1 n i =1
Es sensible a valores extremos (alejados de la media).

Desviación Típica Muestral: Se define como la raíz cuadrada


positiva de la varianza: Se expresa en las misma unidad de la
variable original (S)
s=+ s
2

Varianza Insesgada de Cochran: Se define como:

s =
2 1 k

n − 1 i =1
( X i − X ) * fi
2

La referencia más apropiada, óptima para la varianza, es la media aritmética,


por ser el centro de gravedad de la distribución.
8
 Varianza (datos sin tabular):
Población Muestra
N n

∑ ( xi − µ) ∑ (x − x)
2 2
i

σ2 = i =1 S2 = i =1

N n −1

1  n 2 2
equivalentes S =
2
∑ i
n − 1  i =1
x − n x 

 Desviación Estándar :
Población Muestra
σ = σ2 S = S2
Comúnmente se utiliza la varianza muestral como un estimado de una
varianza poblacional desconocida. Si se utiliza n en el denominador de la
varianza muestral tenderá a subestimar la varianza poblacional. Por lo tanto,
al utilizar n-1 en la varianza muestral se obtiene una mejor estimación de la
varianza poblacional.
9
Si dos conjuntos de datos poseen medias similares, es más disperso aquel
que tenga mayor varianza (desviación estándar).

DEFECTOS A DIAS
1 1
2 3
3 5
4 7
5 5
6 3
7 1
1 2 3 4 5 6 7
DEFECTOS B DÍAS
1 6
2 4
3 2
4 1
5 2 + dispersión
6 4
7 6
1 2 3 4 5 6 7
Ejemplo:

11
Solución
s ' = ∑ (X i − X ) ∗ f i
2 1 k 2
Primera forma: n i =1

12
1 k
Segunda forma: s ' = ∑ X i2 * f i − X 2
2

n i =1

13
Propiedades de la varianza

1. La varianza y la desviación típica son valores


esencialmente positivos.
2. Ni la varianza ni la desviación típica se alteran
cuando a los datos se les añade una constante a.

Yi= a + X i Entonces, sabemos que Y= a + X

14
3. Si los datos se multiplican por una constante a
cualquiera, la varianza queda multiplicado por el
cuadrado de dicha constante

Yi = aX i Y = aX
n 2 n 2 n 2

∑ (Y − Y )
i ∑ ( aX
i − aX ) a 2
∑ ( X i − X ))
=2
ys =
i 1 =i 1
= =i 1
= a 2 sx2
n n n

15
4. Dados k grupos con n1, n2, ..., nk observaciones
con medias X 1 , X 2 ,..., X k y con varianzas s12 , s22,...., sk2
media ponderada de varianza ponderada
las varianzas de las medias
parciales parciales

∑n s ∑n (X − XT )
k k
2 2
j j j j
= j 1 =j 1
=s2
T +
n n
S2w :intra-grupos S2b :entre-grupos

COMPONENTES DE VARIANZA

16
Observación
• Hay que indicar que la desviación típica no es una medida robusta
de la dispersión. El hecho de que se calcule evaluando los
cuadrados de las desviaciones hace que sea muy sensible a
observaciones extremas, bastante más que la desviación media
(dado que aparece un cuadrado).

• En definitiva, la desviación típica no es una buena medida de


dispersión cuando se tiene algún dato muy alejado de la media. El
rango intercuartílico nos daría en ese caso una idea más
aproximada de cuál es la dispersión de los datos.

• El que la desviación típica sea la medida de dispersión más


común se debe a su íntima conexión con la distribución normal.

17
Ejemplo:

Solución

18
Ejemplo:
Tasas de retorno de dos fondos de inversiones durante 10 años
¿Cual de los dos es más riesgoso?
Fondo A: 8.3, -6.2, 20.9, -2.7, 33.6, 42.9, 24.4, 5.2, 3.1, 30.05
Fondo B: 12.1, -2.8, 6.4, 12.2, 27.8, 25.3, 18.2, 10.7, -1.3, 11.4

Solución
Fondo A: 8.3, -6.2, 20.9, -2.7, 33.6, 42.9, 24.4, 5.2, 3.1, 30.05
Media: 14.6 Desvío estándar: 16.74
Fondo B: 12.1, -2.8, 6.4, 12.2, 27.8, 25.3, 18.2, 10.7, -1.3, 11.4
Media: 11.75 Desvío estándar: 9.97
El fondo A es mas riesgoso dado que su desvío estándar es
mayor.

19
Rango o recorrido:de X,

se define como: Rg(X) = Max xi - Min xi

2, 1, 4, 3, 8, 4. El rango es 8-1=7

Es muy sensible a los valores extremos.

Recorrido Intercuartílico:
• El Intervalo Intercuartílico de X, se encuentra: [ Q1 , Q3 ]
(50 % de las observaciones más centradas)
• El rango Intercuartílico de X, se define como: IQR = Q3 – Q1

No es tan sensible a valores extremos. Es una medida adecuada para el


caso en que se desee que determinadas observaciones extremas no
intervengan, evitándose, de este modo, una visión sesgada de la
variabilidad de la distribución. Como inconveniente principal tiene que en
su confección sólo intervienen el 50% de los valores centrales. 20
Desviación cuartil y cajas de dispersión:

La desviación cuartil: mide la dispersión del 50% de las observaciones


centrales respecto a su mediana. Se denota por Q y de define como la
diferencia entre el tercer y el primer cuartil entre 2. Es decir,

Q = (Q3 - Q1) / 2

Si la distribución es muy asimétrica, el rango intercuartil o


(semiintercuartil) es preferible a la desviación estándar como medida de
la dispersión o cuando la mediana haya sido empleada como medida
adecuada de tendencia central..

21
22
Ejemplo:

Solución

23
Ejemplo
Considérese el conjunto de notas:
15, 45, 47, 53, 58, 58, 60, 62, 67, 74, 75, 78, 80, 80,
81, 85, 85, 85, 90, 92
Obtener la desviación cuartil

Solución
• Los cuartiles son:
Q1 = 58, Q2 = Me = 74.5 y Q3 = 83

• Entonces la desviación cuartil es


Q = (83 – 58) ÷ 2 = 12.5
En un intervalo de 87 – 62
• Así, las notas se encuentran entre = 25 puntos, se encuentra
74.5 – 12.5 = 62 y 74.5 + 12.5 = 87. el 50% de las notas.

24
Ejercicio
Construir un diagrama de cajas para el ejemplo anterior de 20
notas.

Solución
• Cuartiles:
Q1 = 58, Q2 = Me = 74.5, Q3 = 83
• Desviación cuartil:
Q = 12.5.
• Límite inferior permitido:
a = Q1 – 2Q = 58 – 25 = 33
• Límite superior permitido: a
b = Q3 + 2Q = 83 + 25 = 108
• Valor más pequeño normal: xa = 45 > 33
• Valor más grande normal: xb = 92 < 108.
25
Ejemplo:
La distribución salarial en una empresa es como sigue:
Categoría Tamaño Media Varianza
laboral
Obreros 300 400 160000

Administrativos 100 400 160000

Técnicos 100 500 40000

¿Es la categorización laboral quien determina promedios salariales


diferentes?
Solución
Media global = 420 S2w= 136000 > S2b= 1600
La categorización laboral no determina salarios distintos.
26
Medida de Dispersión Relativa
Coeficiente de Variación de Pearson:
Es la razón entre la desviación típica y la media. Mide la
desviación típica en forma de “qué tamaño tiene con
respecto a la media” S
CVx = x100
X

• Si X = 0 no se usaría el CVx o cuando el valor cero es fijado


arbitrariamente.
• CVx no cambia si utilizamos escalas distintas.
• Útil para comparar características con diferentes escalas de
medición (no tiene unidad de medida, es adimensional).
Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos
presentan más dispersión en peso que en altura.
27
Ejemplo:

El coeficiente de variación de un conjunto de datos es:

El bajo valor del coeficiente de variación indica que los valores están muy
concentrados y que la media representa aceptablemente al conjunto de la
distribución.

En general, valores de CV menores a 0,1 indican una alta concentración,


entre 0’1 y 0’5 una concentración media y valores superiores a 0’5 una alta
dispersión y una media poco o nada representativa.
Propiedades del coeficiente de variación

29
Ejemplo:

Solución

CV=(5/28)+100=20.83%
30
Desigualdad de Chebyshev

Ejemplo

31
Ejercicios resueltos
Ejercicio 1:
A partir del cuadro adjunto donde se muestra datos organizados en
intervalos de clase:

a) Construir un gráfico apropiado.


b) Calcular sus medidas de centralidad relevantes.
c) Caracterizar la distribución por sus medidas de variabilidad.

32
Histograma de frecuencias
Solución

a)

Polígono de frecuencias acumuladas

Las zonas de mayor pendiente en


este diagrama corresponden a las
zonas más altas en el histograma

33
b)

34
35
c)

36
Ejercicio 2:
En una compañía aérea se sabe que, por término medio, el 65% de los
vuelos tiene retraso. La distribución de los vuelos retrasados es la
siguiente:

Duración del
retraso Número de
(centésimas de vuelos
hora) retrasados
00 - 10 2000
10 - 20 3000
20 - 30 2500
30 - 50 2000
50 -100 500

37
Se pide:
a) Determinar el retraso medio y la desviación típica del tiempo de
retraso para los vuelos retrasados.
b) Determinar el percentil del 60% e interpretarlo.
c) La compañía ha determinado que por cada vuelo con retraso se
producen unas pérdidas fijas de 17000 u.m. y unas pérdidas variables
de 10000 u.m. por cada minuto de retraso. ¿Entre qué cantidades se
encuentran al menos las tres cuartas partes de las pérdidas generadas
por cada vuelo retrasado? Analizar la heterogeneidad de los datos en
cada caso.
d) Resolver el apartado (a) para el total de los vuelos. ¿Es
representativa la nueva media? En caso negativo propones
razonadamente otra medida de centralización.

38
Solución
a) Sea la variable estadística X: tiempo de retraso de un vuelo
retrasado, y consideremos la tabla de frecuencias siguiente obtenida a
partir de la dada con las marcas de clase

xi 5 15 25 40 75
hi 0.2 0.3 0.25 0.2 0.05

39
b) De la tabla de frecuencias acumuladas siguiente

Así P60 = 24 centésimas de hora y significa que el 60% de los vuelos


retrasados (con menos tiempo de retraso) han tenido un retraso por
debajo de 24 centésimas de hora y el 40% restante de vuelos han
tenido retrasos por encima de este valor. .

40
c) Sea la variable estadística Y: pérdidas que se producen por un vuelo
con retraso, se verifica que

41
el coeficiente de variación:

d) Al considerar el total de los vuelos hay que modificar la tabla anterior


X* i 0 5 15 25 40 75
hi 0.35 0.13 0.195 0.1625 0.13 0.0325

42
Ejercicio:
Se ha realizado una estadística en el Mercado sobre los gastos al menudeo
(u.m.) que una familia tiene cuando realiza sus compras un día cualquiera de la
semana. Este estudio nos aporta la siguiente tabla:

Intervalos Frecuencias
0-5 1000
5-10 1100
10-20 1600
20-50 1000
50-100 300

43
Se pide:
a) ¿Cuál es el motivo por el que los datos se presentan en intervalos?
b) ¿Te parece coherentes los datos de la tabla, o bien tendrías que
estudiar su procedencia antes de continuar el estudio?
c) Halla el gasto medio, modal y mediano de cada familia.
d) Si a todas las familias que gastan más de 40 u.m., se les obsequia
con una cafetera, valorada en 2.5 u.m. Hallar el porcentaje de
clientes que se benefician de ellos.
e) Hallar el primer cuartil. ¿Qué significado tiene?
f) Estudiar la representatividad del gasto medio. ¿Es representativa?
¿ Por qué?
g) Analizar la variabilidad de los datos.
h) De las diez personas encargadas de realizar la encuesta se sabe, de
años anteriores, que tres de ellos se equivocan al elaborar la
encuesta un 10% de las veces; cuatro rellenan ellos mismos el
cuestionario y se equivocan el 75% de las veces y el resto son muy
detallistas y cumplen perfectamente su trabajo. Se pide: ¿Cuál es la
variable? ¿Cuál es la frecuencia? ¿Por qué los datos no se dividen
en intervalos? Hallar la media de la variable.

44
Ejercicio
Las dos muestras siguientes tienen la misma dispersión absoluta
(desviación típica y varianza) pero diferente dispersión relativa (coeficiente
variación):

a) Sin realizar ningún cálculo: razona cuál de ellas tendrá menor


dispersión relativa, es decir, ¿qué conjunto de datos es más homogéneo?
b) ¿Tiene algo que ver con la distancia de los datos al origen y el valor de
las medias respectivas?
c) ¿Por qué tienen la misma dispersión absoluta? (“distancia” de los datos
a la media)?.
En un cambio de origen, la dispersión absoluta (S) no cambia pero la
dispersión relativa sí

d) Calcula la media y varianza de las dos series de datos y comprueba lo


anterior.

45
Ejercicio

Las dos muestras siguientes tienen diferente dispersión absoluta pero la


misma dispersión relativa:

a) Sin realizar ningún cálculo: razona cuál de ellas tendrá menor


dispersión absoluta.
b) ¿Por qué tienen la misma dispersión relativa? ¿Guardan alguna
proporción los datos de A con los datos de B? ¿Tiene esto algo que ver
con un cambio de escala?
c) En un cambio de escala, la dispersión absoluta sí cambia pero la
relativa no cambia. Calcula la media y varianza de las dos series de datos
y comprueba lo anterior.

46
Medidas de Forma: Asimetría
Perfil horizontal de la distribución.

• Indica el grado de simetría en relación a su distribución de


frecuencias.
• No depende de las unidades de medida.

Tipos:

47
Cuando realizamos un estudio descriptivo es altamente improbable que la
distribución de frecuencias sea totalmente simétrica. En la práctica diremos que
la distribución de frecuencias es simétrica si lo es de un modo aproximado.

48
Medidas de Forma: Asimetría

Coeficientes de Asimetría
1º Coeficiente de Asimetría de PEARSON de X:
X − Mo
As = (sólo variables con
distribución acampanada)
S
Si: AS = 0 ⇒ Situación de Simetría
AS > 0 ⇒ Situación de Asimetría a la Derecha
AS < 0 ⇒ Situación de Asimetría a la Izquierda

Medida Adimensional (sin unidades de medida)

49
Medidas de Forma: Asimetría

2º Coeficiente de Asimetría de PEARSON de X:


3( X − M e)
As =
S
Si: AS = 0 ⇒ Situación de Simetría
AS > 0 ⇒ Situación de Asimetría a la Derecha
AS < 0 ⇒ Situación de Asimetría a la Izquierda

Medida Adimensional (sin unidades de medida)

50
Medidas de Forma: Asimetría

Coeficiente de Asimetría basado en cuartiles:


Q1 + Q3 − 2Q2
As = Bowley-Yule
Q3 − Q1
Si: AS = 0 ⇒ Situación de Simetría
AS > 0 ⇒ Situación de Asimetría a la Derecha
AS < 0 ⇒ Situación de Asimetría a la Izquierda

Medida Adimensional (sin unidades de medida)

51
Una pista para saber si una distribución de frecuencias es
asimétrica positiva la descubrimos observando la figura siguiente:

Q3 − Q2 > Q2 − Q1.

Por analogía, si es asimétrica negativa, se tendría Q3 − Q2 < Q2 − Q1

52
53
Medidas de Forma: Asimetría
• Coeficiente de Asimetría Clásico de FISHER de X:

M3 1 1 k
As = 3 = 3 ∗ ∑ (X i − X ) ∗ f i
3 (todo tipo de
variables)
S S n i =1

Si: As = 0 ⇒ Situación de Simetría


As > 0 ⇒ Situación de Asimetría a la Derecha
As < 0 ⇒ Situación de Asimetría a la Izquierda

Medida Adimensional (sin unidades de medida)


6
Con error estándar =
n
54
1. Cuando la mayoría de las observaciones tienen valores bajos, la moda está más a la
izquierda que la media (la moda es menor que la media) y la asimetría es positiva.
2. Cuando la mayoría de las observaciones tienen valores altos, la moda está más a la
derecha de la media (la moda es mayor que la media) y la asimetría es negativa.
3. Cuando la mayoría de las observaciones tienen valores centrados, media y moda [y
mediana] coinciden y la distribución es simétrica

X − Mo X − Mo
As = >0 As = <0
S S

Asimetría positiva Asimetría negativa

X X
Mo Mo

X − Mo
As = =0
S

Simétrica
55
Mo
X
Medidas de Forma: Curtosis
Perfil vertical de la distribución.
La curtosis nos indica el grado de apuntamiento (aplastamiento) de una
distribución con respecto a la distribución normal o gaussiana. Es
adimensional.
Coeficiente de Curtosis Clásico de Fisher
1 1 k
Ap = 4 ∗ ∑ ( X i − X ) ∗ f i − 3
4 24
Con error estándar =
S n i =1 n

Interpretación:
Ap= 0 Ap> 0 Ap< 0
Mesocúrtica Leptocúrtica Platicúrtica

56
Medidas de Forma: Curtosis
Usando cuantiles:
Q3 − Q1
k= − 0.263 Kelley
2( P90 − P10 )

Interpretación:
Ap= 0 Ap> 0 Ap< 0
Mesocúrtica Leptocúrtica Platicúrtica

57
Otras medidas de asimetría y curtosis

Asimetría

Curtosis

Con errores estándar:

58
Intervalos de confianza para grado de deformación

59
400 300

300

200

200

100

100

Frecuencia
Frecuencia

0 0
3 27 37 47 57 67 77 87 97 108 27 37 45 53 61 69 77 85 93
16 32 42 52 62 72 82 92 102 138 32 41 49 57 65 73 81 89 99

Leptocúrtica Mesocúrtica

Los gráficos que se muestran poseen la misma media y


desviación típica, pero con diferente grado de apuntamiento.
En el curso serán de especial interés las mesocúrticas y
simétricas (parecidas a la normal).

60
Esta aproximación no funciona en distribuciones
asimétrica como la distribución de los ingresos.
61
1. Si las observaciones están muy dispersos respecto a las medidas centrales,
la distribución es platicúrtica y el índice de curtosis es negativo (figura B)
2. Si las observaciones están concentrados respecto a las medidas centrales,
la distribución es leptocúrtica y el índice de curtosis es positivo (figura C)
3. En una distribución normal (curva normal) la distribución es mesocúrtica y el
índice de curtosis vale cero (figura A)

B
A

Ap = 4 ∗ ∑ (X i − X ) − 3 > 0
1 1 n 4

S n i =1
Ap = 4 ∗ ∑ (X i − X ) − 3 = 0
1 1 n 4

S n i =1

Ap = 4 ∗ ∑ (X i − X ) − 3 < 0
1 1 n 4

S n i =1

62
Ojivas vs. Asimetría
Las ojivas o curvas de frecuencias acumuladas, presentan formas
particulares según el tipo de asimetría. Por ejemplo, en la figura 3.2a la
curva dc frecuencia acumulada A es de una distribución con asimetría
extrema negativa. La Ojiva C es de asimetría extrema positiva. La ojiva B
es de una distribución simétrica.

63
Ojivas vs. Apuntamiento

En la figura 3.2b la diagonal D es la ojiva de una distribución normal. La


curva F es la ojiva de una distribución simétrica leptocúrtica y la E de una
platicúrtica.

64
Ejemplo
Dada la distribución de
edades (medidas en años) Num.
Edad (años)
personas
en un colectivo de 100
personas, obtener:
0 -- 4 47

1. La variable tipificada Z. 4 -- 10 32
2. Valores de la media y
10 -- 20 17
varianza de Z.
3. Coeficiente de variación 20 -- 40 4
de Z.
100

65
Solución:

Para calcular la variable li-1 -- li xi ni xi ni xi2 ni


tipificada. Partimos de
los datos del enunciado. 0 -- 4 2 47 94 188
Será necesario calcular
en primer lugar la media 4 -- 10 7 32 224 1.568
y desviación típica de la
variable original (X= 10 -- 20 15 17 255 3.825
años).

20 -- 40 30 4 120 3.600

n=100 693 9.181

66
A partir de estos valores podremos calcular los valores
tipificados para las marcas de clase de cada intervalo y
construir su distribución de frecuencias:

67
zi ni zi ni zi2 ni

-0,745 47 -35,015 26,086

A pesar de que no se debe calcular 0,011 32 0,352 0,004


el coeficiente de variación sobre
variables que presenten valores 1,220 17 20,720 25,303
negativos (y Z los presenta), lo
calculamos con objeto de ilustrar el
porqué: 3,486 4 13,944 48,609

n=100 0,021 100,002

68
Ejemplo
Las edades de un grupo de Intervalos ni
personas se reflejan en la tabla 7 -- 9 4
siguiente:
9 -- 11 18
Determinar la variabilidad de
la edad mediante los 11 -- 12 14

estadísticos varianza, 12 -- 13 27
desviación típica, coeficiente
13 -- 14 42
de variación y rango
intercuartílico. Estudie la 14 -- 15 31
simetría de la variable. 15 -- 17 20
17 -- 19 1

69
Solución:
Intervalos ni xi Ni x i ni xi2 ni
En primer 7 -- 9 4 8 4 32 256
lugar 9 -- 11 18 10 22 180 1.800
realizamos 11 -- 12 14 11,5 36 161 1.851,5
los cálculos 12 -- 13 27 12,5 63 337,5 4.218,75
necesarios a 13 -- 14 42 13,5 105 567 7.654,5
partir de la
14 -- 15 31 14,5 136 449,5 6.517,75
tabla de
frecuencias: 15 -- 17 20 16 156 320 5.120

17 -- 19 1 18 157 18 324

157 2.065 27.742,25

70
La media es años

La varianza la calculamos a partir de la columna de la xi2 ni como sigue:

El coeficiente de variación no posee unidades y es:

71
Para el coeficiente de asimetría es preciso el cálculo de los cuartiles:

Lo que nos dice que aproximadamente en un rango de

años se encuentra el central del total de observaciones. Además

72
Figura: La distribución de frecuencias de la edad presenta una
ligera asimetría negativa.

OBSERVACIÓN:
Distribuciones con
intervalos de clase
de diferente amplitud
requieren emplear
“densidad”.
Obtenga la densidad
y recalcule los
indicadores
solicitados.
Comente sus
resultados.

73
Ejercicios resueltos
Ejercicio 3:
La siguiente es la distribución de los ingresos de los hogares a partir de la
muestra de la Encuesta Nacional de Hogares de un mes

Se pide:
1. Calcular la distribución de frecuencias y representarla gráficamente.
2. Calcular la función de distribución acumulada de frecuencias relativas y
representarla
gráficamente.
3. Calcular las medidas de posición e interpretar su significado.
4. Calcular las medidas de dispersión.
5. Calcular las medidas de simetría y apuntamiento.
74
Solución
Para los cálculos que se solicitan elaboramos el cuadro siguiente:

1) La distribución de frecuencias
relativas en el caso de variables
continuas no se grafica (intervalos
con diferente amplitud). La función
que interesa graficar es ni / ci:

75
2) La función de distribución acumulada de frecuencias relativas la
tenemos calculada en la quinta columna en los puntos extremos de
intervalo. El gráfico es una poligonal que pasa por dichos puntos y se
completa con: H(y) = 0 si y < 1000 y H(y) = 1 si y > 15000.

76
Ejercicio 4:
Los sueldos que paga una empresa a sus
empleados, vienen dados por la tabla adjunta. La
empresa propone al personal dos posibles arreglos
de negociación:

Se pide:
a) ¿Cuál es el sueldo promedio que paga la empresa?
b) ¿Cuál es el nuevo sueldo promedio U, según el Arreglo 1?
c) ¿Cuál es la mediana del sueldo según el Arreglo 2?
d) ¿Sobre qué sueldo yi , están el 20% de los sueldos superiores?
e) ¿Qué porcentaje del dinero destinado a pagar sueldos representan los
sueldos de las personas que ganan más de yi = $ 18.000?
f) ¿Cuál es la varianza de los sueldos U, según el Arreglo 1?
g) ¿Cuál es el coeficiente de variación de los sueldos U, según el Arreglo 1?
h) ¿Cuál es el coeficiente de variación de los sueldos T, según el Arreglo 2?
77
Solución
Elaboramos el siguiente cuadro que muestra los cálculos para los datos
originales y para los dos posibles acuerdos:

78
79

También podría gustarte