Está en la página 1de 68

Medidas Estadísticas

• Medidas de Centralización: Nos sirven para ver sobre que


valores se concentra la variable o tienen tendencia a agruparse.
• Medidas de Dispersión: Cuantifican la concentración o no
concentración de los datos respecto a las medidas de
centralización. También nos van a dar una idea sobre la
representatividad de las medidas centrales, a mayor dispersión
menor representatividad.
• Medidas de Localización: Útiles para encontrar determinados
valores importantes, para una “clasificación” de los elementos
del colectivo de datos.
• Medidas de Forma: Sirven para ver si la distribución tiene el
mismo comportamiento por encima y por debajo de los valores
centrales. Comparan la forma de la distribución con la forma de
la Distribución Normal, que es la distribución que se toma
como referencia.
Medidas de Localización
MEDIDAS REPRESENTATIVAS DE UN CONJUNTO
DE DATOS ESTADÍSTICOS
Medidas de Centralización
Media Aritmética Poblacional (datos sin
tabular):
Promedio que se obtiene al dividir al dividir la
  N
x
suma de N número entre N.

Media Aritmética Muestral (datos tabulados):


n n La media aritmética de una variable se
fi
x   xi hi   xi define como la suma ponderada de los
i1 i1 n
valores de la variable por sus
frecuencias relativas:

xi representa el valor de la variable o en su caso la marca de clase.


Ventajas y Desventajas
• Única, fácil cálculo e interpretable y tiene en cuenta todos los valores.
• Conveniente cuando los datos se concentran simétricamente o
aconsejable cuando los datos son bastante homogéneos.
• Con valores extremos no es representativa.
• No se puede calcular para caracteres cualitativos o intervalos no acotados.
• Depende de la división en intervalos en el caso de variables continuas.
• En estudios relacionados con propósitos estadísticos y de inferencia suele ser
más apta.
• No es recomendable su uso cuando la variable está dada en forma de tasas o
porcentajes.
Ejemplo
Cálculo de la media aritmética para datos clasificados en intervalos
de clase.
li-1 - li ni xi xi ni
li-1 - li ni
0 - 10 1
0 - 10 1 5 5 -19 -19

10 - 20 2 10 - 20 2 15 30 -9 -18
20 - 30 4 20 - 30 4 25 100 +1 +4
30 - 40 3 30 - 40 3 35 105 +11 +33
n=10

Solución

La media aritmética es:

Se puede comprobar sumando los elementos de la última


columna que:
Propiedades:
• M[k] = k , k:constante
• M[k.X] = k.M[X]
• M[kX] = k  M[X]
• Para cualquier posible valor k que consideremos como
candidato a medida central, , lo mejora en el sentido de
los mínimos cuadrados, es decir:

• Dados r grupos con n1, n2, ..., nr observaciones y siendo


, , . . , las respectivas medias de cada uno de
ellos.
Entonces la media global es

• Linealidad
Ejemplo

Solución
Ejemplo

Solución
Ejemplo
Xi ni
Calcular la media de la siguiente distribución. 38432 4
38434 8
38436 4
38438 3
Si efectuamos un cambio de variable 38440 8

y i  x i  38436
2
tomando como nueva variable el valor más centrado, tendremos::

xi ni yi yi ni
38432 4 (38432 - 38436)/2 = -2 -8
38434 8 (38434 - 38436)/2 = -1 -8
38436 4 (38436 - 38436)/2 = 0 0
38438 3 (38438 - 38436)/2 = 1 3
38440 8 (38440 - 38436)/2 = 2 16
n = 27 3
Medidas de Centralización
Mediana: La mediana es el valor central de la variable, es decir, supuesta una
muestra ordenada en orden creciente o decreciente, es el valor que divide en dos
partes a dicha muestra. Para calcular la mediana debemos tener en cuenta si la
variable es discreta o continua.

Ventajas
• Representativa para datos en escala ordinal.
•Influenciada por valores centrales y es insensible a los valores extremos
u “outliers ”.
• No tiene en cuenta todas las observaciones extremas.
•Por consiguiente será recomendable su utilización cuando los datos son
irregulares, es decir, aparecen observaciones anormalmente bajas o altas.
• Depende de la posición relativa de los datos, no de sus
valores.
• Es función de los intervalos escogidos.
Propiedades
• Si una población está formada por 2 subpoblaciones de
medianas Med1 y Med2, sólo se puede afirmar que la mediana,
Med, de la población está comprendida entre Med1 y Med2.

• La suma de las diferencias de los valores absolutos de n


puntuaciones respecto a su mediana es menor o igual que
cualquier otro valor.
A.- Cálculo de la mediana (caso discreto sin tabular):

Tendremos en cuenta el tamaño de la muestra


Ejemplo:
B- Cálculo de la mediana (caso discreto tabulado):

Tendremos en cuenta si n/2 = Ni


Ejemplo:
Xi. ni Ni
5 8 8
10 17 25 n/2 = 50 /2 = 25 = N2
15 12 37
20 10 47
25 3 50

Me = (10 + 15) / 2 = 12.5


C.- Cálculo de la mediana (caso continuo):

n
N i1  2  Ni

Ejemplo:

Intervalo mediano

Observación: Si n /2 es igual al límite inferior  Me = L i-1 de la siguiente


clase (asumimos intervalos semicerrados, [ ).
Figura: Cálculo geométrico de la mediana
Medidas de Centralización
Moda: La moda es el valor de la variable que tenga mayor
frecuencia absoluta, la que más se repite, es la única
medida de centralización que tiene sentido estudiar en una
variable cualitativa, pues no precisa la realización de
ningún cálculo.

Ventajas y Desventajas
• Pueden existir varias modas
(distrib. bimodales, trimodales,...)
• No tiene en cuenta todas
las observaciones.
• Es menos representativa
que la media.
• Se puede calcular para características
cualitativas y cuantitativas.
• Es función de los intervalos elegidos a través de su amplitud,
número y límites de los mismos.
• Aunque el primero o el último de los intervalos no posean
extremos inferior o superior respectivamente, la moda puede
ser calculada.
• La moda también es menos afectada por unas pocas
observaciones atípicas.
• Si el conjunto de datos es bimodal, su uso puede ser confuso.
• Para conjuntos pequeños de datos su valor no tiene casi
utilidad, si es que de hecho existe. Solo tiene significado en el
caso de una gran cantidad de datos.
Figura: Cálculo geométrico de la moda
A.- Cálculo de la moda (caso discreto):

Tendremos en cuenta el valor con mayor frecuencia.


Ejemplo:

Distribución de 100 familias según número de hijos

X: nº hijos fi hi %
0 15 15/100 15
Mayor
Moda 1 31 31/100 31 frecuencia
2 50 50/100 50
3 2 2/100 2
>4 2 2/100 2
B.- Cálculo de la moda (caso continuo)

Mo  L i1
 ni  ni1 •a i

(n  n )(n  n )
i i1 i i1

ni-1 < ni > ni+1

Intervalo modal
Relación entre media, mediana y moda
• En el caso de distribuciones unimodales, la mediana está con
frecuencia comprendida entre la media y la moda (incluso más
cerca de la media).
• En distribuciones que presentan cierta inclinación, es más
aconsejable el uso de la mediana. Sin embargo en estudios
relacionados con propósitos estadísticos y de inferencia suele
ser más apta la media.

La medida que se seleccione depende de la naturaleza de los datos


o de la forma como se utilicen los datos.
Relación entre media, mediana y moda
 Una distribución
simétrica si es
la izquierda mitad
distribución
de es la imagensu
reflejada de su
mitad
derecha.
 En media
distribuciones
las y
sólo hay una
simétricas moda tan
coinciden. Si
bien coincide.
mediana
 La asimetría es positiva o
negativa en función de
qué lado se encuentra la
cola de la distribución.

La media tiende a desplazarse hacia los valores extremos (colas). Las


discrepancias entre las medidas de centralización son indicación de
asimetría.
¿Cuál elegir?

Moda Media
Mediana
Comparación entre media, mediana y moda

Ejemplo

• Un vendedor minorista popular de equipos para acampar, se beneficiaría muy


poco del hecho de saber que la talla promedio de las botas de excursionismo
que vendió fue de 7.3492. De mayor utilidad para las decisiones futuras del
negocio será conocer el tamaño modal reconociendo que vendió más botas
de talla 8 que de cualquier otra talla.

• Sin embargo, si se desea comercializar una nueva tienda de acampar. Las


dimensiones de la tienda dependerán, entre otras cosas, de la estatura
promedio de los adultos.

• La experiencia ha demostrado que la media sirve muy bien como medida de


tendencia central cuando se trata de productos que están hechos para
acomodarse a la estatura de las personas. El tamaño de los marcos de las
puertas de las entradas de los hogares y negocios minoristas, y gran parte del
mobiliario se fabrica con base en la estatura promedio.
Observación:
Para distribuciones unimodales moderadamente asimétricas
(sesgadas) tenemos las siguientes tres relaciones empíricas entre
la media, moda y mediana (válidas tanto para datos aislados
como para datos agrupados por clases):
Medidas de Localización
Cuantiles: Son medidas de localización que dividen a la
serie estadística en grupos particulares
percentil

deja a su izquierda, a lo más, deja a su derecha, al menos, el


el k% de las observaciones (1-k)% de las observaciones
Tipos:
Cuartiles: Q1 = X0,25 , Q2 = X0,50 , Q3 = X0,75

Deciles: D1 = X0,1 , D2 = X0,2 ,…, D9 = X0,9

Percentiles: P1 = X0,01 , P2 = X0,02 ,…, D99 = X0,99


Medidas de Localización

Cuartiles: Datos sin clasificar


Posición:
(n+1)/4 Minitab 16.1
Interpolación Qi = xi +f*( xi+1 – xi)

Ejemplo: n = 12
111222334567

Posición: 13/4=3.25 Q1 = 1+ 0.25(2-1) = 1.25


Redondeo por
exceso

Promedio
simple

Statistica 6.0
Ejemplo
Ejemplo

A los datos siguientes: n = 12


111222334567
Hallar Q1

Solución

Tenemos i = 0.25*12 = 3

Como i es un entero promediamos los valores de i con i+1

Q1 = (1 + 2) / 2 = 1.5 111222334567

Nótese que difiere con el método de interpolación


Medidas de Localización

Cuartiles, Deciles y Percentiles: Datos Clasificados

kn
N i1  4  N i 

N i1  kn  N i
10

N i1  kn  Ni
100

Medidas de Localización
Ejemplo:
Cuartiles, Deciles y Percentiles: Caso continuo

Intervalo cuartílico
para Q1
Ejemplo:
Si se tiene una distribución de frecuencias simétrica con
seis intervalos de amplitud constante, y los siguientes datos:
Solución:
Ejercicios
1. Supóngase que un estudiante tiene las siguientes notas en cuatro cursos
matriculados un cuatrimestre: 67, 82, 90, 71. El número de créditos que
vale cada curso es, respectivamente: 3, 2, 2, 4. Calcule un promedio
adecuado.

2. Los siguientes datos representan los gastos diarios por impresión de


fotocopias de dos estudiantes que realizaron en 8 sesiones de
clases.
¿cuál es el promedio por gastos de fotocopias?
3. ¿En cuál de las siguientes situaciones, la muestra es
más homogénea?

*
4. Según la distribución de las notas (en una escala de 1 a 10), ¿cómo
crees que es la prueba A?
a. Fácil *
b. Normal, ni fácil ni difícil
c. Difícil

A B

100 80

80

60
Frecuencia

Frecuencia
60

40

40

20

20

0 0
2,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00

A B
5. La tabla presentada a continuación representa el consumo de energía
eléctrica de 80 usuarios en el primer mes del 2005:
Consumo Número de
(Kwh) usuarios
5 – 25 04
25 – 45 06
45 – 65 14
65 – 85 26
85 – 105 14
105 – 125 08
125 – 145 06
145 – 165 02

Total 80

a) Construya el histograma de la variable consumo y la ojiva ascendente.


b) Examine la centralidad de la distribución con un promedio adecuado.
c) ¿Qué porcentaje de usuarios consume entre 50 y 150 Kwh?
d) ¿Qué nivel mínimo tiene el 25% de los usuarios con mayor consumo?
Solución con SPSS
Case Summariesa
li ls fi Yi
1 5 25 4 15
2 25 45 6 35
3 45 65 14 55
4 65 85 26 75
5 85 105 14 95
6 105 125 8 115
7 125 145 6 135
8 145 165 2 155

a. Limited to first 100 cases.

Statistics
Yi
N Valid 80
Missing 0
Mean 79.50
Median 78.00a
Mode 75
Percentiles 25 58.00b
50 78.00
75 100.45
a. Calculated from grouped data.
b. Percentiles are calculated from grouped data.
Solución con Casio fx-9860

Elementos de cálculo para Me

Elementos de cálculo para Mo


ESTADÍSTICOS DE LOCALIZACIÓN
(POSICIÓN NO CENTRAL)
Ejercicios: Responder usando cuantiles.
– El 5% de los productos elaborados tiene un
peso demasiado bajo. ¿Qué peso se
“demasiado bajo”?
considera • Percentil 5 o cuantil 0,05

– ¿Qué peso es superado sólo por el 25% de


losartículos? • Percentil 75

– El colesterol se distribuye simétricamente en


población. laSe considera patológico
los valores extremos. El 90% de los
individuos son normales
¿Entre qué valores se encuentran los•
normales?
individuos Entre el percentil 5 y el 95
– ¿Entre qué valores se encuentran la mitad de
los individuos “más normales” de una población?
• Entre el cuartil 1º y 3º
Ejercicios resueltos
Ejercicio 1:

Se analizó el índice de ventas en diversos países europeos, a la compra


de obras de arte. Los resultados obtenidos fueron los siguientes:

a) Calculo de la media aritmética, la mediana y la moda.


b) Calcular los cuartiles:
Solución :
a) Construimos las siguientes cuatro frecuencias:
b) Como sabemos el segundo cuartil es igual a la mediana
Ejercicio 2:

¿Se producen alteraciones en las medidas de posición al realizar un


cambio de origen?
Solución :

El cambio de origen supone una traslación del tipo y = x + a. Las


medidas de posición son afectadas de la siguiente forma:

Media

Moda
Mediana
Cuartiles, deciles y percentiles

Ejercicio 3: Nº de
Salarios empleados
La distribución de los costes salariales de 0-15000 2145
los 10000 empleados de una multinacional 15000-20000 1520
se presenta en la tabla siguiente:
20000-25000 840
Calcular el salario medio por trabajador, el
25000-30000 955
salario típico y el salario central. Calcular
30000-35000 1110
también el primer cuartil salarial y el
percentil 75. Interpretar. 35000-40000 2342
40000-50000 610
50000-100000 328
100000-300000 150
Solución :
La tabla siguiente contiene los elementos relativos a la distribución de
frecuencia de la variable salario (X) necesarios para realizar los
cálculos pedidos en el problema.
Nº de
empleado Marcas =
Salarios s (ni) xi xi* ni Ni ci di= ni/ ci
0-15000 2145 7500 16087500 2145 15000 0,143
15000-20000 1520 17500 26600000 3665 5000 0,304
20000-25000 840 22500 18900000 4505 5000 0,168
25000-30000 955 27500 26262500 5460 5000 0,191
30000-35000 1110 32500 36075000 6570 5000 0,222
35000-40000 2342 37500 87825000 8912 5000 0,4684
40000-50000 610 45000 27450000 9522 10000 0,061
50000-100000 328 75000 2460000 9850 50000 0,0056
100000-300000 150 200000 30000000 10000 200000 0,00075
10000 293800000
Para hallar el salario medio por trabajador calculamos la media de la
variable X.

Para hallar el salario más frecuente se calcula la moda de la variable


X. Para ello hemos de tener presente que los intervalos de la
distribución de frecuencias son desiguales, por lo que el intervalo
modal será el correspondiente al mayor valor de di, es decir será el
intervalo (35000 – 40000). Por lo tanto la moda se calcula como
sigue:
Para hallar el salario central, tal que la mitad de los restantes sea
inferior a él se calcula la mediana. Para ello, como N/2 = 5000, el
intervalo mediano será (25000 – 30000) ya que Ni-1 < N/2 < Ni es
equivalente en este problema a 4505 < 5000 <5460. La mediana
se calculará como sigue:

Para calcular el primer cuartil observamos que como N/4 = 2500, el


intervalo relativo al primer cuartel será (15000-20000) ya que Ni-
1<2500<Ni es equivalente en este problema a 2145<2500<3665.El
primer cuartel se calculará como sigue:
El primer cuartel se interpreta como el valor de la variable para el que
la cuarta parte de los valores son menores que él y las tres cuartas
partes restantes son superiores.

Para calcular el percentil 75 (cuantil 75 de orden 100), observamos


que como 75N/100 = 7500, el intervalo relativo al percentil 75 será
(35000-40000) ya que Ni-1<7500<Ni es equivalente en este problema
a 6570<7500<8190. El percentil 75 se calculará como sigue:

El percentil 75 se interpreta como el valor de la variable para el que el


75% de los valores son inferiores a él y el 25% restante son
superiores. El percentil 75 también podrá haberse calculado como el
tercer cuartil (cuantil 3de orden 4). Como 75N/100=7500=3N/4, el
tercer cuartil se calcularía como sigue:
El tercer cuartil se interpreta como el valor de la variable para el
que las tres cuartas partes de los valores son inferiores a él y la
cuarta parte restante es superior. Como las tres cuartas partes
son el 75%, el percentil 75 coincide con el tercer cuartil.
Ejercicio 4:
En el marco de un estudio sobre la posible incidencia que tiene la
religión profesada por los distintos matrimonios en la presencia de una
mayor ó menor frecuencia de divorcios, se ha tomado una muestra
aleatoria a nivel mundial de tamaño 32000

Religión \ Divorcio Divorcio No divorcio


Católicos 1435 7565
Ateos 845 2155
Musulmanes 160 7840
Protestantes 610 4390
Otros 1250 5750

a)Basando tus razonamientos y afirmaciones en las frecuencias


relativas que resulten mas informativas para este estudio señala cual
es la religión donde los matrimonios presentan una mayor
probabilidad de terminar en divorcio y cual es en la que se dan
menos.
b)Obtener las frecuencias marginales absolutas y relativas de la
variable divorcio.
a) En este caso las frecuencias que proporcionan más información son las
frecuencias relativas condicionales de Divorcio/Religión.

Frec. Relativa (Divorcio/ Católicos) = 1435/(1435+7565)=15.94% de los


matrimonios católicos acaban en divorcio

Frec. Relativa (Divorcio/Ateos) = 845/(845+2155)=28.17% de los


matrimonios ateos acaban en divorcio.

Frec. Relativa (Divorcio/Musulmanes) =160/(160+7840)=2% de los


matrimonios musulmanes acaban en divorcio.

Frec. Relativa (Divorcio/Protestantes) = 610/(610+4390)= 12.2% de los


matrimonios musulmanes acaban en divorcio.

Frec. Relativa (Divorcio/ Otros) = 1250/(1250+5750)=17.9% de los otros


matrimonios acaban en divorcio.

A partir de los datos se observa que en el caso de los ateos hay mas
probabilidad de que los matrimonios acaben en divorcio 28.17%. En la
religión musulmana ocurrirá justo lo contrario con solo un 2% de divorcios.
b) Obtener las frecuencias marginales absolutas y relativas de la
variable divorcio.

Frecuencias marginales de la variable divorcio:

Frecuencias absolutas marginales: divorcio si: 4300 divorcio no:


27700

Frecuencias relativas marginales: divorcio si: 4300/32000=13.44%


divorcio no:27700/32000=86.56%
Ejercicio 5:
Ejercicio 6:
En un estudio realizado en una región en el año 2000 en torno a los
cambios en la estructura productiva del país y su impacto sobre el empleo
se obtuvo la siguiente información referida a la distribución de la variable
horas trabajadas por mes:
Sector Moda Mediana Media Rango Q1 Q3 S CV
Industria 130 145 140 100 125 159 24 17
Construcción 150 145 130 100 136 158 16 12
Servicios 130 122 122 100 106 135 23 19

• Qué sugieren los estadísticos respecto al sector de la industria? Al de


servicios? Y al de la construcción?
• Qué sector es el más homogéneo? Por qué?
• En función de los valores asumidos en el sector de la construcción, qué
medida es más pertinente para describir la distribución? Media o
Mediana? Por qué?
Ejercicio 7:
ESTUDIO DEL PERFIL DE PERSONAL
DE LA EMPRES A ALFA & OMEGA EDAD ESCOLARIDAD ANTIGÜEDAD SUELDO
promedio 31,3 14,1 4,1 7,5
mediana 28,0 14,0 3,0 6,5
La empresa TODOS LOS desvío 11,1 2,2 3,2 4,0
Alfa & Omega EMPLEADO coef.var 35,3 15,3 76,9 53,5
quiere realizar S
mínimo 19,0 10,0 0,0 3,5
un diagnóstico
máximo 62,0 18,0 9,0 16,0
de sus
promedio 31,3 14,7 4,1 6,0
recursos
humanos en mediana 26,0 16,0 3,0 6,5
2015 y evaluar EMPLEADA desvío 6,8 2,4 3,0 2,3
si es necesario S coef.var 21,8 16,7 73,4 38,4
MUJERES
aplicar medidas mínimo 25,0 10,0 1,0 3,5
para superar máximo 39,0 18,0 9,0 10,0
potenciales promedio 31,3 13,4 4,1 9,0
problemas de
mediana 30,0 14,0 3,0 6,5
discriminación
EMPLEADO desvío 14,6 1,7 3,5 4,9
laboral de S coef.var 46,6 12,9 84,7 54,4
género. VARONES
mínimo 19,0 11,0 0,0 3,5
máximo 62,0 16,0 9,0 16,0

También podría gustarte