Está en la página 1de 39

CLASE03: MEDIDAS DE RESUMEN

gepomachaguap@unac.edu.pe
Material de Clases © Germán Pomachagua Perez 27-May.-20
MEDIDAS DE RESUMEN

• Entre las medidas que permiten resumir


información proveniente de una población,
podemos considerar las medidas de
posición, medidas de dispersión y medidas
de forma, como se resume en el siguiente
diagrama.

Material de Clases © Germán Pomachagua Perez 27-May.-20


MEDIDAS ESTADISTICAS DE RESUMEN

Material de Clases © Germán Pomachagua Perez 27-May.-20


Medidas de Tendencia Central

• Estas medidas tienden a ubicarse en el


centro del conjunto.
• Proporcionan un valor simple y
representativo, que resume un gran
volumen de información.

• Media Aritmética • Moda


• Promedio Ponderado • Mediana

Material de Clases © Germán Pomachagua Perez 27-May.-20


MEDIA ARITMÉTICA
• Se le denomina también media y comúnmente se le conoce
como promedio.
• Se denota:

x i Se caracteriza por:
X  i 1
media muestral  Ser única
n  Fácil de calcular
N
 Es afectada por
x i
todos los valores
 i 1
media poblacional
N

Material de Clases © Germán Pomachagua Perez 27-May.-20


Media Aritmética


x


x
población 
muestra
x
x
N n

x x
N n

x  x  ...  x x  x  ...  x

i i
i 1
 1 2 N
x i 1
 1 2 n

N N n n
Material de Clases © Germán Pomachagua Perez 27-May.-20
Procedimiento de Calculo
I. Datos sin agrupar
Ejemplo1: Los siguientes datos corresponden a las
notas de 6 alumnos de un curso de matemáticas
x1 x2 x3 x4 x5 x6
6 7 8 12 15 17

x
n

i
6  7  8  12  15  17 65
x i 1
   10.83
n 6 6

Material de Clases © Germán Pomachagua Perez 27-May.-20


Procedimiento de Cálculo
Ejemplo 2: Sea el tiempo en minutos que se demoran en
instalar un software un grupo de 10 estudiantes
1.7 2.8 3.2 3.4 5.3 5.9 6.2 7.2 9.3 83
• La media aritmética
10

x
n

x i
x  i 1
i

x  i 1
10
n
128
x   12.8
10
Los estudiantes se demoran en promedio12.8 minutos en
instalar un software
Material de Clases © Germán Pomachagua Perez 27-May.-20
Procedimiento de Cálculo
II. DATOS AGRUPADOS
m
a) Sin intervalos  xi f i
i 1
x
n
EJEMPLO1: Cantidad de cigarrillos consumidos por un
fumador durante una semana

x f i i
140 Interpretación: La persona fuma
x i 1
  20 en promedio 20 cigarrillos por día
n 7
Material de Clases © Germán Pomachagua Perez 27-May.-20
Procedimiento de Cálculo
m

b) Con intervalos  X i fi
x i 1

Li - Ls fi hi Fi Hi X´i
[39 - 46] 3 0.14 3 0.14 42.5
<46 - 53] 2 0.10 5 0.24 49.5
<53 - 60] 7 0.33 12 0.57 56.5
<60 - 67] 3 0.14 15 0.71 63.5
<67 - 74] 6 0.29 21 1.00 70.5
21 1.00

1235 .5
x  58 .83
21

Interpretación. La edad promedio de los trabajadores es de 58.83 años


Material de Clases © Germán Pomachagua Perez 27-May.-20
PROPIEDADES DE LA MEDIA ARITMETICA
1) La suma de las desviaciones de los valores de la variable con
respecto a la media aritmética es 0.
n

 (x i  x)  0
i 1

2) Si a cada observación, le sumamos (o restamos) una constante,


la media queda sumada (o restada) en esa constante.
Yi  X i  a Y  X a
3) Si a cada observación, le multiplicamos (o dividimos) por
una constante, la media que multiplicada (o dividida) por esa
constante
Y  aX Y  aX
i i

Xi
Yi  Y 
X
a a
Material de Clases © Germán Pomachagua Perez 27-May.-20
PROPIEDADES DE LA MEDIA ARITMETICA

4) Si a y b constantes Yi  aX i  b Y  aX  b

5) Sean m submuestras de tamaño n1,n2, ……..,nm con medias


aritméticas 𝑋1 , 𝑋2 ⋯ ⋯ 𝑋𝑚

Entonces la media aritmética total será:

n1 X 1  n2 X 2  .........  nm X m
X 
n1  n2  .........  nm

Material de Clases © Germán Pomachagua Perez 27-May.-20


Ejemplo3: Consideremos que el salario promedio pagados en
Setiembre por la empresa C a sus 4 trabajadores es 15 soles.
Suponga que a partir del mes de Octubre, estos trabajadores
recibirán un aumento. Se dan las siguientes alternativas:

a) Un aumento de 1.50 soles


b) Un aumento de 12%
c) Un aumento de 25% y un descuento (aporte a su gremio) de
1.10 soles
¿Cuál de las tres alternativas conviene a los trabajadores?
¿Cuál es el monto adicional que desembolsará la empresa?

Solución: Sea X el salario en Setiembre con X  15


Y salario de Octubre entonces
a ) Yi  X i  1.50 Y  X  1.50  15  1.50  16.50
Material de Clases © Germán Pomachagua Perez 27-May.-20
b) Yi  X i  12 % X i  X i  0.12 X i  1.12 X i

Y  1.12 X  1.12 (15)  16 .8

c ) Yi  ( X i  25 % X i )  1.10  1.25 X i  1.10

Y  1.25 X  1.10  1.25 (15 )  1.10  17 .65


 La alternativa que conviene a los trabajadores es la
tercera donde el salario promedio es S/. 17.65
 El monto adicional que pagará la empresa a partir de
octubre es (17.65-15)=2.65. es decir
2.65*4 = S/. 10.60

Material de Clases © Germán Pomachagua Perez 27-May.-20


Ejemplo 3: : Si los datos del archivo Herramientas es del año 2020. Para
el año 2021.
a) Por efecto de la crisis los sueldos disminuirán en un 25%¿ Cual es el
sueldo promedio?
b) El sueldo de la mujeres aumentaran en 15% de su sueldo mas una
bonificación de $600 y en los hombres solo tendrán un incremento
del 18%. ¿Quien tendrá mejor sueldo promedio ?
c) Respecto al año 2020
c.1) ¿Cuántas personas ganan mas de $4500?
c.2)¿Cuál es el sueldo promedio de los que ganan mas de $4500?
c.3)¿Para el año 2021 la empresa aumentara en un 30% a los
trabajadores que tienen un sueldo como máximo de $4500?
d) ¿Podría decir que el 50% de los sueldo en los varones es mayor que
el promedio de ellos?

Material de Clases © Germán Pomachagua Perez 27-May.-20


MEDIANA (Me):

• Sea x1, x2, ....xn un conjunto de n datos, la mediana es aquel valor


que divide en dos partes al total de observaciones.
I. Mediana para datos no agrupados

 X n 1 si n es impar
 2

Me   X n  X n
 2 2
1

 si n es par
2

Material de Clases © Germán Pomachagua Perez 27-May.-20


Procedimientos de Cálculo
• Sean las edades: 10, 18, 25, 32, 12, 5, 7, 7
X si n es impar n 1

Solución: 

2
Me   X  X n n
• Ordenando los datos de menor a mayor 
 si n es par 2 2
1

2
x1 x2 x3 x4 x5 x6 x7 x8
5 7 7 10 12 18 25 32
• Como n = 8, que es un número par, utilizamos la expresión
5,7,7X n  X n Esto significa que el 50% de las
1 10  12
Me  2 2
  11 personas tiene entre 5 y 11 años y el
2 2
50% restante tiene entre 11 y 32
años.

Material de Clases © Germán Pomachagua Perez 27-May.-20


NOTA
1. Los valores extremos no tienen efecto importante
sobre la mediana, lo que si ocurre con la media
aritmética.

Ejemplo: Sean los datos 4,5,6,7,8 luego, la media


aritmética y la mediana son X  Me  6

Pero si en lugar de 8 fuera 80 entonces la media sería


Me =6 , pero la media aritmética 𝑋 = 20.4

Material de Clases © Germán Pomachagua Perez 27-May.-20


Moda (Mo)
La moda es el valor de la distribución de
mayor frecuencia (el que más se repite)

I. Datos no agrupados:
Los siguientes datos corresponden a las edades
de 6 alumnos del curso de Estadística Aplicada:
x1 x2 x3 x4 x5 x6
26 30 30 29 28 30

Mo = 30
Material de Clases © Germán Pomachagua Perez 27-May.-20
Medidas de Asimetría
Asimetría negativa Simétrica Asimetría positiva
As<0 As=0 As>0
 <Me  =Me  >Me

0.20
0.5
0.20

0.4

0.15
0.15

0.3

0.10
0.10

0.2

0.05
0.05

0.1
x s x s
x s
66 % 78 %
78 %
0.00

0.00
0.0

8 10 12 14 16 18 20 -2 -1 0 1 2 3 0 2 4 6 8 10 12 14

x x x

Material de Clases © Germán Pomachagua Perez 27-May.-20


MEDIDAS DE POSICION

CUARTILES: Divide a un conjunto de datos en 4 partes


iguales.
Se denota como Q1, Q2, Q3

DECILES: Dividen al conjunto de datos ordenados en diez


partes iguales
Se denota como: D1, D2,……………, D9
PERCENTILES: Dividen al conjunto de datos ordenados en
100 partes iguales
Se denota como: P1, P2,……………, P99
Material de Clases © Germán Pomachagua Perez 27-May.-20
EQUIVALENCIAS
PERCENTIL Pi DECIL Di PERCENTIL Pi CUARTIL Qi
P10= D1 Decil 1
P25= Q1 Cuartil 1
P20= D2 Decil 2
P50= Q2 Cuartil 2
………………….

P90= D9 Decil 9 P75= Q3 Cuartil 3

Material de Clases © Germán Pomachagua Perez 27-May.-20


PROCEDIMIENTO DE CALCULO
Datos no agrupados:
k ( n  1)
Si Z  PK  X K ( n 1)
100 100

k ( n  1)
Si  E .d  Z  PK  X E  d ( X E 1  X E )
100

Donde: k = 1,2,3,…99 es el percentil que se busca


n = numero de observaciones
Material de Clases © Germán Pomachagua Perez 27-May.-20
Datos no agrupados:
Ejemplo1: Los siguientes datos corresponden a las notas de 7
alumnos de un curso de Epidemiologias
13, 6, 7, 16, 12, 15, 8
a) Calcular el Percentil P25 ~ Q1
Solución: Primero se ordena los datos
x1 x2 x3 x4 x5 x6 x7
6 7 8 12 13 15 16
k ( n  1) 25 (7  1)
Si   2  Z  P25  X 2
100 100
P x k k ( n 1 )
x 25 ( 7 1 )
x 72
100 100

Lo que significa que el 25% de las notas son menores que 7


Material de Clases © Germán Pomachagua Perez 27-May.-20
b) Calcular el Percentil 33 P33
x1 x2 x3 x4 x5 x6 x7
6 7 8 12 13 15 16
Solución:
k ( n  1) 33( 7  1)
Si   2.64  Z  hacer in terpolació n
100 100
Significa que el Percentil 33 se encuentra entre la 2da y 3era
observación.
INTERPOLANDO se tiene:
P33 = x2 + 0.64 (x3 – x2)
Remplazando se tiene:
P33 = 7 + 0.64 ( 8 – 7 ) = 7.64
Lo que significa que el 33% tiene notas menores a 7.64 puntos.
Material de Clases © Germán Pomachagua Perez 27-May.-20
MEDIDAS DE DISPERSIÓN
Una de las características importantes en el análisis de los
datos es la DISPERSIÓN ó VARIABILIDAD.
La dispersión es la cantidad de variación, de los datos en
torno al promedio.
Las medidas de Dispersión más usadas son:

 RANGO
 RANGO INTERCUARTILIC0
 VARIANZA
 DESVIACION ESTANDAR
 ERROR ESTANDART
 COEFICIENTE DE VARIACION
Material de Clases © Germán Pomachagua Perez 27-May.-20
1 : RANGO INTERCUARTILICO

 Permite ubicar 50% de los datos


que se encuentran en el centro de
la distribución

0.05
Mín. P25 P50 P75 Máx.

R.I.= P75-P25=Q3 – Q1

0.04
 Mide la dispersión en la parte

0.03
central de los datos, así que no se
ve influenciada por los valores 25% 25% 25% 25%

0.02
extremos. Rango intercuartílico

 Es una medida resistente en el

0.01
Rango
sentido de ser poco sensible a las

0.00
observaciones extremas
150 160 170 180 190

Material de Clases © Germán Pomachagua Perez 27-May.-20


Ejemplo 1: Sean los puntajes de un grupo de trabajadores. Calcular el RI y ver si y
ver si hay datos atípicos
150 151 150 147 155 145 151 152 150 149
166 142 158 153 144 190 145 147 151 156

SOLUCION: Primero ordenar los datos


ORDEN PUNTAJES
1 142
2 144
3 145
4 145
5 147
6 147
7 149
8 150
9 150
10 150
Boxplot of PUNTAJES
11 151
12 151
13 151
14 152 166 190

15 153
16 155
17 156
18 158 1 40 1 50 1 60 1 70 1 80 1 90
PUNTAJES
19 166
20 190 Material de Clases © Germán Pomachagua Perez 27-May.-20
2. VARIANZA: La varianza se define como la media de las
diferencias cuadráticas de todas las observaciones con
respecto a su media aritmética.
Se denota S2 si es de una muestra, y si es de una población 𝜎 2
Se usa
n
• Para comparar dos o más poblaciones.
• En inferencia estadística
 ( x i  x ) 2

S 2  i 1
• Para calcular el tamaño de muestra n 1

3. DESVIACIÓN ESTÁNDAR (TÍPICA): Mide el grado de dispersión de


todos los individuos que forman la muestra (s) o la población
(σ).
Es la raíz cuadrada de la varianza
n
 2
 i )
( x  x
S i 1

n 1
Material de Clases © Germán Pomachagua Perez 27-May.-20
• PROCEDIMIENTO DE CALCULO :
Calcular la varianza y desviación típica de las edades:
5, 9, 11, 7
5  9  11  7
 Primero calculamos el promedio x  8
n

4  (x  x)
i
2

S2  i 1

 Entonces la varianza será n 1

(5  8) 2
 (9  8) 2
 (11  8) 2
 (7  8) 2
9 1  9 1
S 
2
  6.667
3 3
S 2 = 6.667años 2

 La desviación típica S= 𝑆2

𝑆 = 6.67 = 2.58 𝑎ñ𝑜𝑠


Interpretación: Aproximadamente el
68.26% de los niños tuvieron
8±2.58 𝑎ñ𝑜𝑠
Material de Clases © Germán Pomachagua Perez 27-May.-20
MEDIDAS DE DISPERSIÓN
DATOS SIN AGRUPAR
2
 n

n   xi 
 (x  x) xi2   i 1 
2 n


Calculo
i
abreviado
S 
2 i 1
S2  i 1 n
n 1 n 1

DATOS AGRUPADOS
SIN INTERVALOS CON INTERVALOS
m m

 f i ( xi  x ) 2  fi (M i  x )2
S2  i 1
S2  i 1

n 1 n 1

Material de Clases © Germán Pomachagua Perez 27-May.-20


Ejemplo1 :
n

Calcular la varianza de los siguientes valores numéricos:
 i
( x  x ) 2

S2  i 1
5, 9, 11, 7 n 1
5  9  11  7
• Primero calculamos el promedio x 8
4
• Entonces la varianza será

(5  8) 2  (9  8) 2  (11  8) 2  (7  8) 2 9  1  9  1
S 
2
  6.667
3 3

• Utilizando la fórmula simplificada: (52  92  112  7 2 )  4(8) 2


S 
2
 6.667
3

Material de Clases © Germán Pomachagua Perez 27-May.-20


DATOS AGRUPADOS: sin intervalos
m

 f i ( xi  x ) 2
S2  i 1

n 1
Ejemplo: En cierta clínica, muestra los días de
permanencia que se distribuye entre sus paciente

Días (xi) Nº Pacientes(fi) Xifi


1 3 3
5 3 15
6 3 18
9 4 36
12 1 12
14 84

Calcular varianza desviación estándar y coeficiente de variación

Material de Clases © Germán Pomachagua Perez 27-May.-20


X i

DATOS AGRUPADOS: con intervalos


 fi (M i  X )2
S2  i 1

n 1
Li - Ls fi
[39 - 46] 3
<46 - 53] 2
<53 - 60] 7
<60 - 67] 3
<67 - 74] 6
21

Calcular varianza desviación estándar y coeficiente de variación

Material de Clases © Germán Pomachagua Perez 27-May.-20


PROPIEDADES DE LA VARIANZA
Se X una variable tal que Xi : x1 , x2 ,…….., xn
1. La varianza de una constante es cero
En este caso Xi : k, k,……..,k i:1, 2……..n
V ( X )  V (K )  0
2. La varianza de una constante multiplicada por una variable, es igual
a la constante al cuadrado multiplicada por la varianza de la variable.
Yi = kxi i:1, 2……..n

V (Y )  V ( kX )  k V ( X ) 2

3. La varianza de una constante multiplicada por una variable mas(o


menos) una constante es igual a:
En este caso Yi = axi ±b i:1, 2……..n

V (Y )  V ( aX  b)  V ( aX )  a V ( X ) 2

Material de Clases © Germán Pomachagua Perez 27-May.-20


5. COEFICIENTE DE VARIACIÓN: Es una medida de variabilidad
relativa de los datos, permite comparar la variabilidad de dos
o más conjuntos de datos.
Es la medida que expresa homogeneidad de un conjunto de
datos

s Si el Coeficiente de Variación es:


CV = × 100 < 5% ----> datos muy homogéneos,
X Media aritmética muy representativa

5%  CV  20% ----> datos con


homogeneidad aceptable. La media
aritmética es representativa

Del ejemplo anterior Si el CV  20% ----> datos


heterogéneos, la media aritmética es
2.58 poco representativa
CV = × 100 = 32.25%
8
Material de Clases © Germán Pomachagua Perez 27-May.-20
ANALISIS EXPLORATORIO DE DATOS
El análisis exploratorio de datos es el proceso de utilizar herramientas
estadísticas (como gráficas. medidas de tendencia central y medidas de
variación)
con la finalidad de investigar conjuntos de datos para comprender sus
características importantes
Antes de proceder a cualquier análisis se debe hacer un Análisis Exploratorio
que nos permita ver la naturaleza de los datos.
El Análisis exploratorio se usa para detectar valores atípicos (outliers) es decir
valores que no son igual al resto

Material de Clases © Germán Pomachagua Perez 27-May.-20


PROCEDIMIENTO DE CALCULO

 Es un dato atípico si cae fuera del intervalo

<P25 -1.5xR.I. , P75+1.5xR.I.>


en la grafica se indica como °

 Es un dato atípico extremo si cae fuera del


intervalo

<P25 -3xR.I. , P75+3xR.I.>


en la grafica se indica como *
Material de Clases © Germán Pomachagua Perez 27-May.-20
Ejemplo2: Se desea saber si un programa de capacitación en la empresa Royal S.A. mejoró
los tiempos en desarrollar una tarea. Para ello se observa el nivel de las habilidades antes
del programa y después del programa en una muestra de 47 empleados, obteniéndose los
siguientes resultados.
Hacer un análisis e interpretación de los resultados usando el MINITAB
Antes
146 160 182 186 186 190 200 200 202 210 214 216
218 218 220 220 220 226 234 234 236 236 238 240
242 244 244 248 248 258 266 270 270 272 276 276
278 278 282 288 288 294 294 350 385 401 420
Después
142 156 160 162 164 166 168 170 178 178 182 182
182 182 182 182 184 186 188 188 196 198 198 198
198 200 200 204 204 206 212 214 216 218 230 232
236 238 242 242 248 256 256 264 264 280 294

TRABAJO: Hacer un análisis e interpretación de los resultados usando el


MINITAB, tomando como base el archivo HERRAMIENTAS
39
Material de Clases © Germán Pomachagua Perez 27-May.-20

También podría gustarte