Está en la página 1de 57

UNIVERSIDAD NACIONAL DE INGENIERIA

Facultad de Ingeniería Mecánica

CURSO: ESTADISTICA Y PROBABILIDADES

TEMA:
MEDIDAS DE RESUMEN

Mag. Elsa Noemi Guillén Guillén


MEDIDAS DE RESUMEN
Las medidas de resumen sirven para describir en forma
resumida un conjunto de datos que constituyen una muestra
tomada de alguna población.
MEDIDA DE
__
TENDENCIA
Media (X ), Mediana (Me) y Moda (Mo)
CENTRAL

MEDIDA DE Rango(R), Varianza(s2), Desviación Estándar (s) y


VARIABILIDAD Coeficiente de variación (c.v%)

MEDIDA DE
POSICION Deciles (D), Cuartiles (Q) y Percentiles (P)

MEDIDA DE
FORMA Asimetría (As) y Curtosis (K)
MEDIA (MEDIA ARITMETICA)
Es una medida de tendencia central, que se ubica exactamente en
la parte central del recorrido de los datos.

- Es el tipo de valor que más frecuentemente se usa y el que


más fácilmente se comprende.
- Es de gran estabilidad porque toma en cuenta todos los
VENTAJA datos.
- Nos permite probar parámetros en inferencia estadística.
- Sólo es válida para variables cuantitativas.
- Es única para cada conjunto de datos.

- Se ve afectada por los datos extremos.


- Si la muestra es grande y los datos no están agrupados, su
DESVENTAJA cálculo es tedioso.
- Cuando se observe asimetría o distribución sesgada, no es
un valor confiable.
- Cuando los datos agrupados tienen clases abiertas en los
extremos, no es recomendable calcular el promedio.
MEDIA ARITMETICA

n
PARA DATOS __ xx + x ++ x
NO
X= =
i
i =1 1 2 n
AGRUPADOS
n n

m
PARA DATOS _  yj f j
j =1
AGRUPADOS x =
n
MEDIANA
La mediana de un conjunto de datos es el valor del punto medio de la
distribución ordenada (ascendente o descendente).
Es el valor central que deja el 50% de los valores igual o debajo de él y la otra
mitad o sea el 50% igual o por encima del él.

- No está afectada por valores extremos.


- Se ve influenciada por el número de observaciones y no por
VENTAJA
los valores que estas toman.
- Se puede determinar para datos cualitativos, registrados
bajo una escala ordinal.

- Como valor central, se debe ordenar primero la serie de


datos.
DESVENTAJA - Para una serie amplia de datos no agrupados, el proceso de
ordenamiento de los datos demanda tiempo y usualmente
provoca equivocaciones.
- En datos agrupados, su cálculo es menos sencillo.
MEDIANA

1. Ordene los datos (en forma creciente o decreciente)


2. Ubique el valor central de las observaciones, si el
PARA DATOS número de observaciones es impar, la mediana es la
NO observación que ocupa el valor central; si el número
AGRUPADOS de observaciones es par la mediana es la semisuma de
los valores centrales.

n 
PARA DATOS  − F j −1 
AGRUPADOS Me = Linf . +  2 c
fj
MODA
La moda para un conjunto de observaciones, es el valor o valores que se
repiten con mayor frecuencia.
Si una muestra o población tiene dos modas, se denominan bimodales y
si tienen tres o más modas se denominan multimodales.

- Se puede utilizar tanto para datos cualitativos como


cuantitativos.
- Es fácil de calcular e interpretar.
VENTAJA
- No se ve afectada por los valores extremos.
- Cuando el número de datos es pequeño, es fácil de obtener
sin cálculos.
- Se usa para variables que pertenecen a la escala nominal.

- No tiene un uso tan frecuente como la media.


DESVENTAJA - Muchas veces no existe moda (distribución amodal).
- En otros casos la distribución tiene varias modas, lo que
dificulta su interpretación.
MODA

PARA DATOS Para datos no agrupados es simplemente el


NO valor que mas se repite dentro de la muestra
AGRUPADOS o población.

 1 
PARA DATOS
AGRUPADOS
Mo = Linf . +
 + 
c
 1 2 
MEDIDA DE DISPERSION
Son estadígrafos que miden el grado de
concentración o de dispersión de los valores de la
variable en torno a un promedio o valor central de
la distribución.

A B
Se tiene dos conjuntos de datos cada uno
con su respectiva media.

X=5 X =5

6 5 10 5
5 5 4 9
0 1

Cual presenta menos variabilidad?


MEDIDAS DE DISPERSION
- Consideran la variabilidad de los valores observados.
- Miden la dispersión de los valores de un grupo de datos.
- Indican el grado de homogeneidad o de heterogeneidad con que
se presentan los datos en una distribución.
RANGO (R)
El rango de un conjunto de datos
correspondientes a una muestra de tamaño
“n”, se denota por “R” y se define como:

La diferencia entre la observación mayor y la


observación menor, es decir: R = X máx. – X min.
RANGO (R)
- El rango es una medida de dispersión muy fácilmente
calculable, pero es muy inestable, ya que depende
únicamente de los dos valores extremos.

- Su valor puede cambiar grandemente si se añade o


elimina un solo dato.

- El rango es una medida de dispersión muy fácilmente


calculable, pero es muy inestable, ya que depende
únicamente de los dos valores extremos.

- Su valor puede cambiar grandemente si se añade o


elimina un solo dato.
VARIANZA (s2)
- Es una medida que cuantifica el grado de dispersión o de variación de los valores
de una variables cuantitativa con respecto a su media aritmética.

-Si los valores tienden a concentrarse alrededor de su media, la varianza será


pequeña.

-Si los valores tienden a distribuirse lejos de la media, la varianza será grande.

- Es el promedio de la suma de los cuadrados de las desviaciones de la variable


respecto a su media.

- La varianza es una medida de dispersión con unidades de medición al cuadrado, por


ejemplo km2, etc.

- La varianza no tiene interpretación práctica, sólo se calcula para poder determinar


la desviación estándar.
- La varianza es un número real no negativo y viene expresada en unidades
cuadráticas.
- Si el valor de las observaciones son todas iguales la varianza es CERO.
VARIANZA

μ
VARIANZA (s2)

Varianza para datos simples (en serie):

s 2
=
 x 2
− n( x ) 2

n −1
Donde:

 x = cada valor de la muestra se eleva al cuadrado luego se


2

suma todos los valores.


n = tamaño de la muestra. (número de datos).
x = media para datos simples.
VARIANZA (s2)

Varianza para datos agrupados:

s 2
=
 Y 2
f − n(Y ) 2

n −1
Donde:
 f = cada marca de clase elevado al cuadrado y multiplicado
Y 2

por su frecuencia absoluta simple, luego se suman todos


los valores.
n = tamaño de la muestra
Y = media para datos agrupados.
DESVIACION ESTANDAR (s)
Es la raíz cuadrada de la varianza.
Esta medida tiene interpretación
práctica.

s= s 2

Es uno de los estadísticos de mayor uso en el


cual las unidades de la variable ya no están
elevados al cuadrado sino están en unidades
originales.
CARACTERISTICA
DE LA DESVIACION ESTANDAR
1. Siempre es un valor positivo.

2. Está influenciada por todos los valores de la


muestra o población.

3. Mayor influencia ejercen los valores extremos


debido a que son elevados al cuadrado en el cálculo.

4. Sirve para definir la dispersión de los datos


alrededor de la media.
COEFICIENTE DE VARIACION (c.v.%)

Es el cociente de la desviación
estándar y la media aritmética,
expresado en porcentaje. Así:

s
cv% = x100
x
COEFICIENTE DE VARIACION (c.v.%)
-El coeficiente de variación se usa para saber si un conjunto de datos es
homogéneo o heterogéneo (concentrados o dispersos). Para esto se
utiliza el siguiente criterio:

Si C.V. < 0.30 Datos HOMOGENEOS


Si C.V. ≥ 0.30 Datos HETEROGENEOS

- El coeficiente de variación es mayor que 30% la media no es


representativa del conjunto de los datos.

- El coeficiente de variación también se utiliza para comparar la


variabilidad de 2 ó más series de datos que tengan unidades de medida
iguales o diferentes (por ejemplo, peso en kgs. y edad en años).

-Si C.V.A. < C.V.B Los datos de la serie A son mas homogeneas o
tienen menor variabilidad con respecto a los datos de la serie B.
COEFICIENTE DE VARIACION (c.v.%)

Ejemplo : Comparar peso y estatura.

Estadígrafo Peso Estatura


x 20 1,0 mt
S 2 0,05 mt
C.V. 2/20 * 100 0.05/ 1 * 100
=10 % =5 %

¿Qué grupo es más homogéneo?


Poca dispersión
Baja varianza
Baja desviación típica
Bajo CV

Mucha dispersión
Alta varianza
Alta desviación
Alto CV
EJEMPLOS
RANGO
1) La siguiente tabla representa la pérdida de peso en
kg, de un grupo de ingenieros que se sometieron a un
tratamiento durante el último año
a) Calcular el Rango.

20 10 25 30 15 25 45 35 50 40

10 20 25 30 25 15 45 35 40 50

R = X máx. – X min
R = 50 – 10
R = 40
VARIANZA (DATOS SIMPLES)
1) Los datos presentados corresponden a las edades de 8
alumnos del primer ciclo de la facultad de ingeniería
mecánica.
a) Hallar la Varianza.

18 20 23 17 18 19 23 18

s 2
=
 x 2
− n( x ) 2

n −1
18 2
+ 20 2
+ ......... + 18 2
− 8(19.5) 2
s2 =
8 −1
s 2 = 5.43
DESVIACION ESTANDAR (DATOS SIMPLES)
1) Los datos presentados corresponden a las edades de 8
alumnos del primer ciclo de la facultad de ingeniería
mecánica.
a) Hallar la Desviación estándar. Interpretar

18 20 23 17 18 19 23 18

s = (5.43)
s= s 2
s = 2.33

Interpretación: Las edades del primer ciclo de la facultad de Ciencias de


la Salud se dispersa respecto al valor central en aproximadamente 2 años
COEFICIENTE DE VARIACION (DATOS SIMPLES)
1) Los datos presentados corresponden a las edades de 8
alumnos del primer ciclo de la facultad de ingeniería
mecánica.
a) Hallar el Coeficiente de variación. Interpretar
18 20 23 17 18 19 23 18

2.33
cv% = x100
19.5
cv% = 11.95%
cv% = 12%
Interpretación: Como el coeficiente de variación es menor que el 30%
entonces la media es una medida representativa del conjunto de datos.
VARIANZA (DATOS AGRUPADOS)
DISTRIBUCION DE FRECUENCIAS DE LOS PUNTAJES DEL C.I DE 50
ESTUDIANTES DE LA UNI
DESVIACION ESTANDAR (DATOS AGRUPADOS)
DISTRIBUCION DE FRECUENCIAS DE LOS PUNTAJES DEL C.I DE 50
ESTUDIANTES DE LA UNI

INTERPRETACION: El C.I. de los estudiantes de la UNI se dispersa


respecto al valor central en aproximadamte 13 puntos.
COEFICIENTE DE VARIACION (DATOS AGRUPADOS)
DISTRIBUCION DE FRECUENCIAS DE LOS PUNTAJES DEL C.I DE 50
ESTUDIANTES DE LA UNI

INTERPRETACION: Como el c.v.% es menor que el 30%, entonces la


media es una medida representativa del conjunto de datos.
MEDIDA DE POSICION
SON ESTADIGRAFOS QUE DESCRIBEN LA
POSICION QUE OCUPA UNA
DISTRIBUCION DE FRECUENCIA
ALREDEDOR DE UN VALOR DE LA
VARIABLE.

Son estadígrafos que dividen a la población en cuatro,


diez o cien partes iguales.

Entre las medidas de posición tenemos:


- Los cuartiles (Q1, …….,Q3)
- Los deciles (D1, D2,……..,D9)
- Los percentiles (P1, P2,…………..,P99)
LOS CUARTILES (Qi)
Son estadígrafos que dividen a la información en
cuatro partes iguales, donde cada uno de ellos es el
25% de la información.

0% 25% . 50% . 75% . 100%


Q1 Q2 Q3
El primer cuartil Q1, es aquel valor de la variable que supera al 25%
de las observaciones y es superado por el 75% de las observaciones.
El segundo cuartil Q2, (coincide, es idéntico o similar a la mediana,
Q2 = Me), el 50% de las observaciones son mayores que la mediana y
el 50% son menores.
El tercer cuartil Q3, es aquel valor de la variable que supera al 75%
de las observaciones y es superado por el 25% de las observaciones.
LOS DECILES (Di)
Son estadígrafos que dividen a la información en
diez partes iguales, donde cada uno de ellos es el
10% de la información.
10% . 10% . 10% . 10% . 10% . 10% . 10% . 10% . 10% . 10%

D1 D2 D3 D4 Q2
D5 D6 D7 D8 D9
Me
Q2
El primer decil (D1): indicaque Me
sólo existe un 10% de probabilidad de
que el valor de la variable esté por debajo de esa cifra.

El quinto decil (D5): indica que existe igualmente un 50% de


probabilidad de que el valor esté por encima como por debajo de esa
cifra. Representa la Mediana de la distribución.
LOS PERCENTILES (Pi)
Son estadígrafos que dividen a la información en cien partes
iguales, donde cada uno de ellos es el 1% de la información.

0% 1% . 2% . 3% . 4% . ……………… .50% ……………96% .97% . 98% 99% 100%

P1 P2 P3 P4 P50 P96 P97 P98 P99


Q2
D5
Me

El percentil 1 (P1), supera al uno por ciento de los valores y es


superado por el noventa y nueve por ciento restante.

El percentil 60 (P60), es aquel valor de la variable que supera al


60% de las observaciones y es superado por el 40% de las
observaciones.
CALCULO DE CUARTILES
PARA DATOS AGRUPADOS

 kn / 4 − Fi −1 
Qk = Li + C  
 f i 
Donde:
Li = Límite inferior de la clase cuartilica
C = Ancho de clase de la clase cuartilica
K = Rango intercuatilico puede ser: 1, 2 o 3 según pide
n = Número de datos
fi = Frecuencia absoluta de la clase cuartilica
Fi-1 = Frecuencia absoluta acumulada anterior a la clase cuartilica
Kn/4 = Sirve para determinar la clase cuartilica
CALCULO DE DECILES
PARA DATOS AGRUPADOS

 kn / 10 − Fi −1 
Dk = Li + C  
 f i 
Donde:
Li = Límite real inferior de la clase decilica
C = Ancho de clase de la clase decilica
K = Rango interdecil puede ser: 1, 2,…,9 según pide
n = Número de datos
fi = Frecuencia absoluta de la clase decilica
Fi-1 = Frecuencia absoluta acumulada anterior a la clase decilica
Kn/4 = Sirve para determinar la clase decilica
CALCULO DE PERCENTILES
PARA DATOS AGRUPADOS

 kn / 100 − Fi −1 
Pk = Li + C  
 fi 
Donde:
Li = Límite real inferior de la clase percentilica
C = Ancho de clase de la clase percentilica
K = Rango interpercentil puede ser: 1, 2,…,99 según pide
n = Número de datos
fi = Frecuencia absoluta de la clase percentilica
Fi-1 = Frecuencia absoluta acumulada anterior a la clase percentilica
Kn/4 = Sirve para determinar la clase percentilica
OBSERVACIONES

La fórmula es la misma para determinar los


cuartiles, deciles y percentiles, solo que:

- Para Cuartiles, clase cuartilica es Kn/4

- Para Deciles, clase decilica es Kn/10

- Para Percentiles, clase percentilica es Kn/100


Equivalencias entre las distintas medidas de Posición:

Me
DISTRIBUCION DE FRECUENCIAS DE LOS PUNTAJES DEL
COEFICIENTE DE INTELIGENCIA DE 50 ESTUDIANTES DE LA UNI
CALCULAR EL Q1

Interpretación:
El 25% de los estudiantes de la UNI tienen un coeficiente de inteligencia máximo
de 98 puntos, aproximadamente el 75% restante tienen más de 98 puntos.
DISTRIBUCION DE FRECUENCIAS DE LOS PUNTAJES DEL
COEFICIENTE DE INTELIGENCIA DE 50 ESTUDIANTES DE LA UNI
CALCULAR EL D2

Interpretación:
El 20% de los estudiantes de la UNI tienen un coeficiente de inteligencia máximo
de 95 puntos, aproximadamente el 80% restante tienen más de 95 puntos.
DISTRIBUCION DE FRECUENCIAS DE LOS PUNTAJES DEL
COEFICIENTE DE INTELIGENCIA DE 50 ESTUDIANTES DE LA UNI
CALCULAR EL P10

Interpretación:
El 10% de los estudiantes de la UNI tienen un coeficiente de inteligencia máximo
de 91,3 puntos, aproximadamente el 90% restante tienen más de 91,3 puntos.
Son indicadores estadísticos que
permiten identificar si una distribución
de frecuencia presenta uniformidad.

Se tiene dos medida de forma:


- ASIMETRIA (As)
- CURTOSIS (K)
ASIMETRIA
Esta medida nos permite identificar si los datos se distribuyen de
forma uniforme alrededor del punto central (Media aritmética).

La asimetría presenta tres estados diferentes (ver figura), cada uno


de los cuales se define de forma concisa como están distribuidos los
datos respecto al eje de asimetría.

Se dice que la asimetría es positiva cuando la mayoría de los datos


se encuentran por encima del valor de la media aritmética, la curva
es Simétrica cuando se distribuyen aproximadamente la misma
cantidad de valores en ambos lados de la media y se conoce como
asimetría negativa cuando la mayor cantidad de datos se aglomeran
en los valores menores que la media.

Para medir el nivel de asimetría se utiliza el


As =
x − Mo
llamado Coeficiente de Asimetría, viene
definido: s
ASIMETRIA

Mide la deformación horizontal.


ASIMETRIA
Los resultados pueden ser los siguientes:

- As = 0 (distribución simétrica; existe la misma


concentración de valores a la derecha y a la izquierda
de la media)

- As > 0 (distribución asimétrica positiva; existe


mayor concentración de valores a la derecha de la
media que a su izquierda)

- As < 0 (distribución asimétrica negativa; existe


mayor concentración de valores a la izquierda de la
media que a su derecha)
CURTOSIS

El Coeficiente de Curtosis analiza el


grado de concentración que presentan los
valores alrededor de la zona central de la
distribución.
Se definen 3 tipos de distribuciones según su grado de curtosis:

Distribución mesocúrtica: presenta un grado de concentración medio


alrededor de los valores centrales de la variable (el mismo que
presenta una distribución normal).
Distribución leptocúrtica : presenta un elevado grado de
concentración alrededor de los valores centrales de la variable.
Distribución platicúrtica: presenta un reducido grado de
concentración alrededor de los valores centrales de la variable.

Mide la deformación vertical.


CURTOSIS
El Coeficiente de Curtosis viene
definido por los cuartiles y con la
siguiente fórmula:
K = (Q3 – Q1) /( 2 ( P90 – P10))

Los resultados pueden ser los siguientes:

K = 0 (distribución mesocúrtica)
K > 0 (distribución leptocúrtica )
K < 0 (distribución platicúrtica)
DISTRIBUCION DISTRIBUCION
SIMETRICA ASIMETRICA
INTERPRETACIONES (EJEMPLOS)
La EDAD promedio de los alumnos
MEDIA: de la escuela de enfermería es de 22 ASIMETRIA: Esta medida nos As < 0 (exis

años. permite identificar si los datos se valores a la izq


derecha)
distribuyen de forma uniforme
alrededor del punto central (Media As = 0 (dist
El 50% de las personas tienen
MEDIANA: aritmética) h misma concen
edades inferiores o iguales a 22 y a la izquierda
años y el otro 50% supera esa edad
As > 0 (ex
valores a la d
La mayoría de los estudiantes CURTOSIS: Miden la mayor o izquierda)
MODA:
pesan 56,82 Kg.
menor concentración de datos
alrededor de la media. v
DESVIACION La edad se dispersa
ESTANDAR: respecto a la media en Q1: El 25% de los estudiantes de
aproximadamente 1,24 tienen un coeficiente de inteligencia m
CUARTILES: 98 puntos, aproximadamente el 75%
tienen más de 98 puntos.
COEFICIENTE
DE VARIACION: D1: El 10% de los estudiantes de la UCV tie
un coeficiente de inteligencia máximo de
• Si C.V. < 20 % La distribución es homogénea DECILES: puntos, aproximadamente el 90% res
• Si C.V. > 20 % La distribución es heterogénea
tienen más de 91,3 puntos.

PERCENTILES:
P20: El 20% de los estudiantes de la UPSJB
MEDIDAS DE RESUMEN
GRACIAS
POR SU ATENCION
AUTOEVALUACION
I) RESPONDER EL SIGUIENTE CUESTIONARIO
1) Mencione las medidas de tendencia central
………………………………………………….
2) ¿Cómo se obtiene la moda?
…………………………………………………
3) Cuál es el estadígrafo que se obtiene: al sumar los valores observados de la
variable dividido por el número de observaciones.
………………………………………………..
4) Qué estadígrafo se ve afectado por los datos extremos
……………………………………………….
5) Es el valor central que deja el 50% de los valores igual o debajo de él y la otra
mitad o sea el 50% igual o por encima de él.
……………………………………………….
6) Se usa para variables que pertenecen a la escala nominal……………………
7) Como valor central, se debe ordenar primero la serie de datos………………
8) Es el valor o valores que se repiten con mayor frecuencia. ……………………
9) Si la muestra tiene tres modas se llama?………
10) Cuando la moda no existe se llama?…………………………………….
II) RESPONDER VERDADERO (V) O FALSO (F)

a) La moda puede no existir y cuando existe no


necesariamente es única. …………………..……………...( )

b) La mediana del siguiente conjunto de datos {2, 5, 8, 1, 3}


es igual a 7 ………………………………………………..…..( )

c) La media aritmética se ve afectada por la existencia


de valores extremos………………………………………..…..( )

d) Cuando la moda no existe se llama amodal……….………….( )

e) Para hallar la media, se debe ordenar primero los datos...…( )


AUTOEVALUACION
III. Responder Verdadero (V) o Falso (F)
f) Los percentiles dividen a la población en 98 parte iguales…..( )

g) La Me=Q2=P50=D5 ………………………………………………………………..( )

h) Existen 9 Deciles, 3 Cuartiles y 99 Percentiles……………....( )

i) El Decil 5, el Percentil 50 y el Cuartil 3


son iguales a la Mediana………………………………….......( )

j) En los cuartiles cada una de las partes


contiene el 1 % de la información………………………….....( )

k) El P65, supera 65% de los datos y es superado


a su vez por el 35% restante…………………………………...( )

También podría gustarte