Está en la página 1de 85

Estadística I

Medidas Descriptivas:
Tendencia Central, de Posición,
Dispersión, Simetría y Curtosis
Uno de los aportes más importantes de la estadística
al análisis de datos, son las medidas descriptivas.
Estas no son más que indicadores que permiten
decidir sobre las características más importantes de
la distribución subyacente en los datos. En cuanto a
tendencia central, variabilidad, simetría y forma.

Prof. José Félix Aponte 1


Objetivo General
 El participante estará en capacidad de
calcular e interpretar las medidas descriptivas
numéricas correspondientes a un conjunto de
datos y aplicarlas en un problema
determinado de su área de conocimiento

2
Objetivos Específicos
1. Expresar los conceptos, características y propiedades de las
medidas de posición central y no central (media aritmética, media
armónica, media geométrica, mediana, moda, deciles, cuartiles y
percentiles)
2. Calcular las medidas descriptivas en series: simples (no agrupados)
3. Determinar las medidas descriptivas en datos agrupados en
intervalos de clases
4. Establecer relaciones entre la media aritmética, mediana y moda
5. Interpretar los resultados de las medidas descriptivas en problemas
aplicados a su área de especialización
6. Obtener valores aproximados de las medidas descriptivas a partir de
gráficas adecuadas
7. Construir diagramas de caja (Boxplot)
8. Utilizar los conocimientos adquiridos para comparar dos o más
muestras de una misma variable
9. Utilizar herramientas computacionales para la determinación de las
medidas descriptivas
3
Medidas descriptivas
Son indicadores numéricos, cuyo propósito es aproximar ciertos parámetros de la
distribución subyacente en los datos. Las características más importantes que se
pretenden describir son: la tendencia central, el grado de variabilidad y la
simetría y la forma de la distribución.
Cuando hablamos de distribución (concepto que será expuesto mucho más
adelante), nos referimos a una función teórica de donde se supone que provienen
los datos. Una aproximación se puede hacer por medio de un histograma de
frecuencias relativas o por medio de un polígono de frecuencias relativas.

Distribución
aproximada

4
Las medidas de tendencia central
Se refieren al punto medio de una distribución.
Entre las medidas de tendencia central más importantes está la media
aritmética, la mediana y la moda.

A partir del gráfico siguiente, se observa que la posición central de la


curva B está a la derecha de la posición central de las curvas A y C
(es decir que los indicacores de tendencia central de la curva B serán
mayores que los correspondientes a las curvas A y C). Observe que la
posición central de la curva A es la misma que la curva C.

0 1 2 3 4 5 6 7 8 9 10 5
Las medidas de dispersión
1. Se refieren a la extensión o amplitud de los datos de una distribución
2. Representan el grado de variabilidad de los datos.
3. Entre los indicadores de dispersión más importantes está la
desviación estándar, el rango intercuartílico, la varianza y el
coeficiente de variación.
Observe que la distribución A en el siguiente gráfico tiene una menor
dispersión que la B, note el rango de variación de la variable en el eje
horizontal.

6
Forma de la distribución
La forma de las distribuciones que representan a un
conjunto de datos, pueden ser analizadas también de
acuerdo a su:
a) Simetría b) Curtosis
Las curvas simétricas, tienen una forma tal que con
una línea vertical que pase por el punto más alto de la
curva, dividirá el área de esta en dos partes iguales.
Espejo

7
Tipos de Asimetría

Las curvas sesgadas son aquellas cuyos valores están


concentrados en el extremo inferior o superior de la escala de
medición del eje horizontal. La “cola” indica el tipo de sesgo.

8
Curtosis
la curtosis es una medida de la forma o apuntamiento de las distribuciones.
Así las medidas de curtosis (también llamadas de apuntamiento o de
concentración central) tratan de estudiar la mayor o menor concentración de
frecuencias alrededor de la media y en la zona central de la distribución.
Cuando medimos la curtósis nos referimos al grado de agudeza. Pueden
ser: leptocúrtica (concentración al centro) mesocúrtica distribuidos
simétricamente) o platicúrtica (aplanada).
Nota: el concepto de curtosis es sólo aplicable a distribuciones en forma
(aproximada ) de campana.

9
Resumen de Medidas Descriptivas
Central: Se utilizan para ubicar la Media Aritmética ( x ), Mediana
posición del centro de la (Me) , Moda (Mo)
distribución.

Medidas de No-Central: Permiten ubicar Cuartiles (Q1, Q3), Deciles


Posición cualquier lugar del (D1, D2, D3, …., D10),
posicionamiento de la Percentiles (P1, P2,…, P100)
distribución

Medidas Medidas de Cuantifican el nivel de Rango (R) , Desviación


Descriptivas Dispersión variabilidad que tienen los datos. Estándar (S), Varianza (S2),
Coeficiente de variación (Cv)

Medidas de Se usan para determinar el grado Coeficiente de Asimetría de


Sesgo de asimetría que tiene la Pearson (Ap), Coeficiente de
distribución de los datos. Asimetría de Bowley (Ab) y
Coeficiente de Asimetría de
Fisher (AF)

Medidas de Permiten determinar el nivel de Coeficiente de Curtosis (K)


Curtosis acumulación o apuntamiento de 10
la distribución.
Cálculo de las medidas descriptivas
 Depende de si los datos están agrupados o no.
 Vamos a comenzar con los datos no agrupados
 Supongamos que tenemos una serie de datos x1, x2, x3, x4,
>, xn. Tamaño de la serie = n
 Denotemos por x(1) , x(2) , x(3), >,x(n) a los datos ordenados
de menor a mayor. Es decir que los valores entre paréntesis nos
indican la posición del dato dentro de la serie ordenada.
Peso de Niños al Gasto quincenal de las fi

Datos Agrupados
Nacer (kg) familias en BsF,
3.5 3.0 3.5 3.1 900 - 1000 3
3.6 3.9 3.6 3.4
1000 - 1100 12
2.8 2.7 3.3 3.2
Se tiene el Peso de 1100 – 1200 5
cada uno de los 1200 - 1300 2
Niños
TOTAL 22 11
Datos sin Agrupar
Medidas de Tendencia Central
 Las medidas de posición central tienen como función, ubicar el
centro de la distribución. En muchos casos las distribuciones se
concentran con mayor proporción alrededor del centro, en ese
caso se puede utilizar algunos de los indicadores abajo
descritos para destacar esta característica.

Media Aritmética ( x)
Medidas de Posición Mediana (Me)
Central
Moda (Mo)

12
__
Media Aritmética ( x )
 La media aritmética de una variable estadística es la suma de
todos sus posibles valores, dividida entre el número total de
valores.
 Si la distribución de los datos es aproximadamente simétrica y si
no hay datos atípicos, entonces la media aritmética será el mejor
estimador del centro de la distribución.
n

∑X
i =1
i
x1 + x 2 + x3 + L. . . ++ x n
x= =
n n
donde
xi − es el elemento i de la serie
13
n - es el número de elementos de la serie
Cálculo de la media aritmética
INGRESOS MENSUAL EN BsF Usar la calculadora
1000 1110 1010 1070 1030 1000 en modo
estadístico (SD).
1150 990 1090 1080 1150 1200
1050 1030 1120 1050 1030 1150 Meter datos con M+

1230 1170 1180 1110 1160 1100 Buscar media

1100 1060 1130 1105 935 1210

Media: Datos No Agrupados


30

∑X i
1000 + 1150 + 1050 + 1230 + 1100 + 1110 + 990 + 1030 + 1170 L + 1210
X = i =1
=
30 30
32800
X = = 1093 .33 14
30
Propiedades de la media aritmética
 La suma de los desvíos con respecto a la media aritmética es
igual a 0
 La suma de los cuadrados de los desvíos con respecto a su
media es un valor mínimo
 Hace posible la combinación de los promedios de varias series
 Si se multiplica la serie por una constante k, la nueva media
será igual a la de la serie anterior por k.

15
Mediana (Me)
 La mediana Me de un conjunto de datos x1,x2,>,xn, es el valor
que se encuentra en el punto medio o centro, cuando se ordenan
los valores de menor a mayor.
 La mediana, es que es el valor que divide un histograma en dos
partes iguales.
 Paso 1.- Ordenar de menor a mayor los valores xi del

conjunto de datos individuales, i = 1,2,…,n Posición

 Paso 2.- Si n es impar, la mediana m es: me = x n +1


 xn + xn 2
+1
 Si n es par: me = 2 2
2 16
Ejemplo
Ejemplo: Encontrar la mediana del siguiente conjunto de datos que
corresponden al tiempo en segundos, requerido por una cajera para
marcar la compra de artículos en un supermercado.
{ 10, 15, 62, 53, 11, 38, 75, 112, 40, 22, 57 }.
 1ero Ordenar el conjunto de datos:

{ 10, 11, 15, 22, 38, 40, 53, 57, 62, 75, 112 }.
Identificar n = 11, impar, por lo que la mediana es el dato del centro

x n +1 = x6 m e = x6 = 4 0
2
17
Otro ejemplo: La mediana

Los salarios semanales de ocho empleados


fueron los siguientes (en 1000Bs) :
28, 60, 31, 26, 32, 30, 26, 29.
¿Cuál es la mediana?

Nro. de observaciones es par


Primero, ordenar los salarios.
Luego, localizar el valor en el medio.

Hay dos valores en el medio!

26,26,28,29,29.530,31,
26,26,28,29, 32,60
,30,31,32,60
18
Propiedades de la Mediana
 No es susceptible a cálculos algebraicos
 En caso de series abiertas (datos agrupados en tablas de intervalos
y que no se puedan calcular las marcas de clase) se puede calcular
y la media no.
 La suma de los desvíos con respecto a la mediana es un valor
mínimo.

19
Moda (Mo)
Está representado como el valor xi que se repite un número mayor
de veces en el conjunto de datos x1,x2,>,xn.
Ejemplo: en el conjunto de datos dados para medir el ingreso
promedio anual de las familias que habitan en un determinado sector,
se tiene:
{935, 990, 1000, 1000, 1010, 1030, 1030, 1030, 1050, 1050, 1060,
1070, 1080, 1090, 1100, 1100, 1105, 1110, 1110, 1120, 1130, 1150,
1150, 1150, 1160, 1170, 1180, 1200, 1210, 1230 }.

En este conjunto hay dos valores que aparecen más veces :
1030 ( 3 veces) y 1150 ( 3 veces)
por tanto el modo son dos: Mo = 1030 y 1150,
y en este caso se dice que el conjunto de datos es bimodal.

20
Relaciones entre las medidas
 Si las medidas de tendencia central se presentan en
el siguiente orden de magnitud:

Moda < Mediana < Media o


Media < Mediana < Moda
 Se dice que la distribución (piense en un
histograma como una aproximación de la
distribución) es asimétrica, lo que indica que los
datos se encuentran distribuidos con algún grado
de sesgo. 21
Relaciones entre las medidas de centro
Relación entre la
Media, Mediana y Moda.
1.- Curva sesgada a la
derecha :
Mo < Me < Media

 A nivel de
interpretación: si la
distribución es sesgada
hacia la derecha,
significa que la mayoría
de las observaciones se
encuentran por debajo
de la Media y alrededor 22

de la moda.
Relaciones entre las medidas de centro
Relación entre la
Media, Mediana y Moda.
2.- Curva sesgada a la
izquierda o con sesgo
negativo:

Media < Me < Moda

en este caso la


mayoría de las
observaciones se
encuentran por encima 23

de la Media.
Relaciones entre las medidas de centro

Curvas Simétricas o Normales


Si la Media, Moda y Mediana son iguales, esto es,
Media = Me = Mo
se dice que los datos se distribuyen simétricamente.

Media
Mediana
24
Moda
Relaciones entre las medidas de centro
 En distribuciones aproximadamente simétricas, existe
una relación entre la media, la mediana y la moda

_ Con datos no agrupados a


veces el cálculo de la moda
es engorroso porque dan
Mo ≈ 3Me – 2 x varias o ninguna moda, en
ese caso se podría aplicar
esta fórmula y obtener una
moda de manera aproximada.

3 Me − Mo Si sólo poseemos los datos en


x≈ una tabla de intervalos y
frecuencias y además es una
2 serie abierta. No podremos
calcular la media. Podemos
aproximarla por esta fórmula*.25
Cuándo no usar la media aritmética:
 Cuando la distribución es muy asimétrica, usar Me o Mo
 En presencia de datos atípicos use Me
 En series abiertas puede usar Me
 En cualquier otro caso es mejor utilizar la media como medida
de tendencia central

26
Consideraciones sobre las medidas de
tendencia central
 La media es sensible a observaciones atípicas y extremas.
 La mediana solo es sensible a cambios en su entorno que la
cruzan. Por ello, se dice que la mediana es un estimador robusto
de la tendencia central.
 La media y la mediana de una distribución aproximadamente
simétrica se encuentran muy cerca. Si la distribución es
exactamente simétrica, la media y la mediana son iguales.
 Si la distribución es asimétrica, la media queda desplazada hacia
la cola más larga del histograma de la distribución.
 La media aritmética puede ser mal interpretada si el conjunto de
datos no es homogéneo.

27
¿POR QUÉ SON IMPORTANTES LAS MEDIDAS
DE TENDENCIA CENTRAL?
Porque la mayor parte de los conjuntos de datos
muestran una tendencia a agruparse alrededor de
un dato central.
Las medidas de tendencia central nos ayudan a
ubicarla dentro de la escala de medición.

28
Medidas de posición No Central
 El valor para el cual el k% de los datos son
menores él, se denomina percentil k y se
denota por Pk.
Los percentiles son las medidas de posición “no
central” que se utilizan con mayor frecuencia y
se emplean sobre todo para resumir o describir
las propiedades de conjuntos grandes de datos
numéricos.

29
Relación de los percentiles con la OJIVA

Fr

30 100 %

25 83 %
75%
20 67 %

15 Ojiva 50 %
El 75% tienen
10 33 % ingreso de a
lo sumo 1.145
5 17 % BsF

935 985 1035 1085 1135 1185 1235


1145 Este es el valor del percentil 75
30
Caso particular de los percentiles:
Los Cuartiles
 Los cuartiles son medidas de tendencia no central de
una distribución.

 Dividen los datos ordenados en 4 cuartos iguales:

25% 25% 25% 25%

Q1 Q2 Q3

 El segundo cuartil de una distribución es su mediana.

31
Percentiles y Deciles
 Los percentiles son otro conjunto de medidas de tendencia no
central de una distribución.
 Dividen los datos ordenados en 100 partes iguales.
 El percentil 25 es el primer cuartil ... P25=Q1
 Los Deciles son otro caso particular de los percentiles y
corresponden a los que dividen a los datos ordenados en 10
partes iguales
 Denotaremos Pk al k-ésimo percentil y Di al iésimo decil
 Ejemplos:
 P10 = D1, P75 = Q3, D5=P50=Q2=Me

32
Procedimiento para calcular el percentil k, (Pk):

 Ordenar los datos de menor a mayor. Digamos que la muestra


ordenada la llamamos x(1) , x(2) ,..., x( n −1) , x( n.) En donde los
números entre paréntesis indican la posición en que queda
ubicado el dato después de ordenarlos.
 Calcular la posición en donde se ubica el Pk
k .(n + 1)
pos =
100
 Denotamos por J a la parte entera de pos y por C la parte
decimal. Por ejemplo si pos = 12.75 entonces J = 12 y C = 0.75

 Se calcula el Percentil K, como:


Pk = x( J ) + C . ( x( J +1) − x( J ) )
33
Ejemplo de Cuartiles y Percentiles
 Ejemplo: Los gastos mensuales de 20 familias del Estado
Sucre se muestran a continuación en millones de Bs:
 0,9 1,2 0,9 1,5 1,7 1,5 1,0
1,0 0,8 1,7 1,9 2,3 0,7 1,5
1,2 1,8 2,3 2,0 0,6 0,8
 Calcular:
 Los Cuartiles: Q1, Q2=Me y Q3
 Se puede decir que el 70% de las familias gastan
más de Bs. _______ al mes. Complete

34
Para calcular Q1
1ero ordenamos la muestra en orden creciente:
(1) (2) (3) (4) (5) (6) (7) (8) (9) (10)
0,6 0,7 0,8 0,8 0,9 0,9 1,0 1,0 1,2 1,2
(11) (12) (13) (14) (15) (16) (17) (18) (19) (20)
1,5 1,5 1,5 1,7 1,7 1,8 1,9 2,0 2,3 2,3
Entre paréntesis ponemos la posición que ocupa el valor dentro de la muestra ordenada.
a) Para calcular el primer cuartil, Q1:
Notamos que Q1 = P25, es decir que en la fórmula de los Percentiles K=25 para Q1

25.(20 + 1)
pos = = 5, 25 ⇒ J =5 y C = 0, 25
100
Q1 = P25 = x(5) + 0, 25. ( x(6) − x(5) ) =
= 0,9 + 0, 25. ( 0,9 − 0,9 ) = 0, 9
Es decir, que el 25% de las familias gastan menos de Bs. 900.000
35
Para Calcular Q2 y Q3
Para calcular el primer cuartil, Q2:
Notamos que Q2 = P50, es decir que en la fórmula de los Percentiles K=50 para Q2
50.(20 + 1)
pos = = 10,5 ⇒ J = 10 y C = 0,5
100
Q2 = P50 = x(10) + 0,5. ( x(11) − x(10) ) =
= 1, 2 + 0, 5. (1,5 − 1, 2 ) = 1, 2 + 0,15 = 1, 35
Es decir, que el 50% de las familias gastan menos de Bs. 1.350.0
Para calcular el primer cuartil, Q3:
Notamos que Q3 = P75, es decir que en la fórmula de los Percentiles K=75 para Q3
75.(20 + 1)
pos = = 15, 75 ⇒ J = 15 y C = 0, 75
100
Q3 = P75 = x(15) + 0, 75. ( x(16) − x(15) ) = Es decir, que el 75% de las
familias gastan menos de
= 1, 7 + 0, 75. (1,8 − 1, 7 ) = 1, 7 + 0, 075 = 1, 775 BsF. 1.775 36
c) Se puede decir que el 70% de las familias gastan más
de Bs. _______ al mes.
Para completar esa oración tenemos que calcular el percentil 30 (ya que el
percentil 30 es el valor para el cual hay un 70% de datos mayores que él)
Observamos en la figura que es precisamente
el P30 el que deja el 70% de los valores a su
derecha, es decir, mayores que el P30.

30.(20 + 1)
pos = = 6,3 ⇒ J = 6 y C = 0,3
100

P30 = x(6) + 0,3. ( x(7) − x(6) ) =


0,36. (1, 0 − 0,9 ) = 0,96
= 0, 9 + 0, 0,93

Así, podemos decir que el 70% de las familias


gastan más de BsF. 930 al mes.
37
Diagrama de caja (BOXPLOT)
 Un diagrama de caja es un gráfico, basado en
cuartiles, mediante el cual se visualiza un
conjunto de datos. Está compuesto por un
rectángulo: la "caja", y dos brazos, los "bigotes".
 Es un gráfico que suministra información sobre
los valores mínimo y máximo, los cuartiles Q1,
Q2 o mediana y Q3; sobre la existencia de
valores atípicos y la simetría de la distribución.

38
¿Cómo dibujar el diagrama de caja?
 1.- Ordenar los datos de menor a mayor.
 2.- Calcular Min, Max, Q1, Me, Q3.
 3.- Denotar por RIC el “rango intercuartilico”: RIC= Q3 – Q1
 4.- Calcular los límites para los datos atípicos:
 LI1=Q1-1,5*RIC
 LS1=Q3+1,5*RIC
 5.- Calcular los límites para los datos extremos:
 LI2=Q1-3*RIC
 LS2=Q3+3*RIC

 6.- Los datos atípicos serán aquellos que son menores que
LI1 pero no menores que LI2, de igual forma son también
atípicos los mayores que LS1 pero no mayores que LS2. A
los datos atípicos se les representará en la gráfica como
39
unos círculos “o”.
Continuación…
 7.- Los datos extremos serán aquellos que son menores que LI2, de
igual forma son también extremos los mayores que LS2. A los datos
extremos se les representará en la gráfica como unos asteriscos “*”.
 8.- Dibujar un eje con una escala adecuada en donde “entren” los
valores mínimo y máximo de la muestra.
 9.- Dibujar sobre el eje una caja cuyos bordes están determinados
por Q1 y Q3. (el ancho de la caja puede ser cualquiera pero
mantenga la proporcionalidad de un rectángulo)
 10.- Dibujar dentro de la caja una línea que se corresponda con el
valor de la mediana.
 11.- Los “bigotes” se dibujan hasta los valores de la muestra que no
sean mayores que LS1 ni menores que LI1. Marque adicionalmente
los valores atípicos y los extremos.

40
Datos Extremos y Datos Atípicos(outlier)

41
42
Ejemplo: Tiempo que demora un cliente
del banco en realizar un deposito
Los siguientes valores corresponden a los tiempos en minutos que se
demoró un cliente (tiempo tomado en varios días al azar)
12.7 14.6 15.4 16.4 10.6 15.0 18.4
16.5 25.6 16.7 15.0 16.2 20.4 17.5

a) Construya un diagrama de caja

Resp: Primero debemos calcular los cuartiles y los límites para los datos
atípicos y extremos; por lo tanto se debe comenzar por ordenar los datos
de menor a mayor.

43
Ordenamos los Datos
Posición Datos Para Calcular Q1:
1 10.6 Q1 es el percentil 25, por lo que la posición viene dada por:
2 12.7 Pos = (25*15)/100 = 3,75
3 14.6 Q1= X(3) + 0,75 * (X(4) – X(3))
4 15.0 Q1= 14,6 + 0,75* (15,0 – 14,6) = 14,6 + 0,3 = 14,9
5 15.0 El 25% de los días el Sr. se demora menos de 14,9 min
6 15.4
7 16.2 Para Calcular Q2 = Mediana:
8 16.4 Q2 es el percentil 50, por lo que la posición viene dada por:
9 16.5 Pos = (50*15)/100 = 7,5
10 16.7 Q2= X(7) + 0,5 * (X(8) – X(7))
11 17.5 Q2= 16,2 + 0,5* (16,4 – 16,2) = 16,2 + 0,1 = 16,3
12 18.4 El 50% de los días el Sr. se demora menos de 16,3 min
13 20.4
14 25.6 Para Calcular Q3 = P75
Pos = (75*15)/100 = 11,25
Q3= 17,5 + 0,25* (18,4 – 17,5) = 17,5 + 0,225 = 17,725
El 75% de los días el Sr. se demora menos de 17,7 min
44
Q1= 14, 9 Q2= 16,3 Q3= 17,7
 Rango Intercuartil: RIC = Q3-Q1 = 17,7 – 14,9 = 2,8
Posición Datos
 LI1=Q1-1,5*RIC=14,9 - 1,5*2,8 = 10,7 1 10.6
 LS1=Q3+1,5*RIC=17,7+1,5*2,8 = 21,9 2 12.7
3 14.6
 LI2=Q1-3*RIC=14,9 - 3*2,8 = 6,5
4 15.0
 LS2=Q3+3*RIC= 17,7 + 3*2,8= 26,1 5 15.0
6 15.4
7 16.2
8 16.4
9 16.5
10 16.7
11 17.5
12 18.4
13 20.4
14 25.6

45
Medidas de dispersión

 Son indicadores del grado de variabilidad que


presentan los datos.
 Caracterizar una distribución solamente a través de una
medida central no es apropiado, hace falta conocer
también su grado de variabilidad o dispersión.
 Las distribuciones del ingreso de dos estados con el
mismo ingreso medio por hogar son muy distintas si
una de ellas tiene extremos de pobreza y de riqueza,
mientras que la otra tiene poca variación de ingresos
entre familias.

46
Clasificación
•Rango (R)
•Desviación Media (DM)
Absolutas •Desviación Cuartílica (RIC)
•Semi Cuartílica
Mismas medidas
•Varianza (S2)
de los datos.
•Desviación Estándar (S)
Medidas de
Dispersión

Relativas •Coeficiente de Variación


Medidas en % de Pearson (Cv)

47
Medidas de dispersión: Amplitud
Rango o Amplitud
 Una manera de medir la dispersión es calcular el
recorrido de la distribución empírica, es decir, la
diferencia entre las observaciones máxima y mínima.
 Su mayor ventaja es que se puede calcular fácilmente,
sin embargo, no brinda información sobre la dispersión
existente entre ambos valores extremos.
 Serie de datos: 10 15 15 18 20 25 35
Rango = 35 – 10 = 25
Desventajas: Es susceptible a la presencia de datos
atípicos
No es susceptible a operaciones algebraicas
48
Medidas de dispersión
 El rango depende sólo de las observaciones máxima
y mínima, que podrían ser observaciones atípicas.
 Podríamos mejorar nuestra descripción de la
dispersión fijándonos, por ejemplo, también en la
dispersión del 50% de los valores centrales de
nuestros datos.
 Un conjunto de estadísticos de utilidad son los
cuartiles de una distribución.
 Rango intercuartil : RIC = Q3 – Q1
 Contiene el 50% de los datos centrales de la
distribución.
 Desviación Semi-Cuartil: DSQ= (Q3-Q1)/2 49
La varianza
 La varianza s2 de un conjunto de observaciones
es el promedio de los cuadrados de la
desviaciones de las observaciones respecto a su
media. Formalmente:
(x1 − x) + (x2 − x) + ... + (xn − x)
2 2 2
s =
2

n -1
 De forma compacta:

s =
2 ∑ (xi − x)2
n -1 50
La varianza 9 –10 = -1
11 –10 = +1
Considere dos poblaciones: 8 –10 = -2
Población A: 8, 9, 10, 11, 12 12 – 10 = +2
Población B: 4, 7, 10, 13, 16 Suma = 0
Comencemos calculando la suma de las desviaciones
En ambos casos, la suma
La media de ambas poblaciones es 10...
de las desviaciones es

A Cero (lo cual es siempre


Cierto). Por lo tanto, usamos
8 9 10 11 12 la suma de los cuadrados.

…pero en B los datos están mucho mas dispersos que en A


4 -10 = - 6
16 -10 = +6
B 7- 10 = -3
13 -10 = +3
4 7 10 13 16 Suma = 051
La varianza
Calculemos la suma de las desviaciones al cuadrado para ambas
poblaciones:
(8 − 10)2
+ (9 − 10)2
+ (10 − 10)2
+ (11 − 10)2
+ (12 − 10)2
sA2 = = 22,5
45
(4 − 10)2
+ (7 − 10)2
+ (10 − 10)2
+ (13 − 10)2
+ (16 − 10)2
sB2 = = 18
22,5
45
¿Por qué la varianza esta definida
como un promedio de desviaciones
al cuadrado y no como su simple suma?

La suma de las desviaciones al cuadrado


aumentan
52
cuando la dispersión de aumenta!!
La desviación estándard (s)
 La desviación estándar es la raíz cuadrada positiva de la
varianza s2:


1
s= (xi − x)2 = s2
n -1
Del ejemplo utilizado para el cálculo de la varianza:
Población A: 8, 9, 10, 11, 12
Población B: 4, 7, 10, 13, 16

Sabemos que S2A = 2,5 y S2B= 22,5

La desviación estándar es simplemente la raíz cuadrada de la varianza:

SA= 1,58 y SB= 4,74


53
Una aplicación de la desviación
estándar (s)
 Ejemplo: Tasas de retorno de dos bonos de inversiones durante 10
años
¿Cuál de los dos es más riesgoso?
Bono A: 8.3, -6.2, 20.9, -2.7, 33.6, 42.9, 24.4, 5.2, 3.1, 30.05
Media: 14.6 Desviación standard: 16.74

Bono B: 12.1, -2.8, 6.4, 12.2, 27.8, 25.3, 18.2, 10.7, -1.3, 11.4
Media: 11.75 Desviación standard: 9.97

El Bono A es mas riesgoso dado que su desviación standard es mayor.


(OBSERVE EL USO DE LA DESVIACIÓN COMO RIESGO)

54
Propiedades de la desviación standard

 s mide la dispersión respecto a la media. Debe


emplearse solo cuando se escoge la media
como medida central de la distribución.
 s = 0 solo ocurre cuando no hay dispersión:
todas las observaciones toman el mismo valor.
De lo contrario s siempre será mayor que cero.
 Cuanto más dispersión hay entre las
observaciones, mayor es s.
 s, al igual que la media, se encuentra
fuertemente influenciado por las observaciones
extremas.
55
Regla Empírica y Aproximación de la Desviación
Estándar

Regla empírica
Para una distribución de mediciones que es
aproximadamente normal (forma de campana) el
intervalo:

x ± s - contiene el 68% de las mediciones


x ± 2 s - contiene el 95% de las mediciones
x ± 3s - contiene el 99% de las mediciones

56
57
Estimación de la Desviación Estándar si no conocemos los datos.

Se puede obtener la estimación de la desviación estándar conociendo


únicamente el rango ( amplitud ) de los datos, ya que

Rango = 4 Saprox
Donde
Rango = Xmax - Xmin
Saprox - es la desviación estándar
Por tanto
Saprox = Rango/4.

58
Coeficiente de variación

 El coeficiente de variación es una medida de


dispersión relativa.
 Muestra la dispersión de una distribución en relación a
su media.
 Se utiliza para comparar distintas distribuciones.
 Su fórmula es:
s
CV =
x
 Por ejemplo, un desvio standard de 10, puede ser
grande si la media es 100, pero no lo es si la media es
500.
59
Coeficiente de asimetría de Fisher

 El coeficiente de asimetría es una medida de asimetría de


una distribución.
 Su fórmula es:
n
 n
 ∑ ( 3
xi − x )
AF =  i ==11 3 
(n − 1)(n − 2)  s 
 
 Si es positivo, la curva presenta asimetría hacia la derecha.
 Si es negativo, la curva presenta asimetría hacia la izquierda.
 Si es cero, la distribución es simétrica.

60 60
Otros coeficientes de Asimetría:
Coeficiente de asimetría de Bowley-Yule: Está basado en la posición de los
cuartiles y la mediana.

Si Ab = 0 la distribución es simétrica, si Ab > 0 la distribuci6n es sesgada hacia la derecha y si Ab < 0


la distribución es sesgada hacia la izquierda. Este coeficiente tiene la ventaja de que
siempre tomará valores entre -1 y 1.

Coeficiente de asimetría de Pearson: para distribuciones campaniformes, unimodales


y moderadamente asimétricas el coeficiente propuesto por Karl Pearson es:

X − Mo 3( X − Me)
AP = ≈
S S
Si Ap = 0 la distribución es simétrica, si Ap > 0 la distribuci6n es sesgada hacia la derecha
y si Ap < 0 la distribución es sesgada hacia la izquierda.
61
Curtosis
 La Curtosis es una medida de la concentración de la
distribución en torno a su media.

n(n + 1)
 n
 ∑( ) 4
xi − x 
 3(n − 1) 2

K=  i =1
 −  
( n − 1)(n − 2)(n − 3)  s 4
  (n − 2)(n − 3) 
 
 Si K>0, la distribución tiene una concentración
superior a la de una curva normal.
LEPTOCURTICA
 Si K<0, la distribución tiene una concentración
inferior a la de una curva normal. PLATICURTICA
 Si K=0, la distribución tiene una concentración igual a la de
una curva normal. MESOCURTICA
62
Ejemplo: Los siguientes valores corresponden a las ventas semanales en
millones de Bolívares de una pequeña empresa. Se seleccionaron al azar 20
semanas en los datos históricos del año 2006 y el resultado fue el siguiente:
6 6 8 9 10 10 10 10 10 10
11 12 12 12 12 12 14 15 15 16
•Determine la media, la mediana y la moda.
•Determine la desviación estándar
•Calcule los cuartiles
•Calcular el coeficiente de asimetría de Fisher
• Calcular el coeficiente de asimetría de Pearson
•Calcular el coeficiente de asimetría de Bowley
• Calcular el coeficiente de curtosis K

63
Comenzamos por organizar los datos en un arreglo y calcular algunas
cantidades que necesitaremos luego para encontrar los coeficientes
de forma pedidos.
N° xi xi − x ( xi − x )
2
( xi − x )
3
( xi − x )
4

1 6 -5 25 -125 625
2 6 -5 25 -125 625 n
3 8 -3 9 -27 81 ∑x i
220
4
5
9 -2 4 -8 16 x= i =1
= = 11
10 -1 1 -1 1 n 20
6 10 -1 1 -1 1
7 10 -1 1 -1 1 n

∑ ( xi − x )
2
8 10 -1 1 -1 1
140
9 10 -1 1 -1 1 s2 = i =1
= = 7,3684
10 10 -1 1 -1 1 n −1 19
11 11 0 0 0 0
12 12 1 1 1 1
13 12 1 1 1 1 s = 7,3684 = 2, 7145
14 12 1 1 1 1
15 12 1 1 1 1
16 12 1 1 1 1
17 14 3 9 27 81
18 15 4 16 64 256
19 15 4 16 64 256
20 64
16 5 25 125 625
Suma 220 0 140 -6 2576
 n  _ 3

∑ i x − x  
n   20  −6 
AF = ⋅ i =1 = ⋅  3
= −0, 02
( n − 1)( n − 2 )  s 3
 (19 )(18 )  2, 7145 
 
 

3( X − Me) 3(11 − 10,5)


AP = = = 0,55
S 2, 7145
Para Calcular el coeficiente de Asimetría de Bowley es necesario primero
calcular los cuartiles. Comencemos por el Q1:

25.(20 + 1)
pos = = 5, 25 ⇒ J =5 y C = 0, 25
100
Q1 = P25 = x(5) + 0,25.( x(6) − x(5) ) =
=10 + 0,25.(10 −10) =10 65
Cálculo del Q3:
K=75, pos = 75*(21)/100=15,75

Q3 = P75 = x(15) + 0, 75. ( x(16) − x(15) ) =


= 12 + 0, 75. (12 − 12 ) = 12

Cálculo del coeficiente de Asimetría de Bowley:


Al sustituir estos valores en la fórmula del coeficiente de asimetría de Bowley, tenemos:

valor que está un poco alejado del cero, por lo tanto esta medida indica que la distribución es
sesgada levemente hacia la derecha.

66
Cálculo del coeficiente de curtosis:

 n
 _ 4


 n ( n + 1) ∑
i =1 
x
 i − x  
  3(n − 1)2  20 ( 21) 2576  3(19)2
K = ⋅ − = ⋅ 4
− =
 ( n − 1)( n − 2)( n − 3) s 4
 ( n − 2)( n − 3)  (19)(18)(17) 2, 7145  (18)(17)
 
= {3, 4274} − 3,5392 = −0,11

67
68
TAREA: Los siguientes valores corresponden a pesos de niños al nacer (kg), cuyas madres
son: No fumadoras (primera columna), Ex Fumadoras y Fumadoras (última columna),
respectivamente.

No F ExF Fumadoras
3,20 2,00 2,62
2,95 2,35 2,11 1. Determine la media, la mediana y la moda para los
3,65 2,25 1,89
tres conjuntos de niños.
3,35 3,00 0,95
3,42 2,54 1,70 2. Calcule la desviación estándar para cada conjunto
4,00 1,95 2,12 de datos
3,10 1,75 0,86 3. Determine los coeficientes de asimetría y curtosis
3,50 1,58 2,14 (en el caso de que aplique)
3,20 2,94 1,80 4. Construya en un mismo eje, un diagrama de caja
3,64 2,29 1,85 para los tres grupos de niños. Realice las
4,00 2,46 0,98
comparaciones pertinentes
3,71 2,00 1,39
3,72 2,62 1,65 5. Cuál conjunto de pesos presenta mayor dispersión?
3,23 2,62 2,50 Qué podría significar en este caso?
3,60 2,08 1,80 6. Qué conclusiones puede sacar?
2,30 2,73 2,00
3,00 3,00
3,64
3,75
3,85
3,42
3,57
3,65 69
3,30
3,40
Resultados aproximados
Variable Media DesvStd CoefVar Min Q1 Median Q3 Max
No Fumadoras 3,446 0,3705 10,75 2,30 3,215 3,50 3,68 4,0
Ex Fumadoras 2,362 0,431 18,25 1,58 2,000 2,350 2,675 3,0
Fumadoras 1,773 0,516 29,11 0,86 1,455 1,825 2,118 2,62

Variable IQR Coef. Asimetría Curtosis


No Fumadoras 0,4650 -1,15 2,52
Ex Fumadoras 0,675 -0,09 -0,87
Fumadoras 0,663 -0,41 -0,32

70
71
72
CALCULO DE LA MEDIA ARITMETICA. DATOS
AGRUPADOS EN INTERVALOS DE CLASES

 En el caso de que los datos se encuentren agrupados en una


distribución de frecuencias con intervalos de clase, la media
aritmética se obtiene como el cociente de la suma de
multiplicaciones de los puntos medios o marcas de clase
de cada intervalo por sus respectivas frecuencias, entre la
suma de las frecuencias, esto es:

k k

∑m f i i ∑m fm1 f1 + m2 f 2 + L mk f k
i i
X = i =1
= =
i =1

n n n
donde: k es el número de intervalos

73
Ejemplo
DISTRIBUCIÓN DEL INGRESO MENSUAL DE 30 FAMILIAS
ESCOGIDAS AL AZAR EN EL ESTADO SUCRE, EN
NOVIEMBRE DE 2004
k
(Datos x miles de bolívares)
∑m f i i
INTERVALO MARCA FRECUENCIA mi.fi X= i =1
=
DE CLASE DE CLASE ABSOLUTA n
mi fi
32650
(930-980] 955 1 955
=
(980-1030] 1005 7 7035 30
(1030-1080] 1055 5 5275
= 1088.333
(1080, 1130] 1105 8 8840
(1130-1180] 1155 6 6930 El ingreso promedio
(1180-1230] 1205 3 3615 mensual de las
TOTALES 30 32650 familias es de
1.088,333Bsf 74
CALCULO DE LA MEDIANA. DATOS AGRUPADOS EN
INTERVALOS DE CLASES

 En el caso de que los datos estén agrupados, se obtiene


primero la clase de la mediana.
 La clase de la mediana se define como la primera clase que
aparece en la tabla, para la cual la frecuencia acumulada, FA,
sea igual o mayor a (n+1)/2, esto es:
n +1
FORMULA Fa j ≥
 n +1  2
 − FAanterior 
Me = LI +  2 .a
 f 
 
 
LI es el límite inferior de la clase de la mediana
FA(ant) es la frec. Acum. De la clase anterior a la de la mediana
f es la frecuencia de la clase de la mediana
75
a es el ancho de la clase de la mediana
Ejemplo
1ero como el total es 30, la posición de la mediana será (30+1)/2 = 15,5
Se busca la FA que sea mayor que 15,5 (en este caso la de la 4ta clase)

INTERVALO fi Fai 31
DE CLASE
mi Fa j ≥ = 1 5, 5
935 - 985 960 1 1
2
985 - 1035 1010 7 8
1035 - 1085 1060 5 13  n +1 
 − FAanterior 
1085 - 1135 1110 8 21 Me = LI +  2 .a
 f 
1135 - 1185 1160 6 27  
 
1185 - 1235 1210 3 30
TOTAL 30

15, 5 − 13
Me = 1085 + (50) = 1085 + 15.625 = 1100.625
8
El 50% de las familias tienen ingreso por debajo de 1.100,62 BsF 76
CALCULO DEL MODO. DATOS AGRUPADOS
EN INTERVALOS DE CLASES

 Se busca primero la clase modal: Clase con mayor


Frecuencia Absoluta.
 ∇1 
Moda = LI +   amo
 ∇2 +∇1 
Donde:
LI = Límite inferior del intervalo de clase, de la clase modal.
∇1 = Resta de la frecuencia modal menos la frecuencia de la clase contigua anterior
∇2 = Resta de la frecuencia modal menos la frecuencia de la clase contigua inferior
a = Ancho del intervalo de clase.

77
Ejemplo Modo en series de clases
INTERVALO
mi fi  ∇1 
DE CLASE Moda = LImo +   amo
935 - 985 960 1  ∇1 +∇2 
985 - 1035 1010 7
1035 - 1085 1060 5
Clase  3 
1085 - 1135 1110 8 modal Moda = 1085 +   50
1135 - 1185 1160 6  2 + 3
1185 - 1235 1210 3 = 1085 + 30 = 1115
TOTAL 30

El ingreso más frecuente entre las familias es de 1.115 BsF

78
Para Datos agrupados en Clases

k.( n + 1)
− FAant
Pk = LI + 100 .a
f
Clase donde está Pk es la 1era clase cuya Fa > (k.(n+1))/100

LI=Lim. Inf. de la clase donde esté Pk.


Fa(ant)=Frec. Acum de la clase anterior a donde está Pk
f= Frec. Abs. De la clase donde está Pk
Recuerde que: Q1 = P25
Q3 = P75
El procedimiento es similar al aplicado para el cálculo de la mediana 79
Cálculo en tablas de clases y
frecuencias
INTERVALO fi Fai fri Frai %
DE CLASE Acum
935 - 985 1 1 0.03 0.03 3%
985 - 1035 7 8 0.23 0.26 26% ≥25%?
1035 - 1085 5 13 0.17 0.43 43%
1085 - 1135 8 21 0.27 0.70 70%
1135 - 1185 6 27 0.20 0.90 90%
1185 - 1235 3 30 0.10 1.00 100% >90%?
TOTAL 30 1.00
Calcular Q1, P90 7.75 − 1
P 25 = 985 + 50 = 985 + 48.21 = 1033.21
7
27, 9 − 27
P 90 = 1185 + 50 = 1185 + 15 = 1200 80
3
Varianza Muestral para Datos Agrupados.
Para calcular la varianza muestral para datos agrupados se
utiliza la fórmula:

∑ f .(m − x )
i i
2

S =
2 i =1
n −1
donde:
x - es la media muestral
mi - es la marca de clase i, i = 1, 2, 3,...,k
fi - es la frecuencia absoluta del intervalo de clase
i, i = 1, 2, 3,...,k
c - es el número de intervalos de clase
n - el número total de elementos de la muestra 81
s2 - La varianza de la muestra.
Desviación Estándar para Datos Agrupados.

∑ f .(m − x )
i i
2

S= i =1
= S 2

n −1
donde:
x - es la media muestral
mi - es la marca de clase i, i = 1, 2, 3,...,k
fi - es la frecuencia absoluta del intervalo de clase i,
i = 1, 2, 3,...,k
c - es el número de intervalos de clase
n - el número total de elementos de la muestra
s - La desviación estándar de la muestra. 82
Ejemplo

Ver archivo llamado “guía de cálculo


de medidas descriptivas” en el
correo electrónico.

83
Asignaciones
 Leer el material adicional que está en el
correo electrónico
 Resolver al menos 4 de los problemas del
problemario 2 del curso y entregarlos por
escrito (individual)

84
Auto-evaluación
Verdadero/Falso. Justifique Falso
 El valor de cada observación del conjunto de los datos se toma en
cuenta cuando calculamos su mediana
 Cuando la distribución es sesgada es mejor utilizar la mediana en
vez de la media
 Con un conjunto de datos no agrupados la moda es el valor de
tendencia central más utilizado
 Las medidas de tendencia central se pueden interpretar como un
indicativo de la cuán dispersas es la distribución
 Para un arreglo de 50 datos la mediana corresponde al dato que
está en la posición 25
 Podemos calcular la media de un conjunto de datos si se nos dá el
histograma
 Podemos calcular la moda si se nos da el histograma
 El primer cuartil puede ser igual a la mediana en algunos casos

85

También podría gustarte