Está en la página 1de 15

ITM – Estadística Básica. Semana 4.

Docente: Ricardo Andrés Giraldo Monsalve

Orden de la clase:
 Métodos numéricos para describir información
 Medidas de tendencia central
 Media.
 Mediana.
 Moda.
 Medidas de posición.
 Cuartiles.
 Deciles.
 Percentiles.
 Medidas de Dispersión
 Desviación Estándar
 Coeficiente de variación.
 Regla Empirica.

Desarrollo de la clase.

Utilizando algunas propiedades de las variables cuantitativas, podríamos


complementar la información que nos ofrece la imagen visual de la gráfica. Para ello
se pueden utilizar diferentes medidas:
 Medidas de Tendencia Central
 Medidas de Variación.
 Medidas de Forma.

Lo que se pretende al conocer las medidas de un conjunto de datos es caracterizar


su tendencia central, su variación y su forma.
En el lenguaje común la gente habla de una media, un promedio o valor medio o del
valor más común, debido a que con ello están presentando un valor representativo
para el conjunto de datos el cual indica hacia donde están “centralizados los datos”.
Con la variación se mide la distribución o dispersión de los datos. Una simple medida
de la variación es el rango, aunque es una medida muy limitada. Para describir
mejor la dispersión se usan la desviación estándar y la varianza.
La forma de la distribución también llama la atención debido a que se podría
generalizar utilizando un patrón para los datos distribuidos desde el valor mínimo
hasta el valor máximo.

Medidas de tendencia central


Las medidas de tendencia central son valores estadísticos que localizan, en cierta
forma, el centro de una muestra de datos.
Media
También llamada Media Aritmética, es la medida más común entre las medidas de
la tendencia central. La media se conoce como el “punto de equilibrio” del conjunto
de datos. La media aritmética habitualmente se conoce con el nombre de Promedio.
1
Para la muestra,
𝑛
1
𝑥̅ = ∑ 𝑥𝑖
𝑛
𝑖=1

Para la población la media aritmética se denotara con la letra griega: 𝜇


La media aritmética se considera como el valor más típico que representa a todos
los datos de la muestra o de la población.

Un caso especial de la media es la MEDIA PONDERADA. La media aritmética


ponderada se estima cuando los valores se repiten,
∑ 𝑥𝑖 ∗ 𝑤𝑖
𝑥̅ =
∑ 𝑤𝑖
En ocasiones puede que a cada dato 𝑋1 , 𝑋2 , … , 𝑋𝑛 se le asocie un peso,
𝑤1 , 𝑤2 , … , 𝑤𝑘 dependientes de la relevancia asignada a cada dato. Un ejemplo
claro de esto es el cálculo de su promedio crédito académico.
Propiedades de la media
1. Todo conjunto de datos cuantitativos tiene una media.
2. La media aritmética se calcula teniendo en consideración a todos los
valores de la muestra o de la población.
3. La media aritmética es única.
La suma de las desviaciones de cada valor con respecto a la media es cero
𝑛

∑(𝑥𝑖 − 𝑥̅ ) = 0
𝑖=1

4. La suma de los cuadrados de las desviaciones de un conjunto de números


𝑋𝑗 respecto de un cierto numero a es mínima si y solo si 𝑎 = 𝑥̅

5. Si 𝑓1 números tienen media 𝑚1 , 𝑓2 números tienen media 𝑚2 , …, 𝑓𝑘 números


tienen media 𝑚𝑘 , entonces la media de todos los números es:

2
𝑓1 𝑚1 + 𝑓2 𝑚2 + ⋯ + 𝑓𝑘 𝑚𝑘
𝑥̅ =
𝑓1 + 𝑓2 + ⋯ + 𝑓𝑘

Media Geométrica
La media geométrica G de un conjunto de n números positivos 𝑋1 , 𝑋2 , … , 𝑋𝑛 es la
raíz n-esima del producto de esos números:
𝐺 = 𝑛√𝑋1 𝑋2 … 𝑋𝑛

Media Armónica
La media armónica H de un conjunto de datos 𝑋1 , 𝑋2 , … , 𝑋𝑛 es el reciproco de la
media aritmética de los recíprocos de los datos:

1 𝑛
𝐻= =
1 𝑛 1 1
∑ ∑
𝑛 𝑗=1 𝑥𝑗 𝑋

Relación entre la media, la media geométrica y la media armónica


La media geométrica de un conjunto de datos positivos 𝑥1 , 𝑥2 , … , 𝑥𝑛 es menor o igual
que su media aritmética, pero mayor o igual que media armónica, es decir:
𝐻 ≤ 𝐺 ≤ 𝑥̅
La igualdad ocurre si y solo si todos los números 𝑥1 , 𝑥2 , … , 𝑥𝑛 son idénticos.

Mediana
La mediana es el valor que divide en dos partes iguales a un conjunto de datos ya
ordenado. La mediana no se ve afectada por los valores extremos, de manera que
pueden utilizarse cuando están presentes.
La mediana es el valor medio de un conjunto de datos ordenado de menor a
mayor.
El 50% de los valores son menores que la mediana y el otro 50% son mayores.
𝑛+1
𝑃𝑀𝑒𝑑𝑖𝑎𝑛𝑎 =
2
Calcule el valor de la mediana siguiendo una de las dos reglas:
 Regla 1: Si la muestra tiene un tamaño n impar, la mediana es el valor
colocado en el medio.
 Regla 2: Si la muestra tiene un tamaño n par, entonces la mediana es el
valor equivalente al promedio de los dos valores colocados en el medio.

3
Moda
La moda es el valor del conjunto de datos que aparece con mayor frecuencia. Al
igual que la mediana y a diferencia de la media, los valores extremos no afectan a
la moda.
CUARTILES, DECILES Y PERCENTILES.
Si un conjunto de datos esta ordenado, el valor central (o la media de los centrales)
que divide al conjunto en dos mitades iguales, es la mediana. Extendiendo esa idea
podemos pensar en aquellos valores que dividen al conjunto en cuatro partes
iguales. Esos valores denotados 𝑄1, 𝑄2 𝑦 𝑄3 se llaman primer, segundo y tercer
cuartiles, respectivamente. El 𝑄2 coincide con la mediana.
Las posiciones de los cuartiles se pueden calcular así:
 Para el cuartil 1
𝑛+1
𝑄1 =
4
 Para el cuartil 3
3(𝑛 + 1)
𝑄3 =
4

Para calcular los cuartiles se utilizan las siguientes reglas:


 Regla 1: Si el resultado es un número entero, entonces el cuartil es igual al
valor en la posición.
 Regla 2: Si el resultado es una fracción con su primer decimal igual a 5 (2.5,
4.5,…), entonces la posición del cuartil es igual al promedio de las posiciones
clasificados. Por ejemplo, si el tamaño de la muestra es 𝑛 = 9, entonces el
primer cuartil está en la posición 2.5; entonces se calcula el promedio entre
las posiciones 2 y 3.
 Regla 3: Si el resultado no es un número entero ni una fracción de mitad, o
se redondea al entero más cercano y se selecciona el valor clasificado en
dicha posición. Por ejemplo, si el tamaño de la muestra es 𝑛 = 10 entonces,
𝑃𝑄1 ≈ 2.75 = 3; o se encuentra el rango entre los dos valores en donde se
encuentra el percentil, luego se multiplica por el excedente, y el producto
entre estos dos valores, se suma al valor menor entre los dos valores, dicho
valor es el Percentil.

Ejemplo: Los 121 fondos de inversión, se clasifican de acuerdo con el nivel de riesgo
(bajo, medio y alto) y el tamaño de capital invertido (pequeño, mediano y gran
capital). Calcule el primer cuartil 𝑄1 y el tercer cuartil 𝑄3 del rendimiento en 2003 de
los dos fondos de inversión de alto riesgo para pequeños capitales.

Valor Clasificado 37,3 39,2 44,2 44,5 53,8 56,6 593 62,4 66,5
Clasificación 1 2 3 4 5 6 7 8 9

(𝑛 + 1)
𝑄1 = = 2.5
4

4
Por lo tanto, resulta que el valor clasificado como 2.5, que está justo en la mitad
entre los valores como segundo y tercero. Como el valor clasificado en la posición
2 es 39.2 y el tercero es 44.2, el primer cuartil es el que se ubica exatamente en la
mitad, es decir:

39.2 + 44.2
𝑄1 = = 41.7
2
Para el tercer cuartil:
3(9 + 1)
𝑄3 = = 7.5
4

Luego
59.3 + 62.4
𝑄3 = = 60.85
2

Análogamente, los valores dividen a los datos en 10 partes iguales se llaman


deciles, y se denotan 𝐷1 , 𝐷2 , 𝐷3 , … , 𝐷9 .

Mientras que los valores que los dividen en 100 partes iguales se llaman
percentiles, denotados por 𝑃1 , 𝑃2 , 𝑃3 , … , 𝑃99 . El 5ª decil y el percentil 50 coinciden con
la mediana. El percentil 25 coincide con el primer cuartil, y el percentil 75 coincide
con el tercer cuartil.
Colectivamente, cuartiles, deciles y percentiles se denominan cuantiles.

Para calcular tanto las posiciones de los deciles como de los percentiles se puede
utilizar la siguiente formula:

Ubicación del percentil p


𝑝
𝐿𝑝 = (𝑛 + 1)
100

Ejemplo:
Se tiene una muestra de las edades de los trabajadores de una micro-empresa
33, 26, 66, 45, 28, 59, 33, 36, 26, 45, 62, 45.
Calcular los cuartiles 1, 2 y 3. Los deciles 1, 3, 5, 9. Los percentiles 9, 10 y 50
Para 𝑄1 = 3.25, lo que implica que el 𝑄1 se encuentra entre la posición 3 y 4 a una
distancia de 0.25 de la posición 3.
Ahora encontramos la distancia entre estos dos valores

33 − 28 = 5

Y nos movemos 0.25 de distancia de este valor:

0.25 ∗ 5 = 1.25
Entonces

𝑄1 = 28 + 1.25 = 29.25

5
Para encontrar el 𝑄2 , calculamos su posición:

𝑛+1
𝑃𝑄2 = = 6.5
2

Luego

45 + 36
𝑄2 = = 40.5
2

Para el 𝑄3 , hallamos su ubicación

3(𝑛 + 1) 3(12 + 1)
𝑃𝑄3 = = = 9.75
4 4

El tercer cuartil se localiza entre la 9na y 10ma posición y se encuentra a 0.75 de la


distancia entre ellos. Observando en la tabla nos damos cuenta de que dichos
valores son 45 y 59. Obtenemos la distancia entre ambos

59 − 45 = 14

Para ubicar el 𝑄3 hay que moverse a 0.75 de distancia a partir del 9no.
0.75(14) = 10.5

Para terminar el procedimiento, sumamos

𝑄3 = 45 + 10.5 = 55.5

Deciles

Para hallar el 𝐷1 utilizamos la formula

12 + 1
𝐷1 = = 1.3
10

El primer decil se localiza entre el primer y segundo dato, y se encuentra a 0.3 de


distancia del primero. Como el primer valor es 26 y el segundo es 26, se asume que
el valor del primer decil es 26

𝐷1 = 26

Para el decil 3

(12 + 1)30
𝑃𝐷3 = = 3.9
100

6
El tercer Decil se localiza entre el tercer y cuarto valor y se encuentra a 0.9 de la
distancia entre ellos,

33 − 28 = 5
Para ubicar el tercer decil, hay que moverse a 0.9 de la distancia del tercer valor y
el cuarto, por lo que:

09 ∗ 5 = 4.5
Para terminar el procedimiento, sumamos 4.5 al primer valor, y resulta así que el
tercer decil es:

𝐷3 = 28 + 4.5 = 32.5

Hallamos la ubicación del decil cinco con la formula

𝑛+1
𝑃𝐷5 = = 6.5
2

Calculamos el valor del decil cinco:

45 + 36
𝐷5 = = 40.5
2

Hallamos la ubicación del decil 9

9(𝑛 + 1)
𝑃𝐷9 = = 11.7
10

Calculamos el valor del decil nueve: El decil 9 se localiza entre el 11 y 12 dato, y se


encuentra a 0.7 de la distancia entre ellos. Como el dato 11 es 62 y el dato 12 es
66, obtenemos

66 − 62 = 4
Para ubicar el decil 9, hay que moverse 0.7 de la distancia entre los datos 11 y 12

0.7 ∗ 4 = 2.8

Sumamos 2.8 así

𝐷9 = 62 + 2.8 = 64.8

Para encontrar el percentil 10

𝑛+1
𝑃10 = = 1.3
10

7
Luego

𝑃10 = 26

Para el percentil 50

𝑛+1
𝑃50 = = 6.5
2
Entonces

𝑃50 = 40.5

Para el percentil 90
9(𝑛 + 1)
𝑃90 = = 11.7
10

El valor del percentil 90 es:

𝑃90 = 62 + 2.8

LA DESVIACIÓN TIPICA Y OTRAS MEDIDAS DE DISPERSIÓN.

La dispersión o variación de los datos intenta dar una idea de cuán esparcidos se
encuentran éstos. Hay varias medidas de tal dispersión, siendo las más comunes el
rango, la desviación media, el rango semi-intercuartil, el rango percentil 10-90 y la
desviación típica.

EL RANGO
El rango de un conjunto de números es la diferencia entre el mayor y el menor de
todos ellos. El rango mide la distribución total del conjunto de datos. Aunque el rango
es una medida simple de la variación total de los datos, no toma en cuenta como se
distribuyen los datos entre el valor máximo y el valor mínimo. Entonces, debemos
tener la precaución de que el rango en ningún momento nos entrega información de
cómo están distribuidos los datos en ese intervalo. Pueden ocurrir varias cosas,
puede que los datos estén distribuidos de manera uniforme, o agrupados en torno
a la media, o cerca de los extremos.

RANGO INTERCUARTIL
El rango intercuartil es la diferencia entre el tercer cuartil y el primer cuartil de un
conjunto de datos

𝑅𝑎𝑛𝑔𝑜 𝐼𝑛𝑡𝑒𝑟𝑐𝑢𝑎𝑟𝑡𝑖𝑙 = 𝑄3 − 𝑄1

EL RANGO PERCENTIL 10-90


El rango percentil 10-90 de un conjunto de datos se define por

𝑟𝑎𝑛𝑔𝑜 𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 10 − 90 = 𝑃90 − 𝑃10


8
El rango intercuartil mide la dispersión en la mitad de los datos (ubicados en la parte
central) de los datos, así que no se ve influido por los valores extremos. El rango
intercuartil se le denomina dispersión media.
El rango intercuartil no se ve afectado por los valores extremos, debido a que no
tiene en cuenta valores menores que el 𝑄1 ni el 𝑄3 . Esto ocurre también en valores
representativos como la mediana,𝑄1, 𝑄3 y el rango intercuartil. Por esto, dichos
valores, que no reciben influencia de los valores extremos se denominan medidas
resistentes.

Las medidas de dispersión estudiadas anteriormente, no contemplan cómo se


distribuyen o se agrupan los valores que están entre los extremos. La desviación
estándar y la varianza son dos medidas para medir como se distribuyen el total de
los datos. Estas medidas de dispersión, miden la dispersión “promedio” alrededor
de la media, es decir cómo se distribuyen los valores por encima y por debajo de la
media.
Una medida de desviación simple alrededor de la media consideraría la diferencia
entre cada uno de los valores y la media y luego se sumaría. Pero recuerde que
dicha sumatoria siempre da 0 debido a que la sumatoria de los valores por debajo
de la media es igual a la suma de los valores por encima de la media pero de signo
contrario. Para evitar que los datos se anulen, vamos a sumar los valores absolutos,
con lo que obtenemos:

LA DESVIACIÓN MEDIA.
La desviación media o desviación promedio, de un conjunto de n números
𝑋1 , 𝑋2 , … , 𝑋𝑛 se denota por MD y se define como

∑|𝑋 − 𝑋̅| ̅̅̅̅̅̅̅̅


𝑀𝐷 = = |𝑋 − 𝑋̅|
𝑛

Otra forma de evitar el error de neutralización que ocurre, es elevar al cuadrado


cada una de las desviaciones. Dichas desviaciones al cuadrado se utilizan para
determinar la varianza.

VARIANZA MUESTRAL

La varianza muestral, 𝑠 2 , es la media de las desviaciones al cuadrado, calculada


usando como divisor a 𝑛 − 1

𝑆𝑢𝑚𝑎 𝑑𝑒 (𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖𝑜𝑛𝑒𝑠)2 ∑(𝑥 − 𝑥̅ )2


𝑠2 = =
𝑛−1 𝑛−1

Recuerde que 𝑛 es el tamaño de la muestra.

9
Ejercicio: Que conjunto de datos se encuentra más disperso
Conjunto 1: 3, 3, 5, 6, 8
Conjunto 2: 1, 3, 5, 6,10

Observaciones
1. Para encontrar 𝑥̅ se usa la suma de todas las 𝑥
2. La suma de las desviaciones con respecto a la media siempre es cero.
3. La suma de las desviaciones al cuadrado se encuentra elevando al cuadrado
cada desviación y luego sumando dichos valores.

Cuando sea necesario distinguir la varianza de una población a la varianza de la de


una muestra de dicha población, usaremos el símbolo 𝑠 para esta última y 𝜎 para la
primera. De modo que 𝑠 2 representa el varianza para la muestra y 𝜎 2 es la varianza
para toda la población.

El numerador de la varianza, ∑(𝑥 − 𝑥̅ )2 , a menudo se denomina suma de


cuadrados de x y se denota 𝑆𝐶 (𝑥 )

Así, podríamos expresar la varianza,

𝑆𝐶 (𝑥 )
𝑠2 =
𝑛−1

Además,

(∑ 𝑥 )2
𝑆𝐶 (𝑥 ) = ∑ 𝑥 2 −
𝑛

Y sustituyendo,

(∑ 𝑥 )2
∑ 𝑥2 −
𝑠2 = 𝑛
𝑛−1

Dicha expresión se denomina formula de atajo, debido a que evita el cálculo de 𝑥̅ .

DESVIACIÓN TIPICA o DESVIACIÓN ESTANDAR

La desviación típica de un conjunto de n datos 𝑋1 , 𝑋2 , … , 𝑋𝑛 se denota por s y se


define como:
𝑠 = √𝑠 2

Las unidades de la desviación son las mismas unidades que se utilizan para los
datos, en el caso de la varianza no tiene mucho sentido hablar de unidades.

10
A veces surge la pregunta del por que no se calcula la varianza de los datos de una
muestra con un valor de n en vez de (𝑛 − 1) el denominador. Esto es porque el valor
resultante da una mejor estimación de la desviación típica de la población total. Para
grandes valores de 𝑛 (𝑛 > 30), no hay prácticamente diferencia entre ambas
definiciones. Además, cuando se necesita esa mejor estimación, siempre podemos
𝑛
obtenerla multiplicando la aquí definida por √𝑛−1.

PROPIEDADES DE LA DESVIACION TIPICA


1. La desviación típica puede definirse como

2
∑𝑛𝑗=1(𝑋𝑗 − 𝑎)
𝑠=√
𝑛

Donde 𝑎 es un promedio distinto a la media aritmética. De tales desviaciones


típicas, la mínima es aquella para la cual 𝑎 = 𝑥̅ .
2. Para distribuciones normales, resulta:
a) 68.27% de los casos están entre 𝑥̅ − 𝑠 y 𝑥̅ + 𝑠 (o sea, una desviación
típica a cada lado de la media)
b) 95.45% de los casos están entre 𝑥̅ − 2𝑠 y 𝑥̅ + 2𝑠 (o sea, dos desviaciones
típicas a cada lado de la media).
c) 99.73% de los casos entre 𝑥̅ − 3𝑠 y 𝑥̅ + 3𝑠 (o sea, tres desviaciones
típicas a cada lado de la media).
Para distribuciones poco asimétricas, los anteriores porcentajes son
aproximadamente válidos.

3. Supongamos que dos conjunto de 𝑁1 𝑦 𝑁2 números las cuales tienen varianzas


dadas por 𝑠1 2 𝑦 𝑠22 respectivamente y tiene la misma media 𝑋̅. Entonces la
varianza combianda de ambos conjuntos está dada por:

𝑁1 𝑠1 2 + 𝑁2 𝑠2 2
𝑠=
𝑁1 + 𝑁2

Nótese que esto es la media ponderada de las varianzas, este resultado admite
generalización a más conjuntos.

11
MEDIA Y DESVIACION ESTANDAR DE DATOS AGRUPADOS Y NO
AGRUPADOS

Encuentre la media, la varianza y la desviación estándar de los datos muestrales


representados por la distribución de frecuencias dada.

x f
1 5
2 9
3 8
4 6

Solución

Para calcular la media y la varianza necesitamos


∑ 𝑥 ; ∑ 𝑥2

Luego
∑ 𝑥 = ∑ 𝑥𝑓 = 71

∑ 𝑓 = 28

∑ 𝑥 2 = 209

Ahora

∑ 𝑥𝑓
𝑥̅ =
∑𝑓

Para encontrar la varianza se modifica la formula de la siguiente forma

(∑ 𝑥𝑓 )2
∑ 𝑥 2𝑓 −
∑𝑓
𝑠2 = = 1.073
∑𝑓 − 1

Encontrar la media y la varianza para la siguiente tabla de frecuencias de datos


agrupados.

x f Mi
1 2 40
2 2 50

12
3 7 60
4 13 70
5 11 80
6 11 90
7 4 100

Solución
Se usaran las marcas de clase como valores representativos de cada clase.

∑ 𝑥𝑓
𝑥̅ = = 75.6
∑𝑓

Para la varianza

(∑ 𝑥𝑓 )2
∑ 𝑥 2𝑓 −
∑𝑓
𝑠2 = = 221.1
∑𝑓 − 1

VARIABLES TIPIFICADAS: UNIDADES ESTANDAR.


La variable que mide la desviación de la medida en unidades de la desviación típica
se llama variable tipificada, es adimensional (independiente de las unidades
usadas) y viene dada por:

𝑥𝑖 − 𝑥̅
𝑧𝑖 =
𝑠

COEFICIENTE DE VARIACIÓN

Es una medida de variación relativa. Se simboliza mediante C.V

𝑠
𝐶. 𝑉 = ∗ 100
𝑥̅

Es la desviación estándar expresado como porcentaje de la media, por lo que no


tiene sentido asignarle unidades.
Es útil para la comparación entre la variabilidad relativa entre distribuciones que no
están expresadas en la misma unidad de medida o bien, entre distribuciones que si
bien están expresadas en la misma unidad poseen promedios muy dispares.

REGLA EMPIRICA

Es posible que dos conjunto de datos distintos tengan el mismo rango pero difieran
considerablemente en el grado de variación de los datos. En consecuencia, el rango
es una medida relativamente insensible a la variación de los datos. La varianza

13
tiene importancia teórica, pero es difícil de interpretar porque las unidades de
medición de la variable de interés están elevadas al cuadrado. En cambio, las
unidades de medición de la desviación estándar son las unidades de la variable. Si
la desviación estándar se combina con la media del conjunto de datos, resulta fácil
interpretarla.
Si un conjunto de datos tiene una distribución aproximadamente simétrica se
pueden utilizar las siguientes reglas prácticas para describir el conjunto de datos:

a) 68.27% de los casos están entre 𝑥̅ − 𝑠 y 𝑥̅ + 𝑠 (o sea, una desviación


típica a cada lado de la media)
b) 95.45% de los casos están entre 𝑥̅ − 2𝑠 y 𝑥̅ + 2𝑠 (o sea, dos desviaciones
típicas a cada lado de la media).
c) 99.73% de los casos entre 𝑥̅ − 3𝑠 y 𝑥̅ + 3𝑠 (o sea, tres desviaciones
típicas a cada lado de la media).

La regla empírica es el resultado de la experiencia practica de investigadores en


muchas disciplinas, que han observado muy diferentes tipos de conjuntos de datos
de la vida real.

14
REFERENCIAS BIBLIOGRAFICAS
Johnson, & Kuby. (2004). Estadística Elemental lo Esencial. México: Tercera
Edición Thomson.
Levine, Krehbiel, & Berenson. (2012). Estadística Descriptiva. México: Pearson.

15

También podría gustarte