Está en la página 1de 8

MEDIDAS DE TENDENCIA CENTRAL, VARIACIÓN Y POSICIÓN

Diego Domínguez

2020

MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central (MTC) son los valores que generalmente se ubican
como su nombre lo dice en la parte central de un conjunto de datos. Éstas medidas nos
ayudan a resumir la información en un solo número. Las medidas de tendencia
pretenden indicar donde esta lo que se podría considerar como el centro de la masa de
datos.

Media (o media aritmética o también promedio)

La media es igual a la suma de las mediciones de un conjunto de datos dividida para el


número total de mediciones (n):

RStudio contiene funciones que permiten el calculo directo de estas medidas:

- Vamos a trabajar sobre los datos de altura de una especie de arboles. Estos
datos se encuentran disponibles en la base de datos que están almacenadas en
RStudio.
- La hoja de datos sobre la cual vamos a trabajar se denomina ‘trees’. Vamos a
conocer su estructura:

str(trees)
'data.frame': 31 obs. of 3 variables:
$ Girth : num 8.3 8.6 8.8 10.5 10.7 10.8 11 11 11.1 11.2 ...
$ Height: num 70 65 63 72 81 83 66 75 80 75 ...
$ Volume: num 10.3 10.3 10.2 16.4 18.8 19.7 15.6 18.2 22.6 19.9
...

Se puede observar una hoja de datos (data.frame) conformada por 31 observaciones (filas) y 3 variables
(columnas). Estas tres variables (Gith, Height, Volume) son de tipo cuantitativas continuas.

- Vamos a trabajar sobre la altura (medida en pies) de los arboles. Almacenando


en una nueva variable únicamente estos datos, como se lo haría?:

alturas<-trees$Height

Indicándole al programa que en la variable que la he denominado ‘alturas’, voy a almacenar una de las
variables de la hoja de datos ‘trees’: alturas<-trees. Ahora voy a asignar una de las tres variables disponibles
(Gith, Height, Volume) agregando a la línea de código el signo de dólar ‘$’: alturas<-trees$. En este caso la
variable que vamos a utilizar es la variable ‘Height’: alturas<-trees$ Height’.

alturas
[1] 70 65 63 72 81 83 66 75 80 75 79 76 76 69 75 74 85 86 71 64
78 80 74 72 77
[26] 81 82 80 80 80 87
- Ahora si, ya con los datos de trabajo definidos, procedemos a calcular la media
de este conjunto de datos, mediante la función ‘mean()’, almacenando este
resultado en la variable ‘media’:

media<-mean(alturas)
media
[1] 76

En resumen, los datos de altura de esta especie de arboles tienen una media de 76 pies
(ft).

Mediana

La mediana muestra la posición central o la posición media del conjunto de mediciones.


Dejando un 50 por ciento de mediciones a la izquierda y el otro 50 por ciento de
mediciones a la derecha.

- Con la función ‘median()’ vamos a obtener el valor de la mediana, y la vamos a


almacenar en la variable ‘mediana’:
mediana<-median(alturas)
mediana
[1] 76
Se puede observar que tanto el valor de ‘media’ como ‘mediana’ coinciden. Sin embargo estos valores no
siempre van a coincidir, según los conjuntos de datos.

- Para una mejor comprensión vamos a observar el conjunto de datos ordenados


con la función sort(), y vamos almacenar en la variable ‘orden_altura:
orden_altura<-sort(alturas)
orden_altura
[1] 63 64 65 66 69 70 71 72 72 74 74 75 75 75 76 76 77 78 79 80
80 80 80 80 81
[26] 81 82 83 85 86 87
Se puede observar que el valor ‘76’ (en rojo) divide los datos en dos, 50% a su izquierda (15 datos) y el otro
50% a su derecha (15 datos).

En resumen, los datos de altura de esta especie de arboles presentan una media
y mediana de 76 pies (ft).

Moda

La moda es el dato que se presenta con mas frecuencia dentro del conjunto de datos.

- Directamente podemos obtener el valor de la moda observando los valores que


más se repiten en el conjunto de datos. En este caso es fácil determinar este
valor al ser un conjunto pequeño de datos:
orden_altura
[1] 63 64 65 66 69 70 71 72 72 74 74 75 75 75 76 76 77 78 79 80
80 80 80 80 81
[26] 81 82 83 85 86 87
Podemos observar que el valor mas frecuente es ‘80’(en rojo). Por lo tanto el valor de la moda será 80.
- Otra forma de obtener la moda de un conjunto de datos es a través de las
siguientes líneas de código:
- Primero instalamos el paquete ‘modeest’. Una vez instalado llamamos a este
paquete con la función ‘library()’:
library(modeest)
- Y ya, luego de instalar el paquete ‘modeest’, con la función ‘mfv()’ vamos a
obtener el valor de la moda y la vamos almacenar en la variable ‘moda’:
> moda<-mfv(alturas)
> moda
[1] 80
En resumen, los datos de altura de esta especie de arboles presentan una media
y mediana de 76 pies (ft), con una moda de 80 ft.

MEDIDAS DE VARIACIÓN O DISPERSIÓN

Estas medidas indican si los datos dentro del conjunto de datos se encuentran cercanos
o por el contrario están muy dispersos:

Rango o amplitud

Una medida de varianza es el rango o amplitud, que se obtiene de restar al valor máximo
del valor mínimo de un conjunto de datos [rango = max - min]:
- Una forma de obtener el valor máximo y mínimo del conjunto de datos es
mediante las funciones ‘max()’ y ’min()’ respectivamente:
max(alturas)
[1] 87
min(alturas)
[1] 63
- Otra forma de obtener los valores mínimo y máximo es mediante la función
‘range()’, que devuelve el valor mínimo y máximo (min,max) de un conjunto de
datos respectivamente:
range(alturas)
[1] 63 87
- Ya conociendo la forma de obtener estos valores, podemos obtener el rango de
este conjunto de datos (alturas) con cualquiera de las siguientes líneas de
código:
Una forma es utilizando en la resta las funciones ‘max()’ y ‘min()’:
rango=max(alturas)-min(alturas)
El rango es igual al valor obtenido de la resta de el valor máximo (87) con el valor mínimo (63), el resultado
es 24.
rango
[1] 24
Otra forma es utilizando en la resta la función ‘range()’, indicando la posición del valor
máximo del conjunto de datos entre corchetes: ‘range(alturas)[2]’ y la posición del valor
mínimo del conjunto de datos entre corchetes: ‘range(alturas)[1]’ respectivamente:
rango=range(alturas)[2]-range(alturas)[1]
rango
[1] 24
O a través de la resta directa de estos valores
rango=87-63
rang
[1] 24
El rango o amplitud entre el valor máximo y el valor mínimo de alturas de esta
especie de arboles es de 24 pies (ft).

Varianza

La varianza es na medida que explica la dispersión de los datos respecto a su media.


Sin embargo, la varianza no presenta la misma magnitud del conjunto de datos, si no el
cuadrado de esa magnitud. Es decir en este caso, los datos de altura de los arboles se
miden en ft (pies), la varianza lo hace en ft2.
- Mediante la función ‘var()’ vamos a calcular la varianza del conjunto de datos y
la vamos a almacenar en la variable ‘varianza’:
varianza<-var(alturas)
varianza
[1] 40.6

Desviación Estándar

Para obtener la variación o dispersión de los datos con la misma dimensión bastará con
tomar la raíz cuadrada de la varianza. A este resultado se denomina desviación típica
o estándar.
- A través de la función ‘sd()’ vamos a calcular la desviación estándar y la vamos
a almacenar en la variable ‘desviacion_s’:
desviacion.s<-sd(alturas)
desviacion.s
[1] 6.371813
Este resultado mas preciso de desviación estándar indica que los datos de altura
presentan una dispersión de 6.37 pies respecto a su media (76).

MEDIDAS DE POSICIÓN

Estas medidas indican la posición en donde se sitúan uno o varios datos dentro de un
conjunto de datos o mediciones.
Percentil

El percentil es una medida de posición que indica el valor de una posición deseada. El
valor ubicado en el percentil deseado es mayor al porcentaje p% de datos ubicados a
las izquierda del conjunto de datos y consecuentemente será menor que el restante
porcentaje de mediciones (100 - p)%.
- El percentil esta dado entre 0 y 1 por lo que debemos transformar el percentil a
un valor compatible.
- Vamos a obtener el percentil 40%. Para transformarlo lo dividimos para 100
(40/100) y posteriormente con la función ‘quantile()’ vamos a encontrar el valor
que se encuentra en el percentil 0.40 y lo vamos almacenar en la variable
percentil_40:
percentil_40<-quantile(alturas, 0.40)
percentil_40
40%
75
El valor ubicado en el percentil 40 es 75 ft. Por lo tanto, este resultado indica que
el 40% (por ciento) de los datos presentan una altura inferior o igual a 75 ft (pies)
y consecuentemente el restante 60% (por ciento) de lo datos presentan una altura
superior a los 75 ft.

Rango Intercuartil (IQR)

El rango intercuartil es una medida que explica el 50% central de los datos, cuando
estos datos estan ordenados de menor a mayor.

El Rango Intercuartil para una conjunto de valores es la diferencia entre los cuartiles
superior (Q3) e inferior (Q1). Mediante esta medida se eliminan los valores
extremadamente alejados.

Su formula es:

IQR = Q3 - Q1

Donde: Q1 corresponde al 25 por ciento de los datos y Q3 corresponde al 75 por ciento


de los datos.
- Con la función ‘quantile()’ podemos encontrar los valores de los cuartiles 1 (Q1)
y 3 (Q3) respectivamente:
Q1<-quantile(alturas, 0.25)
Q1
25%
72
Todas las alturas inferiores o iguales a 72 pies corresponden al cuartil 1(Q1).
Q3<-quantile(alturas, 0.75)
Q3
75%
80
Todas las alturas inferiores o iguales a 80 pies corresponden al cuartil 1(Q3).

- La diferencia entre esto dos valores (Q3 – Q1) nos devuelve el rango intercuartil
(IQR):
IQR = Q3 – Q1
IQR
8
La diferencia entre el cuartil 1 (Q1) y el cuartil 3 (Q3) es de 8 pies.

- Directamente con la función ‘IQR()’ podemos calcular también el rango


intercuartil:
IQR<-IQR(alturas)
IQR
[1] 8
La diferencia entre el cuartil 1 (Q1) y el cuartil 3 (Q3) es de 8 pies.

Con estos resultados podríamos concluir que el 50% (por ciento) central de los
datos de altura están entre los 72 (Q1) y 80 (Q3) pies respectivamente; con un
rango intercuartil de 8 pies.

Una función que nos permite observar el resumen de este conjunto de datos es
‘summary()’:
summary(alturas)
Min. 1st Qu. Median Mean 3rd Qu. Max.
63 72 76 76 80 87
El conjunto de datos de alturas de una especie de árbol, medida en pies (ft), presenta
valores que están entre los 63 (min) y 87 (max) pies; con una media y mediana que
coinciden de 76 (media y mediana) pies; el 50% central de estos datos están entre los
72 (Q1) y 80 (Q3) pies, con un rango intercuartil de 8 (IQR) pies.
Gráficamente podemos observar estos valores a través de un diagrama de cajas
(boxplot):

boxplot(alturas, main=”Diagrama de cajas”, ylab=”Alturas”)


Actividad en clase:

Nombre:_____________

Del data.fame ‘iris’ disponible en el programa, calcule las medidas de tendencia central,
variación y posición de la variable ancho del sepalo ‘Sepal.Width’.
El data.frame ‘iris’ datos o medidas de rasgos funcionales de flores de tres especies
vegetales. Estas medidas están dadas en cm.

Rellene:
La variable ancho del sépalo del data.frame ‘iris’ tiene _______ medidas
(observaciones). Estos datos presentan una media de ______cm, una mediana de
______ cm y una moda o dato mas frecuente de _______ cm.
El ancho máximo del sépalo es ______ cm, el ancho mínimo es _______ cm, por lo
tanto su amplitud es _____ cm. La varianza de este conjunto de datos es de ______cm2,
la desviación estándar es de ______ cm.
El valor del percentil 50% es ______ cm, que al ubicarse en el centro del conjunto de
datos es el valor de la mediana. El 50% central de los datos se ubican entre el cuartil 1
(Q1=_____cm) y el cuartil 3 (Q3=______cm); con un rango intercuartil IQR de
______cm.

Confirme estos valores ejecutando la función ‘summary()’ (Agregue captura de pantalla


de este resultado) y construyendo un diagrama de cajas ‘boxplot()’ (Agregue diagrama
de cajas resultante).

También podría gustarte