Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Diego Domínguez
2020
Las medidas de tendencia central (MTC) son los valores que generalmente se ubican
como su nombre lo dice en la parte central de un conjunto de datos. Éstas medidas nos
ayudan a resumir la información en un solo número. Las medidas de tendencia
pretenden indicar donde esta lo que se podría considerar como el centro de la masa de
datos.
- Vamos a trabajar sobre los datos de altura de una especie de arboles. Estos
datos se encuentran disponibles en la base de datos que están almacenadas en
RStudio.
- La hoja de datos sobre la cual vamos a trabajar se denomina ‘trees’. Vamos a
conocer su estructura:
str(trees)
'data.frame': 31 obs. of 3 variables:
$ Girth : num 8.3 8.6 8.8 10.5 10.7 10.8 11 11 11.1 11.2 ...
$ Height: num 70 65 63 72 81 83 66 75 80 75 ...
$ Volume: num 10.3 10.3 10.2 16.4 18.8 19.7 15.6 18.2 22.6 19.9
...
Se puede observar una hoja de datos (data.frame) conformada por 31 observaciones (filas) y 3 variables
(columnas). Estas tres variables (Gith, Height, Volume) son de tipo cuantitativas continuas.
alturas<-trees$Height
Indicándole al programa que en la variable que la he denominado ‘alturas’, voy a almacenar una de las
variables de la hoja de datos ‘trees’: alturas<-trees. Ahora voy a asignar una de las tres variables disponibles
(Gith, Height, Volume) agregando a la línea de código el signo de dólar ‘$’: alturas<-trees$. En este caso la
variable que vamos a utilizar es la variable ‘Height’: alturas<-trees$ Height’.
alturas
[1] 70 65 63 72 81 83 66 75 80 75 79 76 76 69 75 74 85 86 71 64
78 80 74 72 77
[26] 81 82 80 80 80 87
- Ahora si, ya con los datos de trabajo definidos, procedemos a calcular la media
de este conjunto de datos, mediante la función ‘mean()’, almacenando este
resultado en la variable ‘media’:
media<-mean(alturas)
media
[1] 76
En resumen, los datos de altura de esta especie de arboles tienen una media de 76 pies
(ft).
Mediana
En resumen, los datos de altura de esta especie de arboles presentan una media
y mediana de 76 pies (ft).
Moda
La moda es el dato que se presenta con mas frecuencia dentro del conjunto de datos.
Estas medidas indican si los datos dentro del conjunto de datos se encuentran cercanos
o por el contrario están muy dispersos:
Rango o amplitud
Una medida de varianza es el rango o amplitud, que se obtiene de restar al valor máximo
del valor mínimo de un conjunto de datos [rango = max - min]:
- Una forma de obtener el valor máximo y mínimo del conjunto de datos es
mediante las funciones ‘max()’ y ’min()’ respectivamente:
max(alturas)
[1] 87
min(alturas)
[1] 63
- Otra forma de obtener los valores mínimo y máximo es mediante la función
‘range()’, que devuelve el valor mínimo y máximo (min,max) de un conjunto de
datos respectivamente:
range(alturas)
[1] 63 87
- Ya conociendo la forma de obtener estos valores, podemos obtener el rango de
este conjunto de datos (alturas) con cualquiera de las siguientes líneas de
código:
Una forma es utilizando en la resta las funciones ‘max()’ y ‘min()’:
rango=max(alturas)-min(alturas)
El rango es igual al valor obtenido de la resta de el valor máximo (87) con el valor mínimo (63), el resultado
es 24.
rango
[1] 24
Otra forma es utilizando en la resta la función ‘range()’, indicando la posición del valor
máximo del conjunto de datos entre corchetes: ‘range(alturas)[2]’ y la posición del valor
mínimo del conjunto de datos entre corchetes: ‘range(alturas)[1]’ respectivamente:
rango=range(alturas)[2]-range(alturas)[1]
rango
[1] 24
O a través de la resta directa de estos valores
rango=87-63
rang
[1] 24
El rango o amplitud entre el valor máximo y el valor mínimo de alturas de esta
especie de arboles es de 24 pies (ft).
Varianza
Desviación Estándar
Para obtener la variación o dispersión de los datos con la misma dimensión bastará con
tomar la raíz cuadrada de la varianza. A este resultado se denomina desviación típica
o estándar.
- A través de la función ‘sd()’ vamos a calcular la desviación estándar y la vamos
a almacenar en la variable ‘desviacion_s’:
desviacion.s<-sd(alturas)
desviacion.s
[1] 6.371813
Este resultado mas preciso de desviación estándar indica que los datos de altura
presentan una dispersión de 6.37 pies respecto a su media (76).
MEDIDAS DE POSICIÓN
Estas medidas indican la posición en donde se sitúan uno o varios datos dentro de un
conjunto de datos o mediciones.
Percentil
El percentil es una medida de posición que indica el valor de una posición deseada. El
valor ubicado en el percentil deseado es mayor al porcentaje p% de datos ubicados a
las izquierda del conjunto de datos y consecuentemente será menor que el restante
porcentaje de mediciones (100 - p)%.
- El percentil esta dado entre 0 y 1 por lo que debemos transformar el percentil a
un valor compatible.
- Vamos a obtener el percentil 40%. Para transformarlo lo dividimos para 100
(40/100) y posteriormente con la función ‘quantile()’ vamos a encontrar el valor
que se encuentra en el percentil 0.40 y lo vamos almacenar en la variable
percentil_40:
percentil_40<-quantile(alturas, 0.40)
percentil_40
40%
75
El valor ubicado en el percentil 40 es 75 ft. Por lo tanto, este resultado indica que
el 40% (por ciento) de los datos presentan una altura inferior o igual a 75 ft (pies)
y consecuentemente el restante 60% (por ciento) de lo datos presentan una altura
superior a los 75 ft.
El rango intercuartil es una medida que explica el 50% central de los datos, cuando
estos datos estan ordenados de menor a mayor.
El Rango Intercuartil para una conjunto de valores es la diferencia entre los cuartiles
superior (Q3) e inferior (Q1). Mediante esta medida se eliminan los valores
extremadamente alejados.
Su formula es:
IQR = Q3 - Q1
- La diferencia entre esto dos valores (Q3 – Q1) nos devuelve el rango intercuartil
(IQR):
IQR = Q3 – Q1
IQR
8
La diferencia entre el cuartil 1 (Q1) y el cuartil 3 (Q3) es de 8 pies.
Con estos resultados podríamos concluir que el 50% (por ciento) central de los
datos de altura están entre los 72 (Q1) y 80 (Q3) pies respectivamente; con un
rango intercuartil de 8 pies.
Una función que nos permite observar el resumen de este conjunto de datos es
‘summary()’:
summary(alturas)
Min. 1st Qu. Median Mean 3rd Qu. Max.
63 72 76 76 80 87
El conjunto de datos de alturas de una especie de árbol, medida en pies (ft), presenta
valores que están entre los 63 (min) y 87 (max) pies; con una media y mediana que
coinciden de 76 (media y mediana) pies; el 50% central de estos datos están entre los
72 (Q1) y 80 (Q3) pies, con un rango intercuartil de 8 (IQR) pies.
Gráficamente podemos observar estos valores a través de un diagrama de cajas
(boxplot):
Nombre:_____________
Del data.fame ‘iris’ disponible en el programa, calcule las medidas de tendencia central,
variación y posición de la variable ancho del sepalo ‘Sepal.Width’.
El data.frame ‘iris’ datos o medidas de rasgos funcionales de flores de tres especies
vegetales. Estas medidas están dadas en cm.
Rellene:
La variable ancho del sépalo del data.frame ‘iris’ tiene _______ medidas
(observaciones). Estos datos presentan una media de ______cm, una mediana de
______ cm y una moda o dato mas frecuente de _______ cm.
El ancho máximo del sépalo es ______ cm, el ancho mínimo es _______ cm, por lo
tanto su amplitud es _____ cm. La varianza de este conjunto de datos es de ______cm2,
la desviación estándar es de ______ cm.
El valor del percentil 50% es ______ cm, que al ubicarse en el centro del conjunto de
datos es el valor de la mediana. El 50% central de los datos se ubican entre el cuartil 1
(Q1=_____cm) y el cuartil 3 (Q3=______cm); con un rango intercuartil IQR de
______cm.