Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Clase 6 - Bioestadística y Diseño Experimental 27072020 PDF
Clase 6 - Bioestadística y Diseño Experimental 27072020 PDF
Ingeniería Agronómica
2020
U. 2 MEDIDAS DESCRIPTIVAS
Permiten describir el grado de centralidad de un conjunto Estas medidas permiten describir la posición que tienen un
de datos. valor específico en relación con el resto de datos. Sintetizan
Representan un valor central hacia el cual tienden a las distribuciones de frecuencias e indican qué porcentaje
concentrarse los datos de un variable. de datos, dentro de una distribución, hay antes o después
de un valor determinado.
Permiten generar criterios sobre el grado de homogeneidad Ayudan a caracterizar una curva de frecuencias, en
o heterogeneidad del conjunto de datos que se está particular, permiten determinar el grado de asimetría y el
analizando, en relación con una medida de centralidad, o grado de apuntamiento de la curva que se ajusta a los
con respecto a los datos en sí. datos.
MEDIDAS DESCRIPTIVAS
Las mediciones descriptivas pueden calcularse con datos extraídos de una muestra o de una población.
Estimadores Parámetros
Medidas de tendencia central
- Media
- Mediana
MEDIDAS DESCRIPTIVAS - Moda
Proporción
Medidas de tendencia Central
1. Media (media aritmética): También llamada promedio, representa la medida de centralidad más usada, sin
embargo, se deja afectar si la variable tiene datos extremos. Consiste en sumar todos los valores de la
variable y dividir entre la cantidad de datos.
𝑛
𝑥1 + 𝑥2 + 𝑥3 + ⋯ + 𝑥𝑛 𝑥𝑖 𝑁
𝑋ത = = 𝑥1 + 𝑥2 + 𝑥3 + ⋯ + 𝑥𝑁 𝑥𝑖
𝑛 𝑛 𝜇= =
𝑖=1 𝑁 𝑁
𝑖=1
𝑛+1
Si la cantidad de datos es impar, la mediana corresponderá al dato en la posición:
2
3. Moda – Mo(X): Valor o atributo que se repite con mayor frecuencia dentro del conjunto de datos
de un variable. En el caso que no haya un único datos con la mayor frecuencia, se dice que la
variable tiene valores modales.
Ejemplo: Suponga que se requiere realizar un estudio sobre la cantidad de productos (tomates) cosechados en
diferentes fincas de una determinada ciudad en Colombia. Para esto, toma el registro del último mes, de 10
fincas reflejándose los siguientes datos: 132, 150, 150, 234, 145, 150, 143, 200, 150, 143
¿Muestra o población?
Rta// muestra, porque solo se están tomando el registro del último mes en 10 fincas.
Media muestral
132 + 150 + 150 + 234 + 145 + 150 + 143 + 200 + 150 + 143 1597
𝑋ത = = = 159,7
10 10
𝑛 𝑛
Si la cantidad de datos es par, la mediana se determina al ponderar(promediar) los datos en las posiciones: 𝑦 +1
2 2
132, 143, 143, 145, 150, 150, 150, 150, 200, 234
3 3 3 3 3 3 = 3*6
𝑴𝒆𝒅𝒊𝒂 𝒎𝒖𝒆𝒔𝒕𝒓𝒂𝒍:
293
# flores fi Fi xi*fi 𝑋ത = = 5,86
0 1 1 50
0
1 1 2 1 En promedio las plantas tienen 5,86 flores. Sin embargo, por ser una variable
2 3 5 6 discreta, se sugiere dar un dato acorde a la variable, en este caso, se indicaría que
3 6 11 18 en promedio las plantas tienen 6 flores
4 4 15 16
5 4 19 20 𝑴𝒆𝒅𝒊𝒂𝒏𝒂:
6 9 28 54
7 8 36 56 𝑐𝑜𝑚𝑜 𝑛 = 50 → 𝑝𝑎𝑟 −−−→ 𝑑𝑎𝑡𝑜𝑠 𝑒𝑛 𝑙𝑎𝑠 𝑝𝑜𝑠𝑖𝑐𝑖𝑜𝑛𝑒𝑠 25 𝑦 26
8 7 43 56 6+6
9 4 47 36 𝑀𝑒 𝑋 = =6
2
10 3 50 30
Suma 50 293 El 50% de las plantas tienen 6 o menos flores y el otro 50% tiene 6 o más flores.
𝑴𝒐𝒅𝒂:
𝑀𝑜 𝑋 = 6
➢ Mediana → MEDIANA(datos)
➢ Moda → MODA.UNO(datos)
Medidas de variabilidad o dispersión
1. Varianza: Medida de dispersión basada en la diferencia al cuadrado de cada dato con respecto a la media de
la variable.
Dado que las desviaciones con respecto a la media están al cuadrado, esta medida carece de interpretación. Es
un valor siempre positivo e incluso puede ser 0.
𝑛 𝑁
𝑥𝑖 − ത
𝑋 2
𝑥𝑖 − 𝜇 2
𝑆2 = 𝜎2 =
𝑛−1 𝑁
𝑖=1 𝑖=1
𝑛 𝑁
𝑥𝑖 − 𝑋ത 2 𝑥𝑖 − 𝜇 2
𝑆= 𝑆2 = 𝜎= 𝜎2 =
𝑛−1 𝑁
𝑖=1 𝑖=1
2. Cuanto mayor sea el valor de la varianza, habrá mayor variabilidad en los datos de la
variable.
3. Si los datos siguen una distribución simétrica, la desviación estándar puede interpretarse en
función de la regla empírica (Chebyshev), la cual indica qué porcentaje de los datos se
encuentran alrededor de la media.
Los datos de la variable que superen el valor 𝜇 + 4𝜎 o que sean inferiores a 𝜇 − 4𝜎,
se consideran valores extremos o valores outliers
3. Coeficiente de variación-Cv(X): Medida que relaciona la desviación estándar de la variable con su media,
permite determinar qué tan homogénea o dispersa es la información estudiada.
𝑆 𝜎
𝐶𝑣 = 𝐶𝑣 =
𝑋ത 𝜇
Muestral Poblacional
¿Muestra o población?
Rta// muestra, porque solo se están tomando el registro del último mes en 10 fincas.
Varianza muestral
132 − 159,7 2 + 150 − 159,7 2 + 150 − 159,7 2 + 234 − 159,7 2 + 145 − 159,7 2 + 150 − 159,7 2 + 143 − 159,7 2 + 200 − 159,7 2 + 150 − 159,7 2 + 143 − 159,7 2
𝑆2 =
10 − 1
9062,1
=
9
= 1006,9 𝑢2
Desviación estándar
La variable cantidad de tomates cosechados en las 10 fincas,
presenta una dispersión de 31,73 unidades en el último mes.
𝑆= 𝑆2 = 1006,9 𝑢2 = 31,73 𝑢
Siguiendo la regla empírica, podría indicarse que el 95% de las
fincas obtuvo cosechas entre 96 y 223 tomates.
𝑥ҧ − 2𝑆, 𝑥ҧ + 2𝑆 = 159,7 − 2 31,73 ; 159,7 + 2 31,73
= (96,23 ; 223,16)
Coeficiente de variación
31,73 𝑢 Con un 𝐶𝑣 = 19,9% puede indicarse que las cosechas de
𝐶𝑣 = = 0,199 tomate en las 10 fincas, registradas el último mes, son
159,7 𝑢
moderadamente dispersas (heterogéneas).
1. Coeficiente de asimetría o Sesgo – As: Permite establecer la tendencia de la distribución de frecuencia los
datos. La tendencia hacia alguno de los extremos se denomina sesgo.
Coeficiente de 1 𝑛 1 𝑛
σ𝑖=1 𝑥𝑖 − 𝑋ത 3 σ𝑖=1 𝑥𝑖 − 𝑋ത 3
∗ 𝑓𝑖
asimetría de 𝐴𝑠 = 𝑛 𝐴𝑠 = 𝑛
3/2 3/2
1 𝑛 1 𝑛
Fisher σ𝑖=1 𝑥𝑖 − 𝑋ത 2 σ𝑖=1 𝑥𝑖 − 𝑋ത 2 ∗ 𝑓𝑖
𝑛 𝑛
Datos no tabulados Datos tabulados
2. Coeficiente de apuntamiento o Curtosis– Cu: Permite analizar la concentración de los datos alrededor de los
valores medidos.
𝐶𝑢 > 0 −→ 𝐿𝑒𝑝𝑡𝑜𝑐𝑢𝑟𝑡𝑖𝑐𝑎
𝐶𝑢 = 0 −→ 𝑀𝑒𝑠𝑜𝑐ú𝑟𝑡𝑖𝑐𝑎
𝐶𝑢 < 0 −→ 𝑃𝑙𝑎𝑡𝑖𝑐ú𝑟𝑡𝑖𝑐𝑎
1 𝑛 1 𝑛
σ𝑖=1 𝑥𝑖 − 𝑋ത 4 σ𝑖=1 𝑥𝑖 − 𝑋ത 4 ∗ 𝑓𝑖
Coeficiente de 𝐶𝑢 = 𝑛 𝑛
2−3 𝐶𝑢 = 2 −3
curtosis 1 𝑛 1 𝑛
σ𝑖=1 𝑥𝑖 − 𝑋ത 2 σ𝑖=1 𝑥𝑖 − 𝑋ത 2 ∗ 𝑓𝑖
𝑛 𝑛
Datos no tabulados Datos tabulados
𝑳𝒆𝒑𝒕𝒐𝒄ú𝒓𝒕𝒊𝒄𝒂: las frecuencias altas están alrededor de la media, el grado de concentración alrededor
de los valores centrales es elevado, por lo cual la curva de la distribución de frecuencia de los datos, tiene
forma puntiaguda
¿Muestra o población?
Rta// muestra, porque solo se están tomando el registro del último mes en 10 fincas.
1 𝑛 1
σ𝑖=1 𝑥𝑖 − 𝑋ത 3
132 − 159,7 3 + 150 − 159,7 3 + 150 − 159,7 3 + ⋯ + 143 − 159,7 3
𝑨𝒔 = 𝑛 = 10
3/2 3/2
1 𝑛 1
σ𝑖=1 𝑥𝑖 − 𝑋ത 2 132 − 159,7 2 + 150 − 159,7 2 + 150 − 159,7 2 + ⋯ + 143 − 159,7 2
𝑛 10
1
(438227,16) 43822,72
= 10 = = 1,61
3/2 27279,93
1
∗ 9062,1
10
Como 𝐴𝑠 = 1,61 > 0, la distribución de
las frecuencias de la cantidad de tomates
cosechados en las 10 fincas el último mes,
presenta sesgo a la derecha (curva en el
gráfico)
1 𝑛 ത 4 1
σ𝑖=1 𝑥𝑖 − 𝑋 132 − 159,7 4 + 150 − 159,7 4 + 150 − 159,7 4 + ⋯ + 143 − 159,7 4
𝐶𝑢 = 𝑛 2 − 3 = 10
2 −3
1 𝑛 ത 2 1
σ𝑖=1 𝑥𝑖 − 𝑋 132 − 159,7 2 + 150 − 159,7 2 + 150 − 159,7 2 + ⋯ + 143 − 159,7 2
𝑛 10
1
(33939877,98) 3393987,80
= 10
2 − 3 = 821216,56 − 3 = 4,13 − 3 = 1,13
1
∗ 9062,1
10
Como 𝐶𝑢 = 1,13 > 0, la distribución de las frecuencias de la
cantidad de tomates cosechados en las 10 fincas el último
mes, es tan alta como una curva leptocúrtica..
Actividad