Está en la página 1de 31

BIOESTADÍSTICA Y DISEÑO EXPERIMENTAL

Ingeniería Agronómica

Docente: Julieth Rodríguez Gutiérrez


Escuela de matemáticas y estadística

2020
U. 2 MEDIDAS DESCRIPTIVAS

Medidas de tendencia Central Medidas de ubicación y posición

Permiten describir el grado de centralidad de un conjunto Estas medidas permiten describir la posición que tienen un
de datos. valor específico en relación con el resto de datos. Sintetizan
Representan un valor central hacia el cual tienden a las distribuciones de frecuencias e indican qué porcentaje
concentrarse los datos de un variable. de datos, dentro de una distribución, hay antes o después
de un valor determinado.

Medidas de variabilidad o dispersión Medidas de apuntamiento y forma

Permiten generar criterios sobre el grado de homogeneidad Ayudan a caracterizar una curva de frecuencias, en
o heterogeneidad del conjunto de datos que se está particular, permiten determinar el grado de asimetría y el
analizando, en relación con una medida de centralidad, o grado de apuntamiento de la curva que se ajusta a los
con respecto a los datos en sí. datos.
MEDIDAS DESCRIPTIVAS
Las mediciones descriptivas pueden calcularse con datos extraídos de una muestra o de una población.

Si se calculan usando datos muestrales, reciben el Y si se calculan usando datos poblacionales,


nombre de: se llaman:

Estimadores Parámetros
Medidas de tendencia central
- Media
- Mediana
MEDIDAS DESCRIPTIVAS - Moda

Medidas de dispersión o variabilidad


- Varianza
Discretas - Desviación estándar
- Coeficiente de variación
- Rango, rango intercuartílico
Cuantitativas
o numéricas
Medidas de posición o ubicación
Continuas - Deciles
Variables - Cuartiles
Estadísticas - Percentiles

Cualitativas Medidas de apuntamiento y forma


Proporción - Coeficiente de asimetría
Moda - Coeficiente de curtosis

Proporción
Medidas de tendencia Central

1. Media (media aritmética): También llamada promedio, representa la medida de centralidad más usada, sin
embargo, se deja afectar si la variable tiene datos extremos. Consiste en sumar todos los valores de la
variable y dividir entre la cantidad de datos.

Sean 𝑥1 , 𝑥2 , 𝑥3 , … los datos de una variable X.

𝑛
𝑥1 + 𝑥2 + 𝑥3 + ⋯ + 𝑥𝑛 𝑥𝑖 𝑁
𝑋ത = =෍ 𝑥1 + 𝑥2 + 𝑥3 + ⋯ + 𝑥𝑁 𝑥𝑖
𝑛 𝑛 𝜇= =෍
𝑖=1 𝑁 𝑁
𝑖=1

Media muestral Media poblacional

𝜇 ∶ 𝑙𝑒𝑡𝑟𝑎 𝑔𝑟𝑖𝑒𝑔𝑎 "𝑚𝑖ú"


2. Mediana – Me(X): Valor numérico que ocupa el valor más central de los datos de una variable, de
tal manera que el 50% de las observaciones queda por debajo de este valor y el otro 50% por encima
del mismo. Se obtiene al ordenar los datos de forma ascendente.

Sean 𝑥1 , 𝑥2 , 𝑥3 , … los datos de una variable X.

𝑛+1
Si la cantidad de datos es impar, la mediana corresponderá al dato en la posición:
2

Si la cantidad de datos es par, la mediana se determina al ponderar(promediar) los datos en las


𝑛 𝑛
posiciones: 𝑦 + 1
2 2

3. Moda – Mo(X): Valor o atributo que se repite con mayor frecuencia dentro del conjunto de datos
de un variable. En el caso que no haya un único datos con la mayor frecuencia, se dice que la
variable tiene valores modales.
Ejemplo: Suponga que se requiere realizar un estudio sobre la cantidad de productos (tomates) cosechados en
diferentes fincas de una determinada ciudad en Colombia. Para esto, toma el registro del último mes, de 10
fincas reflejándose los siguientes datos: 132, 150, 150, 234, 145, 150, 143, 200, 150, 143

Calcular: media, mediana, moda, e interpretar

X: cantidad de productos cosechados en diferentes fincas de una determinada ciudad en Colombia

¿Muestra o población?
Rta// muestra, porque solo se están tomando el registro del último mes en 10 fincas.

Media muestral

132 + 150 + 150 + 234 + 145 + 150 + 143 + 200 + 150 + 143 1597
𝑋ത = = = 159,7
10 10

En promedio, en las 10 fincas se cosecharon 159,7 productos en el último mes


Mediana – Me(X)
𝑛+1
Si la cantidad de datos es impar, la mediana corresponderá al dato en la posición:
2

𝑛 𝑛
Si la cantidad de datos es par, la mediana se determina al ponderar(promediar) los datos en las posiciones: 𝑦 +1
2 2

132, 143, 143, 145, 150, 150, 150, 150, 200, 234

𝑛 = 10 −→ # 𝑝𝑎𝑟 150 + 150


𝑴𝒆 𝑿 = = 150
2
𝑛 𝑛 En el 50% de las 10 fincas, se produjeron cosechas menores
𝑑𝑎𝑡𝑜𝑠 𝑒𝑛 𝑙𝑎𝑠 𝑝𝑜𝑠𝑖𝑐𝑖𝑜𝑛𝑒𝑠: = 5 𝑦 + 1 = 6
2 2 o iguales a 150 tomates en el último mes, y en el otro 50%
de las fincas se obtuvieron 150 o más tomates.

Moda – Mo(X) = 150


Lo más frecuente o común es que en las fincas se obtuvieran 150 productos en el último mes.
# flores fi Fi xi*fi
0 1 1 0
1 1 2 1
2 3 5 6
3 6 11 18
4 4 15 16
5 4 19 20
6 9 28 54
7 8 36 56
8 7 43 56
9 4 47 36
10 3 50 30
Suma 50 293

3 3 3 3 3 3 = 3*6
𝑴𝒆𝒅𝒊𝒂 𝒎𝒖𝒆𝒔𝒕𝒓𝒂𝒍:
293
# flores fi Fi xi*fi 𝑋ത = = 5,86
0 1 1 50
0
1 1 2 1 En promedio las plantas tienen 5,86 flores. Sin embargo, por ser una variable
2 3 5 6 discreta, se sugiere dar un dato acorde a la variable, en este caso, se indicaría que
3 6 11 18 en promedio las plantas tienen 6 flores
4 4 15 16
5 4 19 20 𝑴𝒆𝒅𝒊𝒂𝒏𝒂:
6 9 28 54
7 8 36 56 𝑐𝑜𝑚𝑜 𝑛 = 50 → 𝑝𝑎𝑟 −−−→ 𝑑𝑎𝑡𝑜𝑠 𝑒𝑛 𝑙𝑎𝑠 𝑝𝑜𝑠𝑖𝑐𝑖𝑜𝑛𝑒𝑠 25 𝑦 26
8 7 43 56 6+6
9 4 47 36 𝑀𝑒 𝑋 = =6
2
10 3 50 30
Suma 50 293 El 50% de las plantas tienen 6 o menos flores y el otro 50% tiene 6 o más flores.

𝑴𝒐𝒅𝒂:

𝑀𝑜 𝑋 = 6

Lo más usual o frecuente es encontrar plantas con 6 flores.


Para tener en cuenta:

1. Si la media es mayor que la mediana, se indica que


la distribución de los datos es asimétrica derecha.

2. Si la media es menor que la mediana, se indica que


la distribución de los datos es asimétrica izquierda.

3. Si la media, la moda y la mediana coinciden, se


indica que los datos distribuyen simétricamente.
En EXCEL:
➢ Media → PROMEDIO (datos)

➢ Mediana → MEDIANA(datos)

➢ Moda → MODA.UNO(datos)
Medidas de variabilidad o dispersión

1. Varianza: Medida de dispersión basada en la diferencia al cuadrado de cada dato con respecto a la media de
la variable.

Dado que las desviaciones con respecto a la media están al cuadrado, esta medida carece de interpretación. Es
un valor siempre positivo e incluso puede ser 0.

Sean 𝑥1 , 𝑥2 , 𝑥3 , … los datos de una variable X.

𝑛 𝑁
𝑥𝑖 − ത
𝑋 2
𝑥𝑖 − 𝜇 2
𝑆2 = ෍ 𝜎2 = ෍
𝑛−1 𝑁
𝑖=1 𝑖=1

Varianza muestral Varianza poblacional


2. Desviación Estándar: Raíz cuadrada de la varianza

Es un valor siempre positivo e incluso puede ser 0.

Sean 𝑥1 , 𝑥2 , 𝑥3 , … los datos de una variable X.

𝑛 𝑁
𝑥𝑖 − 𝑋ത 2 𝑥𝑖 − 𝜇 2
𝑆= 𝑆2 = ෍ 𝜎= 𝜎2 = ෍
𝑛−1 𝑁
𝑖=1 𝑖=1

Desviación Estándar muestral Desviación Estándar poblacional

𝜎: 𝑙𝑒𝑡𝑟𝑎 𝑔𝑟𝑖𝑒𝑔𝑎 "𝑠𝑖𝑔𝑚𝑎"


Para tener en cuenta:

1. Si 𝑆 2 = 0 (o 𝜎 2 = 0) se indicaría que no hay variabilidad en los datos es decir, que todos


son iguales.

2. Cuanto mayor sea el valor de la varianza, habrá mayor variabilidad en los datos de la
variable.

3. Si los datos siguen una distribución simétrica, la desviación estándar puede interpretarse en
función de la regla empírica (Chebyshev), la cual indica qué porcentaje de los datos se
encuentran alrededor de la media.

4. La desviación estándar también da un indicio de la existencia de valores extremos o datos


outliers.
Regla empírica

El 68% de los datos de la variable tiene valores entre


𝜇 − 𝜎, 𝜇 + 𝜎

El 95% de los datos de la variable se encuentran entre


𝜇 − 2𝜎, 𝜇 + 2𝜎

El 99% de los datos de la variable se encuentran entre


𝜇 − 3𝜎, 𝜇 + 3𝜎

Los datos de la variable que superen el valor 𝜇 + 4𝜎 o que sean inferiores a 𝜇 − 4𝜎,
se consideran valores extremos o valores outliers
3. Coeficiente de variación-Cv(X): Medida que relaciona la desviación estándar de la variable con su media,
permite determinar qué tan homogénea o dispersa es la información estudiada.

𝑆 𝜎
𝐶𝑣 = 𝐶𝑣 =
𝑋ത 𝜇

Muestral Poblacional

≤ 7%, 𝑖𝑛𝑑𝑖𝑐𝑎 𝑞𝑢𝑒 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑠𝑜𝑛 ℎ𝑜𝑚𝑜𝑔é𝑛𝑒𝑜𝑠


7% < 𝐶𝑣 ≤ 17% 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑠𝑜𝑛 𝑚𝑜𝑑𝑒𝑟𝑎𝑑𝑎𝑚𝑒𝑛𝑡𝑒 ℎ𝑜𝑚𝑜𝑔é𝑛𝑒𝑜𝑠
𝑆𝑖 𝑒𝑙 𝐶𝑣 𝑒𝑠 17% < 𝐶𝑣 ≤ 32% 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑠𝑜𝑛 𝑚𝑜𝑑𝑒𝑟𝑎𝑑𝑎𝑚𝑒𝑛𝑡𝑒 ℎ𝑒𝑡𝑒𝑟𝑜𝑔é𝑛𝑒𝑜𝑠
> 32% 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑠𝑜𝑛 ℎ𝑒𝑡𝑒𝑟𝑜𝑔é𝑛𝑒𝑜𝑠

≤ 7%, 𝑖𝑛𝑑𝑖𝑐𝑎 𝑞𝑢𝑒 𝑙𝑎𝑠 𝑒𝑠𝑡𝑖𝑚𝑎𝑐𝑖𝑜𝑛𝑒𝑠 𝑠𝑜𝑛 𝑝𝑟𝑒𝑐𝑖𝑠𝑎𝑠


En algunas ocasiones, el Cv se
utiliza para calificar
7% < 𝐶𝑣 ≤ 14% 𝑙𝑎𝑠 𝑒𝑠𝑡𝑖𝑚𝑎𝑐𝑖𝑜𝑛𝑒𝑠 𝑠𝑜𝑛 𝑎𝑐𝑒𝑝𝑡𝑎𝑏𝑙𝑒𝑠
𝑆𝑖 𝑒𝑙 𝐶𝑣 𝑒𝑠 14% < 𝐶𝑣 ≤ 20% 𝑙𝑎𝑠 𝑒𝑠𝑡𝑖𝑚𝑎𝑐𝑖𝑜𝑛𝑒𝑠 𝑡𝑖𝑒𝑛𝑒𝑛 𝑢𝑛𝑎 𝑝𝑟𝑒𝑐𝑖𝑠𝑖ó𝑛 𝑟𝑒𝑔𝑢𝑙𝑎𝑟
estadísticamente la calidad de
las estimaciones > 20% 𝑙𝑎 𝑒𝑠𝑡𝑖𝑚𝑎𝑐𝑖ó𝑛 𝑒𝑠 𝑝𝑜𝑐𝑜 𝑝𝑟𝑒𝑐𝑖𝑠𝑎
Para tener en cuenta:

1. Si un conjunto de datos tienen menor coeficiente de variación, indica comportamiento más


homogéneo.

2. El coeficiente de variación también es útil en el caso de comparar conjuntos de datos de iguales


magnitudes pero medidas en diferentes unidades como por ejemplo toneladas y gramos. Siempre
que los conjuntos de datos tengan una media muy distinta será necesario elegir el CV como medida
de dispersión antes que el DE o la Varianza.
En EXCEL:
➢ Varianza Muestral→ VAR.S(datos)

➢ Varianza Poblacional→ VAR.P(datos)

➢ Desviación estándar muestral→ DESVEST.M(datos)

➢ Desviación estándar poblacional→ DESVEST.P(datos


Siguiendo con el Ejemplo: Suponga que se requiere realizar un estudio sobre la cantidad de productos
(tomates) cosechados en diferentes fincas de una determinada ciudad en Colombia. Para esto, toma el registro
del último mes, de 10 fincas reflejándose los siguientes datos: 132, 150, 150, 234, 145, 150, 143, 200, 150, 143

Calcular: varianza, desviación estándar, coeficiente de variación y rango

X: cantidad de productos cosechados en diferentes fincas de una determinada ciudad en Colombia

¿Muestra o población?
Rta// muestra, porque solo se están tomando el registro del último mes en 10 fincas.

Varianza muestral
132 − 159,7 2 + 150 − 159,7 2 + 150 − 159,7 2 + 234 − 159,7 2 + 145 − 159,7 2 + 150 − 159,7 2 + 143 − 159,7 2 + 200 − 159,7 2 + 150 − 159,7 2 + 143 − 159,7 2
𝑆2 =
10 − 1

9062,1
=
9

= 1006,9 𝑢2
Desviación estándar
La variable cantidad de tomates cosechados en las 10 fincas,
presenta una dispersión de 31,73 unidades en el último mes.
𝑆= 𝑆2 = 1006,9 𝑢2 = 31,73 𝑢
Siguiendo la regla empírica, podría indicarse que el 95% de las
fincas obtuvo cosechas entre 96 y 223 tomates.
𝑥ҧ − 2𝑆, 𝑥ҧ + 2𝑆 = 159,7 − 2 31,73 ; 159,7 + 2 31,73
= (96,23 ; 223,16)

Coeficiente de variación
31,73 𝑢 Con un 𝐶𝑣 = 19,9% puede indicarse que las cosechas de
𝐶𝑣 = = 0,199 tomate en las 10 fincas, registradas el último mes, son
159,7 𝑢
moderadamente dispersas (heterogéneas).

En cuanto a la precisión de las estimaciones, con este valor para


el 𝐶𝑣, se indicaría que la precisión de dichas estimaciones es
regular.
𝑋ത = 5,86 𝑢
Para datos tabulados:
Varianza muestral:
# flores fi Fi 𝑥𝑖 − 𝑋ത 2 𝑓𝑖
0 1 1 (0 - 5,86)^2 * 1: 34,34 𝑛
1 1 2 (1 - 5,86)^2 * 1: 23,62 𝑥𝑖 − ത
𝑋 2
302,02 𝑢2
2
2 3 5 (2 - 5,86)^2 * 3: 44,70 𝑆 =෍ = = 6,16 𝑢2
𝑛−1 50 − 1
3 6 11 (3 - 5,86)^2 * 6: 49,08 𝑖=1
4 4 15 (4 - 5,86)^2 * 4: 13,84
5 4 19 (5 - 5,86)^2 * 4: 2,96
6 9 28 (6 - 5,86)^2 * 9: 0,18 Desviación estándar:
7 8 36 (7 - 5,86)^2 * 8: 10,40
8 7 43 (8 - 5,86)^2 * 7: 32,06
9 4 47 (9 - 5,86)^2 * 4: 39,44 𝑆= 𝑆2 = 6,16 𝑢2 = 2,48 𝑢
10 3 50 (10 - 5,86)^2 * 3: 51,42
La variable cantidad de flores por planta, presenta una dispersión de
Suma 50 302,02
2,48 unidades.

Siguiendo la regla empírica, podría indicarse que el 95% de las


Coeficiente de variación: plantas tienen entre 1 y 11 flores.
𝑥ҧ − 2𝑆, 𝑥ҧ + 2𝑆 = 5,86 − 2 2,48 ; 5,86 + 2 2,48
𝑆 2,48 𝑢 = (0,9 ; 10,82)
𝐶𝑣 = = = 0,42 Los datos son
𝑋ത 5,86 𝑢 heterogéneos
Análisis gráfico
de las medidas
de dispersión y
medidas de
centralidad
Medidas de apuntamiento y forma

1. Coeficiente de asimetría o Sesgo – As: Permite establecer la tendencia de la distribución de frecuencia los
datos. La tendencia hacia alguno de los extremos se denomina sesgo.

Mo Me Media Media Me Mo Media


Me
Mo
𝐴𝑠 > 0 𝐴𝑠 < 0
𝐴𝑠 = 0
Sesgo a derecha Sesgo a izquierda
No hay sesgo

Coeficiente de 1 𝑛 1 𝑛
σ𝑖=1 𝑥𝑖 − 𝑋ത 3 σ𝑖=1 𝑥𝑖 − 𝑋ത 3
∗ 𝑓𝑖
asimetría de 𝐴𝑠 = 𝑛 𝐴𝑠 = 𝑛
3/2 3/2
1 𝑛 1 𝑛
Fisher σ𝑖=1 𝑥𝑖 − 𝑋ത 2 σ𝑖=1 𝑥𝑖 − 𝑋ത 2 ∗ 𝑓𝑖
𝑛 𝑛
Datos no tabulados Datos tabulados
2. Coeficiente de apuntamiento o Curtosis– Cu: Permite analizar la concentración de los datos alrededor de los
valores medidos.
𝐶𝑢 > 0 −→ 𝐿𝑒𝑝𝑡𝑜𝑐𝑢𝑟𝑡𝑖𝑐𝑎

𝐶𝑢 = 0 −→ 𝑀𝑒𝑠𝑜𝑐ú𝑟𝑡𝑖𝑐𝑎

𝐶𝑢 < 0 −→ 𝑃𝑙𝑎𝑡𝑖𝑐ú𝑟𝑡𝑖𝑐𝑎

1 𝑛 1 𝑛
σ𝑖=1 𝑥𝑖 − 𝑋ത 4 σ𝑖=1 𝑥𝑖 − 𝑋ത 4 ∗ 𝑓𝑖
Coeficiente de 𝐶𝑢 = 𝑛 𝑛
2−3 𝐶𝑢 = 2 −3
curtosis 1 𝑛 1 𝑛
σ𝑖=1 𝑥𝑖 − 𝑋ത 2 σ𝑖=1 𝑥𝑖 − 𝑋ത 2 ∗ 𝑓𝑖
𝑛 𝑛
Datos no tabulados Datos tabulados
𝑳𝒆𝒑𝒕𝒐𝒄ú𝒓𝒕𝒊𝒄𝒂: las frecuencias altas están alrededor de la media, el grado de concentración alrededor
de los valores centrales es elevado, por lo cual la curva de la distribución de frecuencia de los datos, tiene
forma puntiaguda

𝑷𝒍𝒂𝒕𝒊𝒄ú𝒓𝒕𝒊𝒄𝒂: las frecuencias bajas están alrededor de la media, el grado de concentración


alrededor de los valores centrales es reducido, por lo cual la curva de la distribución de frecuencia de
los datos, tiene forma mas aplanada
En EXCEL:
➢ Coeficiente de asimetría→ COEFICIENTE.ASIMETRIA(datos)

➢ Coeficiente de curtosis→ CURTOSIS(datos)


Siguiendo con el Ejemplo: Suponga que se requiere realizar un estudio sobre la cantidad de productos (tomates) cosechados
en diferentes fincas de una determinada ciudad en Colombia. Para esto, toma el registro del último mes, de 10 fincas
reflejándose los siguientes datos: 132, 150, 150, 234, 145, 150, 143, 200, 150, 143

Calcular: coeficiente de asimetría y el coeficiente de curtosis.

X: cantidad de productos cosechados en diferentes fincas de una determinada ciudad en Colombia

¿Muestra o población?
Rta// muestra, porque solo se están tomando el registro del último mes en 10 fincas.

1 𝑛 1
σ𝑖=1 𝑥𝑖 − 𝑋ത 3
132 − 159,7 3 + 150 − 159,7 3 + 150 − 159,7 3 + ⋯ + 143 − 159,7 3
𝑨𝒔 = 𝑛 = 10
3/2 3/2
1 𝑛 1
σ𝑖=1 𝑥𝑖 − 𝑋ത 2 132 − 159,7 2 + 150 − 159,7 2 + 150 − 159,7 2 + ⋯ + 143 − 159,7 2
𝑛 10

1
(438227,16) 43822,72
= 10 = = 1,61
3/2 27279,93
1
∗ 9062,1
10
Como 𝐴𝑠 = 1,61 > 0, la distribución de
las frecuencias de la cantidad de tomates
cosechados en las 10 fincas el último mes,
presenta sesgo a la derecha (curva en el
gráfico)

1 𝑛 ത 4 1
σ𝑖=1 𝑥𝑖 − 𝑋 132 − 159,7 4 + 150 − 159,7 4 + 150 − 159,7 4 + ⋯ + 143 − 159,7 4
𝐶𝑢 = 𝑛 2 − 3 = 10
2 −3
1 𝑛 ത 2 1
σ𝑖=1 𝑥𝑖 − 𝑋 132 − 159,7 2 + 150 − 159,7 2 + 150 − 159,7 2 + ⋯ + 143 − 159,7 2
𝑛 10

1
(33939877,98) 3393987,80
= 10
2 − 3 = 821216,56 − 3 = 4,13 − 3 = 1,13
1
∗ 9062,1
10
Como 𝐶𝑢 = 1,13 > 0, la distribución de las frecuencias de la
cantidad de tomates cosechados en las 10 fincas el último
mes, es tan alta como una curva leptocúrtica..
Actividad

1. Si los datos están tabulados, cómo calcular el


coeficiente de asimetría y de curtosis? Haga los cálculos
para el ejemplo sobre el número de flores.

2. Consultar sobre las medidas de ubicación y posición

También podría gustarte