Tema 3 (I)

Bioestadística
Tema 3
Estadística descriptiva
3. Estadística descriptiva
La estadística descriptiva es la parte de la estadística que se dedica a

recoger, clasificar y analizar la información recogida mediante las
variables. Es decir, se trata del análisis particular de los datos de la
muestra seleccionada. La estadística descriptiva permite la posibilidad de
definir y redefinir hipótesis.
La estadística descriptiva univariante es la estadística que describe el

comportamiento de una variable.
La estadística descriptiva bivariante es la descripción del

comportamiento conjunto de dos variables; con el objetivo de establecer
una posible asociación entre ellas.
3.1 Estadística descriptiva univariante
• Tabla de frecuencias
• Frecuencia absoluta
• Frecuencia relativa
• Frecuencia (absoluta o relativa) acumulada
• Medidas estadísticas
• Medidas de tendencia central
• Medidas de posición
• Características de dispersión
• Características de forma
• Representación gráfica
• Variables cualitativas
• Variables cuantitativas
Tabla de frecuencias
Dada una variable (X), la frecuencia es contar cuantas veces se ha
dado cada valor o categoría diferente (x1, x2, … , xk) en una muestra
(de n elementos) o en una población (de N elementos).
En cualquier caso, solo tiene sentido hacerlo si en la variable hay

muchas repeticiones. Si no, podemos hacerlo con intervalos.
Frecuencias absolutas (ni): Es el número de veces que aparece

cada valor (cuantitativa) o categoría (cualitativa).
Frecuencias absolutas acumuladas (Ni): Suma de las

frecuencias absolutas de los valores (o categorías) menores o
iguales a xi.
Frecuencia relativa (ƒi): Cociente de la frecuencia absoluta entre

el total de observaciones. Al multiplicarla por 100 obtenemos el
porcentaje (pi) de los diferentes valores.
Frecuencia relativa acumulada (Fi): Suma de las frecuencias

relativas de los valores (o categorías) menores o iguales a xi.
Distribución de frecuencias
Valores Frecuencia Frecuencia Frecuencia Frecuencia Odds
(xi) absoluta absoluta relativa relativa (oi)
(ni) acumulada (ƒi) (o %) acumulada
(Ni) (Fi)
X1 n1 N1=n1 ƒ1=𝑛𝒏1 F1=ƒ1 𝑛1
o1=𝒏−𝑛
1
X2 n2 N2=N1+ƒ2 F2=F1+ƒ2
. . . ƒ2=n𝒏2 .
𝑛
o2= 2
𝒏−𝑛2
. . . . .
. . Nj=Nj-1+nj . . .
. . . .
. . . .
Xk nk Nk=n (N) ƒ Fk=1 𝑛
ƒk= 𝒏k ok= k
𝒏−𝑛k
σ𝑘𝑖=1 ni=n (N) σ𝑘𝑖=1 ƒi=1
Si una categoría no ha aparecido, se pone el valor y con una

frecuencia de cero
Los valores se ordenan:

- Si la variable es ordinal o cuantitativa → de menor a
mayor
- Si la variable es nominal, de mayor a menor
frecuencia
Distribución de frecuencias
Odds:
Termino similar al porcentaje (o proporción), más común en el

mundo anglosajón.
Odds(x) = Frecuencia (x) / Frecuencia (no x)
Odds (hombres) = frecuencia (hombres) / frecuencia

(mujeres)
Toma valores entre 0 y infinito

Medidas estadísticas
Las medidas estadísticas son funciones que, aplicadas a los datos, dan
valores que resumen la variable. Si disponemos de toda la población, el
resultado es un parámetro; si es una muestra es un estadístico.
Hablaremos de estadísticos robustos, aquellos que no puedan variar

mucho por el efecto de un solo valor; en cambio son estadísticos
sensibles los que sí lo hacen.
Se pueden clasificar como:
❖ Medidas de tendencia central

❖ Medidas de posición
❖ Medidas de dispersión
❖ Medidas de forma
Medidas de tendencia central
Las medidas de tendencia central estiman el valor más representativo de

la muestra para una variable, habitualmente cuantitativa.
Las principales son media, mediana y moda.
No siempre es correcto aplicar la misma medida de tendencia central.
No siempre es un valor de la variable.
Cuando los datos son muy similares, también serán muy similares a la
medida de tendencia central (que los representará bien).
No aportan toda la información de la variable (se requiere de otras

medidas estadísticas que lo complementan).
Media aritmética (𝑿 ഥ ): Valor central. Suma de todos los valores dividida

entre el número total de valores.
σ𝑛
𝑖=1 𝑥𝑖 σ𝑘
𝑖=1 𝑥𝑖 ni
Población → 𝜇 = (𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑟𝑒𝑝𝑒𝑡𝑖𝑑𝑜𝑠) = (𝑣𝑎𝑙𝑜𝑟𝑒𝑠 sin 𝑟𝑒𝑝𝑒𝑡𝑖𝑟)
𝑁 𝑁
σ𝑛
𝑖=1 𝑥𝑖 σ𝑘
𝑖=1 𝑥𝑖 ni
Muestra → 𝑋ത = (𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑟𝑒𝑝𝑒𝑡𝑖𝑑𝑜𝑠) = (𝑣𝑎𝑙𝑜𝑟𝑒𝑠 sin 𝑟𝑒𝑝𝑒𝑡𝑖𝑟)
𝑛 𝑛
Para variables numéricas
El resultado puede no ser un valor de la variable
Se ve afectada por la presencia de valores extremos (deja de representar

el centro)
En la población este valor se representa con la letra griega µ (mu).

Mediana (Me): Es un valor que deja a la mitad de valores de la

muestra por debajo y a la otra mitad por encima. Si se ordenan los
valores de menor a mayor (x[1], x[2], … x[n]) es el que está en el centro.
Para variables ordinales o cuantitativas discretas, es el primer valor con

una frecuencia relativa acumulada igual o superior a 0,5.
En cuantitativas contínuas, dependiendo del tamaño de la muestra:

impar  x (n +1) 2 

Mediana = 
par  x n 2  + x (n 2 )+1
 2
Es un valor robusto que no varía excesivamente por la presencia de

valores extremos.
Moda (Mo): Es el valor más repetido.
La moda puede no ser un valor único ya que distintos valores pueden

tener la misma frecuencia (distribuciones unimodales, bimodales,
trimodales, etc).
Se puede calcular para cualquier tipo de variable (cualitativa o

cuantitativa).
Si se quiere obtener la moda de una variable continua, si el número de

valores es muy elevado, tiene más sentido generar intervalos y
centrarnos en el intervalo modal.
Otras medidas de tendencia central
Media truncada: Se obtiene calculando la media tras desechar los

valores más extremos (5%). Es una alternativa más robusta que la
media.
Media geométrica: Se obtiene calculando la raíz “n” del producto de los

valores.
Media ponderada: Se obtiene calculando la media de los valores dando

un peso (wi) a cada valor según la representatividad que se le otorgue.
σ𝑛𝑖=1 𝑤𝑖 𝑥i
σ𝑛𝑖=1 𝑤𝑖
Medidas de posición
Las medidas de posición nos indican que posición ocupa un valor en una
variable.
Mínimo: El valor más bajo de la variable.
Máximo: El valor más alto de la variable.
Nos indican en que intervalo se encuentran todos los individuos

observados.
Ayuda a la depuración de la base de datos, como detectores de posibles

errores, cuando son valores imposibles para la variable.
Cuartiles (𝑸𝒊 ): Tres valores que dividen los datos en cuatro partes
“ordenadas” con un 25% de la muestra en cada una.
➢ Primer cuartil (𝑄1 ): valor de la variable que deja el 25% de las observaciones
por debajo.
➢ Segundo cuartil (𝑄2 ): valor que deja el 50% de las observaciones por debajo
(es equivalente a la mediana).
➢ Tercer cuartil (𝑄3 ): valor que deja el 75% de las observaciones por debajo.
Deciles (𝑫𝒊 ): Nueve valores (del primer al noveno decil) que dividen los
datos en 10 partes del mismo tamaño. El decil 5 (o D5) equivale a la
mediana.
Percentiles (𝑷𝒊 ): Noventa y nueve valores que dividen los datos en cien
partes del mismo tamaño. El P50 equivale a la mediana.
Cálculo del percentil k
→ Si la variable es ordinal o discreta, es el primer valor con

frecuencia relativa acumulada igual o mayor al k%.
→ Si la variable es continua:
1. Se ordenan los datos, de menor a mayor.
𝑘 𝑛+1
2. Se calcula la posición: 100
3. Se obtiene la parte entera (e) y la parte decimal (d).
4. Percentil k = X[e]+d(X[e+1]- X[e])
Medidas de dispersión
Rango o amplitud: Es la diferencia entre el mayor y menor valor de la

muestra.
𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛
Rango intercuartílico: Es la diferencia entre el tercer y el primer

cuartil.
𝑅𝐼 = 𝑄3 − 𝑄1
El rango intercuartílico es bastante robusto.

Varianza: Media aritmética de los cuadrados de las desviaciones de los

valores de la variable con respecto a la media.
2 σ𝑁
𝑖=1(𝑥𝑖 −µ)
2 σ𝑁 2
𝑖=1(𝑥𝑖 ) −𝑁𝜇
2
Población → 𝜎 = = = 𝐸 𝑥 2 − 𝜇2
𝑁 𝑁
σ𝑛 ҧ 2
𝑖=1(𝑥𝑖 −𝑥) σ𝑛 2
𝑖=1(𝑥𝑖 ) −𝑛𝑥ҧ
2
Muestra → 𝑠 2 = 𝑛−1
= 𝑛−1
• Siempre mayor o igual que cero

• Valor sensible al efecto de un único dato, similar a la media
• Su unidad es la de la variable elevada al cuadrado (kg2, años2, …)
Desviación típica: Raíz cuadrada de la varianza. También conocida

como desviación estándar.
Población → 𝜎 = 𝜎 2 Muestra →𝑠 = 𝑠 2
Coeficiente de variación (CV): Cociente de la desviación típica y la

media. Se acostumbra a multiplicar por 100 i expresarse como %.
𝑠
𝐶𝑉 = × 100
𝑋ത
• Solo se aplica a variables positivas (no pueden tomar valores

negativos).
• Es una medida relativa de la dispersión (pone la dispersión en relación
a la media).
• No tiene unidades.
• Sirve para comparar la dispersión entre variables de unidades y/o
magnitudes diferentes.
Otras medidas de dispersión
MEDA: Medida de dispersión asociada a la diferencia, en valor absoluto,

respecto a la media o a la mediana.
1
𝐷𝑚 = 𝑛 σ𝑛𝑖=1 𝑥𝑖 − 𝑋ത ;
𝑛
1
𝐷𝑀𝑑 = ෍ 𝑥𝑖 − 𝑀𝑑
𝑛
𝑖=1
𝐷𝑀𝑑 = 𝑀𝑑 𝑥𝑖 − 𝑋ത
Características de forma
❖ Asimetría
❖ Curtosis
❖ Asimetría
Coeficiente de asimetría (CA): Es una medida que nos permite

saber si los valores de la variable se concentran en una
determinada zona del recorrido de la variable.
σ𝑛 ҧ 3
𝑖=1(𝑥𝑖 −𝑥)
CA= 𝑠3
Valor adimensional (sin unidades).
Si CA < 0: Asimétrica a la izquierda (media < mediana)

Si CA = 0: Distribución simétrica (media = mediana)
Si CA > 0: Asimétrica a la derecha (media > mediana)
❖ Asimetría
CA < 0 CA = 0 CA > 0
❖ Curtosis (o apuntamiento)
σ𝑛 ҧ 4
𝑖=1(𝑥𝑖 −𝑥)
Curtosis= 𝑠4
Coeficiente de apuntamiento o curtosis: Miden la mayor o

menor cantidad de datos que se agrupan en torno al centro.
Si Curtosis > 3: Distribución leptocúrtica, presenta un elevado grado

de concentración alrededor de los valores centrales de la variable.
Si Curtosis= 3: Distribución mesocúrtica, presenta un grado de
concentración medio alrededor de los valores centrales de la
variable (distribución normal).
Si Curtosis < 3: Distribución platocúrtica, presenta un reducido
grado de concentración alrededor de los valores centrales de la
variable.
Medidas de forma
❖ Curtosis
Curtosis< 3 Curtosis=3 Curtosis>3

Tema 3 (I)

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 3 (I)

Cargado por

Copyright:

Formatos disponibles

Bioestadística

La estadística descriptiva es la parte de la estadística que se dedica a

La estadística descriptiva univariante es la estadística que describe el

La estadística descriptiva bivariante es la descripción del

En cualquier caso, solo tiene sentido hacerlo si en la variable hay

Frecuencias absolutas (ni): Es el número de veces que aparece

Frecuencias absolutas acumuladas (Ni): Suma de las

Frecuencia relativa (ƒi): Cociente de la frecuencia absoluta entre

Frecuencia relativa acumulada (Fi): Suma de las frecuencias

σ𝑘𝑖=1 ni=n (N) σ𝑘𝑖=1 ƒi=1

Si una categoría no ha aparecido, se pone el valor y con una

Los valores se ordenan:

Termino similar al porcentaje (o proporción), más común en el

Odds(x) = Frecuencia (x) / Frecuencia (no x)

Odds (hombres) = frecuencia (hombres) / frecuencia

Toma valores entre 0 y infinito

Hablaremos de estadísticos robustos, aquellos que no puedan variar

Se pueden clasificar como:

❖ Medidas de tendencia central

Las medidas de tendencia central estiman el valor más representativo de

Las principales son media, mediana y moda.

No siempre es correcto aplicar la misma medida de tendencia central.

No siempre es un valor de la variable.

No aportan toda la información de la variable (se requiere de otras

Media aritmética (𝑿 ഥ ): Valor central. Suma de todos los valores dividida

Para variables numéricas

El resultado puede no ser un valor de la variable

Se ve afectada por la presencia de valores extremos (deja de representar

En la población este valor se representa con la letra griega µ (mu).

Mediana (Me): Es un valor que deja a la mitad de valores de la

Para variables ordinales o cuantitativas discretas, es el primer valor con

En cuantitativas contínuas, dependiendo del tamaño de la muestra:

Es un valor robusto que no varía excesivamente por la presencia de

Moda (Mo): Es el valor más repetido.

La moda puede no ser un valor único ya que distintos valores pueden

Se puede calcular para cualquier tipo de variable (cualitativa o

Si se quiere obtener la moda de una variable continua, si el número de

Media truncada: Se obtiene calculando la media tras desechar los

Media geométrica: Se obtiene calculando la raíz “n” del producto de los

Media ponderada: Se obtiene calculando la media de los valores dando

Mínimo: El valor más bajo de la variable.

Máximo: El valor más alto de la variable.

Nos indican en que intervalo se encuentran todos los individuos

Ayuda a la depuración de la base de datos, como detectores de posibles

Cálculo del percentil k

→ Si la variable es ordinal o discreta, es el primer valor con

Rango o amplitud: Es la diferencia entre el mayor y menor valor de la

Rango intercuartílico: Es la diferencia entre el tercer y el primer

El rango intercuartílico es bastante robusto.

Varianza: Media aritmética de los cuadrados de las desviaciones de los

• Siempre mayor o igual que cero

Desviación típica: Raíz cuadrada de la varianza. También conocida

Coeficiente de variación (CV): Cociente de la desviación típica y la

• Solo se aplica a variables positivas (no pueden tomar valores

Otras medidas de dispersión

MEDA: Medida de dispersión asociada a la diferencia, en valor absoluto,

Coeficiente de asimetría (CA): Es una medida que nos permite

Valor adimensional (sin unidades).

Si CA < 0: Asimétrica a la izquierda (media < mediana)

Coeficiente de apuntamiento o curtosis: Miden la mayor o

Si Curtosis > 3: Distribución leptocúrtica, presenta un elevado grado

Curtosis< 3 Curtosis=3 Curtosis>3

También podría gustarte