Está en la página 1de 24

Bioestadística

Tema 3
Estadística descriptiva
3. Estadística descriptiva

La estadística descriptiva es la parte de la estadística que se dedica a


recoger, clasificar y analizar la información recogida mediante las
variables. Es decir, se trata del análisis particular de los datos de la
muestra seleccionada. La estadística descriptiva permite la posibilidad de
definir y redefinir hipótesis.

La estadística descriptiva univariante es la estadística que describe el


comportamiento de una variable.

La estadística descriptiva bivariante es la descripción del


comportamiento conjunto de dos variables; con el objetivo de establecer
una posible asociación entre ellas.
3.1 Estadística descriptiva univariante

• Tabla de frecuencias
• Frecuencia absoluta
• Frecuencia relativa
• Frecuencia (absoluta o relativa) acumulada
• Medidas estadísticas
• Medidas de tendencia central
• Medidas de posición
• Características de dispersión
• Características de forma
• Representación gráfica
• Variables cualitativas
• Variables cuantitativas
Tabla de frecuencias
Dada una variable (X), la frecuencia es contar cuantas veces se ha
dado cada valor o categoría diferente (x1, x2, … , xk) en una muestra
(de n elementos) o en una población (de N elementos).

En cualquier caso, solo tiene sentido hacerlo si en la variable hay


muchas repeticiones. Si no, podemos hacerlo con intervalos.

Frecuencias absolutas (ni): Es el número de veces que aparece


cada valor (cuantitativa) o categoría (cualitativa).

Frecuencias absolutas acumuladas (Ni): Suma de las


frecuencias absolutas de los valores (o categorías) menores o
iguales a xi.

Frecuencia relativa (ƒi): Cociente de la frecuencia absoluta entre


el total de observaciones. Al multiplicarla por 100 obtenemos el
porcentaje (pi) de los diferentes valores.

Frecuencia relativa acumulada (Fi): Suma de las frecuencias


relativas de los valores (o categorías) menores o iguales a xi.
Distribución de frecuencias
Valores Frecuencia Frecuencia Frecuencia Frecuencia Odds
(xi) absoluta absoluta relativa relativa (oi)
(ni) acumulada (ƒi) (o %) acumulada
(Ni) (Fi)
X1 n1 N1=n1 ƒ1=𝑛𝒏1 F1=ƒ1 𝑛1
o1=𝒏−𝑛
1
X2 n2 N2=N1+ƒ2 F2=F1+ƒ2
. . . ƒ2=n𝒏2 .
𝑛
o2= 2
𝒏−𝑛2
. . . . .
. . Nj=Nj-1+nj . . .
. . . .
. . . .
Xk nk Nk=n (N) ƒ Fk=1 𝑛
ƒk= 𝒏k ok= k
𝒏−𝑛k

σ𝑘𝑖=1 ni=n (N) σ𝑘𝑖=1 ƒi=1

Si una categoría no ha aparecido, se pone el valor y con una


frecuencia de cero

Los valores se ordenan:


- Si la variable es ordinal o cuantitativa → de menor a
mayor
- Si la variable es nominal, de mayor a menor
frecuencia
Distribución de frecuencias

Odds:

Termino similar al porcentaje (o proporción), más común en el


mundo anglosajón.

Odds(x) = Frecuencia (x) / Frecuencia (no x)

Odds (hombres) = frecuencia (hombres) / frecuencia


(mujeres)

Toma valores entre 0 y infinito


Medidas estadísticas

Las medidas estadísticas son funciones que, aplicadas a los datos, dan
valores que resumen la variable. Si disponemos de toda la población, el
resultado es un parámetro; si es una muestra es un estadístico.

Hablaremos de estadísticos robustos, aquellos que no puedan variar


mucho por el efecto de un solo valor; en cambio son estadísticos
sensibles los que sí lo hacen.

Se pueden clasificar como:

❖ Medidas de tendencia central


❖ Medidas de posición
❖ Medidas de dispersión
❖ Medidas de forma
Medidas estadísticas
Medidas de tendencia central

Las medidas de tendencia central estiman el valor más representativo de


la muestra para una variable, habitualmente cuantitativa.

Las principales son media, mediana y moda.

No siempre es correcto aplicar la misma medida de tendencia central.

No siempre es un valor de la variable.

Cuando los datos son muy similares, también serán muy similares a la
medida de tendencia central (que los representará bien).

No aportan toda la información de la variable (se requiere de otras


medidas estadísticas que lo complementan).
Medidas estadísticas
Medidas de tendencia central

Media aritmética (𝑿 ഥ ): Valor central. Suma de todos los valores dividida


entre el número total de valores.

σ𝑛
𝑖=1 𝑥𝑖 σ𝑘
𝑖=1 𝑥𝑖 ni
Población → 𝜇 = (𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑟𝑒𝑝𝑒𝑡𝑖𝑑𝑜𝑠) = (𝑣𝑎𝑙𝑜𝑟𝑒𝑠 sin 𝑟𝑒𝑝𝑒𝑡𝑖𝑟)
𝑁 𝑁
σ𝑛
𝑖=1 𝑥𝑖 σ𝑘
𝑖=1 𝑥𝑖 ni
Muestra → 𝑋ത = (𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑟𝑒𝑝𝑒𝑡𝑖𝑑𝑜𝑠) = (𝑣𝑎𝑙𝑜𝑟𝑒𝑠 sin 𝑟𝑒𝑝𝑒𝑡𝑖𝑟)
𝑛 𝑛

Para variables numéricas

El resultado puede no ser un valor de la variable

Se ve afectada por la presencia de valores extremos (deja de representar


el centro)

En la población este valor se representa con la letra griega µ (mu).


Medidas estadísticas
Medidas de tendencia central

Mediana (Me): Es un valor que deja a la mitad de valores de la


muestra por debajo y a la otra mitad por encima. Si se ordenan los
valores de menor a mayor (x[1], x[2], … x[n]) es el que está en el centro.

Para variables ordinales o cuantitativas discretas, es el primer valor con


una frecuencia relativa acumulada igual o superior a 0,5.

En cuantitativas contínuas, dependiendo del tamaño de la muestra:


impar  x (n +1) 2 

Mediana = 
par  x n 2  + x (n 2 )+1
 2

Es un valor robusto que no varía excesivamente por la presencia de


valores extremos.
Medidas estadísticas
Medidas de tendencia central

Moda (Mo): Es el valor más repetido.

La moda puede no ser un valor único ya que distintos valores pueden


tener la misma frecuencia (distribuciones unimodales, bimodales,
trimodales, etc).

Se puede calcular para cualquier tipo de variable (cualitativa o


cuantitativa).

Si se quiere obtener la moda de una variable continua, si el número de


valores es muy elevado, tiene más sentido generar intervalos y
centrarnos en el intervalo modal.
Medidas estadísticas
Otras medidas de tendencia central

Media truncada: Se obtiene calculando la media tras desechar los


valores más extremos (5%). Es una alternativa más robusta que la
media.

Media geométrica: Se obtiene calculando la raíz “n” del producto de los


valores.

Media ponderada: Se obtiene calculando la media de los valores dando


un peso (wi) a cada valor según la representatividad que se le otorgue.

σ𝑛𝑖=1 𝑤𝑖 𝑥i
σ𝑛𝑖=1 𝑤𝑖
Medidas estadísticas
Medidas de posición

Las medidas de posición nos indican que posición ocupa un valor en una
variable.

Mínimo: El valor más bajo de la variable.

Máximo: El valor más alto de la variable.

Nos indican en que intervalo se encuentran todos los individuos


observados.

Ayuda a la depuración de la base de datos, como detectores de posibles


errores, cuando son valores imposibles para la variable.
Medidas estadísticas
Medidas de posición

Cuartiles (𝑸𝒊 ): Tres valores que dividen los datos en cuatro partes
“ordenadas” con un 25% de la muestra en cada una.

➢ Primer cuartil (𝑄1 ): valor de la variable que deja el 25% de las observaciones
por debajo.
➢ Segundo cuartil (𝑄2 ): valor que deja el 50% de las observaciones por debajo
(es equivalente a la mediana).
➢ Tercer cuartil (𝑄3 ): valor que deja el 75% de las observaciones por debajo.

Deciles (𝑫𝒊 ): Nueve valores (del primer al noveno decil) que dividen los
datos en 10 partes del mismo tamaño. El decil 5 (o D5) equivale a la
mediana.

Percentiles (𝑷𝒊 ): Noventa y nueve valores que dividen los datos en cien
partes del mismo tamaño. El P50 equivale a la mediana.
Medidas estadísticas
Medidas de posición

Cálculo del percentil k

→ Si la variable es ordinal o discreta, es el primer valor con


frecuencia relativa acumulada igual o mayor al k%.

→ Si la variable es continua:
1. Se ordenan los datos, de menor a mayor.
𝑘 𝑛+1
2. Se calcula la posición: 100
3. Se obtiene la parte entera (e) y la parte decimal (d).
4. Percentil k = X[e]+d(X[e+1]- X[e])
Medidas estadísticas

Medidas de dispersión

Rango o amplitud: Es la diferencia entre el mayor y menor valor de la


muestra.
𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛

Rango intercuartílico: Es la diferencia entre el tercer y el primer


cuartil.
𝑅𝐼 = 𝑄3 − 𝑄1

El rango intercuartílico es bastante robusto.


Medidas estadísticas

Medidas de dispersión

Varianza: Media aritmética de los cuadrados de las desviaciones de los


valores de la variable con respecto a la media.

2 σ𝑁
𝑖=1(𝑥𝑖 −µ)
2 σ𝑁 2
𝑖=1(𝑥𝑖 ) −𝑁𝜇
2
Población → 𝜎 = = = 𝐸 𝑥 2 − 𝜇2
𝑁 𝑁
σ𝑛 ҧ 2
𝑖=1(𝑥𝑖 −𝑥) σ𝑛 2
𝑖=1(𝑥𝑖 ) −𝑛𝑥ҧ
2
Muestra → 𝑠 2 = 𝑛−1
= 𝑛−1

• Siempre mayor o igual que cero


• Valor sensible al efecto de un único dato, similar a la media
• Su unidad es la de la variable elevada al cuadrado (kg2, años2, …)

Desviación típica: Raíz cuadrada de la varianza. También conocida


como desviación estándar.

Población → 𝜎 = 𝜎 2 Muestra →𝑠 = 𝑠 2
Medidas estadísticas

Medidas de dispersión

Coeficiente de variación (CV): Cociente de la desviación típica y la


media. Se acostumbra a multiplicar por 100 i expresarse como %.

𝑠
𝐶𝑉 = × 100
𝑋ത

• Solo se aplica a variables positivas (no pueden tomar valores


negativos).
• Es una medida relativa de la dispersión (pone la dispersión en relación
a la media).
• No tiene unidades.
• Sirve para comparar la dispersión entre variables de unidades y/o
magnitudes diferentes.
Medidas estadísticas

Otras medidas de dispersión

MEDA: Medida de dispersión asociada a la diferencia, en valor absoluto,


respecto a la media o a la mediana.

1
𝐷𝑚 = 𝑛 σ𝑛𝑖=1 𝑥𝑖 − 𝑋ത ;
𝑛
1
𝐷𝑀𝑑 = ෍ 𝑥𝑖 − 𝑀𝑑
𝑛
𝑖=1
𝐷𝑀𝑑 = 𝑀𝑑 𝑥𝑖 − 𝑋ത
Medidas estadísticas

Características de forma

❖ Asimetría

❖ Curtosis
Medidas estadísticas

Características de forma

❖ Asimetría

Coeficiente de asimetría (CA): Es una medida que nos permite


saber si los valores de la variable se concentran en una
determinada zona del recorrido de la variable.

σ𝑛 ҧ 3
𝑖=1(𝑥𝑖 −𝑥)
CA= 𝑠3

Valor adimensional (sin unidades).

Si CA < 0: Asimétrica a la izquierda (media < mediana)


Si CA = 0: Distribución simétrica (media = mediana)
Si CA > 0: Asimétrica a la derecha (media > mediana)
Medidas estadísticas

Características de forma

❖ Asimetría

CA < 0 CA = 0 CA > 0
Medidas estadísticas

Características de forma
❖ Curtosis (o apuntamiento)

σ𝑛 ҧ 4
𝑖=1(𝑥𝑖 −𝑥)
Curtosis= 𝑠4

Coeficiente de apuntamiento o curtosis: Miden la mayor o


menor cantidad de datos que se agrupan en torno al centro.

Si Curtosis > 3: Distribución leptocúrtica, presenta un elevado grado


de concentración alrededor de los valores centrales de la variable.
Si Curtosis= 3: Distribución mesocúrtica, presenta un grado de
concentración medio alrededor de los valores centrales de la
variable (distribución normal).
Si Curtosis < 3: Distribución platocúrtica, presenta un reducido
grado de concentración alrededor de los valores centrales de la
variable.
Medidas estadísticas

Medidas de forma
❖ Curtosis

Curtosis< 3 Curtosis=3 Curtosis>3

También podría gustarte