Está en la página 1de 15

ESTADÍSTICA

Jara Fariñas Gutiérrez


BIR Curso 2024 – 2025
1
TEMA 1. ESTADÍSTICA DESCRIPTIVA

1. INVESTIGACIÓN CIENTÍFICA: GENERALIDADES


1.1. Introducción

La estadística se puede dividir en dos partes:

 Estadística descriptiva. Recoge, organiza y muestra gráficamente los datos que se han
recogido, es decir, hace una descripción de una serie de datos y para ello los recoge, los organiza
y los representa gráficamente.

 Estadística inferencial o inferencia estadística. Estudia los datos recogidos en la fase


descriptiva para elaborar conclusiones futuras. Es decir, se tiene una información y se analiza
con el fin de realizar predicciones a futuro. Uno de los objetivos que tiene es intentar generalizar
un estudio realizado sobre un número concreto de individuos a toda la población.

1.2. Definiciones

1.2.1. Población

Conjunto completo de individuos a los que se pretende aplicar las conclusiones del estudio . Es decir,
la población es el objetivo del investigador, puesto que es lo que desea estudiar.

Lo que ocurre es que cuando se quiere realizar un estudio, es prácticamente imposible abarcar a todos los
individuos que forman la población de interés. La población puede ser:

 Infinita. Cuando la cantidad de elementos es casi imposible de medir.


 Finita. Teóricamente es posible medirlas. Por ejemplo, la población de una ciudad, pero en la
práctica esto tampoco es viable por motivos logísticos o económicos.

Todos los índices que dan información sobre una población reciben el nombre de parámetros.

1.5.4. Detectores de índice de refracción

Grupo reducido de individuos donde se llevará a cabo el estudio. Lo ideal es que la muestra sea una
muestra representativa de la población, es decir, que este grupo reducido de individuos represente bien
al global de sujetos que constituyen la población en el estudio. En este caso lo que se tiene es una muestra
representativa y los resultados que se obtienen en la investigación se pueden aplicar bien a la
investigación y no se cometerán errores.

2
Una forma de mejorar la calidad de los resultados que se obtienen es trabajar con muestras de tamaño
adecuado. Se dice que la muestra es grande cuando el número de observaciones (n) es de 30 valores o
más. Mientras que, por el contrario, la muestra se considera pequeña cuando la n es < 30. La frontera de
30 es un poco arbitraria.

Los índices que aportan información sobre la muestra reciben el nombre de estadísticos.

1.3. Variabilidad biológica

La variabilidad biológica es lo que hace que cuando se estudia una magnitud biológica, los valores
observados en distintos individuos sean diferentes, y además es la responsable de que no se vea el mismo
valor en un individuo a lo largo del tiempo. Es decir, la variabilidad biológica es lo que explica que haya
diferencias en los valores que toman las magnitudes biológicas entre individuos y también en un mismo
individuo a lo largo del tiempo.

Se pueden distinguir 2 tipos de variabilidad biológica:

 Variabilidad intraindividual. Es la que hace que un individuo no tenga el mismo valor de una
magnitud a lo largo del tiempo. Además, esta variabilidad intraindividual no es la misma en
todos los individuos de una población. Por ejemplo, no todo el mundo experimenta fluctuaciones
igual de grandes en cuanto a su peso, puesto que hay gente que es más propensa a cambiar de
peso y tiene una variabilidad intraindividual mayor que otras personas que se mantienen en un
peso más constante.

 Variabilidad interindividual. Es la que hace que los valores de una magnitud sean diferentes
entre distintos individuos de una población. Por ejemplo, no todos los individuos de una
población van a pesar lo mismo.

2. VARIABLES Y TIPOS DE VARIABLES


2.1. Definición

Se define el término variable como cada una de las características o aspectos que se registran en los
individuos de una muestra. Es decir, es todo aquello que se observa en un individuo y que puede tomar un
valor u otro (cualidad que puede tomar una categoría u otra) es una variable.

2.2. Clasificación de las variables según la escala de medida

En este apartado se va a comentar las diferencias que existen entre la escala de medida de intervalo y la
escala de medida de proporción o razón.

3
Ambas escalas se aplican exclusivamente a variables cuantitativas. La diferencia entre ambas escalas es
que cuando la escala de medida es de intervalos, los distintos valores de la variable establecen relaciones
de igualdad, desigualdad, orden y distancia entre los valores, pero no tienen un significado real, es decir,
carecen de cero absoluto. El mejor ejemplo es la escala de temperatura (ºC), puesto que el valor 0 en la
escala de temperatura no significa nada, el 0 es un valor arbitrario que alguien decidió que estuviera en un
punto concreto, pero, de hecho, entre las diferentes escalas de temperatura, el 0 no es coincidente entre
ellas, puesto que no es lo mismo 0 Kelvin que 0 ºC.

Sin embargo, por ejemplo, la medida del peso que se puede medir en kilogramos o libras, el valor 0 está
en el mismo punto, aunque se estén utilizando escalas de medida diferentes, y esto es así porque la masa
es una variable con una escala de medida de proporción o razón. En las escalas de medida de proporción
o razón el cero es absoluto, y el valor cero representa la ausencia total de medida.

Por último, saber clasificar el tipo de variable es el primer paso para seleccionar la prueba
estadística.

2.3. Variables categóricas

Las variables categóricas son aquellas que contienen datos no cuantificables, es decir, no llevan asociados
un número, por lo tanto, no se miden en números. Se pueden dividir en 2 grandes grupos:

 Variable categórica nominal. Solo se pueden establecer relaciones de igualdad y desigualdad


entre las distintas categorías de la variable. Las categorías de las variables deben ser mutuamente
excluyentes (cada observación únicamente puede caer en una categoría y no en más de una al
mismo tiempo), y además deben ser colectivamente exhaustivas (las categorías tienen que
abarcar todos los posibles valores que puede tomar la variable). Por ejemplo, en el caso del color
del pelo, las categorías pueden ser: negro, castaño, rubio, pelirrojo y se puede añadir una
categoría otros que incluye todos los posibles valores que toma la variable. Dentro de las
variables categóricas nominales se puede distinguir entre:

 Variables dicotómicas o binarias. Por ejemplo, el sexo biológico (masculino o


femenino).

 Variables politómicas. Tienen más de dos categorías. Por ejemplo, el grupo


sanguíneo.

 Variable categórica ordinal. Además de establecer relaciones de igualdad y desigualdad,


también pueden establecer relaciones de orden entre las categorías de la variable. Esto permite
ordenar la posición de cada sujeto dentro de la escala. Por ejemplo, la escala GOLD, utilizada
para medir la severidad de la enfermedad pulmonar obstructiva crónica o EPOC. Otro ejemplo es

4
la escala de Glasgow, que se utiliza para medir el nivel de consciencia de un paciente o las
escalas utilizadas para establecer la gravedad de la insuficiencia cardiaca.

2.4. Variables cuantitativas

Las variables cuantitativas contienen datos métricos, medibles o contables, es decir, tienen valores
numéricos. Se diferencian 2 tipos:

 Variables cuantitativas discretas. Son el resultado de recuentos (son el resultado de contar).


Por lo tanto, como lo que se está haciendo es contar cosas, no tiene sentido hablar de valores
intermedios y por eso el número de variaciones entre valores es finito. La variable únicamente
toma valores enteros. Algunos ejemplos de variables cuantitativas discretas son el número de
hijos, número de ingresos, número de embarazos o número de colonias en una placa de cultivos.

 Variables cuantitativas continuas. Pueden tomar valores intermedios. En este caso el número
de variaciones entre valores es infinito. El valor obtenido estará limitado por la exactitud del
instrumento de medida utilizado. Algunos ejemplos de variables cuantitativas continuas son el
colesterol LDL, la glucemia, la talla, el peso o la edad.

Dentro de las variables cuantitativas la escala de medición más utilizada es la razón (el número tiene un
significado), que es una clasificación de orden numérico donde la representación numérica es real. Por
esto, el 0 significa ausencia de característica.

Las variables cuantitativas continuas, (por ejemplo, la edad), a veces, pueden tener apariencia de
variables discretas debido fundamentalmente a 2 motivos:

 Redondeo. Consiste en que cuando la siguiente cifra es  5, se incrementa en una unidad la


cifra anterior. Es decir, si se tiene 57, 8 kg, el redondeo consiste en decir que se tienen 58 kg.

 Truncamiento. Es algo que se utiliza de manera habitual cuando se tiene una variable tiempo
transcurrido, puesto que lo que se hace es expresar el tiempo cumplido. Por lo tanto, no se tiene
en cuenta la siguiente cifra, sino que se corta en la cifra anterior. Por ejemplo, cuando alguien
nos pregunta cuantos años tenemos, mantenemos la misma edad hasta el día de nuestro
cumpleaños, pero no redondeamos hacia arriba cuando queda pocos días para cumplir años.

Dependiendo de la escala de medida, la asignación de valores en una variable consiste en clasificar


(nominal), ordenar (ordinal), contar (cuantitativa discreta) o medir (cuantitativa continua).

5
VARIABLES VALORES QUE PUEDEN TOMAR CLASIFICACIÓN VARIABLES
Edad 1, 2, 20…
Edad > 65 años Sí/No
Sexo (Mujer/Varón) Mujer/Varón
Raza (Blanca/Negra/Asiática/Otra)
(Blanca/Negra/Asiática/Otra)
Región (América, Europa, resto (América/Europa, resto del mundo)
del mundo)
Peso (Kg) 60 Kg; 60,4 Kg; 63,53 Kg…
Talla (cm) 155 cm, 165 cm, 170 cm…
Índice de masa corporal 20,5; 23,5; 22,3…
PAS (mmHg) 130, 140, 159…
Hipertensión (Sí/No) Sí/No
Nº de cigarrillos día 0, 2, 24, 15…
Fumador (Nulo/Leve/Medio/Alto) (Nulo/Leve/Medio/Alto)
Fumador (Sí/No) Sí/No
Colesterol total 170, 180, 200…
Hipercolesterolemia (Sí/No) Sí/No
Duración de la enfermedad (años) 1; 2,5; 3; 20,2…
Recuento articulaciones 0, 3, 5, 20…
inflamadas
Nº ingresos hospitalarios 0, 2, 4, 3…
Comunidad Autónoma a la que Andalucía, Extremadura, C. de Madrid…
pertenece

2.4.1. Ejemplo: registro de la información

Imagina que tienes que realizar un estudio y recoger datos sobre hábito tabáquico y obesidad. ¿Qué sería
preferible registrar? ¿Qué te aporta más información?

Hábito tabáquico Obesidad


a) Fumador/No fumador a) Peso y talla
b) No fumado/Medio/Alto b) Obeso Sí/No
c) Nº de cigarrillos día c) IMC

Para registrar el hábito tabáquico, ¿qué sería mejor registrar de las tres opciones posibles? Si lo que se
registra es el número de cigarrillos que una persona fuma al día, el investigador podrá decir
posteriormente si esa persona no fuma, fuma un poco o fuma mucho y por supuesto se podrá decir si esa
persona fuma o no fuma. Por lo tanto, si se elige la opción c (número de cigarrillos día) se obtendrá la
máxima información posible y luego se pueden obtener las dos clasificaciones anteriores (fumador/no
fumador y no fumador/medio/alto).

En el caso de la obesidad ocurre exactamente lo mismo. Si se registra el peso y la tasa se puede calcular el
IMC y con este IMC se puede clasificar a la persona como obeso y no obeso.

Por eso, se deben recoger los datos tratando de obtener siempre la máxima información, porque
posteriormente se puede simplificar.

La transformación de una variable continua (por ejemplo, peso y talla) en una variable categórica
(obesidad Sí/No) se denomina CATEGORIZACIÓN. Este proceso implica pérdida de información,

6
pero también es verdad que la simplifica y que la hace más asequible. Por el contrario, una variable
categórica NO se puede transformar en una variable cuantitativa.

3. DESCRIPCIÓN DATOS CUANTITATIVOS

Los índices que se calculan para resumir el conjunto de datos que se observan en una muestra, se dividen
en 3 tipos de medidas y a su vez 2 tipos de índices. Por un lado, se tienen los índices basados en
momentos y los índices basados en ordenaciones y dentro de cada uno de estos grupos se tienen medidas
de tendencia central (indican donde está el centro de la distribución), medidas de dispersión (indican
como de alejadas están las observaciones de la muestra entre sí) y medidas de forma (indican como es la
forma de la distribución de valores).

Tipo de variables cuantitativas ÍNDICES BASADOS EN ÍNDICES BASADOS EN


MOMENTOS ORDENACIONES
MEDIDAS TENDENCIA CENTRAL Media (momento de orden 1)  Mediana
 Moda
MEDIDAS DE DISPERSIÓN Absoluta: Medidas de dispersión:
 Varianza (momento de  Amplitud intercuartil
orden 2)  Rango
 Desviación estándar Medidas de posición:
Relativa:  Cuantiles: percentiles,
 Coeficiente de variación cuartiles, deciles
MEDIDAS DE FORMA:  Índice de asimetría
 ASIMETRÍA (momento de orden 3)
 CURTOSIS/  Índice de curtosis
APUNTAMIENTO (momento de orden 4)

3.1. Índices basados en momentos

Los índices basados en momentos son aquellos que se calculan con TODOS los valores que toma
una variable, es decir, para calcular un índice basado en momentos, el investigador coge su calculadora y
en algún momento mete cada uno de los valores que ha tenido la variable en la muestra que se está
estudiando.

Los índices basados en momentos son los más utilizados, pero muchas veces se utilizan de forma errónea.
Los índices basados en momentos como, por ejemplo, la media y la desviación estándar tienen una
particularidad, y es que se ven afectados por la presencia de valores extremos. Es por esto, que estos
índices únicamente deben utilizarse cuando se tienen distribuciones simétricas sin anomalías, o dicho de
otra manera cuando se tienen distribuciones que siguen la ley Normal.

7
3.1.1. Medidas de tendencia central/de centralización basada en momentos

 Media aritmética (M) o momento de orden 1.


o Se calcula sumando todos los valores que toma la variable en la muestra y se divide por
n (número de elementos que constituyen la muestra).

o Tiene las mismas unidades que la variable que se está estudiando.

o Representa el centro de gravedad de la distribución.

 Media geométrica (G).


o Es la raíz de índice N (número de elementos que constituyen la muestra) del producto
de todas las observaciones de la muestra.

o Se calcula únicamente cuando no hay observaciones negativas.

o No es muy utilizada, pero en el caso en el que está más indica su uso es cuando los
datos son múltiplos unos de los otros y la variable crece exponencialmente.

3.1.2. Medidas de dispersión absoluta

 Varianza (V; s2) o media cuadrática o momento de orden 2.


o Proporciona información de la distancia de cada valor a la media de la distribución.
Cuanto mayor sea esa distancia, más alejados están esos valores entre sí, es decir, más
distanciados están los valores entre sí y mayor dispersión.

o Se calcula como la suma de cuadrados de la variable centrada (SS = (M-xi)2), entre los
grados de libertad (número de valores que pueden tomar cualquier valor sin venir

8
condicionados por otra cosa, es decir, el número de valores que puede tomar el valor
que sea (gl = n – 1)).

o Es la media de la suma de cuadrados de las diferencias entre cada valor de la variable y


la media aritmética de la distribución de los valores.

o Hay diferencia entre la varianza muestra (es la que se calcula en una muestra) y la
varianza poblacional. En la varianza poblacional hay que pensar que la población puede
tomar cualquier valor, sin embargo, en la varianza muestral se aplica que en el
denominador estén los grados de libertad (número total de observaciones “n”, menos el
número de parámetros estimados con estas mismas observaciones que intervienen en su
cálculo.

o La unidad de medida, es la unidad de medida de la variable elevada al cuadrado.


Esto supone que es mucho más complicada su interpretación.

 Desviación estándar (DE) o desviación típica.


o Es la medida de dispersión basada en momentos más utilizada.

o Es la raíz cuadrada positiva de la varianza.

o Tiene las mismas unidades de medida que la variable, lo que facilita su interpretación.

o Mide la variabilidad de los datos alrededor de la media, es decir, mide como se


distribuyen los datos alrededor de la media.

o Únicamente tiene interpretación práctica cuando la distribución sigue la ley Normal, en


cuyo caso se cumple:

 El intervalo de la M  1xDE contiene el 68% central de las observaciones


aproximadamente.

9
 El intervalo de la M  2xDE contiene el 95% central de las observaciones
aproximadamente. El
intervalo que contiene
exactamente el 95% central
de las observaciones es el
comprendido entre X 
1,96 DE.

 El intervalo M  3xDE contiene el 99,7% central de las observaciones


aproximadamente.

Es importante no confundir la desviación típica con el error típico.

Cuando todos los datos de una distribución son iguales, la varianza y la desviación típica son
iguales a 0. La varianza y la desviación típica son medidas de dispersión, indican como de alejados están
los valores entre sí, por lo tanto, si todos los valores son iguales, no están nada alejados entre sí y por eso
toman valores iguales a 0.

Al aumentar el tamaño de la muestra, disminuye la varianza y la desviación típica, porque si se


observan las fórmulas, en el caso de la varianza el tamaño muestral está en el denominador, por lo tanto,
si se aumenta el tamaño muestral, se aumenta el denominador y se reduce la varianza. Además, hay que
tener en cuenta que para reducir a la mitad la desviación típica, no es suficiente con multiplicar el
tamaño de la muestra por 2, sino que hay que multiplicarlo por 4, puesto que hay que tener en cuenta
que si se está hablando de la desviación típica se está aplicando una raíz cuadrada a la varianza.

3.1.2.1. Propiedades de la media, la varianza y la desviación típica.

Si a todos los valores de una variable les sumamos, restamos, multiplicamos o dividimos por una
constante k, la media aritmética queda aumentada, disminuida, multiplicada o disminuida por esa
constante, es decir, lo que se haga a todos los valores de la distribución le ocurre exactamente igual a la
media, pero únicamente a la media, en el caso de la desviación estándar y en la varianza no ocurre
exactamente lo mismo.

Los parámetros poblaciones son únicos, es decir, la población es una, y, por lo tanto, únicamente tiene
un valor de media, de varianza, etc., pero, los estadísticos muestrales pueden ser infinitos, porque en
función de la muestra que se está estudiando se tendrá un valor del estadístico u otro . A
continuación, se muestra una tabla en la que se encuentra recogida la representación más común de los
parámetros poblaciones y estadísticos de una muestra.

Parámetros poblacionales Estadísticos muestra

10
Tamaño muestral N N
Media aritmética M, m x
Varianza 2 s2
Desviación estándar  DE, SD

3.1.3. Medidas de dispersión relativa

 Coeficiente de variación CV.


o Se calcula como el cociente entre la desviación estándar la media multiplicado por 100
(para expresarlo en porcentaje).

o Carece de unidades de medida, es decir, es un coeficiente adimensional.

o Permite comparar la dispersión relativa de diferentes variables (por ejemplo: peso,


altura).
o En general, se considera que un coeficiente de variación superior al 30% (CV > 30%)
corresponde a datos dispersos.

o Hay que tener en cuenta que:

 Si a cada uno de los datos de una muestra se le multiplica por una constante 
lo que ocurre es que tanto la media como la desviación estándar quedan
multiplicadas por esa constante, pero el coeficiente de variación no cambia.

 Si a todos los datos de una muestra se le suma una constante, la media y el


coeficiente de variación se modifican, pero la desviación estándar no.

3.1.4. Medidas de forma

Las medidas de forma que se estudian son la asimetría y el índice de apuntamiento o curtosis. En
ambos casos los cálculos son mucho más complejos y los realiza un programa de ordenador.

 Asimetría. Informa de la magnitud y del sentido de la desviación respecto a la simetría. Puede


ser de 3 tipos:
o Asimetría nula. El coeficiente de asimetría es igual a 0. Se dice que es una distribución
simétrica.

o Asimetría positiva. El coeficiente de asimetría es mayor que 0. La cola de la


distribución se aleja por la derecha, es decir, hay más valores de la distribución en la
parte derecha que en la parte izquierda. La media es mayor que la mediana. Esto se

11
encuentra frecuentemente en las variables que se utilizan en biomedicina, porque los
valores patológicos suelen ser valores más altos.
 Si se trabaja con una muestra asimétrica positiva, se utiliza como función
de distribución de probabilidad Log Normal.

o Asimetría negativa. El coeficiente de asimetría es menor que 0. La cola se aleja por la


izquierda y la media es menor que la mediana.

 Apuntamiento o curtosis. Informa de la magnitud y sentido de la desviación respecto a la ley


Normal. En función del apuntamiento, la distribución se puede clasificar según:

A. El coeficiente de curtosis:

1. Mesocúrtica. Cuando el apuntamiento es nulo. Es lo equivalente a la


distribución Normal.

2. Leptocúrtica. Cuando el apuntamiento es positivo. Es más picuda o apuntada


que una distribución normal, porque los valores se acumulan en la parte
central, y hay menos valores en las colas de lo esperable en una distribución
normal.

3. Platicúrtica. Cuando el apuntamiento es negativo. Es más aplanada que la


distribución normal, porque los valores se acumulan en las colas de la
distribución.

B. Medida de Fisher. Aporta la misma información que el coeficiente de curtosis, pero el


punto de corte está en el valor de 3.

1. a < 3. Distribución Platicúrtica.

2. a = 3. Distribución normal o mesocúrtica.

12
3. a > 3. Distribución leptocúrtica.

3.2. Índices basados en ordenaciones

Los índices basados en ordenaciones, se calculan con el orden que ocupan los valores cuando se ordenan
de menor a mayor, es decir, los valores que toma la variable en nuestra muestra se ordenan de menor a
mayor y el cálculo se hace únicamente con los valores que toman determinadas posiciones, no se meten
todos los números en la calculadora, únicamente aquellosque toman determinadas posiciones. Tienen la
peculiaridad de que siempre utilizan las mismas unidades de medida que la variable. Pueden utilizarse
en variables cuantitativas que no cumplen la normalidad y en algunos casos en variables ordinales.

3.2.1. medidas de tendencia central/centralización basadas en ordenaciones

 Mediana (Md).
o Es el valor central de todos los valores ordenados.

o Es el valor que divide la distribución en dos partes iguales.

o El 50% de las observaciones presentan valores iguales o inferiores a la mediana y el


otro 50% presenta valores superiores.

13
o Cuando la distribución es simétrica y únicamente tiene una moda, la mediana
coincide con la media y la moda.

o Cálculo de la mediana:

1. Se ordenan los valores que toma la distribución del más pequeño al más
grande.

2. Se identifica la posición central. Para ello se utiliza la siguiente fórmula:

a. Si la distribución es impar, se identificar cual es la posición central.

b. Si la distribución es par, cuando se vayan tachando extremos para


ver dónde está el centro, queda que en el centro hay 2 valores y no un
único valor como en el caso anterior. En este caso lo que se hace es
que los 2 valores que ocupan los valores centrales, se calcula su
media y el valor de esa media es la mediana.

Si en una muestra se eliminan posiciones simétricas a la mediana (ejemplo el primero y el último),


la media puede cambiar, pero la mediana no cambia.

 Moda (Mo).
o mkm

14

También podría gustarte