Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadística descriptiva. Recoge, organiza y muestra gráficamente los datos que se han
recogido, es decir, hace una descripción de una serie de datos y para ello los recoge, los organiza
y los representa gráficamente.
1.2. Definiciones
1.2.1. Población
Conjunto completo de individuos a los que se pretende aplicar las conclusiones del estudio . Es decir,
la población es el objetivo del investigador, puesto que es lo que desea estudiar.
Lo que ocurre es que cuando se quiere realizar un estudio, es prácticamente imposible abarcar a todos los
individuos que forman la población de interés. La población puede ser:
Todos los índices que dan información sobre una población reciben el nombre de parámetros.
Grupo reducido de individuos donde se llevará a cabo el estudio. Lo ideal es que la muestra sea una
muestra representativa de la población, es decir, que este grupo reducido de individuos represente bien
al global de sujetos que constituyen la población en el estudio. En este caso lo que se tiene es una muestra
representativa y los resultados que se obtienen en la investigación se pueden aplicar bien a la
investigación y no se cometerán errores.
2
Una forma de mejorar la calidad de los resultados que se obtienen es trabajar con muestras de tamaño
adecuado. Se dice que la muestra es grande cuando el número de observaciones (n) es de 30 valores o
más. Mientras que, por el contrario, la muestra se considera pequeña cuando la n es < 30. La frontera de
30 es un poco arbitraria.
Los índices que aportan información sobre la muestra reciben el nombre de estadísticos.
La variabilidad biológica es lo que hace que cuando se estudia una magnitud biológica, los valores
observados en distintos individuos sean diferentes, y además es la responsable de que no se vea el mismo
valor en un individuo a lo largo del tiempo. Es decir, la variabilidad biológica es lo que explica que haya
diferencias en los valores que toman las magnitudes biológicas entre individuos y también en un mismo
individuo a lo largo del tiempo.
Variabilidad intraindividual. Es la que hace que un individuo no tenga el mismo valor de una
magnitud a lo largo del tiempo. Además, esta variabilidad intraindividual no es la misma en
todos los individuos de una población. Por ejemplo, no todo el mundo experimenta fluctuaciones
igual de grandes en cuanto a su peso, puesto que hay gente que es más propensa a cambiar de
peso y tiene una variabilidad intraindividual mayor que otras personas que se mantienen en un
peso más constante.
Variabilidad interindividual. Es la que hace que los valores de una magnitud sean diferentes
entre distintos individuos de una población. Por ejemplo, no todos los individuos de una
población van a pesar lo mismo.
Se define el término variable como cada una de las características o aspectos que se registran en los
individuos de una muestra. Es decir, es todo aquello que se observa en un individuo y que puede tomar un
valor u otro (cualidad que puede tomar una categoría u otra) es una variable.
En este apartado se va a comentar las diferencias que existen entre la escala de medida de intervalo y la
escala de medida de proporción o razón.
3
Ambas escalas se aplican exclusivamente a variables cuantitativas. La diferencia entre ambas escalas es
que cuando la escala de medida es de intervalos, los distintos valores de la variable establecen relaciones
de igualdad, desigualdad, orden y distancia entre los valores, pero no tienen un significado real, es decir,
carecen de cero absoluto. El mejor ejemplo es la escala de temperatura (ºC), puesto que el valor 0 en la
escala de temperatura no significa nada, el 0 es un valor arbitrario que alguien decidió que estuviera en un
punto concreto, pero, de hecho, entre las diferentes escalas de temperatura, el 0 no es coincidente entre
ellas, puesto que no es lo mismo 0 Kelvin que 0 ºC.
Sin embargo, por ejemplo, la medida del peso que se puede medir en kilogramos o libras, el valor 0 está
en el mismo punto, aunque se estén utilizando escalas de medida diferentes, y esto es así porque la masa
es una variable con una escala de medida de proporción o razón. En las escalas de medida de proporción
o razón el cero es absoluto, y el valor cero representa la ausencia total de medida.
Por último, saber clasificar el tipo de variable es el primer paso para seleccionar la prueba
estadística.
Las variables categóricas son aquellas que contienen datos no cuantificables, es decir, no llevan asociados
un número, por lo tanto, no se miden en números. Se pueden dividir en 2 grandes grupos:
4
la escala de Glasgow, que se utiliza para medir el nivel de consciencia de un paciente o las
escalas utilizadas para establecer la gravedad de la insuficiencia cardiaca.
Las variables cuantitativas contienen datos métricos, medibles o contables, es decir, tienen valores
numéricos. Se diferencian 2 tipos:
Variables cuantitativas continuas. Pueden tomar valores intermedios. En este caso el número
de variaciones entre valores es infinito. El valor obtenido estará limitado por la exactitud del
instrumento de medida utilizado. Algunos ejemplos de variables cuantitativas continuas son el
colesterol LDL, la glucemia, la talla, el peso o la edad.
Dentro de las variables cuantitativas la escala de medición más utilizada es la razón (el número tiene un
significado), que es una clasificación de orden numérico donde la representación numérica es real. Por
esto, el 0 significa ausencia de característica.
Las variables cuantitativas continuas, (por ejemplo, la edad), a veces, pueden tener apariencia de
variables discretas debido fundamentalmente a 2 motivos:
Truncamiento. Es algo que se utiliza de manera habitual cuando se tiene una variable tiempo
transcurrido, puesto que lo que se hace es expresar el tiempo cumplido. Por lo tanto, no se tiene
en cuenta la siguiente cifra, sino que se corta en la cifra anterior. Por ejemplo, cuando alguien
nos pregunta cuantos años tenemos, mantenemos la misma edad hasta el día de nuestro
cumpleaños, pero no redondeamos hacia arriba cuando queda pocos días para cumplir años.
5
VARIABLES VALORES QUE PUEDEN TOMAR CLASIFICACIÓN VARIABLES
Edad 1, 2, 20…
Edad > 65 años Sí/No
Sexo (Mujer/Varón) Mujer/Varón
Raza (Blanca/Negra/Asiática/Otra)
(Blanca/Negra/Asiática/Otra)
Región (América, Europa, resto (América/Europa, resto del mundo)
del mundo)
Peso (Kg) 60 Kg; 60,4 Kg; 63,53 Kg…
Talla (cm) 155 cm, 165 cm, 170 cm…
Índice de masa corporal 20,5; 23,5; 22,3…
PAS (mmHg) 130, 140, 159…
Hipertensión (Sí/No) Sí/No
Nº de cigarrillos día 0, 2, 24, 15…
Fumador (Nulo/Leve/Medio/Alto) (Nulo/Leve/Medio/Alto)
Fumador (Sí/No) Sí/No
Colesterol total 170, 180, 200…
Hipercolesterolemia (Sí/No) Sí/No
Duración de la enfermedad (años) 1; 2,5; 3; 20,2…
Recuento articulaciones 0, 3, 5, 20…
inflamadas
Nº ingresos hospitalarios 0, 2, 4, 3…
Comunidad Autónoma a la que Andalucía, Extremadura, C. de Madrid…
pertenece
Imagina que tienes que realizar un estudio y recoger datos sobre hábito tabáquico y obesidad. ¿Qué sería
preferible registrar? ¿Qué te aporta más información?
Para registrar el hábito tabáquico, ¿qué sería mejor registrar de las tres opciones posibles? Si lo que se
registra es el número de cigarrillos que una persona fuma al día, el investigador podrá decir
posteriormente si esa persona no fuma, fuma un poco o fuma mucho y por supuesto se podrá decir si esa
persona fuma o no fuma. Por lo tanto, si se elige la opción c (número de cigarrillos día) se obtendrá la
máxima información posible y luego se pueden obtener las dos clasificaciones anteriores (fumador/no
fumador y no fumador/medio/alto).
En el caso de la obesidad ocurre exactamente lo mismo. Si se registra el peso y la tasa se puede calcular el
IMC y con este IMC se puede clasificar a la persona como obeso y no obeso.
Por eso, se deben recoger los datos tratando de obtener siempre la máxima información, porque
posteriormente se puede simplificar.
La transformación de una variable continua (por ejemplo, peso y talla) en una variable categórica
(obesidad Sí/No) se denomina CATEGORIZACIÓN. Este proceso implica pérdida de información,
6
pero también es verdad que la simplifica y que la hace más asequible. Por el contrario, una variable
categórica NO se puede transformar en una variable cuantitativa.
Los índices que se calculan para resumir el conjunto de datos que se observan en una muestra, se dividen
en 3 tipos de medidas y a su vez 2 tipos de índices. Por un lado, se tienen los índices basados en
momentos y los índices basados en ordenaciones y dentro de cada uno de estos grupos se tienen medidas
de tendencia central (indican donde está el centro de la distribución), medidas de dispersión (indican
como de alejadas están las observaciones de la muestra entre sí) y medidas de forma (indican como es la
forma de la distribución de valores).
Los índices basados en momentos son aquellos que se calculan con TODOS los valores que toma
una variable, es decir, para calcular un índice basado en momentos, el investigador coge su calculadora y
en algún momento mete cada uno de los valores que ha tenido la variable en la muestra que se está
estudiando.
Los índices basados en momentos son los más utilizados, pero muchas veces se utilizan de forma errónea.
Los índices basados en momentos como, por ejemplo, la media y la desviación estándar tienen una
particularidad, y es que se ven afectados por la presencia de valores extremos. Es por esto, que estos
índices únicamente deben utilizarse cuando se tienen distribuciones simétricas sin anomalías, o dicho de
otra manera cuando se tienen distribuciones que siguen la ley Normal.
7
3.1.1. Medidas de tendencia central/de centralización basada en momentos
o No es muy utilizada, pero en el caso en el que está más indica su uso es cuando los
datos son múltiplos unos de los otros y la variable crece exponencialmente.
o Se calcula como la suma de cuadrados de la variable centrada (SS = (M-xi)2), entre los
grados de libertad (número de valores que pueden tomar cualquier valor sin venir
8
condicionados por otra cosa, es decir, el número de valores que puede tomar el valor
que sea (gl = n – 1)).
o Hay diferencia entre la varianza muestra (es la que se calcula en una muestra) y la
varianza poblacional. En la varianza poblacional hay que pensar que la población puede
tomar cualquier valor, sin embargo, en la varianza muestral se aplica que en el
denominador estén los grados de libertad (número total de observaciones “n”, menos el
número de parámetros estimados con estas mismas observaciones que intervienen en su
cálculo.
o Tiene las mismas unidades de medida que la variable, lo que facilita su interpretación.
9
El intervalo de la M 2xDE contiene el 95% central de las observaciones
aproximadamente. El
intervalo que contiene
exactamente el 95% central
de las observaciones es el
comprendido entre X
1,96 DE.
Cuando todos los datos de una distribución son iguales, la varianza y la desviación típica son
iguales a 0. La varianza y la desviación típica son medidas de dispersión, indican como de alejados están
los valores entre sí, por lo tanto, si todos los valores son iguales, no están nada alejados entre sí y por eso
toman valores iguales a 0.
Si a todos los valores de una variable les sumamos, restamos, multiplicamos o dividimos por una
constante k, la media aritmética queda aumentada, disminuida, multiplicada o disminuida por esa
constante, es decir, lo que se haga a todos los valores de la distribución le ocurre exactamente igual a la
media, pero únicamente a la media, en el caso de la desviación estándar y en la varianza no ocurre
exactamente lo mismo.
Los parámetros poblaciones son únicos, es decir, la población es una, y, por lo tanto, únicamente tiene
un valor de media, de varianza, etc., pero, los estadísticos muestrales pueden ser infinitos, porque en
función de la muestra que se está estudiando se tendrá un valor del estadístico u otro . A
continuación, se muestra una tabla en la que se encuentra recogida la representación más común de los
parámetros poblaciones y estadísticos de una muestra.
10
Tamaño muestral N N
Media aritmética M, m x
Varianza 2 s2
Desviación estándar DE, SD
Si a cada uno de los datos de una muestra se le multiplica por una constante
lo que ocurre es que tanto la media como la desviación estándar quedan
multiplicadas por esa constante, pero el coeficiente de variación no cambia.
Las medidas de forma que se estudian son la asimetría y el índice de apuntamiento o curtosis. En
ambos casos los cálculos son mucho más complejos y los realiza un programa de ordenador.
11
encuentra frecuentemente en las variables que se utilizan en biomedicina, porque los
valores patológicos suelen ser valores más altos.
Si se trabaja con una muestra asimétrica positiva, se utiliza como función
de distribución de probabilidad Log Normal.
A. El coeficiente de curtosis:
12
3. a > 3. Distribución leptocúrtica.
Los índices basados en ordenaciones, se calculan con el orden que ocupan los valores cuando se ordenan
de menor a mayor, es decir, los valores que toma la variable en nuestra muestra se ordenan de menor a
mayor y el cálculo se hace únicamente con los valores que toman determinadas posiciones, no se meten
todos los números en la calculadora, únicamente aquellosque toman determinadas posiciones. Tienen la
peculiaridad de que siempre utilizan las mismas unidades de medida que la variable. Pueden utilizarse
en variables cuantitativas que no cumplen la normalidad y en algunos casos en variables ordinales.
Mediana (Md).
o Es el valor central de todos los valores ordenados.
13
o Cuando la distribución es simétrica y únicamente tiene una moda, la mediana
coincide con la media y la moda.
o Cálculo de la mediana:
1. Se ordenan los valores que toma la distribución del más pequeño al más
grande.
Moda (Mo).
o mkm
14