Está en la página 1de 36

Manual CTO

de Enfermería

Bioestadística
Autores
Javier Marín Valenciano
Amparo Bravo Malo

Revisión técnica
Saturnino Mezcua Navarro
ÍNDICE

TEMA 1. GENERALIDADES 05
BIOESTADÍSTICA
1.1. Método científico y de investigación 05
1.2. Estadística. Definición y tipos 06
1.3. Conceptos básicos 07
1.4. Tipos de variables 07

TEMA 2. ESTADÍSTICA DESCRIPTIVA 08


2.1. Concepto 08
2.2. Variables cualitativas 08
2.3. Variables cuantitativas 08

TEMA 3. PROBABILIDAD.
CÁLCULO DE PROBABILIDADES Y VARIABLES ALEATORIAS 13
3.1. Generalidades 13
3.2. Sucesos mutuamente excluyentes 14
3.3. Sucesos no mutuamente excluyentes 15
3.4. Probabilidad condicionada 15
3.5. Sucesos independientes y dependientes 15
3.6. Teorema de Bayes 15

TEMA 4. DISTRIBUCIONES DE PROBABILIDAD 18


4.1. Distribuciones continuas 18
4.2. Distribuciones discretas 19
BIOESTADÍSTICA

TEMA 5. ESTADÍSTICA INFERENCIAL 20


5.1. Concepto de inferencia estadística 20
5.2. Estimación de parámetros (estimación de la media) 21
5.3. Estimación de parámetros (estimación de una proporción
poblacional p, a partir de una muestra grande (n > 30) con
proporción calculada = p) 22
5.4. Contraste de hipótesis. Error tipo I y II 22
5.5. Tipos de pruebas de contraste de hipótesis 23

ÍNDICE
TEMA 6. TÉCNICAS DE MUESTREO 29
6.1. Muestreo probabilístico 29
6.2. Muestreo no probabilístico 30

TEMA 7. CÁLCULO DE MUESTRAS REPRESENTATIVAS 30


7.1. Cálculo de una muestra para la estimación de proporciones 30
7.2. Cálculo de una muestra para la estimación de una media 31

- PROBLEMAS RESUELTOS 31

- BIBLIOGRAFÍA 36
Bio es t a d í s tic a
Aspectos esenciales
1 La estadística es una disciplina que, mediante un razonamiento lógico-matemático, es-
tudia aquellos aspectos de la realidad en los que interviene el azar y cuya característica
fundamental es la variabilidad. Los tipos de estadística son dos: descriptiva e inferencial.
2 La estadística descriptiva utiliza distintas técnicas para organizar, sintetizar y exponer los da-
tos obtenidos en función del tipo de variable estudiada. Las representaciones gráficas de
los datos obtenidos de la medición de variables, se denominan pictogramas. Las variables
pueden ser: cuantitativas (continuas/discretas: descritas con medidas de tendencia central,
dispersión, posición y forma) y cualitativas (dicotómicas/ordinales: descritas en frecuencias).
3 En Ciencias de la Salud, la mayoría de los fenómenos corresponden a situaciones aleatorias, de
manera que si un experimento se repite en las mismas condiciones, puede dar lugar a distin-
tos resultados (experiencia aleatoria). Cada uno de los posibles resultados de un experimento
aleatorio se denomina suceso elemental. El cálculo de probabilidades de que ocurra un su-

BE
ceso indica la frecuencia relativa con la que ese suceso tendrá lugar a largo plazo en pruebas
repetidas en condiciones similares.
4 Atendiendo a la clasificación de las variables se describen las principales leyes de distribu-
ción de probabilidad de cada una de ellas. Con variables continuas se utiliza habitualmen-
te: distribución normal o gaussiana y con variables discretas, encontramos: distribución de
Bernoulli, distribución binomial y distribución de Poisson.
5 La estadística inferencial tiene como objetivo establecer conclusiones en la población (in-
ferir) a partir de los resultados obtenidos en la muestra. Dentro de este contexto, será
necesario asumir un estadístico o estimador como una variable aleatoria con una determi-
nada distribución, y que será la pieza clave en las dos amplias categorías de la inferencia
estadística: la estimación de parámetros y el contraste de hipótesis.
6 Las técnicas de muestreo son el conjunto de procedimientos que permiten llevar a cabo
la selección de muestras a partir de una población. Existen dos clases de muestreo: el pro-
babilístico (utiliza algún sistema de selección aleatoria) y el no probabilístico (en el que los
elementos que componen la muestra se escogen por métodos en los que no interviene
el azar).

TEMA 1

GENERALIDADES

1.1. MÉTODO CIENTÍFICO Y DE INVESTIGACIÓN

El método científico es el método más avanzado para la adquisición de conocimientos. Es una fuente
de conocimiento metódico y sistemático que se apoya en la evidencia empírica, la inducción y la
deducción.

El método científico debe seguir siempre las siguientes etapas:


• Observación.
• Formulación de una pregunta de investigación y elaboración de hipótesis.
• Contraste de la hipótesis elaborada (comprende el diseño del estudio y la obtención de los
datos).
• Análisis de los datos.
• Establecimiento de las conclusiones.

Otros aportes de conocimiento son la tradición, el razonamiento lógico, la experiencia personal, el


saber de los expertos en el tema, el proceso de ensayo-error. A diferencia del método científico, estos
mecanismos y procesos no son metódicos ni sistemáticos.

La investigación es un elemento clave dentro de las funciones esenciales de los profesionales de la


salud, por medio de ella, se facilita la detección y resolución de problemas concretos contribuyendo
a una mejor comprensión de la realidad, de manera que puedan conducirse las actividades y proce-
sos en salud hacia un uso eficiente, eficaz y efectivo de los recursos.
5
B ioes t adística

Los estudios epidemiológicos, como estudios científicos, deben cumplir con los requerimientos y
condiciones conceptuales y metodológicas que permitan la validez científica y social de los trabajos
de investigación. Una vez planteado, descrito o definido el problema, la hipótesis y los objetivos de
la investigación, se describe la estructura general de la logística del estudio con todos los detalles
metodológicos y la secuencia para conseguir los objetivos: cómo, a quién y dónde se realizará la
investigación, los aspectos éticos, el cronograma, el presupuesto y las conclusiones.

El marco metodológico se divide en varios componentes:


• Procedimiento: se inicia la descripción del marco metodológico con un resumen detallado del o
los procedimientos que se llevarán a cabo durante la investigación.
• Diseño o tipo de estudio: para la selección del tipo de estudio se tiene que considerar el tipo de
problema a investigar, el contexto en que se da el problema, el tipo de variables y su medición y
la visión del investigador sobre el problema. Tipos de estudio: cuantitativos, cualitativos, partici-
pativos, investigación/acción, investigación etnográfica.
• Área de estudio: se refiere al área, país o zona geográfica, donde se va a realizar la investigación.
Está determinada por el universo y la muestra, la magnitud del problema, la disponibilidad de los
recursos, el coste del estudio, las características de la población, entre otros.
• Universo o muestra: el universo se constituye por el conjunto de individuos u objetos que
forman parte de una investigación y de los cuales se desea conocer alguna característica. La
muestra es un subconjunto o parte del universo en que se llevará a cabo la investigación, con la
finalidad de generalizar los resultados obtenidos. En los estudios que requieren de una muestra
representativa de la población, hay que describir la estrategia de muestreo, el tipo de muestreo
y el procedimiento realizado para su selección, es decir:
- Tamaño de la muestra: al realizar investigaciones en el área de las ciencias de la salud,
incluir más sujetos de estudio, no es sinónimo de mejor estudio. El tamaño de la muestra
va a depender del nivel de la investigación y de las variables presentes en el objetivo de la
investigación.
- Criterio de inclusión y exclusión: características que determinan las reglas de ingreso al es-
tudio y qué miembros de la muestra deben ser excluidos del estudio.
- Fuentes de datos para el estudio: las áreas, personas o cosas de donde proceden los datos
e información para el estudio, por ejemplo, textos, procesos, personas, muestras orgánicas,
instancias administrativas, entre otros.
- Variables: se deben referenciar y clasificar cuáles son las variables dependientes e indepen-
dientes que se presentan en el trabajo de investigación. Hay que tener presente que las va-
riables se identifican desde la formulación o descripción del problema y van apareciendo
a medida que se avanza en los componentes del protocolo de investigación. Es pertinente
escoger las variables más relevantes, sensibles y estandarizadas, realizando este proceso de
la forma más estricta y rigurosa.
- Métodos, procedimientos e instrumentos para la recolección, tabulación y análisis de los
datos y sus posibles limitaciones: de acuerdo con los objetivos propuestos se especifica
cuáles son las variables a ser medidas y cómo se presentarán (cualitativa o cuantitativamen-
te), indicando los modelos estadísticos y las técnicas que se proponen (estadísticas y no es-
tadísticas). También se describe cómo serán presentados los datos (cuadros o gráficos); así
como los programas informáticos que serán utilizados.

1.2. ESTADÍSTICA. DEFINICIÓN Y TIPOS

La estadística es una disciplina que, mediante un razonamiento lógico-matemático, estudia aquellos


aspectos de la realidad en los que interviene el azar y cuya característica fundamental es la variabilidad.
De ella se obtiene una relación de datos numéricos presentada de forma ordenada y sistemática. La
estadística se ocupa de los métodos y procedimientos para recoger, clasificar, resumir y analizar los
datos, así como de realizar inferencias a partir de ellos, con la intención de formular predicciones y
ayudar finalmente en la toma de decisiones.

La estadística se ocupa del análisis de los datos obtenidos en el proceso de investigación y consta
de dos partes:
• Estadística descriptiva: aquella parte de la estadística que se ocupa de la síntesis y de la re-
presentación gráfica (pictogramas) de los resultados obtenidos durante el proceso de investi-
gación. Describe, analiza y representa los datos utilizando métodos numéricos y gráficos que
resumen y presentan la información contenida en ellos. También ha sido denominada estadís-
tica deductiva.
• Estadística inferencial: tiene como objetivo realizar inducciones o estimaciones a partir de
los datos obtenidos en un subconjunto o grupo de elementos representativos (muestra),
sobre la totalidad del conjunto (población). Es considerada también como estadística in-
ductiva.

6
M a n u a l C TO d e E n fe r m e r í a

1.3. CONCEPTOS BÁSICOS


Los métodos y procedimientos estadísticos se basan en los elementos básicos estadísticos siguientes:
• Población o universo: conjunto completo de individuos, generalmente inaccesible, al cual se re-
ferirán las conclusiones del estudio. Es el conjunto a partir del que se elige la muestra, la que, en
relación al tamaño de la población, puede ser:
- Finita: como es el caso del número de personas que acuden a la consulta de un hospital en
un día.
- Infinita: como el mecanismo aleatorio descrito por una secuencia de caras y cruces obtenida
en el lanzamiento repetido de una moneda al aire.

• Muestra: grupo reducido o subconjunto de los individuos de la población. Es representativa cuando


los elementos que la forman han sido escogidos al azar.
• Variables: cada uno de los caracteres o aspectos que se registran en los individuos que integran la

BE
muestra.
• Parámetro: función definida sobre los valores numéricos de características medibles de una pobla-
ción. Son los índices que resumen una determinada información de la población (se representan
por letras griegas: μ, σ).
• Estadístico: función definida sobre los valores numéricos de una muestra. Son los índices que
resumen una determinada información de la muestra (se representan por letras del alfabeto
latino: x, s).

1.4. TIPOS DE VARIABLES

Las variables son los diferentes valores que puede tomar el aspecto que se mide en los elementos in-
tegrantes de la muestra. Pueden ser aleatorias y es posible que tomen cualquier modalidad (valor
y función). Las variables se referencian con un símbolo (X, Y, A, B...), que puede tomar cualquier
modalidad (valor) de un conjunto determinado y se le conoce como dominio de la variable o
rango. En función del tipo de dominio las variables se clasifican en:
• Cuantitativas: miden una cantidad. Se dividen en continuas, cuando entre dos valores con-
secutivos se pueden encontrar infinitos valores (talla, peso, etc.), o discretas, cuando entre
dos valores consecutivos sólo es posible hallar valores enteros (número de hijos, número de
camas de hospital, etc.).
• Cualitativas (o categóricas): miden una cualidad o atributo. Cuando en una misma variable
únicamente son posibles dos categorías, se denominan dicotómicas (sexo: hombre o mujer).
Si los valores o categorías de una variable cualitativa siguen un orden, creciente o decrecien-
te, se llaman ordinales (nivel socioeconómico bajo, medio, alto, valoración de la prueba de
APGAR, etc.).

Según la escala de medida utilizada para agrupar las distintas categorías de una variable (Tabla 1), se
distingue entre escalas (modalidades o valores) cualitativas (nominal y ordinal) y escalas cuantitati-
vas (razón y de intervalo).
• Escala nominal: las categorías o grupos de una variable son excluyentes entre sí (p. ej.: sexo
[hombre/mujer], grupo sanguíneo [A/B/O]).
• Escala ordinal: los grupos o categorías de una variable siguen un orden creciente o decreciente
(p. ej.: gravedad [leve/moderada/severa]).
• Escala de intervalo: existe un orden numérico y la diferencia entre dos valores es siempre la mis-
ma. Esta escala no se inicia en el cero absoluto (es el caso de la temperatura).
• Escala de razón o proporción: tiene las mismas características que la escala de intervalo,
pero se inicia en el cero (que significa ausencia de la característica que se mide) (p. ej.: el
peso, la talla).

VARIABLES DEFINICIÓN SUBTIPOS EJEMPLO

Toman valores Dicotómicas Sexo


Cualitativas
no numéricos No dicotómicas Raza

· N.º de hijos
Discretas
Toman valores · N.º de cigarrillos
Cuantitativas
numéricos · Peso
Continuas
· Edad

Tabla 1. Tipos de variable

7
B ioes t adística

TEMA 2

ESTADÍSTICA DESCRIPTIVA

2.1. CONCEPTO

La estadística descriptiva utiliza distintas técnicas para organizar, sintetizar y exponer los datos ob-
tenidos en función del tipo de variable estudiada. Las representaciones gráficas mejoran la com-
presión de los datos y se denominan pictogramas y mejoran su comprensión. Expresan con dibujos
alusivos al tema de estudio las frecuencias de las modalidades de la variable.

2.2. VARIABLES CUALITATIVAS

La descripción de los resultados obtenidos de una variable cualitativa se hace mediante la distribu-
ción de frecuencias de cada una de las categorías.

La distribución de frecuencias se expresa en valores absolutos (frecuencias absolutas), en valores


relativos (frecuencias relativas) y en porcentajes.
• Frecuencia absoluta: número de individuos que tienen una determinada categoría de la varia-
ble cualitativa estudiada. La suma de todas las frecuencias absolutas es igual al número total
de observaciones.
• Frecuencia relativa: proporción de individuos que presentan
una determinada categoría de la variable cualitativa. Es el tan-
to por uno. La suma de todas las frecuencias relativas es igual
a la unidad.
• Porcentaje: tanto por ciento que representa cada categoría. La
suma de todos los porcentajes es igual a 100.

Ejemplo 1

Descripción del sexo de una muestra de 150 individuos:


• Frecuencia absoluta: 50 varones y 100 mujeres.
• Frecuencia relativa: 50 /150 = 0,33 varones y 100/150 = 0,67
mujeres.
• Porcentaje: 33% varones y 67% mujeres.

Las variables cualitativas suelen representarse gráficamente me-


diante diagramas de barras o diagramas de sectores (Figuras 1 y 2).

En ambos casos se debe cumplir el principio de proporcionali-


Figura 1. Diagrama de barras
dad de las áreas a las frecuencias absolutas.

En los diagramas de sectores (pastel), el ángulo central es pro-


porcional a la frecuencia absoluta correspondiente, por lo que
también lo es su área. Los diagramas de barras o rectángulos
tienen una base constante y una altura proporcional a la fre-
cuencia absoluta correspondiente (también su área es propor-
cional a la frecuencia absoluta). Se representan en el eje de
ordenadas las modalidades y en abscisas las frecuencias ab-
solutas.

2.3. VARIABLES CUANTITATIVAS

Se describen con medidas de tendencia central, de dispersión,


de posición y de forma. Para las variables cuantitativas se usan
Figura 2. Diagrama de sectores dos tipos de gráficos.
8
M a n u a l C TO d e E n fe r m e r í a

Este tipo de variables se representa gráficamente con los histogramas, los diagramas de barras y
los polígonos de frecuencias.

Las variables cuantitativas discretas se representan con un diagrama de barras, que será diferente
en función de que se apliquen las frecuencias (absolutas o relativas) o las frecuencias acumuladas.
• Diagramas diferenciales: en ellos se representan frecuencias absolutas o relativas y también
el número o porcentaje de elementos que presenta una modalidad dada. Las barras deben ser
estrechas para representar que los valores de la variable son discretos.
• Diagramas integrales: en ellos se representa el número de elementos de una modalidad inferior
o igual a una dada. Se realizan a partir de las frecuencias acumuladas, lo que da lugar a gráficos
crecientes, y es obvio que este tipo de gráficos no tiene sentido para variables cualitativas. El
diagrama integral o acumulado tiene, por la naturaleza de la variable, forma de escalera.

Las variables cuantitativas continuas se utilizan y se representan


como diagramas diferenciales con los histogramas y los polígonos

BE
de frecuencias (Figuras 3a y 3b).

El histograma es un gráfico formado por rectángulos adyacentes que


tienen por base cada uno de los intervalos y por altura, las frecuencias
absolutas. Se construye a partir de la tabla estadística, representan-
do sobre cada intervalo un rectángulo que tiene a este segmento
como base. El criterio para calcular la altura de cada rectángulo es
el de mantener la proporcionalidad entre las frecuencias absolutas
(o relativas) de cada intervalo y el área de los mismos.

El polígono de frecuencias es una línea quebrada que une los pun-


tos medios de las barras superiores de los rectángulos del histograma.
El polígono de frecuencias se construye fácilmente una vez repre-
sentado el histograma, ya que consiste en unir mediante líneas
rectas los puntos del histograma que corresponden a las marcas
o medidas de cada rectángulo. De este modo, el polígono de fre-
cuencias tiene en común con el histograma que las áreas de las
gráficas sobre un intervalo son idénticas.

En conjunto, con las representaciones se pueden resumir los datos Figura 3a. Histograma y polígono de frecuencias
obtenidos del estudio de una muestra (o una población) en una
tabla estadística o un gráfico. Sería conveniente también que, tras
la elaboración de la tabla y su representación gráfica, se pudiera
concretar esa información en alguna medición de manera que los
resultados numéricos la expresen de forma clara y concisa. Dado
que los fenómenos biológicos no suelen ser constantes, se hace
necesario que junto a una medida que indique el valor alrededor
del cual se agrupan los datos, se puedan manejar de forma con-
junta unas mediciones (estadísticos o parámetros) que los resu-
man aún más en referencia a esa variabilidad y esa fluctuación.

En relación a esa medición de la fluctuación o de la variabilidad se


manejarán varias características, siendo las más comunes:
• La tendencia central de los datos.
• La dispersión o variación con respecto a este centro.
• Los datos que ocupan ciertas posiciones.
• La simetría de los datos.
• La forma en la que los datos se agrupan.

2.3.1. Medidas de tendencia central


Figura 3b. Histograma de frecuencias

Medidas de centralización

Estas medidas informan sobre el valor de la variable alrededor del cual se agrupan los restantes valo-
res, y son: media aritmética, mediana y moda.

• Media aritmética: equivale a la suma de todos los valores observados dividido por el número
de observaciones. Sus unidades de medida son las de la propia variable.

_ xi
x=
n

9
B ioes t adística

Ejemplo 2

Sean 2, 3, 4, 5 y 6 el número de hijos de 5 parejas, el valor de la media es 4:

_ 2+3+4+5+6
x= =4
5

La media es una medida de tendencia central útil en distribuciones simétricas y sin valores extremos.
Es el centro de gravedad de la distribución.
• Mediana: corresponde a aquel valor que divide la distribución en dos partes iguales. La parte que se
encuentra por encima y la parte que se encuentra por debajo del valor de la mediana contienen
el mismo número de individuos. Cuando la distribución está formada por un número impar de
valores, la mediana corresponde al valor que se sitúa en el centro (en el Ejemplo 2, la mediana es
de cuatro hijos).
Cuando el número de valores de la distribución es par, el valor de la mediana corresponde a la
media aritmética de los dos valores centrales.

Ejemplo 3
Sean 3, 4, 6 y 7 el número de hijos de 4 parejas; el valor de la mediana es de 5 hijos.

La mediana, al no verse influenciada por los valores alejados, es una medida de tendencia central
útil para describir distribuciones asimétricas, que presentan alguna observación o valor extremo
(o en general, una pequeña parte de las observaciones).
• Moda: valor más frecuente de la variable. Pueden existir distribuciones con más de una moda
(bimodales, trimodales, etc.).

Ejemplo 4

Los siguientes datos corresponden al número de abortos previos de diez pacientes de una consulta de
ginecología:

0; 1; 1; 1; 1; 1; 2; 2; 2; 3

La moda es 1, puesto que se trata del valor que se repite más veces.
• Media geométrica: raíz n-ésima del producto de una cantidad finita de números. Sólo es relevante
si todos los números son positivos. Muy utilizada en microbiología y en serología, cuyos datos
tienen una marcada asimetría positiva (hacia la derecha).

Ejemplo 5
La media geométrica de 1, 3 y 9 es:

Comparación de medidas de centralización

La media utiliza todos los datos y es, por tanto, preferible si los datos son homogéneos; tiene el
inconveniente de ser muy sensible a observaciones atípicas, y un error de datos o un valor anormal
puede modificarla totalmente.

Por el contrario, la mediana utiliza menos información que la media, ya que tiene en cuenta el orden
de los datos y no su magnitud, pero no se ve alterada si una observación es extrema o contiene erro-
res grandes de medida o de transcripción, por lo que es útil en distribuciones asimétricas o con gran
heterogenicidad en los datos.

2.3.2. Medidas de dispersión

Las medidas de dispersión informan sobre la variabilidad (heterogeneidad) de los datos de la mues-
tra. Incluyen: amplitud o rango, varianza y desviación estándar.
10
M a n u a l C TO d e E n fe r m e r í a

• Amplitud o rango: diferencia entre el valor mayor y el menor de toda la serie de medidas. En el Recuerda
Ejemplo 5, la amplitud del número de abortos de diez mujeres de la consulta de ginecología es
de 3 (3 – 0 = 3). La desviación estándar y la media se
afectan por los valores extremos y sólo
• Desviación y desviación media: expresa la distancia que debe recorrer un individuo para llegar
son índices válidos para describir distri-
a la media. La desviación media es un índice de dispersión poco utilizado, es el sumatorio de la buciones simétricas.
diferencia de los valores de la variable con respecto a la media en valores absolutos. La media de
este índice es un índice de dispersión.

_
( xi - x )
DM =
n

• Varianza (s2): corresponde a la media de las diferencias al cuadrado entre cada valor de la varia-
ble y la media aritmética de la distribución. Sus unidades son las de la variable al cuadrado. En

BE
general, se puede afirmar que cuanto menor sea la varianza mayor es la homogeneidad de la
variable y, por tanto, menor es la dispersión.

_
( xi - x )2
s2 =
n

• Cuasivarianza: es igual que la varianza pero dividiendo por (n-1), se representa por s2n-1.
• Desviación estándar (s): corresponde a la raíz cuadrada de la varianza. Se toma siempre el valor
positivo. Sus unidades son las mismas que las de la variable. La media aritmética de las desviacio-
nes de la variable respecto al promedio de las mismas es 0. La desviación estándar es una medida
de dispersión útil en distribuciones simétricas.

Recuerda
No confundir coeficiente de variación y
tipificación. Los coeficientes de variación
• Coeficiente de variación (CV): la varianza y la desviación estándar dependen de las unidades de
sirven para comparar las variabilidades
medida de la variable, lo que imposibilita la comparación entre sí de estos índices de dispersión de dos conjuntos o distribuciones de va-
obtenidos en distintas distribuciones. Para comparar la dispersión entre distintas distribuciones lores (muestras o poblaciones), mientras
se debe utilizar el coeficiente de variación (CV), que es un índice de dispersión relativa que no que si se desea comparar a dos indivi-
depende de las unidades de medida. duos de cada uno de esos conjuntos, es
necesario usar los valores tipificados.

s
CV = _ · 100
x

• Tipificación: proceso de restar la media y dividir por su desviación típica a una variable x.

De este modo se obtiene una nueva variable denominada variable tipificada que carece de uni-
dades y permite hacer comparables dos medidas que en un principio no lo son. Así, es posible
preguntarse si un caballo es más pesado que una liebre determinada, pero cada uno en relación
a su población. También es aplicable al caso en que se quieran comparar individuos semejantes
de poblaciones diferentes.

Ejemplo 6
Se realiza un recuento de glóbulos rojos (distribución 1) y un recuento de glóbulos blancos (distribu-
ción 2) ¿Cuál de las dos distribuciones es más dispersa?
• Distribución 1: media = 5 x 106 hematíes/mm3; s = 104 h/mm3
• Distribución 2: media = 10.000 hematíes/mm3; s = 100 h/mm3

Solución:
Considerando sólo los valores de la desviación estándar, se podría pensar que la distribución 1
es la más dispersa. Sin embargo, al calcular el valor del coeficiente de variación se observa que la
distribución 2 es la que presenta un mayor CV (y es, por tanto, más dispersa):
• Distribución 1: CV = (104/5 x 106) . 100 = 0,2
• Distribución 2: CV = (100/10.000)  100 = 1

Para comparar la dispersión de dos distribuciones, se debe utilizar el coeficiente de variación (rela-
tiviza el valor de la desviación estándar en función de la media).

11
B ioes t adística

MEDIDA
MEDIDA DE DISPERSIÓN
DE CENTRALIZACIÓN
Distribución homogénea Media Desviación típica o estándar
· Rango intercuartílico
Distribución asimétrica Mediana
· Rango

Tabla 2. Formas de medida

2.3.3. Medidas de posición

Las medidas de posición se obtienen tras ordenar los datos de menor a mayor.

Después del proceso de ordenación son posibles las siguientes operaciones:


• Frecuencia absoluta: número de veces que se repite un determinado valor.
• Frecuencia relativa: número de veces que se repite un determinado valor, pero expresado en
forma de porcentajes respecto al total de valores.
• Frecuencias acumuladas: suma de frecuencias relativas o absolutas.

Los estadísticos de posición van a ser valores de la variable caracterizados por superar a cierto por-
centaje de observaciones en la población o en la muestra. Se consideran los percentiles y, asociados
a ellos, los deciles, quintiles y cuartiles.

Percentiles

Se incluyen entre las principales medidas de posición. En general, el percentil K es el valor de la variable
que deja por debajo el K por ciento de los individuos, y en consecuencia deja el (100-K) por encima.

Los percentiles se obtienen a partir de los sujetos ordenados según el valor de la variable que se
desee describir. Así:
• Percentil 10: valor de la variable que deja por debajo el 10% de los sujetos.
• Percentil 25: valor de la variable que deja por debajo al 25% de los individuos.
• Percentil 50: valor de la variable que deja por debajo el 50% de los individuos. Equivale a la
mediana.
Los deciles, los cuartiles y los quintiles son medidas de posición derivadas de los percentiles.
• Deciles: son los nueve valores de una variable que dividen la distribución en diez partes iguales
(decil 1, 2, 3, etc.).
• Quintiles: son los cuatro valores de la variable que dividen la distribución en cinco partes iguales.
• Cuartiles: son los tres valores de la variable que dividen a la distribución en cuatro partes igua-
les. Corresponden al cuartil 1 (Q1), que equivale al percentil 25, el cuartil 2 (Q2), que equivale
al percentil 50, y el cuartil 3 (Q3), que equivale al percentil 75. La diferencia entre el Q3 y Q1 se
denomina amplitud intercuartílica y corresponde al 50% central de la distribución.

Ejemplo 7
Se estudia una variable en un grupo de 600 personas. El percentil 60 (P60) es el valor de la variable del
individuo que deja un 60% por detrás y un 40% por delante de él. Estará situado en el lugar 360.

2.3.4. Medidas de forma

Se ha estudiado ya que es posible calcular los valores alrededor de los cuales se distribuyen las ob-
servaciones de una variable sobre una muestra y también se puede saber cómo calcular la dispersión
que ofrecen esos mismos valores con respecto al valor central. Además, se puede conocer si los datos
se distribuyen de forma simétrica con respecto a un valor central, o si bien la gráfica que representa la
distribución de frecuencias, lo hace diferente en el lado derecho con respecto al izquierdo.

Simetría y asimetría

Para saber si una distribución de frecuencias es simétrica, lo primero es precisar con respecto a qué.
Un buen referente es la mediana, ya que para variables continuas, divide al histograma de frecuen-
cias en dos partes de igual área. Cuando la variable es discreta, se dice que es simétrica, si lo es con
12
M a n u a l C TO d e E n fe r m e r í a

respecto a la media. A partir de la mediana y/o la media se puede


afirmar que una distribución de frecuencias es simétrica si el lado
derecho de la gráfica (a partir de la mediana) es por decirlo así,
como la imagen “reflejada” por un espejo del lado izquierdo.

Una distribución es simétrica también cuando coinciden la moda,


la mediana y la media en el mismo punto. La falta de simetría se
denomina asimetría o sesgo. Cuando una distribución es simétri-
ca, el valor del sesgo es, por tanto, igual a 0.

Entre los tipos de asimetría posible, destacan dos fundamentales:


Figura 4a. Simetría y asimetría de las distribuciones
• Asimetría positiva: los valores se agrupan más a la izquierda
(Figura 4a). Las frecuencias más altas se encuentran en el lado
izquierdo de la media, mientras que en el derecho hay fre-
cuencias más pequeñas (cola) y, por consiguiente, adquieren

BE
mayor dispersión a la derecha. En este caso la media es mayor
que la mediana (la media a la derecha de la mediana) entonces
la distribución está sesgada a la derecha (positivamente).
• Asimetría negativa: los valores se agrupan más a la derecha y
toman mayor dispersión a la izquierda (la cola de la distribución
está en el lado izquierdo). En este caso la media es menor que la
mediana (la media a la izquierda de la mediana), entonces la dis-
tribución está sesgada a la izquierda negativamente (Figura 4b).
• Coeficiente de asimetría: permite cuantificar la asimetría, se
basa en comparar la media con la posición de la moda o la Figura 4b. Asimetría positiva
mediana (Figura 4c). La distribución será simétrica cuando sea
igual a 0, será asimétrica positiva si es mayor que 0, y asimétri-
ca negativa si es menor que 0.

_
3( x - Md)
AS = s

Apuntamiento

Toda vez que la simetría ha sido definida, se puede observar si la curva


de la representación gráfica es más o menos apuntada, más larga o
más estrecha (Figura 5). Este apuntamiento debe medirse comparán-
dolo con la distribución de frecuencias considerada normal. El patrón Figura 4c. Asimetría negativa
de referencia, por tanto, es la distribución normal o gaussiana.

Para medir si una distribución de frecuencias es muy apuntada o no


se utiliza el coeficiente de aplastamiento de Fisher (curtosis), coefi-
ciente adimensional, invariante ante cambios de escala y de origen.

De este modo, se clasifican las distribuciones de frecuencias en:


• Platicúrtica: con forma ancha y plana y cuando la distribución
de frecuencias es menos apuntada que la normal.
• Leptocúrtica: con forma puntiaguda y estrecha y cuando la
distribución de frecuencias es más apuntada que la normal.
• Mesocúrtica: similar a la normal y si la distribución de frecuen-
cias es tan apuntada como la normal.
Figura 5. Apuntamiento de las distribuciones

TEMA 3
PROBABILIDAD. CÁLCULO DE PROBABILIDADES
Y VARIABLES ALEATORIAS

3.1. GENERALIDADES

En ciencias tales como la Física o la Química, los fenómenos se dan de manera determinada, se dice
que se rigen según leyes deterministas. Por el contrario, en Ciencias de la Salud, la mayoría de los
fenómenos corresponden a situaciones aleatorias, de forma que si un experimento se repite en las
13
B ioes t adística

mismas condiciones, puede dar lugar a distintos resultados. A este experimento o prueba se le de-
nomina experiencia aleatoria. Cada uno de los posibles resultados de un experimento aleatorio se
denomina suceso elemental. La probabilidad de ocurrencia de un suceso indica la frecuencia relativa
Recuerda con la que ese suceso tendrá lugar a largo plazo en pruebas repetidas en condiciones similares.
El cálculo de probabilidades suministra
las reglas para el estudio de los experi- El valor de una probabilidad queda comprendido entre 0 (no sucede) y 1 (sucede). Así, una probabili-
mentos aleatorios o de azar, constitu- dad P(A) de 0,30 indica que tiene un 30% de probabilidades de ocurrir, mientras que la probabilidad
yendo la base para la estadística induc- del suceso contrario P(nA) sería de 1 - 0,30 = 0,70; es decir, del 70%:
tiva o inferencial.

3.1.1. Experimentos y sucesos aleatorios

Un experimento es aleatorio si se verifican las siguientes premisas:


• Se puede repetir indefinidamente, siempre en las mismas condiciones.
• Antes de realizarlo, no es posible predecir el resultado que se va a obtener.

El resultado obtenido en el citado experimento, e, pertenece a un conjunto conocido de resultados


posibles. Este conjunto de resultados posibles es el espacio muestral y se denota normalmente con
la letra E. Los elementos del espacio muestral se denominan sucesos elementales (e1, e2 є E  e1, e2
son sucesos elementales). Cualquier subconjunto de E será un suceso aleatorio, y se representará con
las letras A, B... que son los sucesos aleatorios.

3.1.2. Operaciones elementales con sucesos aleatorios

Al ser los sucesos aleatorios subconjuntos de un conjunto E (espacio muestral), se les aplican
operaciones con conjuntos: unión, intersección y diferencia.
• Unión: dados dos sucesos aleatorios A, B se denomina suceso unión de A y B al conjunto
formado por todos los sucesos elementales que pertenecen a A o bien que pertenecen a B
(incluyendo los que sean de ambos simultáneamente).
• Intersección: dados dos sucesos aleatorios A, B se denomina suceso intersección de A y B al
conjunto formado por todos los sucesos elementales que pertenecen a A y B a la vez.
• Diferencia: dados dos sucesos aleatorios A, B se llama suceso diferencia de A y B, y se repre-
senta mediante A\B, o bien A-B, al suceso aleatorio formado por todos los sucesos elementa-
les que pertenecen a A, pero no a B.
• Diferencia simétrica: se denomina suceso de diferencia simétrica de A y B, al suceso aleatorio for-
mado por todos los sucesos elementales que pertenecen a A y no a B, y los que están en B y no en A:

3.2. SUCESOS MUTUAMENTE EXCLUYENTES

Los sucesos son mutuamente excluyentes o incompatibles cuando no pueden suceder de manera
simultánea (p. ej.: lanzar una vez una moneda al aire: la posibilidad de que salga cara excluye la de
que salga cruz).

En los sucesos mutuamente excluyentes o incompatibles, la intersección entre los dos sucesos no
existe (Figura 6):

La probabilidad de que dos sucesos mutuamente excluyentes sucedan se obtiene por la adición de
las probabilidades individuales de cada uno: ley de la adición.

Figura 6. Sucesos mutuamente


excluyentes
Por ejemplo, la probabilidad de que salga un 4 o un 6 al lanzar un dado es la suma de cada una de
sus probabilidades.

14
M a n u a l C TO d e E n fe r m e r í a

3.3. SUCESOS NO MUTUAMENTE EXCLUYENTES


En caso de que los sucesos no sean mutuamente excluyentes o sean compatibles, la adición de los dos
sucesos debe tener en cuenta que la intersección no es nula (Figura 7).

Por tanto, la probabilidad de que al lanzar un dado salga un resultado superior a 2 o par, debe tener
en cuenta que los resultados 4 y 6 cumplen con las dos condiciones.

Figura 7. Sucesos no mutuamente


excluyentes

BE
3.4. PROBABILIDAD CONDICIONADA

A veces, la probabilidad de que un determinado suceso tenga lugar depende del resultado de algún otro
suceso, esto se denomina probabilidad condicionada.

Se lee así, probabilidad de que el suceso B tenga lugar, suponiendo que el suceso A ha ocurrido ya
(p. ej.: en un juego de cartas, obtener el as de copas cuando ya ha salido el as de oros).

En este caso, la probabilidad de que dos sucesos A y B ocurran se calcula mediante la ley multipli-
cativa:

En el caso de las cartas, sacar el as de copas de entrada tiene una probabilidad de 1/48 (en la baraja
española), mientras que obtener el as de copas cuando ya ha salido el as de oros es de 1/48 x 1/47.

3.5. SUCESOS INDEPENDIENTES Y DEPENDIENTES

Dos sucesos son independientes si la realización del suceso A no interfiere en la probabilidad del
suceso B, es decir:

Por el contrario, dos sucesos son dependientes si:

En caso de independencia, la ley multiplicativa viene dada por:

La probabilidad de que un recién nacido sea varón será de 0,5 para cada nacimiento, por lo que la
probabilidad de tener dos varones será de 0,25 (1/2 x 1/2).

3.6. TEOREMA DE BAYES

Este teorema permite, mediante el uso de probabilidades condicionadas, conocer la probabilidad


de presencia de enfermedad de un sujeto P(E) después de conocer la presencia de un síntoma P(S),
signo o prueba diagnóstica positiva.
Recuerda
El teorema de Bayes permite hallar va-
lores predictivos (VPPositivos, VPNega-
tivos) desde su relación con el resultado
de la prueba.

15
B ioes t adística

Figura 8. Probabilidad de dos sucesos

Aplicado a la validez de las pruebas diagnósticas, el Teorema de Bayes permite hallar los valores pre-
dictivos a posteriori, es decir, una vez conocido el resultado de la prueba del paciente y conociendo
la prevalencia de la enfermedad en la población.

Ejemplo 8

El 20% de la población indígena de Nueva Guinea padece la enfermedad de Kuru. Para su diagnóstico
se utiliza un test de aglutinación que da falsos positivos en el 10% de los casos.

Pregunta 1 (intersección): ¿Qué probabilidad hay de que un paciente de Nueva Guinea esté enfermo y
tenga un resultado positivo en la prueba?
Pregunta 2 (p. condicional): ¿Qué probabilidad hay de que la prueba resulte positiva si se padece la
enfermedad?

P. 1: ¿ p(Enfermo y Test +) ?
P. 2: ¿ p(Test +/Enfermo) ?

Pregunta 3 (p. condicional): ¿Qué probabilidad hay de que la prueba resulte negativa si no se tiene la
enfermedad? ¿ p(Test -/Sano)?
Pregunta 4 (teorema de Bayes): ¿Qué probabilidad hay de estar enfermo si la prueba ha salido positiva?
¿ p(Enfermo/Test +)?
Pregunta 5 (teorema de Bayes): ¿Qué probabilidad hay de estar sano si la prueba ha sido negativa?
¿p(Test -/Sano)?

16
M a n u a l C TO d e E n fe r m e r í a

BE

Figura 9. Resolución del Ejemplo 8

17
B ioes t adística

TEMA 4

DISTRIBUCIONES DE PROBABILIDAD
Una vez seleccionada la muestra y recogidos los datos, el siguiente paso será inferir las propieda-
des de la población a partir de la muestra (estadística inferencial). El instrumento conceptual que
permitirá esta generalización es un modelo de población, es decir, una representación simbólica
de su comportamiento. Atendiendo a la clasificación de las variables aleatorias en discretas y con-
tinuas se describirán las principales leyes de probabilidad de cada una de ellas.

Cuando se quiera realizar un estudio o cálculo de probabilidades con variables aleatorias continuas
se utilizan: distribución normal o gaussiana, distribución uniforme o rectangular, distribución expo-
nencial o distribución t de Student.

Para el estudio de las distribuciones con variables aleatorias discretas, se aplican: distribución de
Bernoulli, distribución binomial y distribución de Poisson.

Las tres leyes teóricas más utilizadas por distribuciones de probabilidad que tienen la particula-
ridad de ser seguidas por una inmensa mayoría de los fenómenos biológicos habituales son las
siguientes:
• Distribución de Gauss o normal.
• Distribución binomial.
• Distribución de Poisson.

4.1. DISTRIBUCIONES CONTINUAS

4.1.1. Distribución normal

La mayoría de las variables biológicas siguen una distribución denominada normal o de Gauss. La
forma de la función de densidad es la llamada campana de Gauss (Figura 10). Esta distribución se
caracteriza por:
• Tener forma de campana.
• Ser simétrica alrededor de la media (el área comprendida entre la curva y el eje de abscisas se
encuentra concentrado alrededor de la media).
• Media, mediana y moda coinciden.
• La mayor parte de los valores se sitúan alrededor de la media.
• Va de – ∞ a + ∞.
• El área total bajo la curva es 1.
• La probabilidad de un valor concreto es 0.
• Se puede conocer entre qué valores está un determinado por-
centaje de valores:
- La media ± 1 desviación estándar comprende el 68% cen-
tral de los valores.
- La media ± 2 desviaciones estándar comprende el 95%
central de los valores.
- La media ± 2,57 desviaciones estándar comprende el 99%
central de los valores.
- La media ± 3 desviaciones estándar comprende el 99,75%
central de los valores.

4.1.2. Transformación de la curva normal en la normal


tipificada

Si se trabaja con una variable cuantitativa, x, que sigue la ley nor-


mal de media () y varianza (2), su representación gráfica es la de
una curva que tiene una fórmula matemática que permite calcular
la superficie de debajo de la curva para cualquier intervalo.

Figura 10. Distribución normal o de Gauss

18
M a n u a l C TO d e E n fe r m e r í a

La ley normal estandarizada permite hacer cálculos de probabilidad de debajo de la curva de forma
muy sencilla, convirtiendo a la familia de las curvas normales en lo que se llaman normales tipifica-
das haciendo el valor de  = 0 y el valor de 2 = 1:

Esta transformación se hace de manera matemática haciendo una serie de operaciones sobre la fór-
mula de la curva, de forma que ahora cada valor de variable del eje de ordenadas toma un nuevo
valor llamado z, que es igual a:

Donde:

BE
• xi: es el valor de la variable que sigue una distribución normal.
• μ: valor de la media poblacional de la variable continua a estudio (talla, peso, colesterol, urea, etc.).
• : desviación típica de la variable continua a estudio.

Si se tiene un valor de una variable xi y se desea calcular la probabilidad de sujetos (porcentaje de


individuos) que tiene ese valor de variable, primero se calcula su correspondiente zi mediante la
fórmula anterior y este valor se traslada a las tablas z, donde aparecen calculadas todas las áreas
posibles de debajo de la curva para cada valor de z (se miden desde el punto 0 hasta el valor de z
calculado).

4.2. DISTRIBUCIONES DISCRETAS

4.2.1. Distribución de Bernoulli

Sin ser una de las leyes que siguen habitualmente los fenómenos biológicos, conviene citarla dado
que es la base sobre la que podrá desarrollarse la distribución binomial. La distribución de Bernoulli
consiste en realizar un experimento aleatorio una vez y observar si cierto suceso ocurre o no, siendo
p la probabilidad de que esto sea así (éxito) y q = 1−p la de que no lo sea (fracaso).

Se trata de una variable dicotómica, es decir que únicamente puede tomar dos modalidades. Lla-
mar éxito o fracaso a los posibles resultados de las pruebas obedece más a una forma de reflejarlas
en los tratados de estadística sobre el estudio de las variables aleatorias, que a la situación real que
pueda derivarse del resultado. Se puede definir este experimento mediante una variable aleatoria
(va) discreta X que toma los valores X = 0 si el suceso no ocurre, y X = 1 en caso contrario. Un ejem-
plo típico de este tipo de variables aleatorias consiste en lanzar una moneda al aire y considerar la
variable aleatoria (p).

4.2.2. Distribución binomial

Es una ley teórica de aplicación siempre que se conozca, de entrada, la probabilidad de aparición de
un fenómeno biológico (p). El resultado es dicotómico y puede ser evaluado como “éxito o fracaso”
(distribución de Bernoulli). Se dice que una variable aleatoria X sigue una ley binomial de parámetros
n y p, si es la suma de n variables aleatorias independientes de Bernouilli con el mismo parámetro p.

La variable de interés es el número de éxitos alcanzados en n pruebas. La distribución binomial se


representa siempre por un diagrama de barras discontinuo (se aplica a variables discretas).

La distribución de frecuencias de una variable dicotómica sigue la ley binomial, que se enuncia
B (n, p), donde n es el número total de sucesos y p la probabilidad de que el suceso que nos in-
teresa suceda. Siguen esta ley la presencia de hipertensión, el daltonismo, el resultado positivo
de una prueba, etc.

Por ejemplo, una urna que contiene bolas blancas y negras en proporción P(blanca) = p y P(negra) =
1-p. Se extrae de manera aleatoria un número K bolas blancas o negras (con reposición después de
cada extracción). Al extraer un total de n bolas, se tiene una probabilidad p(K).

19
B ioes t adística

Ejemplo 9
Recuerda
La distribución normal o gaussiana se
Sacar 2 bolas blancas en un total de 3 extracciones, si en la bolsa la proporción de bolas blancas es del
utiliza con variables continuas. 60%, tendría una probabilidad:
Las distribuciones binomial y/o Poisson
se emplean para variables discretas.

4.2.3. Transformación de la distribución de probabilidad binomial en la normal

Cuando el tamaño de la muestra es grande (n >30) y los valores de np y npq son mayores o iguales a
5, la distribución de la ley binomial sigue la misma ley que la normal.

En este caso, la media se denomina esperanza matemática y es igual a np.

Y la varianza se hace igual a npq = np (1 - p).

La desviación estándar será la raíz cuadrada de esto .

Se hallan los puntos en z y se calcula la probabilidad de la misma forma que para el cálculo de la
normal.

4.2.4. Distribución de Poisson

Es un caso particular de la distribución bino-


DISTRIBUCIONES DE PROBABILIDAD mial. En general se aplica la distribución de
Poisson o de los sucesos raros, como también
D. Normal D. Binomial D. Poisson
se la conoce, como aproximación de experi-
· Forma de campana · Se tiene que conocer Distribución BINOMIAL-BAJA: mentos binomiales donde el número de prue-
· Simétrica alrededor de antemano la probabilidad · Probabilidad de que ocurra el bas es muy alto, pero la probabilidad de éxito
de media de que ocurra un n.º suceso es muy baja próxima muy baja.
· M-M-M coinciden de sucesos o fenómenos a 0 (p < 0,01)
· Área total bajo curva = 1 biológicos (hipertensión, · Probabilidad no ocurra
Probabilidad de un valor daltonismo, infartos…) próxima a1(p = 1) Se emplea, por tanto, cuando la probabilidad
concreto es 0 · Resultado dicotómico · Definida por un parametro: de aparición del suceso es muy baja, próxima
(+/->>éxito/fracaso) media poblacional a 0 (p < 0,01), y la probabilidad de no aparición
de variables discretas media = varianza poblacional próxima a 1 (q ≈ 1).
· Asimétrica pero según
aumenta la media
se normaliza Las características de la distribución de Pois-
son son las siguientes:
• Definida por un único parámetro, la media
poblacional.
• La media es igual a la varianza poblacio-
nal.
Figura 11. Cuadro comparativo de distribuciones • Es asimétrica, pero a medida que aumenta
la media tiende a la normalidad.

TEMA 5

ESTADÍSTICA INFERENCIAL

5.1. CONCEPTO DE INFERENCIA ESTADÍSTICA

La estadística inferencial tiene como objetivo establecer conclusiones en la población (inferir) a partir de
los resultados obtenidos en la muestra. Dentro de este contexto, será necesario asumir un estadístico o
20
M a n u a l C TO d e E n fe r m e r í a

estimador como una variable aleatoria con una determinada distribución, y que será la pieza clave en las
dos amplias categorías de la inferencia estadística: la estimación de parámetros y el contraste de hipótesis.

La estadística inferencial se ocupa de:


• Estimación de parámetros de la población: el concepto de estimador, como elemento fundamen-
tal, está caracterizado por una serie de propiedades que servirán para elegir el “mejor estimador”
ante o para un determinado parámetro de una población, así como los métodos para la obtención
de los mismos, tanto en una estimación puntual como en una estimación por intervalos.

Ejemplo 10
• ¿Qué proporción de fumadores hay en la provincia de Guadalajara?
• ¿Cuál es el valor medio de la concentración de colesterol en los hombres de entre 18-65 años?

BE
• Contraste de hipótesis: en la práctica pueden presentarse situaciones en las que exista una teo-
ría preconcebida relativa a la característica de la población sometida a estudio y que obligará a
contrastarla con la realidad.

Ejemplo 11
• ¿Fuman más las mujeres que los hombres?
• ¿Las características de la dieta influyen en la concentración de colesterol?
• ¿Son más altos los niños de la Comunidad Valenciana que los de la Comunidad de Madrid?

5.2. ESTIMACIÓN DE PARÁMETROS


ESTIMACIÓN DE LA MEDIA

La precisión en la estimación de cualquier parámetro (media, proporción, etc.) en la población de-


Recuerda
pende de su variabilidad en la misma y del tamaño de la muestra estudiada. La precisión del estimador y del inter-
valo de confianza permite trabajar con
muestras prácticamente iguales a la
El valor del parámetro media es único, pero no es posible trabajar con toda la población, por lo
población.
que se consideran muestras representativas. Cada una de las muestras extraídas de una pobla-
ción tienen un valor diferente para su media, y ésta fluctuará alrededor de la media parámetro
y será más próxima cuanto mayor sea la muestra, pero nunca serán iguales. Por tanto, es mejor
que, en vez de un único valor, se trabaje un intervalo de valores donde el parámetro poblacional
tiene la probabilidad de estar. Este intervalo, llamado de confianza, se calcula a partir del error
estándar de la media y de los principios de la curva normal.

Se entiende por error estándar una medida de dispersión de todas las medias muestrales con res-
pecto a la media poblacional. Su fórmula viene dada por:

Si a una estimación puntual (de una media, de una proporción, etc.) se le asocia el error de muestreo,
se obtendrá un intervalo de confianza denominado intervalo de confianza 1-α (de la media, de la
proporción, etc.). Si se construye un intervalo de confianza del 95%, la conclusión es que en el 95%
de las ocasiones la media poblacional está entre:

El intervalo de confianza (generalmente del 95%) corresponde al rango de valores con una probabi-
lidad del 95% de contener el verdadero valor del parámetro.

Si el intervalo de confianza es del 99%, la media poblacional se encontrará el 99% de las veces entre
los valores de:

El intervalo de confianza del 99% corresponde al rango de valores con una probabilidad del 99% de
contener el verdadero valor del parámetro.
21
B ioes t adística

En el caso de que la muestra sea pequeña (n < 30) los límites de confianza se calculan utilizando los
valores tabulados de la t de Student, que son valores no fijos, dependientes del número de sujetos
que tenga la muestra (distribución de la t de Student):

5.3. ESTIMACIÓN DE PARÁMETROS


ESTIMACIÓN DE UNA PROPORCIÓN POBLACIONAL p,
A PARTIR DE UNA MUESTRA GRANDE n > 30
CON PROPORCIÓN CALCULADA = p

Se calcula de la misma forma que para la media poblacional, teniendo en cuenta que el error mues-
tral de la proporción es igual a:

El resto del proceso de la construcción del intervalo de confianza es idéntico:


• Fijar el nivel de confianza.
• Calcular:
- z para dicho nivel de confianza, sabiendo que para un nivel de confianza del 95%, z es igual a
1,96 y para un intervalo del 99%, z = 2,57.
- La proporción de la muestra.
- El error estándar de la distribución muestral.
- El desvío estándar de la media muestral (z/2 x EE).

• Construir el intervalo de confianza sumando y restando a la proporción muestral obtenida (p) el


desvío calculado.

5.4. CONTRASTE DE HIPÓTESIS. ERROR TIPO I Y II

Recuerda En la práctica se pueden presentar situaciones en las que exista una teoría preconcebida sobre
El propósito inicial de todo estudio al algunas características de la población estudiada. Por ejemplo, si se piensa que un tratamiento
que se le somete al contraste de hipótesis nuevo puede tener un porcentaje de éxito mayor que otro estándar, o cuando se plantea si los niños
parte de la idea de rechazar la H0 (avan- de las distintas Comunidades españolas tienen el mismo peso. Este tipo de circunstancias son las
zar en nuevos estudios H1 con resultados que justifican el estudio de una parcela de la Estadística Inferencial denominada genéricamente
mejores).
como contraste de hipótesis. Este concepto implica, en cualquier investigación, la existencia de
dos teorías o hipótesis. De la misma manera aparecen, implícitamente, diferentes tipos de errores
que pueden cometerse durante el procedimiento y que afecten a la decisión final de aceptar o
rechazar una u otra.

5.4.1. Hipótesis nula y alternativa. Significación estadística

Recuerda En el contraste de hipótesis se formulan dos hipótesis: la hipótesis nula (H0, de igualdad, no
El contraste de hipótesis y el valor de diferencia) y la hipótesis alternativa (H1, la hipótesis del investigador, la que se quiere de-
p avalan en parte la decisión correcta, mostrar) que de alguna manera reflejarían esa idea previa que se pretende contrastar con la
pero no eliminan la posibilidad de come- “realidad”.
ter errores.
Antes de contrastar una hipótesis, se fija qué valor máximo de probabilidad se aceptará para
determinar que las diferencias observadas sean debidas al azar. Esta probabilidad se denomina
grado de significación estadística o nivel de significación α o p. Cuanto menor sea el valor
de p obtenido en la prueba de contraste de hipótesis, menor es la probabilidad de que las di-
ferencias observadas sean debidas al azar. En Ciencias de la Salud, por convenio se considera
significativo todo valor de p igual o inferior a 0,05. Si α < 0,05, se aceptará H1, mientras que si
α > 0,05, se rechazará H1.
22
M a n u a l C TO d e E n fe r m e r í a

Ejemplo 12
Se comparan dos tratamientos, uno nuevo (N) y otro tradicional (T). Con el tratamiento (N) se consigue
un éxito en el 75% de los pacientes y con el T en el 40%. Se pretende averiguar si esta diferencia entre
ambos tratamientos es real (el tratamiento N es mejor que el T) o si, por el contrario, se debe al azar
(variaciones aleatorias del muestreo) sin que realmente existan diferencias entre ambos tratamientos.
Por tanto, se establecen dos hipótesis:
• H0 o hipótesis nula: no existen diferencias entre ambos tratamientos (N = T).
• H1 o hipótesis alternativa: sí existen diferencias entre ambos tratamientos (N ≠ T).

Estas dos hipótesis son mutuamente excluyentes, por lo que sólo son posibles dos decisiones:
• Rechazar H0 ........... y aceptar H1.
• No rechazar H0 ........... y rechazar H1.

BE
5.4.2. Tipos de errores

Las pruebas de contraste de hipótesis conducen a la aceptación o al rechazo de la hipótesis nula. Este
proceso conlleva en sí mismo dos tipos de errores (Tabla 3):
• Error tipo I: error que se comete al rechazar la hipótesis nula, siendo ésta cierta. El riesgo α es la
probabilidad de cometer un error tipo I. El riesgo α es conocido y se fija antes de iniciar el expe-
rimento. Generalmente se rechaza la hipótesis nula cuando el riesgo de equivocarse es menor
de 0,05 (riesgo α).
• Error tipo II: error que se comete al no rechazar la hipótesis nula, siendo ésta falsa. El riesgo β es
la probabilidad de cometer un error tipo II.

VERDAD
H0 verdadera H0 falsa
H0 verdadera Decisión correcta Error tipo II
DECISIÓN
H0 falsa Error tipo I Decisión correcta

Tabla 3. Tipos de errores

La potencia o poder estadístico corresponde al concepto complementario y expresa la posibi-


lidad de aceptar correctamente la hipótesis alternativa (probabilidad de encontrar diferencias
que realmente existen).

Una prueba de hipótesis será tanto mejor cuanta mayor potencia tenga.

• Relación entre los dos tipos de errores: los errores asociados a las pruebas de contraste de hipó-
tesis son análogos a las características asociadas a una prueba diagnóstica.

5.5. TIPOS DE PRUEBAS DE CONTRASTE DE HIPÓTESIS

Las pruebas de contraste de hipótesis se pueden clasificar, en función del problema que plantean, en
tres tipos:
• Pruebas de conformidad: en ellas se determina:
- Si los resultados de un estudio están, o no, de acuerdo con una teoría preexistente.
- Si un valor o una distribución observada procede, o no, de una distribución teórica conocida.

• Pruebas de homogeneidad: se utilizan al estudiar dos o más muestras y si se desea averiguar si


proceden de la misma población.
• Pruebas de relación o de independencia: se estudian dos o más variables en un mismo indivi-
duo y se desea conocer si estas variables están relacionadas entre sí.

Las pruebas de hipótesis también se pueden clasificar en función de la distribución que siguen las
variables estudiadas o los estadísticos utilizados. Se diferencian dos tipos de pruebas:
• Pruebas paramétricas: para su utilización, deben cumplirse determinadas condiciones en los
parámetros de la población de donde se obtuvo la muestra. Se fundamentan en la distribución
normal o derivada.
• Pruebas no paramétricas: no hacen ningún supuesto sobre los parámetros de la población.
23
B ioes t adística

5.5.1. Comparación de proporciones. Prueba de Jhi cuadrado

Para estudiar la relación entre dos variables cualitativas o categóricas, se utiliza la prueba de la Jhi
cuadrado (es lo mismo que Chi cuadrado).

Ejemplo 13
• ¿Los hombres fuman más (fumar sí/no) que las mujeres?
- Tipo de variable:
› Sexo (hombre/mujer): cualitativa (dos categorías)
› Fumar (sí/no): cualitativa (dos categorías).
Recuerda
Chi cuadrado t-Student, ANOVA, correla- La relación entre las dos variables, sexo y hábito de fumar, se puede expresar en una tabla de contingen-
ción y regresión son las pruebas que per- cia donde, en las distintas casillas, se muestra la distribución de frecuencias observadas de cada catego-
miten estudiar la relación de variables ría de la variable sexo, en función de las categorías de la variable hábito de fumar (o viceversa) (Tabla 4) .
independientes con muestras paramé-
tricas (n ≥ 30).
FUMADOR NO FUMADOR
HOMBRE 3 7
MUJER 5 4

Tabla 4. Tabla de contingencia 2 x 2

Ejemplo 14
• ¿El ejercicio físico (nulo/moderado/intenso) se relaciona con la obesidad (sí/no)?
- Tipo de variable (Tabla 5):
› Ejercicio físico: cualitativa (tres categorías).
› Obesidad (sí/no): cualitativa (dos categorías).

EJERCICIO FÍSICO EJERCICIO FÍSICO EJERCICIO FÍSICO


NULO MODERADO INTENSO
OBESIDAD SÍ 7 2 1
OBESIDAD NO 1 4 5

Tabla 5. Tabla de contingencia 3 x 2

La condición de aplicación de esta prueba estadística es que, en cualquier casilla de la tabla de contingencia, las
frecuencias esperadas sean  5.

Ejemplo 15
Considerando lo recogido en la Tabla 3, la frecuencia esperada en la casilla correspondiente a FUMA-
DOR/HOMBRE se calcularía:

donde 10 es el total de la fila, 8 el total de la columna y 19 el total de sujetos.


Fórmula de la Jhi-cuadrado:

5.5.2. Comparación de medias. Prueba t de Student y análisis de la varianza

Las pruebas de comparación de medias estudian la relación entre una variable categórica y una
variable cuantitativa. Las pruebas utilizadas son la t de Student, cuando la variable cualitativa o cate-
24
M a n u a l C TO d e E n fe r m e r í a

górica tiene dos categorías, y el análisis de la varianza (ANOVA), si la variable categórica posee más
de dos categorías.

Ejemplo 16

¿Los hombres son más altos que las mujeres?


Tipos de variables:
• Cualitativa: sexo (hombre/mujer).
• Cuantitativa: altura (cm).

¿Qué prueba estadística utilizaría?

Solución: t de Student.

BE
Ejemplo 17

¿El ejercicio físico (nulo/moderado/intenso) se relaciona con la masa corporal?


Tipos de variables:
• Cualitativa: ejercicio físico (nulo/moderado/intenso).
• Cuantitativa: masa corporal (kg).

¿Qué prueba estadística utilizaría?

Solución: ANOVA.

El uso de estas dos pruebas estadísticas obliga a que se cumplan las siguientes condiciones para su
aplicación:
• La muestra debe ser superior a 30 casos (n ≥ 30).
• Si n < 30, la variable deberá seguir una distribución normal o gaussiana.

Cuando no se cumplen estos criterios, se deben utilizar pruebas o test no paramétricos: U de Mann-
Whitney, como alternativa a la t de Student, y test de Kruskal-Wallis, como alternativa al análisis de
la varianza (ANOVA).

5.5.3. Estudio de la relación entre dos variables cuantitativas. Correlación y regresión


Recuerda
La correlación y la regresión están basadas
Existen dos tipos de análisis para estudiar la relación entre dos variables cuantitativas: la correlación en la demostración de la dependencia
y la regresión lineal. funcional o total y en la independencia
entre las variables, pero con algún tipo
de relación entre sí, a pesar de que sean
Al manejar los conceptos de correlación y de regresión, se tendrán en cuenta elementos más básicos
variables independientes.
como la dependencia y la independencia entre variables.

La dependencia funcional o total se describe con un ejemplo común conocido y se expresa con una
fórmula matemática. Por ejemplo, en una población de alumnos, se definen las variables x = altura me-
dida en centímetros e y = altura medida en metros. Al tomar a uno de los alumnos, no podrá saberse
cuál es su altura hasta su medición. Sí podrá tenerse cierta intuición sobre qué valor es más probable
que tome (alrededor de la media, con cierta dispersión). Sin embargo, si la medida x ha sido realizada,
no es necesario practicar la de y, pues la relación entre ambas es exacta (dependencia funcional):

y = x/100

Existe un concepto completamente opuesto a la dependencia funcional, que es el de independen-


cia. Se dice que dos variables x e y son independientes si la distribución marginal de una de ellas es la
misma que la distribución condicionada por cualquier valor de la otra. Por ejemplo, considerada una
población de alumnos se definen las variables x = altura en centímetros e y = peso en kg. Trasladan-
do este concepto a una figura, gráfico o tabla bidimensional con filas y columnas, se obtendrá que
todas las filas y todas las columnas van a ser proporcionales entre sí. (Cuanto más alta sea la posición
de la fila, más alta será la columna hasta juntarse con la fila).

De la dependencia conjunta, de la relación entre ambas para “comportarse”, nace el concepto de


covarianza en esa correlación.

De la independencia entre variables surge la regresión de cada valor desde su eje hasta encontrarse
con la otra variable dando lugar a una zona de unión o regresión en forma de línea o no lineal, resul-
tado de la influencia de una variable sobre la otra.
25
B ioes t adística

Covarianza

La covarianza (S) de xy es una medida que nos hablará de la variabilidad conjunta de dos variables
numéricas (cuantitativas). Para hacer una interpretación geométrica de la covarianza, se considera la
nube de puntos formadas por las (n) parejas de datos (xi, yi). El centro de gravedad de esta nube de
puntos es (x-y),

Se trasladan los ejes xy al nuevo centro de coordenadas: x(+)(-), y(+)(-).

Queda así dividida la nube de puntos en cuatro cuadrantes.

2 3
1 4

De este modo:
• Si hay mayoría de puntos en el tercer y en el primer cuadrante, ocurrirá que Sxy ≥ 0, lo que se
puede interpretar como que la variable y tiende a aumentar cuando lo hace x.
• Si la mayoría de puntos están repartidos entre el segundo y cuarto cuadrante entonces Sxy ≤ 0, es
decir, las observaciones y tienen tendencia a disminuir cuando las de x aumentan.
• Si los puntos se reparten con igual intensidad alrededor de (x, y), entonces se observa que Sxy = 0.

La interpretación de la covarianza relacionada con estas variables será:


• Si Sxy ≥ 0, las dos variables crecen o decrecen a la vez (nube de puntos creciente).
• Si Sxy ≤ 0, cuando una variable aumenta, la otra tiene tendencia a disminuir (nube de puntos
decreciente).
• Si los puntos se reparten con igual intensidad alrededor de (x, y), Sxy = 0 (no hay relación lineal).

Correlación

La covarianza es una medida de la variabilidad común de dos variables (crecimiento de ambas al


tiempo o crecimiento de una y decrecimiento de la otra), pero está afectada por las unidades en
las que cada variable se mide. Así pues, es necesario definir una medida de la relación entre dos
variables, y que no esté afectada por los cambios de unidad de medida. Una forma de conseguir este
objetivo es dividir la covarianza por el producto de las desviaciones típicas de cada variable, ya que
así se obtiene un coeficiente adimensional (r) que se denomina coeficiente de correlación lineal de
Pearson: r = Sxy.

Este coeficiente permite conocer si entre dos variables cuantitativas existe una asociación lineal. En
la correlación, ambas variables juegan un papel simétrico (no se puede diferenciar entre variable
dependiente o independiente).

El coeficiente de correlación de Pearson (r) cumple las siguientes propiedades:


• Mide el grado de asociación lineal.
• Carece de unidades de medida (es adimensional).
• Es invariante para transformaciones lineales (cambio de origen y escala) de las variables.
• Sólo toma valores comprendidos entre −1 y +1:
- Cuando (r) esté próximo a 1, se tiene que existe una relación lineal muy fuerte entre las variables.
- Cuando (r) es aproximadamente igual 0, puede afirmarse que no existe relación lineal entre
ambas variables. Se dice en este caso que las variables son incorreladas o incorrelacionadas.

La representación mediante un diagrama de dispersión de los valores de la variable y en función de


la variable x da lugar a una nube de puntos de distintas formas que permite comprender mejor este
concepto (Figura 12):
• En la Figura 12a: los valores de la variable y son independientes de los de la variable x. El coefi-
ciente de correlación próximo o igual a 0 (r ≈ 0) indica que no existe asociación lineal entre ambas
variables.
• En la Figura 12b: los valores de la variable y aumentan a medida que lo hacen los de la variable x.
El coeficiente de correlación se encuentra próximo a 1 (r ≈ +1) e indica que existe una asociación
lineal positiva entre ambas variables (cuando aumenta y, lo hace x).
• En la Figura 12c: los valores de la variable y disminuyen a medida que aumentan los de la varia-
ble x. El coeficiente de correlación negativo y próximo a –1 (r ≈ –1) indica que existe una asocia-
ción lineal negativa entre ambas variables (cuando disminuye una, aumenta la otra).
26
M a n u a l C TO d e E n fe r m e r í a

Cuando hay ausencia total de dependencia


con patrón lineal y se dice que las variables
están incorrelacionadas, entonces las rectas
de regresión son dos rectas paralelas a los ejes
y, por tanto, perpendiculares entre sí, que se
cortan en (x, y).

Regresión y regresión lineal simple

Las técnicas de regresión permiten hacer pre-


dicciones sobre los valores de cierta variable
y ( dependiente), a partir de los de otra x (in-
dependiente), entre las que se sospecha que
existe una relación.

BE
Recordando los ejemplos mencionados en el
concepto anterior: si sobre un grupo de per-
sonas se observan los valores que toman las Figura 12. Curvas posibles en la correlación
variables: x = altura medida en centímetros,
y = altura medida en metros, se sabe ya que
y = x/100.

Obtener esta relación es menos evidente cuando lo que se mide sobre el mismo grupo de personas
es: x = altura medida en centímetros, y = peso en kilogramos. La falta de evidencia nace de que no
es cierto que conocida la altura xi de un individuo, sea posible determinar de modo exacto su peso yi
(p. ej.: dos personas que miden 1,70 m pueden tener pesos respectivos de 60 y 65 kg). Sin embargo,
alguna relación entre ellas debe existir, pues parece mucho mas probable que un individuo de 2 m
pese más que otro que mida 1,20 m.

La deducción, a partir de una serie de datos, de este tipo de relaciones entre variables, es lo que se
denomina regresión.

Las propiedades de la regresión son las que se citan a continuación:


• Estudia la asociación lineal entre dos variables cuantitativas.
• Una variable actúa como independiente (variable x, predictora, causa) y la otra variable como
dependiente (variable y, respuesta, efecto).
• Establece la ecuación de la recta que mejor se ajusta a la nube de puntos descrita por las varia-
bles x e y. Esta recta se calcula por el método de los mínimos cuadrados.
• La ecuación de la recta permite predecir el valor de la variable y en función de la variable x.

La regresión lineal simple es un paso más en el estudio de la relación entre dos variables cuanti-
tativas. Incluida en la regresión lineal, la covarianza es el producto-momento de las puntuaciones de
desviación de las variables x e y, o dicho de otra forma, es la media de la suma de productos de las
puntuaciones de desviación. Así la covarianza indica la variabilidad que existe entre dos conjuntos
de puntuaciones.

Entre las propiedades de la covarianza se enumeran las siguientes:


• Los valores que adopta son positivos, negativos y 0.
• Puede servir como criterio para deducir el coeficiente b de la pendiente de la recta.
• El coeficiente de correlación de Pearson se puede definir en términos de varianzas y covarianzas
como la razón de la covarianza a la raíz cuadrada del producto de
las varianzas.

La regresión lineal consiste en encontrar la forma de aproxi-


mar los valores de una variable a partir de los de otra, usando
una relación funcional de tipo lineal, es decir, se buscan lo que
se denominan coeficientes de regresión (a y b). El coeficiente
b determina la regresión de y (dependiente) sobre x (indepen-
diente). Hay que tener en cuenta que si x varía en 1 unidad,
y varía la cantidad b. De tal forma que el modelo lineal dará
mejores predicciones cuando (r) (relación lineal) sea próximo
a 1 o -1.

Por tanto:
• Si b > 0, las dos variables aumentan o disminuyen a la vez.
• Si b < 0, cuando una variable crece, la otra decrece.

En la ecuación de la recta de regresión pueden diferenciarse varios


elementos tal como se observa en la Figura 13. Figura 13. Recta de regresión

27
B ioes t adística

5.5.4. Análisis de datos apareados

Los datos apareados son aquellos en que la misma variable es medida antes y después de una
intervención.

Las pruebas estadísticas utilizadas son las siguientes: la prueba de McNemar (comparación de pro-
porciones), la prueba t de Student para datos apareados y el índice kappa (para valorar la concordan-
cia en estudios de reproducibilidad).

5.5.5. Pruebas no paramétricas

Se llaman pruebas no paramétricas aquellas pruebas cuyas hipótesis se formulan independientemen-


te de las distribuciones de probabilidad que sigan las variables, es decir las variables no cumplen las
condiciones de aplicación de las pruebas paramétricas clásicas (Tabla 6).

PRUEBA PRUEBA
1.ª VARIABLE
2.ª VARIABLE DE TENDENCIA PARA LA DISTRIBUCIÓN
CUALITATIVA
CENTRAL EN CONJUNTO
2 categorías Prueba de U Mann Kolmogoroff
Cuantitativa
independientes Whitney Smirnow
2 categorías apareadas Cuantitativa T de Wilcoxon
> 2 categorías
Cuantitativa Kruskal Wallis
independientes
> 2 categorías apareadas Cuantitativa Friedman
Coeficiente
1.ª variable 2.ª variable cuantitativa
de correlación
cuantitativa u ordinal u ordinal
de Spearman

Tabla 6. Tipos de pruebas no paramétricas

Algunas pruebas no paramétricas se describen en los ejemplos siguientes:


• U Mann Whitney: comparar el tiempo de supervivencia (segunda variable cuantitativa) de dos cepas
de ratones (A y B) (primera variable cualitativa con dos categorías) después de administrar un veneno.
• T de Wilcoxon: muestra de diez ratones a los que se les somete a dos tratamientos diferentes
(tratamiento A y tratamiento B: primera variable cualitativa con dos categorías) y se quiere medir
el tiempo de recuperación (segunda variable cuantitativa) en cada uno de ellos (muestras apa-
readas, se mide la recuperación para el veneno A y luego para el veneno B en el mismo ratón).
• Kruskal Wallis: comparar el tiempo de supervivencia (segunda variable cuantitativa) en varias ce-
pas de ratones (primera variable cualitativa con más de dos categorías: especies de ratones diferen-
tes con más de dos tipos) a los que se les administra un nuevo fármaco con el fin de determinar la
dosis letal en cada una de las especies.
• Friedman: muestra de diez ratones a los que
se les somete a tres o más tratamientos dife-
rentes (primera variable cualitativa con más
de dos categorías que se mide en el mismo
ratón) y se mide supervivencia en cada uno
de ellos (segunda variable cuantitativa).
• Coeficiente de correlación de Spearman:
mide lo mismo que el coeficiente de corre-
lación de Pearson, pero ahora las variables
no siguen distribución normal de probabi-
lidad.

5.5.6. Análisis multivariante

En la investigación no experimental, con fre-


cuencia se utilizan técnicas estadísticas que
permiten controlar el efecto de otras variables
que pudiesen enmascarar una relación causa-
efecto.

Las herramientas fundamentales para el análi-


sis multivariante son la regresión múltiple y la
Figura 14. Cuadro resumen de pruebas según las variables regresión logística.
28
M a n u a l C TO d e E n fe r m e r í a

TEMA 6

TÉCNICAS DE MUESTREO
Las técnicas de muestreo son el conjunto de procedimientos que permiten llevar a cabo la selección de
muestras a partir de una población.

Existen dos clases de muestreo: el probabilístico (utiliza algún sistema de selección aleatoria) y el no
probabilístico (en el que los elementos que componen la muestra se escogen por métodos en los
que no interviene el azar).

BE
6.1. MUESTREO PROBABILÍSTICO

6.1.1. Muestreo aleatorio simple

Las características del muestreo aleatorio simple son las siguientes:


• La selección de los componentes de la muestra se realiza al azar (con una tabla de números
aleatorios, programas informáticos, etc.).
• Todos los elementos de la población tienen las mismas posibilidades de ser elegidos.
• Desventajas:
- Los elementos de la muestra pueden encontrarse muy dispersos.
- Es necesario disponer inicialmente de una lista con todos los componentes de la población.
- La representación de los grupos minoritarios puede ser mínima.

6.1.2. Muestreo sistemático

Los elementos de la muestra se seleccionan siguiendo algún tipo de regla o proceso periódico.

Ejemplo 18

Se desea realizar un estudio en un consultorio de obstetricia. El número de visitas mensuales es de 1.000


y se ha calculado que el tamaño de la muestra debe ser 100.

En este caso, la constante de muestreo será 10 (1.000/100) y, por tanto, se utilizará 1 de cada 10 histo-
rias. La primera de ellas se seleccionará al azar entre las 10 primeras visitas (p. ej.: la visita número 6 y
luego la 16, 26, 36… hasta la 96).

Este tipo de muestreo no se puede usar cuando el objeto de estudio esté afectado por un proceso
periódico.

6.1.3. Muestreo estratificado

En este tipo de muestreo se divide a la población según ciertas características, como la edad o el
sexo, y luego se selecciona una muestra aleatoria simple de cada uno de los estratos.

Esta muestra puede ser proporcional (cuando la proporción de sujetos de cada uno de los estratos
sigue la misma distribución que ocurre en la población real, muestreo por cuotas) o no proporcional,
si interesa que la proporción de individuos de un determinado grupo sea mayor a la distribución
existente en la población.

6.1.4. Muestreo en etapas múltiples (conglomerados)

Se obtiene una muestra aleatoria simple a partir de agrupaciones naturales: colegios, hospitales;
luego, en una segunda fase, se extrae una muestra de los individuos de dichas agrupaciones. Este
tipo de muestreo es especialmente útil cuando la población es muy dispersa.

Como desventaja requiere un mayor tamaño muestral.


29
B ioes t adística

6.2. MUESTREO NO PROBABILÍSTICO

6.2.1. Muestreo consecutivo

Es la técnica no probabilística más utilizada. Consiste en reclutar, por ejemplo, a todos los individuos
que acuden a una consulta durante un periodo determinado (el suficiente como para contar con
todos los individuos correspondientes al tamaño muestral calculado) y que cumplan los criterios de
inclusión establecidos.

6.2.2. Muestreo de conveniencia

El investigador selecciona a aquellos individuos que presentan más fácil acceso.

6.2.3. Muestreo a criterio

El investigador selecciona a quienes considera más apropiados.

TEMA 7

CÁLCULO DE MUESTRAS REPRESENTATIVAS


Para este cálculo se precisa tener en cuenta qué tipo de variables se desean estimar en las muestras
para hacer sus inferencias a la población: es decir, si se quiere estimar una media, se tratará de una
variable cuantitativa, mientras que si es el caso de una proporción, se tendrá una variable cualitativa
binomial.

7.1. CÁLCULO DE UNA MUESTRA


PARA LA ESTIMACIÓN DE PROPORCIONES

La fórmula para estimar la proporción de una población es la siguiente:

Este intervalo viene definido por la estimación puntual p y por su amplitud, conocida como precisión
de la estimación i, que corresponde a la distancia que separa los límites de este intervalo de su centro
(la estimación puntual):

El tamaño de una muestra se calcula en función del intervalo de confianza elegido y de la pre-
cisión de la estimación que se desee obtener, quedando la fórmula anterior de la siguiente
manera:

Si p y q son conocidas, se sustituyen sus valores en la fórmula; en caso de no conocer este valor se
toman sus valores máximos posibles (p = 0,5 y q = 0,5).
30
M a n u a l C TO d e E n fe r m e r í a

Ejemplo 19

Se desea calcular el número mínimo de individuos de una muestra a partir de la cual se quiere conocer
la prevalencia de la hipertensión arterial en una comunidad, aceptando un riesgo de error del 5% y
pretendiendo una precisión del 2,5%. Como los valores de p y q son desconocidos, se adoptan valores
máximos es decir p = 0,5 y q = 0,5

7.2. CÁLCULO DE UNA MUESTRA


PARA LA ESTIMACIÓN DE UNA MEDIA

BE
Para hacer la estimación de una media se debe calcular el tamaño de la muestra en función de la
precisión i y del intervalo de confianza deseado:

es decir, la media muestral +/- la precisión:

La precisión es igual a zα/2 . σ/√–n :

Si no se conoce la variancia poblacional, se tendrá que recurrir a la variancia muestral encontrada en


estudios parecidos.

Ejemplo 20

Se desea saber cuál debe ser el tamaño mínimo de una muestra para poder realizar la estimación de la
tasa media de glucosa plasmática de una determinada población, con un nivel de confianza del 95% y
pretendiendo una precisión de 2,5 mg. Sabiendo que la desviación típica muestral es de 10 mg:

Para realizar esta estimación es necesaria una muestra de 62 sujetos.

PROBLEMAS RESUELTOS

Problemas Resueltos
1. Identificar los siguientes tipos de variables: 2. Dadas las siguientes variables, a qué tipo de escala de medi-
ción pertenecen:
- Color de pelo ........................................ V. cualitativa
- N.º de hijos............................................. V. cuantitativa discreta - Glucosuria (-, +, ++, +++) ................. Ordinal
- Tensión arterial sistólica.................... V. cuantitativa continua - Sexo .......................................................... Nominal (dicotómicos)
- N.º de ingresos hospitalarios .......... V. cuantitativa discreta - Peso .......................................................... Razón
- Glucemia ................................................ V. cuantitativa continua - Color de ojos ......................................... Nominal
- Sexo .......................................................... V. cualitativa - Dolor (leve, moderado, severo) ...... Ordinal
- Talla .......................................................... V. cuantitativa continua - Talla .......................................................... Razón
- Nacionalidad ......................................... V. cualitativa -
- N.º de caries........................................... V. cuantitativa discreta 3. Dados los siguientes conjuntos de observaciones:
- Religión ................................................... V. cualitativa a) 3, 4, 2, 1, 3, 3, 6, 5, 9
b) 6, 3, 3, 4, 39, 5

31
B ioes t adística

Calcular la media, la mediana y la moda e identificar la medida 5. Se tiene una muestra de 200 sujetos con una cifra media
de centralización más indicada en cada caso y el por qué de de glucemia de 95 mg/dl y una desviación estándar de 10.
su uso. ¿Cuántos sujetos tendrán una glucemia entre 85 y 115?

a) La media es 95 y la DS es 10, y se pregunta el número de


individuos entre 85 (-1 DS) y 115 (+2 DS). Hay que recordar
que entre +/- 1 DS estaba incluido el 68% de la población
muestral, y lo que aquí se pide es -1 DS, el 34% (la mitad).
mediana = 3 Entre +/- 2 DS se encuentra el 95% central de la distribu-
moda = 3 ción, y se pide el 47,5% (la mitad). Por tanto, entre -1 DS y
+2 DS se encuentra 34% + 47,5% = 81,5% del total.
Como medida de centralización se debería utilizar la media,
dado que se trata de una distribución homogénea (sin valores El 81,5% del total (200 sujetos) representa 163 sujetos (Figura 16).
muy extremos).

b)

mediana = 4, 5
moda = 3

Como medida de centralización debería emplearse la me-


diana, ya que se trata de una distribución heterogénea en la
que la media se ve modificada por los valores atípicos (en este
caso, la presencia de un valor extremo, el 39).

4. En una muestra de 200 sujetos se mide la presión arterial sis-


tólica, siendo la media de 120 mmHg y la desviación estándar
de 10 mmHg. Dado que la cifra de TAS a partir de la cual se
considera a alguien hipertenso es 140 mmHg, ¿cuántos suje-
tos de la muestra presentan esta condición de hipertensos?

La cifra de 140 mmHg corresponde a + 2 DS (Figura 15). Hay que


recordar que entre +/- 2 DS se encuentra el 95% de la población
muestral; por tanto, el resto constituye el 5% (Figura 15).
Figura 16. Representación de la distribución normal del problema 5
Se pide calcular el número de sujetos que constituyen el área
sombreada de la figura, es decir, los individuos con una TA por
encima de + 2 DS. Esto constituye el 2,5% del total (el número
total de individuos que no se incluyen en +/- 2 DS es del 5%, 6. En una muestra de 100 sujetos, 40 son hipertensos, ¿cuál es
pero no hay que olvidar que la mitad está por encima de + 2 DS, la probabilidad de que un sujeto elegido al azar sea hiper-
TA >140 mmHg y la otra mitad por debajo de - 2 DS, TA < 100, tenso?
por lo que el porcentaje de sujetos hipertensos será del 2,5%).
Por consiguiente, el número de hipertensos será de: En esta pregunta, se pretende averiguar la probabilidad de
ocurrencia de un suceso (que un sujeto sea hipertenso). El nú-
mero total de sujetos de la muestra (n) es 100, y de ellos 40 son
hipertensos. Por tanto, la probabilidad de elegir al azar a un
sujeto hipertenso P(A) será:

La probabilidad de elegir al azar un sujeto hipertenso en esta


muestra será de 0,4 (hay un 40% de probabilidades de elegir
un sujeto hipertenso). Por el contrario, la probabilidad de ele-
gir al azar un sujeto no hipertenso P(B), sería la probabilidad
del suceso contrario:

7. En una muestra de 100 sujetos, 40 de ellos son hipertensos.


Se sabe que la mitad de los hipertensos seguían una dieta
hiposódica. ¿Cuál es la probabilidad de elegir al azar a un
sujeto hipertenso que realiza dieta hiposódica?

El enunciado dice que en esa muestra la probabilidad de elegir


Figura 15. Representación de la distribución normal del problema 4
a un sujeto hipertenso es de 0,4 (40%). También habla de que la
mitad de los sujetos hipertensos siguen una dieta hiposódica:

32
M a n u a l C TO d e E n fe r m e r í a

si hay 40 hipertensos, habrá 20 sujetos hipertensos con dieta Por tanto, la probabilidad de obtener alguna cruz es:
hiposódica (la mitad) y 20 sujetos hipertensos que no tienen
dieta hiposódica (la otra mitad). Este problema se puede so-
lucionar con el enunciado únicamente: el número total de in-
dividuos de la muestra es 100, y el de sujetos que cumplen lo
que nos pide el enunciado (hipertenso + dieta hiposódica) es Un enunciado de este estilo (al menos...) se puede resolver
20: calculando el suceso contrario. El suceso contrario a sacar al-
guna cruz (al menos una cruz), es no sacar ninguna cruz. En
este caso sólo lo cumpliría uno de los supuestos: cara-cara. La
probabilidad de no sacar ninguna cruz será:
Pero también se puede solucionar aplicando una fórmula,
dado que se trata de un caso de probabilidad condicionada:
el sujeto tiene que ser primero hipertenso (A) y segundo tener A partir de este resultado:
dieta hiposódica (B/A). Por tanto, lo que nos piden es la P(A 

BE
B). Se debe tener en cuenta que la probabilidad de que un su-
jeto sea hipertenso, P(A), es de 0,4, y la probabilidad de que un
sujeto que sea hipertenso tenga dieta hiposódica P(B/A) es 0,5
(se debe recordar que la mitad de los sujetos hipertensos son 11. ¿Cuál es la probabilidad de sacar 5 bolas blancas de un saco
los que tienen dieta hiposódica, el 50%). Por tanto: que contiene 50 bolas blancas y 50 negras, permitiendo ex-
traer un total de 10 bolas y con reposición en cada extrac-
ción?
Hay que aplicar la fórmula que aparece en el Apartado 4.2.2,
dado que se trata de extracciones con reposición, siendo:
Como se puede comprobar, la solución es la misma que la ob- - N.º total de bolas = 100
tenida sin aplicar la fórmula. - N.º bolas blancas = 50, por lo que P(blanca) o P = 0,5
- N.º bolas negras = 50, por lo que P(negra) o (1 - P) = 0,5
8. ¿Cuál es la probabilidad de obtener dos caras al lanzar dos - N.º de extracciones con reposición o n = 10
veces una moneda? - N.º de bolas blancas a sacar o K = 5

La probabilidad de sacar cara P(c) al lanzar una moneda al aire


es del 50% (o sea de 0,5). De no salir cara, saldría cruz (no se
contempla la posibilidad de que la moneda caiga de canto), 12. En una baraja de 48 cartas, ¿cuál es la posibilidad de sacar
por lo que la probabilidad de sacar cruz P(+) es del 0,5. un trío al elegir de manera sucesiva 3 cartas al azar?

Si se lanza dos veces una moneda al aire, lo que se obtenga al Según el enunciado, se tiene que elegir tres cartas de manera
lanzarla la primera vez no condiciona el resultado del segun- consecutiva sin reposición, y sacar un trío (tres cartas iguales).
do lanzamiento (si la primera sale cara, la segunda puede salir En la baraja, las cartas son iguales de 4 en 4 (4 ases, 4 reyes, 4
tanto cara como cruz). Se tiene un caso de sucesos indepen- caballos, etc.). Considérense los ases: la probabilidad de sacar
dientes. La probabilidad de obtener dos caras, en dos lanza- un as es 4/48 (n.º de ases/n.º total de cartas); ahora se realiza una
mientos, es por tanto: segunda extracción, teniendo en cuenta que sólo quedan 3 car-
tas del mismo valor que la extraída en primer lugar, y 47 cartas
en total, por lo que la probabilidad de obtener otro as es 3/47.
Lo mismo ocurre en la tercera extracción: quedan 2 ases y 46
cartas, siendo la probabilidad de sacar otro as 2/46. Son sucesos
9. ¿Cuál es la probabilidad de obtener una cara y una cruz al dependientes, dado que la extracción del primer as influye en
lanzar dos veces una moneda? las siguientes extracciones (se debe recordar que esto no sería
así si existiese reposición, cosa que en este caso no sucede).
Siguiendo el mismo razonamiento de la pregunta anterior
(puesto que se trata de sucesos independientes), la probabili- Por tanto, la probabilidad de sacar tres cartas iguales será:
dad de sacar una cara y una cruz al lanzar dos veces una mone-
da es de:

Siendo:
- P(A1) = probabilidad de sacar el primer as (por ejemplo).
10. ¿Cuál es la probabilidad de obtener alguna cruz al lanzar dos - P(A2/A1) = probabilidad de sacar un segundo as, habiendo
veces una moneda? sacado ya el primero.
- P(A3/A1 y A2) = probabilidad de sacar un tercer as, habien-
En el enunciado se pregunta la probabilidad de obtener algu- do sacado ya un primero y un segundo as.
na cruz (al menos una cruz) al lanzar dos veces una moneda al
aire. Al lanzar dos veces una moneda, los resultados obtenidos Se debe tener en cuenta que la probabilidad de obtener un trío
pueden ser: cara-cruz (c, +), cruz-cara (+, c), cruz-cruz (+, +) y de ases (como en el ejemplo), es la misma que la de obtener cual-
cara-cara (c, c). Tres de estos resultados cumplen con la condi- quier otro trío.
ción del enunciado:
13. En el banco de sangre de un hospital sólo queda sangre Rh-.
A urgencias han llegado tres personas que han sufrido un ac-
cidente. ¿Cuál es la probabilidad de que las tres sean Rh-? Se
sabe que la probabilidad de ser Rh- en España es de un 30%.

33
B ioes t adística

El factor Rh es un tipo de suceso de los llamados mutuamen-


te excluyentes (no se pueden dar los dos sucesos a la vez en
la misma persona); en este caso, la probabilidad de que tres
personas sean Rh-, se interpretará como que lo sea el primero
y lo sea el segundo y lo sea el tercero. Se aplicará la ley multi- 17. La ictericia se presenta como manifestación clínica de la
plicativa. hepatitis B en un 20% de las personas que la padecen y
en el 0,3% de las personas que sufren una hepatitis A. En
un servicio de digestivo hay 20 personas ingresadas, 4 de
ellas están diagnosticadas de hepatitis A y 12 lo están de
14. En el banco de sangre de un hospital sólo queda sangre de hepatitis B. ¿Cuál es la probabilidad de que, en una perso-
los grupos A y B. A urgencias han llegado dos personas que na que tiene ictericia, ésta se deba a una hepatitis, supo-
han sufrido un accidente. ¿Cuál es la probabilidad de que niendo que ninguno de los enfermos ingresados presen-
sean A o B, si se sabe que el 30% de los españoles son grupo ten las dos enfermedades?
sanguíneo A, y un 15% son grupo B?
En este problema se tienen sucesos condicionados y se pregun-
En este caso también son sucesos mutuamente excluyentes, y ta la probabilidad de que un paciente presente ictericia y que
las posibles combinaciones de posibilidades son: que los dos ésta se deba a una hepatitis, es decir ictericia por virus A o por
sean A o que los dos sean B o que uno sea A y el otro B, o que virus B:
uno sea B y el otro A.

(Se debe recordar que esto en ningún caso quiere decir que
P(A B)2 sea igual al desarrollo de la igualdad antes mencio-
nada).

Esto sólo se dará en el caso de sucesos mutuamente exclu-


yentes y en ningún caso se podría desarrollar el binomio de 18. En una localidad hay un centro de salud con dos equipos de
Newton (a + b)2 = (a2 + b2 + 2ab). atención primaria, A y B. El equipo A atiende al 80% de la
población y el B al resto. El equipo A realiza un diagnóstico
También se puede interpretar como que el primer individuo en primera consulta el 60% de las veces y el equipo B lo hace
sea A o B y el segundo individuo sea B o A. en el 75% de las ocasiones. ¿Cuál es la probabilidad de que
una persona que acude por primera vez al centro de salud
quede diagnosticada independientemente del equipo que
la atienda?
15. La probabilidad de EPOC en hombres fumadores es del 20%
y la de hipertensión del 12%. Determinar la probabilidad de La pregunta que hay que hacerse es la probabilidad de diag-
que dos personas sean EPOC o hipertensos. nóstico y que lo haga el equipo A o por la probabilidad de
diagnóstico y que la haga el equipo B, sería la suma de proba-
En este caso los sucesos son independientes pero no excluyen- bilidades:
tes; es decir, se pueden dar simultáneamente en la misma per-
sona. La dificultad del problema radica en que se dice que son
dos personas; las posibles combinaciones son las siguientes:
Como el diagnóstico está condicionado al equipo de atención
- Que los dos tengan un EPOC. primaria A o B, se tendrá que aplicar la fórmula de la probabi-
- Que los dos sean hipertensos. lidad condicionada:

Pero habrá que restar a las personas que cumplen ambas con-
diciones:

19. En la meningitis meningocócica, la coagulación intravas-


cular diseminada (CID) aparece como complicación de la
16. La supervivencia después del tratamiento con quimiotera- enfermedad en un 17% de los niños que la padecen, y en
pia de una determinada neoplasia es del 70% al cabo de un el 1% de los niños que tienen una meningitis viral. A ur-
año, y del 40% a los seis años. ¿Cuál es la probabilidad de gencias llega un niño con esta manifestación clínica. ¿Cuál
que una persona que ha sobrevivido el primer año, siga viva es la probabilidad de que ésta se deba a una meningitis
al sexto año? meningocócica? Se sabe que la prevalencia de la enferme-
dad es del 4% para el meningococo y del 15% para las me-
En este caso se trata de sucesos condicionados, que son aque- ningitis virales.
llos en los que la probabilidad de que sucedan A y B juntos
varía cuando se sabe que uno ya ha ocurrido (en este caso, que Este problema se basa en el teorema de Bayes y en una de sus
la persona ya ha sido tratada). aplicaciones, que es la de que a través de un síntoma se puede
llegar a saber cuál es la probabilidad de que éste se deba a
una determinada enfermedad, conocida la prevalencia de la
misma.

34
M a n u a l C TO d e E n fe r m e r í a

Se sustituye en la fórmula:
En este caso se tiene que el síntoma es CID y las dos patologías en
las que se presenta son: meningitis meningocócica (MM) y me-
ningitis viral (MV).

Se conoce el porcentaje de sujetos que presentan el síntoma


cuando tienen la patología, así como la prevalencia de las en-
fermedades:

BE

35
Bibliografía

Bibliografía
• Argimón Pallás JM, Jiménez Villa J. Métodos de investigación clínica y epidemiología. Madrid. 2.ª edición. Harcourt, 2003.
• Canela Soler J. Medicina preventiva y salud pública. Barcelona. Masson, 2003
• Dawson/Trapp. Bioestadística médica. Manual Moderno, 2005.
• Hernández Aguado. Manual de Epidemiología y Salud Pública. Editorial Médica Panamericana.
• Greenberg. Epidemiología médica. 4.ª edición. Manual Moderno, 2005.
• Jiménez Villa J, Argimón Pallás JM, Canela Soler J. Epidemiología fundamental y aplicada (II). Canela Soler J, En: Medicina preventiva y
salud pública, Barcelona, Masson, 2003: 41-84.
• Manual CTO de Epidemiología y Estadística. 6.ª edición 2006.
• Ruiz Morillo. Epidemiología clínica. Editorial Médica Panamericana, 2004.

36

También podría gustarte