Está en la página 1de 55

1

Manual de
Bioestadística Jornada 91

Proyecto BioINTEC
Comité de Bioestadística
2

ITINERARIO
Fechas Temas
2da semana Introducción a la investigación
Revisiones sistemáticas, metaanálisis
y reporte de casos
Universo, población y muestra
Muestreo aplicado
Cálculo tamaño de la muestra
Diseño metodológico
Criterios de inclusión y exclusión

3ra semana Variables


Operacionalización de variables
Estadísticos y parámetros
Sesgo
Medidas de frecuencia
Riesgo
Epidemiología

5ta semana Probabilidad


Inferencia estadística
Intervalo de confianza
Prueba de hipótesis
Representación de los resultados

El valor total del taller es de 15 puntos


Participación: 3 puntos
Examen: 10 puntos
Trabajo final: 12 puntos
3

CONTENIDO
ITINERARIO ................................................................................................................................... 1
Introducción ............................................................................................................................... 4
El proceso de investigación científica .................................................................................... 5
Tips generales ............................................................................................................................. 6
Modelos de investigación......................................................................................................... 8
Contexto metodológico de estudios primarios ................................................................... 14
Diseño metodológico .............................................................................................................. 15
Aplicando conocimiento........................................................................................................ 15
Medidas de frecuencia de la enfermedad ......................................................................... 16
Aplicando conocimiento........................................................................................................ 17
Sesgo.......................................................................................................................................... 18
Aplicando conocimiento........................................................................................................ 22
Universo, población y muestra: .............................................................................................. 23
Aplicando conocimiento........................................................................................................ 24
Muestreo.................................................................................................................................... 25
Aplicando conocimiento........................................................................................................ 31
Estadísticos y parámetros........................................................................................................ 33
Aplicando conocimiento........................................................................................................ 36
Variables,,,.................................................................................................................................. 24
Aplicando conocimiento........................................................................................................ 26
Tamaño muestral ..................................................................................................................... 27
Aplicando conocimiento........................................................................................................ 31
Representación de los resultados .......................................................................................... 33
Algunos conceptos epidemiológicos ................................................................................... 35
Distribución de probabilidad.................................................................................................. 36
Pruebas estadísticas ................................................................................................................ 41
Intervalo de confianza ............................................................................................................ 42
4

INTRODUCCIÓN
La estadística consiste en la recogida, cuantificación, síntesis, análisis e
interpretación de la información relevante contenida en unos datos.

La bioestadística es la rama de la estadística que se ocupa de los problemas


planteados dentro de las ciencias de la vida, como la biología o la medicina.
Médicos, biólogos, enfermeras, nutricionistas o especialistas en salud pública
necesitan conocer los principios que guían la aplicación de los métodos
estadísticos a los temas propios de cada una de sus respectivas áreas del saber1.

El conocimiento de estos principios en el estudiante de medicina es esencial para


lograr una correcta utilización de las herramientas estadísticas con el fin de validar
desde el tamaño de la muestra, hasta las conclusiones arribadas, con el fin de que las
inferencias resultantes sean estadísticamente válidas y aplicables a la población en
general. Sabiendo esto, resulta implícita la importancia que debe tener la
bioestadística en cada uno de los estudiantes que cursan el proceso de BioINTEC.

Cabe resaltar que este es un manual en construcción que debe ser complementado
con lo discutido en los talleres y consultado en las bibliografías de lugar. En el taller
solo se tratarán los temas del itinerario, pero se espera que tengan conocimiento de
todos los aspectos del manual.

1Martínez González MA, Sánchez-Villegas A, Toledo Atucha EA, Fajardo JF. Bioestadística Amigable, 3ra ed. Barcelona: Elsevier;
2014.
5

EL PROCESO DE INVESTIGACIÓN CIENTÍFICA


El proceso de investigación científica está relacionado de inicio a fin. Los hallazgos a
los que arribe la investigación dependerán de una sólida fundamentación teórica, una
metodología adecuada, una correcta representación de los resultados y una
meticulosa interpretación de los mismos. En todo este proceso el conocimiento
estadístico es sumamente necesario. A continuación, este proceso se representa a
través de un esquema.
6

TIPS GENERALES
1. La muestra mínima es de 30 pacientes:
Esto es válido en la mayoría de estudios. No es estrictamente necesario en estudios
de caso, serie de casos, investigación cualitativa. Sí se quiere probar una proporción
o prevalencia es necesaria una muestra de al menos 100 sujetos de estudio.
Un tamaño n=30 se fundamenta en el Teorema Central del Límite, siendo el mínimo
tamaño en que la distribución de la media muestral se asemeja a la distribución
normal estándar.

2. Si queremos estimar incidencia o prevalencia la muestra debe estar compuesta por


todos los individuos susceptibles o en riesgo de desarrollar la enfermedad:
No solo se estudian los casos (enfermos), sino que se estudian sujetos con y sin la
enfermedad, o sujetos expuestos y no expuestos. En general, no se puede aplicar
prueba estadística si solo se recolecta información de los casos o de los individuos
expuestos, ya que no tendremos punto de comparación (controles o no
expuestos). El cálculo del tamaño de la muestra se hace considerando ambos
grupos, tanto sanos como enfermos, por lo que es imperativo que se estudien
ambos. Excepción a esto es que el objetivo del estudio no sea identificar la
frecuencia de la enfermedad, sino describir sus características, ya sea
manifestaciones clínicas, diferentes tratamientos, sin hacer comparación con un
grupo control. Sin embargo, siempre es apremiante contar con la información que
añade tener un grupo de comparación.

3. Los estudios de incidencia no son apropiados para un proceso tipo BioINTEC:


Para evaluar incidencia es necesario comprobar que el sujeto adquirió la
enfermedad durante el período de estudio, para entonces catalogarlo como "caso
nuevo". Identificar el momento o período en que la enfermedad se produjo suele
ser una tarea ardua, que requiere una evaluación inicial de todos los sujetos
susceptibles para así identificar los sanos y enfermos y, ya identificados, seguimiento
posterior de los sanos (o sujetos en riesgo) para determinar el momento en que la
enfermedad se presenta. Existen excepciones a esta premisa, ya que hay
enfermedades en las que el momento en que son adquiridas es de fácil
identificación. Ej.: lesiones por quemaduras, trauma, emergencia obstétrica, etc.

4. Todo lo que haga con sus datos debe plasmarlo en Material y Métodos:
¿Cómo se calculó el tamaño de la muestra? Incluyendo el error, precisión,
estimaciones (y fuente usada para dicha estimación).
¿Cómo fueron seleccionados los individuos? Incluyendo la técnica de muestreo
usada y una explicación del procedimiento llevado acabo.
¿Cuál fue la tasa de respuesta? En el caso de usar fuentes primarias especificar
cuántos accedieron a responder las preguntas, mientras que si se usan fuentes
secundarias debe especificar del total de historiales evaluados, cuántos estaban
incompletos, etc. Siempre y cuando estos sujetos, que no accedieron al estudio,
cumplan con los criterios de inclusión establecidos.
¿Cómo procesó los datos? Software(s) usados, estadísticos calculados.
¿Qué pruebas estadísticas usó? Especificar prueba(s), sobre qué variables se
realizaron y el nivel de significancia elegido.
7

5. Cada prueba estadística tiene requisitos individuales que deben ser tomados en
cuenta:
De tal forma que, al elegir realizar una prueba, se debe comprobar que se cumplen
con los supuestos de dicha(s) prueba(s). Por ej, ¿La variable sigue una distribución
normal? ¿El tamaño de la muestra es el adecuado? ¿Los individuos se
seleccionaron de forma aleatoria?
8

MODELOS DE INVESTIGACIÓN
Existen distintos tipos de modelos dependiendo de investigación científica, y para
delimitarlos usaremos el concepto de nivel de evidencia, que no es más que una
heurística utilizada para clasificar la fuerza relativa de los resultados obtenidos de la
investigación científica. Existe un amplio acuerdo sobre la fuerza relativa de los estudios
epidemiológicos a gran escala, y para ello se han propuesto innumerables escalas. En
Proyecto BioINTEC utilizamos el modelo propuesto por Forrest y Miller, el cual abarca 5
niveles:

El primer nivel nos describe las guías de uso clínico, metaanálisis y revisiones sistemáticas
(conocidos como estudios secundarios), siempre y cuando la base de estos
conocimientos sean estudios primarios, controlados, aleatorizados, de tipo prospectivo
y de característica experimental. Por lo regular estos estudios son utilizados para la
aprobación de fármacos.
El segundo nivel nos habla de las cohortes, en los cuales se evalúa la frecuencia de
aparición de un evento entre dos grupos, uno que se encuentra expuesto al riesgo, y
otro que no. Son estudios primarios de tipo prospectivo, y su objetivo es observar el
resultado de la interacción.
El tercer nivel nos habla sobre los estudios de caso control. A diferencia del anterior, en
el caso control los sujetos ya tienen una cualidad que es de interés para el autor, pero
se desconoce el riesgo y es lo que se trata de probar. Es un estudio primario de tipo
retrospectivo y observacional.
En el nivel cuatro y cinco se encuentran estudios que no precisan de diseño
metodológico, como lo son los reportes de casos/series de casos, y las reseñas
narrativas, opiniones de expertos basadas en experiencia y los textos editoriales,
respectivamente.

_________________________
Forrest & Miller. EBDM in Action: Developing Competence in EB Practice. 2016
9

Metaanálisis y revisiones sistemáticas


¿Son lo mismo una revisión sistemática y un metaanálisis? La respuesta es no.
El metaanálisis es solo una parte de una revisión sistemática. Metaanálisis es la técnica
estadística que combina los resultados de estudios individuales para sintetizar sus
resultados y dar una estimación global. El término fue introducido por Glass en 1976, en
el campo de la psicología. Revisión sistemática incluye también al proceso
metodológico de búsqueda y localización protocolizada de toda la información
disponible, publicada o no, con relación a la cuestión planteada sobre la que
queremos investigar, así como al criterio de selección de esta información, valorando
y juzgando la calidad de los trabajos encontrados. Puede darse una revisión sistemática
sin metaanálisis, sin embargo, lo contrario carece de sentido.

Otra característica de estos tipos de estudio a tomar en cuenta es la heterogeneidad.


La variabilidad es consustancial a los estudios clínicos, por las importantes diferencias
biológicas existentes entre los pacientes y participantes en general. Los ensayos clínicos
controlados y aleatorizados combaten este factor, que impide distinguir el efecto de
las intervenciones, mediante un número suficiente de participantes tal que
probabilísticamente sea casi seguro que podremos detectar una diferencia relevante,
si es que esta existe. Sin embargo, en este tipo de estudios, los participantes son
seleccionados con los mismos criterios, de manera que a priori la población que entra
en un brazo del estudio es igual que la de otro brazo (suponiendo que no se introducen
sesgos indeseados). Idealmente, entre grupos de tratamiento no hay heterogeneidad:
hablamos de variabilidad sensible al muestreo. Si por azar se hubieran elegido otros
individuos los resultados habrían cambiado en el detalle, y muy probablemente los
números generales no se habrían modificado sustancialmente. Sumado a que hay tipos
de variabilidad (estadística, clínica, metodológica…), la parte que nos concierne a
nosotros como bioestadística son la variabilidad clínica y la variabilidad metodológica.1

Por la parte metodológica nos consta que estos estudios que vamos a presentar tengan
el mismo nivel de calidad de evidencia, de esta manera se busca controlar la
variabilidad por parte de las carencias que podrían tener esos estudios primarios.
A continuación, algunos ejemplos de representación en metaanálisis.

Forest plot
Para interpretar uno de estos métodos
de interpretación, debemos tener en
cuenta cual es el significado de cada
una de su simbología. A la derecha, un
diagrama que le explica:
10

El Forest Plot es propiamente una combinación de tabla y elementos gráficos, y está


constituido generalmente por:1
• Una lista de los estudios implicados. A veces están ordenados de alguna forma
especial: por antigüedad, por la magnitud del efecto, o por peso.
• Para cada estudio, y concretamente en cada línea, tenemos datos de
identificación, datos sobre los grupos y la respuesta de los participantes, un
segmento que representa el Intervalo de Confianza (IC) del efecto en ese
estudio particular, y valores numéricos del efecto puntual y del mismo IC. 1
• El IC tiene en el centro un cuadrado lleno de área proporcional al tamaño del
estudio. Así apreciamos mejor los estudios importantes, contrarrestando la
impresión que producen los amplios IC de los estudios pequeños.
• Si el IC sobrepasa los límites establecidos para el eje de la medida del efecto,
se dibuja una punta de flecha para indicar que el IC va más allá.
• En la parte inferior aparece un pequeño rombo lleno, que representa el IC del
efecto global obtenido por el meta-análisis, junto con las estimaciones
puntuales y por IC a su derecha.
11

• Una línea vertical marca la referencia de no-efecto; en este caso, tratándose


del riesgo relativo, sobre el valor 1. Nótese que la escala es una escala
logarítmica (1/4 y 4 están a la misma distancia de 1). La línea facilita la lectura
de los IC, para apreciar cuáles son los estudios significativos.1
• A veces también aparece información relativa a la heterogeneidad de los
estudios (Q, I2)

Funnel Plot

Un Funnel Plot representa en el eje X los efectos observados en los distintos estudios, y
en el eje Y alguna medida de precisión de la variable respuesta, como por ejemplo el
error estándar. Si hay un número suficiente de puntos (estudios), y en ausencia de
heterogeneidad y de sesgo de publicación, los puntos deberían adoptar
conjuntamente el aspecto de un embudo, con la parte más ancha correspondiendo
a los estudios más pequeños y menos precisos.1
12

L´ABBÉ

En el gráfico de L’Abbé cada punto es un estudio y se representan los valores de la


respuesta en un grupo respecto al otro. De esta forma, los puntos que se ubican sobre
la diagonal representan estudios en los que el riesgo de infección no difiere entre las
dos intervenciones. Cuanto más lejos esté situado un punto de esta diagonal más
marcado es el efecto diferencial (cuando el eje x se utiliza para el tratamiento
experimental y el eje y para la referencia, quedar por debajo de la diagonal significa
que hay ventaja para el nuevo tratamiento). Los estudios se dibujan con un círculo de
área proporcional al tamaño del estudio. La línea punteada paralela a la diagonal
indica el efecto global estimado.1
Usualmente, los estudios que se dispersan más son los menores, y los reflejados mediante
los círculos más grandes se suelen encontrar más cerca de la línea punteada.
13

Reporte de caso/Serie de casos


La principal desventaja o debilidad de los reportes y series de caso es que al ser estudios
eminentemente descriptivos, no permiten realizar asociaciones estadísticas por la
ausencia de un grupo de comparación. Los reportes de caso son el más bajo y más
débil nivel de evidencia para establecer causalidad, sin embargo son el primer nivel de
evidencia de lo que actualmente sucede, es donde todo empieza. La medicina
basada en evidencia establece un estricto orden jerárquico, en el que los reportes de
caso son considerados como hallazgos anecdóticos. Otra característica de los reportes
de caso y series de caso es su alta sensibilidad para detectar situaciones novedosas,
pero su baja especificidad para la toma de decisiones médicas. Debido a su sencillez,
no hay una aplicación estadística que pueda ser utilizada en este tipo de
publicaciones.2
__________________________
1 José Antonio González, Erik Cobo, Marta Viraró. Revisión sistemática y metaanálisis. 2014
2 Franco Romani Romani. Reporte de caso y serie de casos: una aproximación para el pregrado. 2010
14

CONTEXTO METODOLÓGICO DE ESTUDIOS


PRIMARIOS
La bioestadística es una herramienta que te será útil para resumir y presentar los
resultados, probar hipótesis y facilitar el análisis de los datos. Sin embargo, es necesario
que para la obtención de los datos se hayan utilizado técnicas insesgadas, al igual que
es indispensable una metodología adecuada y acorde con los objetivos de tu
investigación. A modo general, en el BioINTEC, se utiliza la siguiente clasificación de los
tipos de estudio:

Tipos de estudio
Según la secuencia temporal (según las veces que se mide la variable en período de
tiempo):
Transversal: las variables son medidas en una sola ocasión y no se les da
seguimiento.
Longitudinal: las variables son medidas en más de una ocasión y se les da
seguimiento.
Según el inicio del estudio en relación a la cronología de los hechos (según el tipo de
fuente):
Prospectivo: la información obtenida es de fuente primaria, recolectada de
forma directa por los investigadores a partir de los sujetos a estudiar.
Retrospectivo: los datos recolectados son de fuentes secundarias, es decir,
se obtuvieron en otro momento diferente al período de estudio.
Según el control de la asignación de los factores a estudiar (según la intervención del
investigador):
Observacional: los investigadores se limitan a medir las variables sin ejercer
control sobre el factor de estudio.
Experimental: el investigador interviene y/o manipula el factor de estudio.
Según la finalidad del estudio:
Descriptivo: evalúa la frecuencia y tendencias de la población con respecto
a una enfermedad. Describe un problema de salud en función de las
características de persona, lugar y tiempo de aparición.
Analítico: establece relaciones de asociación o causalidad entre variables y
prueba hipótesis previas. Son estudios analíticos: estudio de cohorte, estudio
de caso control y el ensayo clínico.

No olvidar
Planteamiento del problema: realidad que motiva a realizar la investigación.
Justificación: razones por las que el problema es digno de investigar y los beneficios
que pudiesen obtenerse a partir de los resultados de la investigación.
15

DISEÑO METODOLÓGICO
Es definido como el esquema general o marco estratégico que le da unidad,
coherencia, secuencia y sentido práctico a todas las actividades que se emprenden
para buscar respuesta al problema y objetivos planteados2. Cabría preguntar ¿Por qué
un apartado de contexto metodológico y uno de diseño metodológico? El primero te
ayudará en la elección y descripción del tipo de investigación que estás realizando, sin
embargo, es una visión simplificada y adaptada al proceso de BioINTEC del conjunto
de diseños metodológicos.

A grandes rasgos el diseño depende de: si hay intervención de los investigadores, de si


hay comparación, de si se usan técnicas de enmascaramiento, del orden en el que se
analizan los datos, entre otros.

APLICANDO CONOCIMIENTO
Ver vídeo “Study Design” del tópico de Epidemiología y Estadística de OnlineMedEd
https://onlinemeded.org/epidemiology-and-stats/study-design y luego conteste:

1. Esquematiza los distintos diseños metodológicos.

2. ¿Qué es un grupo control? ¿En qué se diferencia de los casos?

3. ¿Cuáles serían los dos grupos en un estudio de cohorte? Ejemplifique.

4. Compara
Estudio caso/control Estudio de cohorte
Según tipo de fuente
Relación causa-
efecto
Medida de riesgo

2 Pineda EB, De Alvarado EL. Metodología de la investigación, 3ra ed. OPS; 2008.
16

MEDIDAS DE FRECUENCIA DE LA ENFERMEDAD 3


Como habrás visto en el vídeo, la incidencia y prevalencia son medidas muy utilizadas
en investigación. Estas se enmarcan como medidas de frecuencia de la enfermedad,
al igual que la razón y la proporción.

Razón o índice
Cociente entre magnitudes en la que ningún caso del numerador está incluido en el
denominador. Indican cuantas veces sucede el hecho que está en el numerador con
respecto al hecho que está en el denominador. Por ej.: indica cuántos hombres hay por
𝑁° 𝑑𝑒 ℎ𝑜𝑚𝑏𝑟𝑒𝑠
cada mujer. 𝑅𝑎𝑧ó𝑛 𝑑𝑒 𝑚𝑎𝑠𝑐𝑢𝑙𝑖𝑛𝑖𝑑𝑎𝑑 = 𝑁° 𝑑𝑒 𝑚𝑢𝑗𝑒𝑟𝑒𝑠

Proporción
Describen la fracción que una serie de sucesos representa respecto al total de sucesos
de igual índole. El numerador está incluido en el denominador. Cuando el resultado se
multiplica por 100 resulta un porcentaje.
Ejemplo: En Chile en el 2000 se controló el estado nutricional de 1,160,813 niños menores
de 6 años. En el mismo año la Región Metropolitana controló 390,464 niños de igual edad.
390,464
% 𝑑𝑒 𝑐𝑜𝑛𝑡𝑟𝑜𝑙𝑒𝑠 𝑑𝑒𝑙 𝑝𝑎í𝑠 𝑟𝑒𝑎𝑙𝑖𝑧𝑎𝑑𝑜𝑠 𝑒𝑛 𝑅𝑀 = 𝑥 100 = 33.63%
1,160,813

Tasa
Relación entre el número de casos en un período de tiempo y el total de la población.
La incidencia y la prevalencia son tasas, sus diferencias se citan en la siguiente tabla4:

Incidencia Prevalencia
Indica la probabilidad de desarrollar la Indica la probabilidad de que ya se
enfermedad padezca la enfermedad
En el numerador deben estar sólo los En el numerador están todos los casos,
casos nuevos nuevos y viejos
Para su cálculo se necesita el No necesita seguimiento
seguimiento de los individuos
Su valor no depende de la duración de Su valor depende de la duración de la
la enfermedad enfermedad
Valora y cuantifica enfermedades Valora y cuantifica enfermedades
agudas crónicas
Medida utilizada para investigar y Medida utilizada para valorar la carga y
establecer relaciones causales el coste de una enfermedad crónica

# 𝑐𝑎𝑠𝑜𝑠 𝑛𝑢𝑒𝑣𝑜𝑠 𝑒𝑛 𝑝𝑒𝑟𝑖𝑜𝑑𝑜 # 𝑐𝑎𝑠𝑜𝑠 𝑒𝑛 𝑝𝑒𝑟𝑖𝑜𝑑𝑜


𝐼𝑛𝑐𝑖𝑑𝑒𝑛𝑐𝑖𝑎 = 𝑥𝑓𝑎𝑐𝑡𝑜𝑟 𝑃𝑟𝑒𝑣𝑎𝑙𝑒𝑛𝑐𝑖𝑎 = 𝑥𝑓𝑎𝑐𝑡𝑜𝑟
# 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛 # 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖𝑜𝑛 𝑒𝑛 𝑒𝑙 𝑝𝑒𝑟𝑖𝑜𝑑𝑜

El factor puede ser 1,000 o 10,000. Se leería, por ejemplo, 50 casos por cada 1,000
habitantes o por cada 10,000 habitantes en x período de tiempo.

3 Castillo B. Indicadores en Salud. Tasas, Razones y Proporciones. Escuela de Salud Pública. Facultad de Medicina, Universidad de Chile.
Chile: 1999.
4 Mirón Canelo JA, Alonso Sardón M. Medidas de frecuencia, asociación e impacto en investigación aplicada. Med. segur. trab.

54 (211). Madrid jun. 2008


17

APLICANDO CONOCIMIENTO

1. Interprete/describa la siguiente ilustración:

2. Según el vídeo “Study design”, ¿En cuáles diseños se utiliza incidencia y en


cuáles prevalencia? Explique.

3. ¿Por qué el cálculo de incidencia es tan riguroso? ¿En qué tipo de estudio
se calcula incidencia?
18

SESGO
Aparte de elegir una metodología correcta, hay que evitar el sesgo.
Durante el proceso de planificación de la investigación se deben identificar las fuentes
potenciales de parcialidad, sesgo y/o subjetividad. En otras palabras, «la validez del
conocimiento derivado de cualquier estudio dependerá, en gran medida, de la
ausencia de error». De tener fuentes de sesgo, el análisis estadístico posterior de los
datos estará viciado por lo que hay que evitarlo.

Se define sesgo como todo lo que afecta el resultado del estudio, pero no es lo que
estás tratando de probar/evaluar. Es cualquier error diferencial –en relación con los
grupos que se comparan– en que se puede incurrir durante el diseño, conducción o
análisis del estudio y que invariablemente resulta en una conclusión errónea, ya sea
proporcionando una estimación más baja o más alta del valor real de la asociación
que existe en la población blanco.

Fuentes de sesgo
Hay múltiples fuentes de sesgo. Según las fuentes de sesgo para un estudio primario
tenemos: los sujetos a estudiar, los investigadores y los factores inherentes al estudio.

Fuentes de
sesgo

Inherentes a
Sujetos Investigadores
investigación

Variable
Efecto Parcialidad al Sesgo a la Sesgo del Variable de
modificadora
Hawthorne recordar selección observador confusión
del efecto
19

Fuentes de sesgo
Sujetos Investigadores Inherente al estudio

Efecto Hawthorne: Sesgo a la selección: Variable o factor de


Hace referencia a la Se produce cuando el confusión:
tendencia de algunas criterio de selección de Es un factor que
personas a cambiar su sujetos por los distorsiona la relación
comportamiento debido investigadores incluye que existe entre otras
a la atención que están preferencias, que variables. Por ej., se
recibiendo por los afectan la aleatoriedad podría pensar que la
investigadores. Es decir, de la composición de los ingesta de alcohol
cambian su grupos de sujetos a aumenta el riesgo de
comportamiento porque investigar. infarto, no obstante, el
saben que están siendo causante real es el hábito
observados. ¿Cómo abordarlo? tabáquico que es más
Muestreo aleatorio común en consumidores
Parcialidad al recordar: Todos los sujetos tienen la de alcohol que en
Los pacientes enfermos misma probabilidad de personas no
tienden a recordar más ser elegidos. Por ej.: consumidoras.
que los sanos. Esto ocurre seleccionar cada 3er
en estudios retrospectivos paciente que entra a ¿Cómo abordarlo?
en los que se cuestiona al consulta. Pareo
paciente sobre factores o Lograr que cada grupo
hechos que pudiesen Pareo tenga la misma
haber desencadenado Lograr que cada grupo a demografía. En el ej.,
la enfermedad. Los comparar tenga la hábito tabáquico.
pacientes enfermos misma demografía, es
harán mayor esfuerzo por decir, semejanza de Variable modificadora
recordar. edad, sexo, nivel del efecto o modificación
socioeconómico. del efecto:
¿Cómo abordarlos? Se produce cuando la
Utilizando la técnica de tasa de incidencia de la
enmascaramiento Sesgo del observador: enfermedad en
simple ciego: el paciente, El investigador evalúa a presencia de 2 o más
pero no el los grupos de forma factores de riesgo difiere
investigador/médico, diferente ya que de la tasa de incidencia
desconoce el grupo al conocen quién está de los efectos
que ha sido asignado, es enfermo y quién no lo individuales.
decir, ignora por ejemplo está. Por ej.: el riesgo de
cuál de los posibles cáncer de pulmón en
tratamientos recibe. ¿Cómo abordarlo? expuestos a tabaco
Doble ciego resultó ser de 18,9. No
Investigador/médico y obstante, el valor resultó
paciente desconocen el tan alto porque los
grupo de asignación de pacientes también se
este último. habían expuesto al
asbesto. Sin este último, el
riesgo se reduce a 7,8.
20

En cuanto a las fuentes de sesgo de las revisiones sistemáticas tenemos:

Sesgo de publicación: en ocasiones, los estudios en los que una intervención no


demuestra ser efectiva no son publicados. Por ende, las RS que no son capaces de
incluir estudios no publicados pueden sobrestimar el efecto real de una intervención.

Sesgo de selección: se refiere a las diferencias sistemáticas entre los grupos de


pacientes comparados en cuanto a su pronóstico o probabilidad de respuesta al
tratamiento. Así, las diferencias halladas entre los grupos comparados no pueden
atribuirse inequívocamente a la intervención en estudio sino que pueden ser debidas,
en gran parte, a otras diferencias entre los grupos comparados. La asignación aleatoria
con una ocultación adecuada y una buena elaboración de criterios de inclusión y
exclusión protege frente al sesgo de selección, garantizando la comparación de
ambos grupos excepto en cuanto a la intervención administrada.

Sesgo del observador: es poco considerado en el ámbito de las RS ya que es necesario


reportar los artículos y los autores, sin embargo es posible realizar un enmascaramiento
al momento de la selección de los estudios atingentes. Es imprescindible ya que podría
ocurrir que alguno de los revisores tenga tendencia a favorecer o desfavorecer a
autores conocidos.

_________________
21

Carlos Manterola et al. Revisiones sistemáticas de la literatura. Qué se debe saber acerca de ellas. 2011
22

APLICANDO CONOCIMIENTO
Ver vídeo “Bias” del tópico de Epidemiología y Estadística de OnlineMedEd
https://onlinemeded.org/epidemiology-and-stats/bias

1. ¿Cómo repercute el sesgo en los resultados de investigación?

2. ¿Qué técnicas se utilizan para evitar el sesgo?

3. ¿Cómo aplicarías esas técnicas a tu investigación?

4. Identifica el tipo de sesgo si es por confusión o por modificación de efecto.


Señale la variable causante del error y el por qué.

Edad materna
(˃35 años)

Hábito
Edad
tabáquico

Orden de Nacimiento de Enfermedad


nacimientos a partir infante con trisomía Coronaria
del 4to parto (Sx de Down)
23

UNIVERSO, POBLACIÓN Y MUESTRA:


Para ejemplificaciones dirigirse al Manual de BioINTEC en el apartado Plan de
Viabilidad.

Universo Población Muestra


Es la totalidad de Es un conjunto finito o infinito Es un subconjunto de la
elementos o de personas, animales o población, seleccionado de tal
características cosas que presentan forma, que sea representativo de
que conforman características comunes. En la misma, obteniéndose con el fin
el ámbito de un otras palabras, la población de investigar alguna de las
estudio o se define como la totalidad propiedades de la población de
investigación. de los valores posibles la cual procede. Es una parte de
(mediciones o conteos) de la población que sirve para
una característica particular representarla. Más adelante
en un grupo específico. hablaremos de cómo obtenerla.
Delimitado en Delimitada en espacio, Delimitada en espacio, tiempo y
espacio y según tiempo, según las variables a número de sujetos que la
las variables a estudiar, y el número de componen (subtotalidad).
estudiar. sujetos que la componen
(totalidad).

Analizando…5

Si tenemos dos cortes de tela de unos 8 metros cada uno para hacer unas
cortinas, una es lisa de color amarillo y la otra estampada con flores de diversos
colores, y necesitamos elegir unos botones adecuados para adornarlas, el color
del barral para colgarlas y el hilo para coserlas, al salir de casa para ir a buscar lo
que necesitamos no cargaríamos con toda la tela; tan solo con llevar una muestra
de cada una tendríamos idea exacta de la tela, la pregunta es:

¿La muestra a cortar de tela amarilla será del mismo tamaño que de la
estampada? Claro que NO, con un corte pequeño que hagamos en la punta de
la tela amarilla tenemos idea clara del color, sin embargo, de la estampada
necesitamos obtener un pedazo de tela más grande y así tener idea de todos los
colores que tiene y que me pudieran servir a la hora de elegir los accesorios.

Moraleja: la representatividad de una muestra


no tiene que ver con el tamaño de esta, sino
con la capacidad de reproducir a pequeña
escala las características de la población. En
estadística, la capacidad de representatividad
de la muestra va a depender de que se use el
método de muestreo adecuado y de que se
elija un número apropiado de sujetos para
estudiarlos.

5 Payano LE. Manual de Bioestadística para Jornadas de BioINTEC.


24

APLICANDO CONOCIMIENTO

1. Describa el universo, población y muestra acordes al siguiente estudio:

“Ejercicio aeróbico o de resistencia, o ambos, en la dieta de adultos mayores obesos


que asisten a los servicios de salud de la ciudad de Santo Domingo en el año 2017”

Universo

Población

Muestra

2. ¿Cuál es tu universo, población y muestra?

Universo

Población

Muestra
25

MUESTREO
Cuando la población contiene muchos elementos6 no es posible ni deseable medir la
variable de interés en todos ellos, ya que:

Puede resultar inviable económicamente.


La investigación puede implicar la destrucción del elemento en estudio.
La recolección de datos puede conllevar un largo período.
La población puede ser infinita.

Es en estos casos, cuando no es posible evaluar a todos los elementos que constituyen
la población, que se utiliza el muestreo que no es más que una herramienta de la
investigación científica, cuya función básica es determinar qué parte de una
población debe examinarse para que la estimación de los parámetros de la población
a partir de la muestra sea correcta, es decir, insesgada.

Por ejemplo, imagina que un grupo de estudiantes de medicina haya sido


seleccionado como la muestra de una población. El estudio a realizar podría ser sobre:

La opinión sobre los artículos del reglamento académico de grado.


Un sondeo sobre la valoración de los diferentes líderes políticos.
La opinión sobre el destino de un viaje durante las vacaciones entre los
estudiantes de medicina.

¿Crees que los estudiantes de medicina sean una buena muestra para cualquiera de
estos casos? Responda y justifique para cada uno de los 3 estudios.

________________________________________________________________________________________
________________________________________________________________________________________
________________________________________________________________________________________
________________________________________________________________________________________
________________________________________________________________________________________
________________________________________________________________________________________
________________________________________________________________________________________
________________________________________________________________________________________
________________________________________________________________________________________
________________________________________________________________________________________
Es por tanto muy importante la elección de una técnica de muestreo que nos asegure
que la muestra escogida es “adecuada” para el estudio que queremos realizar7.

6Se considera una población grande, aquella con más de 1,000 elementos constitutivos.
Por lo tanto, una población que contenga menos de 1,000 elementos debería estudiarse
por completo.
7Barreiro PL, Albandoz JP. Población y muestra: Técnicas de muestreos [monografía en Internet]. Management Mathematics for
European Schools; 2001 [fecha de acceso 7 de diciembre 2014]. Disponible en: http://goo.gl/QtHqSp
26

De lo anterior se puede deducir que utilizar una muestra que no es representativa de la


población generará sesgo.

Por ejemplo, imagina que queremos conocer el grado de satisfacción de los pacientes
de un hospital y para ello vamos a entrevistar a algunos de 10 a 12 de la mañana. Esto
quiere decir que las personas que vayan por la tarde no se verán representadas por lo
que la muestra no representaría a todos los pacientes.

Criterios de selección8
Antes de elegir la técnica de muestreo a utilizar, se debe tener claro los criterios a utilizar
para seleccionar a los sujetos.

Los criterios de selección se refieren a la definición del tipo de población a estudiar.


Hay que realizar dos consideraciones: la primera, definir los criterios de inclusión y
exclusión, y la segunda, considerar el modo de reunir a este tipo de pacientes (o
técnica de muestreo)

Criterios de inclusión
Los criterios de inclusión definen las principales características de la población a
estudiar, lo que corresponde a la pregunta de investigación.

Criterios de exclusión
Los criterios de exclusión comprenden a aquellos pacientes que cumplen con
los criterios de inclusión pero que pueden interferir en alguna de las variables de
análisis.

Técnica de muestreo
El muestreo puede ser probabilístico y no probabilístico, éste último no se detallará
extensamente ya que, en su mayoría, no permite cumplir con los rigores de
representatividad y cientificidad que requieren los estudios a nivel poblacional.

Muestreo no probabilístico (o muestreo no aleatorio): la selección


de los individuos se basa en el criterio del investigador. No se conoce la probabilidad
de que cada individuo sea elegido en la muestra. Pueden ser:

Muestreo por cuotas: se basa en seleccionar la muestra después de dividir


la población en grupos o estratos. Los sujetos dentro de cada grupo se eligen por
métodos no probabilísticos.

Muestreo por conveniencia: consiste en seleccionar a los individuos que


convienen al investigador para la muestra. Esta conveniencia se produce porque al
investigador le resulta más fácil examinar a estos sujetos, ya sea por proximidad
geográfica, por ser sus amigos, etc.

8 Fuentes FS. ¿Cómo se desarrolla un protocolo? Orthotips. 11(2); 2015. Disponible en: https://goo.gl/bdFw1A
27

Muestreo de bola de nieve (o muestreo por referidos): se realiza


sobre poblaciones en las que no se conoce a sus individuos o es muy difícil acceder
a ellos. Se llama muestreo de bola de nieve porque cada sujeto estudiado propone
a otros, produciendo un efecto acumulativo parecido a una bola de nieve.

Muestreo casual o accidental: los individuos son elegidos de manera casual. Las
personas que realizan el estudio eligen un lugar o un medio, y desde ahí realizan el
estudio a los individuos de la población que accidentalmente se encuentren a su
disposición.

Muestreo discrecional (o muestreo por juicio): los sujetos se seleccionan a


base del conocimiento y juicio del investigador9.

OJO.- Antes de continuar es necesario aclarar que la aplicación de los métodos que
se tratan a continuación es la más recomendada pero, de por sí, su aplicación rigurosa
es tediosa y más si existe una precaria gestión de la información del paciente; sin
embargo, asumamos el reto y hagamos nuestra recolección de datos.

Muestreo probabilístico (aleatorio):


Los métodos de muestreo probabilístico son aquellos que se basan en el principio de
equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma
probabilidad de ser elegidos para formar parte de una muestra y,
consiguientemente, todas las posibles muestras de tamaño n tienen la misma
probabilidad de ser seleccionadas. Sólo estos métodos de muestreo nos aseguran
la representatividad de la muestra extraída y son, por tanto, los más recomendables.

Dentro de estos se encuentran:

Muestreo aleatorio simple:

Es el tipo de muestreo en el que el proceso de selección


de la muestra garantiza que todos los elementos de la
población tengan la misma posibilidad de ser © Universo Fórmulas
seleccionados para formar parte de la muestra.

El procedimiento empleado es el siguiente:


Se asigna un número a cada individuo de la
población y/o a través de algún medio mecánico
o digital (bolas dentro de una bolsa, tablas de
números aleatorios, números aleatorios generados
con una calculadora u ordenador, etc.) se eligen
tantos sujetos como sea necesario para completar
el tamaño de muestra requerido. Puede ser utilizada la tabla de números
aleatorios presentada en Anexos.

9Universo fórmulas [sede Web]. Valencia; 2014 [fecha de acceso 7 de diciembre de 2014]. Requena Bernat. Muestreo. Disponible
en: http://goo.gl/3smUUt
28

Cuando utilizarlo:
Se debe utilizar cuando los individuos de la población «son»
homogéneos respecto a las características a estudiar.
Es poco recomendado cuando la población es muy grande
y heterogénea (los individuos presentan características dispares).
Homogéneo podría ser una población de adolescentes embarazadas en
determinada edad gestacional y con alguna clínica o patología específica.
Algo heterogéneo sería embarazadas de cualquier edad, no importando la
edad gestacional, y sin importar si presenta una u otra patología. En tal caso,
habría que estratificar en grupos según la edad de la madre, del
embrión/feto o de las patologías y, luego, extraer una muestra de cada
grupo. Más adelante se explica el proceso de estratificación.

Muestreo sistemático:
Una muestra sistemática es obtenida cuando los elementos son seleccionados en
una manera ordenada. La manera de la selección depende del número de
elementos incluidos en la población y el tamaño de la muestra. El número de
elementos en la población (N) es, primero, dividido por el número deseado en la
muestra (n). El cociente indicará si cada décimo, cada onceavo, o cada centésimo
elemento en la población será seleccionado. El primer elemento de la muestra es
𝑁
seleccionado al azar (un número entre 1 y ). Por lo tanto, una muestra sistemática
𝑛
puede dar la misma precisión de estimación acerca de la población, que una
muestra aleatoria simple cuando los elementos en la población están ordenados al
azar, además que brinda una cobertura de unidades de todos los tipos.

Procedimiento:
o Conseguir un listado de N elementos.
o Determinar un tamaño de muestra n.
𝑁
o Definir un intervalo de salto k; 𝑘 = .
𝑛
o Elegir un número aleatorio, i, entre 1 y k (i =arranque aleatorio).
o Seleccionar los elementos de la lista.

© Universo Fórmulas
29

Este tipo de muestreo requiere que previamente nos hayamos asegurado de que los
elementos ordenados no presentan periodicidad en las variables objeto de estudio.

Puede ser útil en el caso de que, por ejemplo, se trabaje con récords como fuente
de información, estos estén organizados por cajas o en anaqueles y se tenga la
suerte de trabajar en un hospital en donde solo atienden a pacientes con las
características o criterios de inclusión (como es el caso de «recién nacido de tal
período» en una maternidad), solo habría que buscar los récords de esa fecha y
comenzar a elegir los récords según el intervalo de clase (k) calculado.
Por otro lado, también puede utilizarse en el caso de que la información de los
pacientes esté guardada en forma digital. Solo se tendría que crear una lista de los
mismos y elegirlos según el método correspondiente. Esto aplica también si la fuente
de información es el libro de ingresos o egresos del centro médico.

Muestreo estratificado: © Universo Fórmulas


Consiste en considerar categorías típicas
diferentes entre sí (estratos) que poseen gran
homogeneidad respecto a alguna característica.
Se puede estratificar, por ejemplo, según la
profesión, el municipio de residencia, el sexo, el
estado civil, la carrera. Lo que se pretende con
este tipo de muestreo es asegurarse de que todos
los estratos de interés estén representados
adecuadamente en la muestra. Cada estrato
funciona independientemente, pudiendo
aplicarse dentro de ellos el muestreo aleatorio
simple o el sistemático para elegir los elementos concretos que formarán parte de la
muestra.

Por ejemplo, imagina que se quiere hacer un


estudio para saber a qué dedican su tiempo libre
las personas que viven en tu ciudad. Todos
sabemos que los ancianos no realizan el mismo
tipo de actividades que los jóvenes, ni tampoco
que las personas de mediana edad, como por
ejemplo tus padres. Nos interesaría entonces que
toda esta información que tenemos de
antemano nos ayude a construir una muestra más
significativa. De hecho, nos interesa que todos
esos colectivos estén representados en nuestra
muestra. Los colectivos que hemos definido, en
este caso por edad, representan los estratos.

Ventajas:
Podemos tener información con más precisión dentro de las subpoblaciones
sobre la característica objeto del estudio.
Podemos aumentar la precisión de los estimadores de las características de
toda la población.
30

Inconvenientes:
La elección del tamaño de las muestras dentro de cada estrato para que el
total sea n (muestra «total»).
La división en estratos en algunas poblaciones puede no ser sencilla.

Podemos considerar 3 métodos para distribuir el tamaño de la muestra entre los


estratos:

Proporcional al tamaño de cada estrato. Esto significa que si el 30% de la


población es envejeciente (estrato), el 30% de la muestra debe estar
constituida por envejecientes. En otros términos, si tomamos el 5to estrato de
𝑁
tamaño N5, entonces una muestra de dicho estrato será de tamaño ⌊(𝑛) 𝑁5⌋,
siendo N el total de la población y n el tamaño de la muestra.

Proporcionalmente a la variabilidad de la característica que estamos


considerando en cada estrato. Por ejemplo, si conocemos que la varianza
(𝜎 2 ) en la altura de los alumnOs es de 15 cm y en las alumnAs es de 5 cm, la
proporción de los alumnOs es 3 a 1 y la muestra deber guardar esa
proporción. Es decir, se deben elegir 3 veces más varones que hembras.

Se asigna el mismo tamaño a cada estrato. Como consecuencia se favorece


a los estratos más pequeños y se perjudica a los grandes en cuanto a
precisión.

Muestreo por conglomerados:


En el muestreo por conglomerados, la población se
divide en unidades o grupos, llamados
conglomerados (generalmente son unidades o áreas
en los que se ha dividido la población), que deben
ser lo más representativo posible de la población, es
decir, deben representar la heterogeneidad de la
población objeto del estudio y ser entre sí
homogéneos. Por ejemplo, un estudio del nivel © Universo Fórmulas
socioeconómico de los habitantes del Distrito
Nacional debería considerar tanto a los habitantes
de los Cacicazgos –representando a la clase alta y
media alta- como a los habitantes de Gualey –
representando a la clase baja- (ambos
conglomerados).

El motivo para realizar este muestreo es que a veces


resultaría demasiado costoso realizar una lista
completa de todos los individuos de la población objeto del estudio, o que cuando
se terminase de realizar la lista no tendría sentido la realización del estudio.

El principal inconveniente que tiene es que si los conglomerados no son


homogéneos entre sí, la muestra final puede no ser representativa de la población.
31

Suponiendo que los conglomerados sean tan heterogéneos como la población, en


relación a las variables estudiadas, y que entre sí sean homogéneos, para obtener
una muestra bastará con seleccionar algunos conglomerados. En este caso se habla
de muestreo por conglomerados de una etapa. El muestreo por conglomerados
tiene la ventaja de simplificar la recogida de las informaciones muestrales y es de
utilidad en epidemiología, más no en el proceso de BioINTEC.

Nota: Para conocer cómo se calculan los estimadores dependiendo del tipo de
muestreo puede examinar el documento «Población y muestra: Técnicas de
muestreos» de Barreiro y Albandoz.

APLICANDO CONOCIMIENTO

1. Enumere los criterios de inclusión y exclusión para su investigación:


(Recordar que los criterios de exclusión NO son la negación de los criterios de inclusión)

2. De al menos dos ejemplos en los que un muestro no probabilístico sea útil


para seleccionar los sujetos para una investigación:

3. Justifique el uso de una muestra (o de la población), técnica de muestreo


a utilizar y explicación detallada de cómo llevarán a cabo la selección de
sujetos:
32
33

4. Identifique el tipo de muestreo utilizado, el error cometido y la distribución


correcta de los estratos:

Región Población Muestra estratif. Muestra estratif.


proporcional corregida
Tamaño % Tamaño % Tamaño %
Distrito A 2250 0.45 136 0.38
Distrito B 1350 0.27 89 0.25
Distrito C 1200 0.24 79 0.22
Distrito D 200 0.04 54 0.15
Total 5000 1.00 357 1.00

ESTADÍSTICOS Y PARÁMETROS 10

Parámetro:
Es una cantidad numérica calculada sobre una población.
Ej.: Altura media de los individuos o la proporción de individuos altos en un país.
La idea es resumir toda la información que hay en la población en unos pocos
números (parámetros).

Estadístico:
Es una cantidad numérica calculada sobre una muestra.
Ej.: Altura media o proporción de estudiantes altos en el aula.
Si un estadístico se usa para aproximar un parámetro se le conoce como
estimador.

Normalmente nos interesa conocer un parámetro, pero por la dificultad que conlleva
estudiar a toda la población, calculamos un estadístico/estimador sobre una muestra
y «confiamos» en que sean próximos. Más adelante veremos cómo elegir muestras para
que el error sea «confiablemente» pequeño.

Tipos de estadísticos:
Existen diferentes tipos de estadísticos dependiendo de la característica que describa
el mismo. En este material solo se enfatizarán algunos estadísticos de centralidad y
dispersión, los demás serán impartidos en las clases de Bioestadística I.

De posición
Dividen un conjunto ordenado de datos en grupos con la misma cantidad de
individuos.
Son los cuantiles, percentiles, cuartiles, deciles, etc.

10 Málaga U. Bioestadística. Tema 2: Estadísticos. Disponible en: http://goo.gl/ElX8Ie


34

De centralidad
Indican valores con respecto a los que los datos parecen agruparse (valores
centrales).
Son la media, mediana y moda.

De dispersión
Indican la mayor o menor concentración de los datos con respecto a las
medidas de centralidad.
Son la desviación típica, rango, rango intercuartílico, varianza.

De forma
Hace referencia a la configuración que posee la distribución de una variable en
la población.
Son las medidas de asimetría y apuntamiento o curtosis.

Estadísticos o medidas de centralidad


Las medidas de centralidad son medidas que buscan posiciones (valores) con respecto
a los cuales los datos muestran tendencia a agruparse.

Media (𝜇/𝑥̅ )
Es la media aritmética (promedio) de los valores de una variable. En otras palabras,
si estás trabajando con una muestra es la suma de los valores dividido por el tamaño
2+2+3+7
muestral (n). Por ej.: media de 2, 2, 3, 7 es = 3,5.
4

Es conveniente cuando los datos se concentran simétricamente con respecto a ese


valor. Es muy sensible a valores extremos. Se considera el centro de gravedad de los
datos.

Las fórmulas para su cálculo son:


∑𝑁
𝑖=1 𝑥𝑖
Media poblacional 𝜇= 𝑁
∑𝑛
𝑖=1 𝑥𝑖
Media muestral 𝑥̅ =
𝑛
Donde N significa tamaño poblacional, n tamaño muestral, y ∑ 𝑥𝑖 sumatoria (suma)
de todos los elementos de la población o de la muestra.

Mediana (𝑥̃ o Me)


Es un valor que divide a las observaciones en dos grupos con el mismo número de
individuos. Esta corresponde al percentil 50. Si el número de datos es par, se elige la
media de los dos datos centrales. Ejs.:

Mediana de 1, 2, 4, 5, 6, 6, 8 es 5
Mediana de 1, 2, 4, 5, 6, 6, 8, 9 es (5+6)/2=5,5

Es conveniente cuando los datos son asimétricos.


No es sensible a valores extremos.
Por ej.: mediana de 1, 2, 4, 5, 6, 6, 800 es 5. ¡La media es de 117,7!
35

Moda (Mo)
Es el valor donde la distribución de frecuencia alcanza un máximo. Se refiere al valor
o a los valores que más se repiten dentro del grupo en estudio. De los ejemplos
anteriores, la moda es el número 6 que se repite 2 veces.

Estadísticos o medidas de dispersión o variabilidad


Estos miden el grado de dispersión (variabilidad) de los datos independientemente de
su causa. Para entender lo que buscan estos estadísticos conviene preguntarse: ¿Los
estudiantes que cursan BioINTEC obtienen distintas puntuaciones en los fogueos y en el
trabajo final? Esto lo podríamos llamar variabilidad, la cual podría atribuirse a diferentes
factores:

o Diferencias individuales en el conocimiento sobre el tema en investigación.


o Diferencias individuales en la habilidad para desenvolverse frente a un público
en los fogueos.
o Variabilidad por error de medida: la evaluación de los coordinadores no fue
correcta.
o Variabilidad por azar, aleatoriedad: en los fogueos hacían preguntas muy
difíciles y contestábamos a la «tin marin de do pingüé».

Los factores antes citados son causas de variabilidad en el valor que toma una variable,
en este caso la puntuación del desempeño en un fogueo. La medición de la misma se
hace a través de los estadísticos siguientes.

Amplitud o rango (R)


Diferencia entre observaciones extremas.
Ej.: 2, 1, 4, 3, 8, 4. El rango es 8-1=7
Como es de esperarse, es muy sensible a los valores extremos.

Varianza (𝜎 2 /𝑠 2 )
Mide el promedio de las desviaciones de las observaciones con respecto a la
media.
Es sensible a valores extremos (alejados de la media).
Sus unidades son el cuadrado de las de la variable. De interpretación
difícil. Es como si mi variable estuviera en metros (distancia) y el
estadístico en m2 (área).

Las fórmulas para su cálculo son:


∑𝑁
𝑖=1(𝑥𝑖 −𝜇)
2
Varianza poblacional: 𝜎2 =
𝑁
∑𝑛
𝑖=1(𝑥𝑖 −𝑥̅ )
2
Varianza muestral: 𝑠2 =
𝑛−1
̅ )2
Teniendo que N significa tamaño poblacional, n tamaño muestral, y ∑(𝑥𝑖 − 𝑥
sumatoria (suma) del cuadrado de la diferencia entre cada valor que toma la
variable y la media poblacional o muestral.

Desviación típica o estándar (𝜎/𝑠)


Es la raíz cuadrada de la varianza. Es una medida del grado de dispersión o de
qué tanto los datos se alejan de la media.
36

Tiene las misma dimensionalidad (unidades) que la variable, por lo que es


comparable. Si la desviación es de 2m y la media es de 10m se puede afirmar
que la mayoría de los datos se encuentran entre 8 y 12m, en otras palabras,
10±2m.

Las fórmulas para su cálculo son:


Desviación típica poblacional: 𝜎 = √𝜎 2
Desviación típica muestral: 𝑠 = √𝑠 2

APLICANDO CONOCIMIENTO

1. ¿Qué utilidad tiene calcular la media, desviación típica? ¿Qué


información puedo obtener de su cálculo?

2. Cálculo todos los estadísticos de centralidad y dispersión sobre las


siguientes variables. Describa el resultado.

Hb (n=45) VIH (n=45)


9.1 13.8 9.0 𝑥̅ = Pos Neg Neg 𝑝̂ =
10.7 10.7 9.9 𝑥̃ = Neg Neg Pos
9.2 8.6 8.2 𝑀𝑜𝑑 = Neg Neg Neg
10.7 9.1 12.3 𝑠2 = Pos Neg Neg
10.4 8.4 11.2 𝑠= Neg Pos Neg
10.4 8.7 8.1 𝑅 = Neg Neg Neg
13.9 9.2 9.0 Neg Neg Neg
7.7 12.6 15.5 Neg Neg Pos
13.2 13.8 9.0 Neg Neg Neg
10.4 10 12.7 Pos Neg Neg
11.1 11.2 10.4 Pos Neg Neg
8.3 8.6 14.1 Neg Neg Neg
10 13.3 10.1 Neg Neg Neg
10.7 12 9.8 Neg Neg Neg
10.3 8.4 9.0 Neg Pos Pos
24

VARIABLES 11,12,13,14
Se puede definir una variable estadística como cada una de las cualidades o
características susceptibles de ser medidas que poseen los sujetos de una población.
Estas pueden ser:

Variable cualitativa
Las variables cualitativas son características o cualidades que no pueden ser
medidas con números. Podemos distinguir dos tipos:

V. cualitativa nominal
Presenta modalidad no numérica, o sea, que no admiten un criterio de orden.
Pueden ser:
Dicotómicas o binarias si solo admiten dos características: sano/enfermo,
expuesto/no expuesto, hombre/mujeres, etc.
Policotómicas con varias categorías: grupo sanguíneo (A/B/AB/O…), estado
civil, etc.

V. cualitativa ordinal
Es lo contrario de la nominal, esta presenta modalidades no numéricas en las que
existe un orden. Como existe un orden, puede ser convertida a un equivalente
numérico.
Ej.: Etapificación de tumores, el Apgar, el Killip, puesto conseguido en una prueba
deportiva: 1º, 2º, 3º, interés en dejar de fumar, nivel máximo de estudios, grado de
dolor, intensidad del hábito tabáquico.

Variable cuantitativa
Una variable cuantitativa es aquella que se expresa mediante un número, con estas
se pueden realizar operaciones aritméticas. Podemos distinguir dos tipos:

V. discreta
Aquella que toma valores aislados, es decir no admite valores intermedios
(decimales) entre dos valores específicos.
Ej.: Número de hijos, episodios de infección urinaria, cantidad de intervenciones
previas, número de intentos para dejar de fumar.

V. continua
Es aquella que puede tomar valores comprendidos entre dos números
(decimales). Ej.: tensión arterial, peso, edad, talla, IMC.

11 Fernández SP. Elementos básicos en el diseño de un estudio. Cad Aten Primaria. 1996. 3:83-85.
12 Kenneth JR. Epidemiología Moderna. Ediciones Díaz de Santos, S.A. 1987.
13 U.S. Department Of Health And Human Services. Principles Of Epidemiology: An introduction to applied epidemiology and

biostatistics. Second edition. 1992.


14 Hernández AM, Garrido LF, López MS. Diseño de estudios epidemiológicos. Salud Pública Med. 2000. 42(2):144-54.
25

Resumen gráfico. Fuente: Bioestadística amigable (ref. 1)

Cabe decir que existen dos categorías básicas que se basan en la


interdependencia de ciertas variables, estas son:

Variable independiente
Tiene la capacidad de influir, incidir o afectar a otras variables. Se le conoce como
variable explicatoria o predictora, ya que explica o predice el valor de la variable a la
cual influye; por lo tanto, afecta al valor que toma otra variable.

Variable dependiente
Es aquella variable objeto de investigación que varía según las modificaciones de la
variable independiente. El comportamiento de la misma puede que no se conozca al
inicio de la investigación.

Ejemplo:
¿Cómo influye la música clásica en la presión arterial de los pacientes?
V. dependiente: "la presión arterial de los pacientes".
V. independiente: "la música clásica".

¿Cómo afecta la ingesta de grasa al IMC?


V. dependiente: "índice de masa corporal".
V. independiente: "ingesta de grasa".
26

APLICANDO CONOCIMIENTO

1. De un ejemplo (que no esté en el texto):

Variable Estadísticos a calcular


V. cualitativa
nominal binaria
V. cualitativa
nominal
policotómica
V. cualitativa
ordinal
V. cuantitativa
discreta
V. cuantitativa
continua

2. Aparea las variables dependientes:

IMC Volemia
Densidad Cigarrillo
TA Altura
CA pulmón Presión

3. Operacionaliza las variables de tu estudio según:

Variable Indicador(es) Escala/medición Estadístico


27

TAMAÑO MUESTRAL 15
El tamaño de la muestra necesario estará condicionado por los objetivos del estudio,
que determinan el diseño, las variables que deben considerarse y todo el método
planteado para dar respuesta a dichos objetivos. Así, si el objetivo del estudio es
conocer la prevalencia de diabéticas en un grupo de mujeres embarazadas de un
determinado centro de salud, lo que se desea conocer es una proporción y, en este
caso, se habla de «estimación de parámetros».

Con dicha estimación se pretende conocer la proporción poblacional, es decir, la


proporción de diabéticas entre todas las embarazadas a partir del estudio de un solo
grupo de ellas (una muestra). Los datos que se obtienen de dicha muestra, llamados
estadísticos, sirven para conocer los datos de la población, llamados parámetros; por
eso, se habla de conocer el tamaño de la muestra necesario para la estimación de
parámetros con una determinada precisión. En Ciencias de la Salud, los estimadores
de uso más frecuente son la proporción muestral (𝑝̂ ) para estimar la proporción en la
población (π, 𝑝0 o p) y la media muestral (𝑥̅ ) para estimar la media poblacional (µ).

Cálculo del tamaño de la muestra ,


16 17

Para lograr una correcta estimación a partir de los estadísticos de los parámetros de la
población, es necesario hacer un muestreo probabilístico y trabajar con una muestra
de tamaño adecuado. La fórmula para calcular el tamaño de la muestra dependerá
del tipo de variables a estudiar. De ahí que se distinga entre el cálculo del tamaño de
la muestra para estimar la media (𝜇) y varianza (σ2) de una variable cuantitativa, y el
cálculo del tamaño de la muestra para obtener la frecuencia o proporción (ρ) de una
variable cualitativa (es el caso de investigar prevalencia e incidencia). En la práctica,
muchos de los estudios estiman tanto variables cuantitativas (ej.: edad, peso, tensión
arterial) como variables cualitativas (ej.: sexo, grupo sanguíneo). De ahí que deba
elegirse el método que provea el mayor tamaño muestral o que utilice la variable de
mayor “peso” para el estudio.

Cálculo para la estimación de variables cuantitativas:


a) Para una población infinita (cuando se desconoce el total de unidades de
observación que la integran o la población es mayor a 10,000):
2 𝜎2
𝑧𝛼
𝑛=
𝑑2
b) Para una población finita (cuando se conoce el total de unidades de
observación que la integran):
2 𝜎2
𝑁𝑧𝛼
𝑛= 2 𝜎2
𝑑2 (𝑁−1)+𝑧𝛼

15 Fuentelsaz Gallego C. Cálculo del tamaño de la muestra. Matronas Profesión [en línea] 2004 [fecha de acceso 21 de noviembre
de 2014]; 5(18): 5-13. Disponible en: http://goo.gl/rdi9Zx
16 Aguilar Barojas S. Fórmulas para el cálculo de la muestra en investigación de salud. Salud en Tabasco [en línea] 2005 [fecha de

acceso 21 de noviembre de 2014]; 11(1-2): 333-338. Disponible en: http://goo.gl/cCNhU6


17 Wayne WD, Chad LC. Biostatistics: A foundation for analysis in the health sciences. 10th ed. United States of America; 2013.
28

Donde:
n = tamaño de la muestra.
N = tamaño de la población.
Z = valor de Z crítico a utilizar que depende del nivel de confianza que se quiera
tener. Por ejemplo, para un nivel de confianza del 95%, Z0.05 será igual a 1.96.

Valores de Z más utilizados, según el valor


de 𝜶18
𝜶 0.10 0.05 0.01 0.001
𝒁𝜶 1.645 1.96 2.576 3.291

σ2 = varianza de la población en estudio (que es el cuadrado de la desviación


estándar y puede obtenerse de estudios similares o pruebas piloto).
d = nivel de precisión absoluto o error que se pretende cometer. Referido a la
amplitud del intervalo de confianza deseado en la determinación del valor
promedio de la variable en estudio.
Todo esto se ejemplifica más adelante.

Ahora bien, puede que surja la pregunta ¿Cómo se puede determinar la varianza
poblacional (σ2) sin haber realizado el estudio? De ahí que se deba saber cómo estimar
el valor de σ2.

Estimación de σ2
Las fórmulas para el tamaño de la muestra requieren del conocimiento de σ 2 pero,
como ya se ha señalado, la varianza de la población casi siempre se desconoce.
Como resultado, es necesario estimar σ2. Las fuentes de estimación de σ2 que se utilizan
con más frecuencia son las siguientes:

1. Se extrae una muestra piloto o preliminar de la población y se puede utilizar la


variancia calculada a partir de esta muestra como una estimación de σ 2. Las
observaciones utilizadas en la muestra piloto se toman como parte de la muestra
final, de modo que n (el tamaño calculado de la muestra) ‒ n1 (el tamaño de la
muestra piloto) = n2 (el número de observaciones necesarias para satisfacer el
requerimiento total del tamaño de la muestra).
2. A partir de estudios anteriores o similares es posible obtener estimaciones de σ2.
3. Si se cree que la población de la cual se extrae la muestra posee una distribución
aproximadamente normal, se puede aprovechar el hecho de que la amplitud es
aproximadamente igual a 6 desviaciones estándar y calcular σ ≈ R/6. Este método
requiere algún conocimiento acerca del valor mínimo y máximo de la variable en
la población, ya que el rango (R) es la diferencia entre estos valores.

18La letra alpha significa nivel de significancia, que es igual a 1 menos el nivel de confianza
(ej.: 1-0,95=0,05).
29

Ejemplos
Población desconocida: ¿Cuántas mujeres será necesario estudiar para estimar
la media de glucemia de las embarazadas que han acudido a control pre-natal
de un determinado hospital?

Estableciendo un nivel de confianza del 95% (𝛼 = 0.05; 𝑍𝛼 = 1.96) y una precisión


(d) de 5 (es decir que es admisible una diferencia de ±5mg/dL entre la media de
glucemia de la población y la de la muestra); faltaría por conocer la desviación
estándar (σ). Para conocerla se utilizó una prueba piloto con la que se estima
que σ ≈ 20. Por lo que el número mínimo de mujeres que ha de estudiarse será
de 62.

(1,96)2 (20)2
𝑛= = 61.47 ≅ 62
(5)2

Población conocida: ¿Cuántas adolescentes será necesario estudiar para


determinar su ingestión diaria promedio de proteínas (medidas en gramos) en
una población de 1,000 adolescentes?

Se estableció un nivel de confianza del 99% (𝛼 = 0.01; 𝑍𝛼 = 2.576) y una precisión


(d) de 2 (se pretende obtener la media con un margen de error de ±2g). El
nutriólogo a cargo del estudio, basándose en su experiencia previa, percibe que
la desviación estándar de la población (σ) es de ±20g. De ahí que la muestra sea
de 400.

(1,000)(2.576)2 (20)2 2,654,310.4


𝑛= 2 2 2
= = 399.13 ≅ 400
(2) (1,000 − 1) + (2.576) (20) 3,996 + 2,654.3104

Cálculo para la estimación de variables cualitativas:


En las investigaciones donde la variable principal es de tipo cualitativo, que
se reporta mediante la proporción del fenómeno en estudio en la población
de referencia, la muestra se calcula con las siguientes fórmulas:

a) Para población infinita (cuando se desconoce el total de unidades de


observación que la integran o la población es mayor a 10,000):
2 𝑝𝑞
𝑧𝛼
𝑛=
𝑑2
b) Para población finita (cuando se conoce el total de unidades de
observación que la integran):
2 𝑝𝑞
𝑁𝑧𝛼
𝑛= 2 𝑝𝑞
𝑑2 (𝑁−1)+𝑧𝛼
30

p = proporción aproximada del fenómeno en estudio en la población de


referencia.
q = proporción de la población de referencia que no presenta el fenómeno en
estudio (1‒p).
La suma de p y q siempre debe dar 1. Por ejemplo, si p = 0.8 q = 0.2
d = nivel de precisión o error que se pretende cometer, pero en este caso no es
absoluto. Si se pretende cometer un error del 10%, d será igual a 0.10,
correspondiente a una precisión o nivel de confianza del 90%. Si fuese del 5%, d
= 0.05.
Z y N se explicaron en el apartado anterior.

Al igual que en el apartado anterior, puede que surja la pregunta ¿Cómo se puede
determinar la proporción poblacional (p) sin haber realizado el estudio? De ahí que se
deba saber cómo estimar el valor de p19.

Estimación de p
Como puede observarse, ambas fórmulas requieren que se conozca p que es la
proporción que posee la característica de interés en la población. Obviamente, dado
que este es el parámetro que se desea estimar, será desconocido. Una solución para
este problema consiste en tomar una muestra piloto y calcular una estimación (𝑝̂ ) para
utilizarla en lugar de p dentro de la fórmula para n.

Algunas veces el investigador tendrá noción de algún límite superior que podrá utilizar
en la fórmula. Por ejemplo, si se desea estimar la proporción de alguna población que
presenta cierta discapacidad, es posible que se crea que la proporción real no puede
ser mayor que, digamos, 0.30. Se sustituye entonces por 0.30 en la fórmula para n.

Si es imposible obtener una mejor estimación, se puede igualar p a 0.50 y resolver para
n. Dado que p = 0.50 proporciona el máximo valor de n, este procedimiento dará una
muestra lo suficientemente grande para alcanzar la confiabilidad y la dimensión del
intervalo deseadas. Sin embargo, puede ser más grande de lo necesario y resultar más
costosa que si se dispusiera de una mejor estimación de p. Este procedimiento se debe
utilizar solamente si no se puede llegar a una mejor estimación de p.

19No confundir con valor p, que se explica en el apartado de estimación e inferencia


estadística.
31

Ejemplos
Población desconocida: ¿Cuántas mujeres será necesario estudiar para estimar la
prevalencia de dolor lumbar en una población de embarazadas?

Con un nivel de confianza del 95% (α = 0.05; 𝑧𝛼 = 1.96), un error máximo admitido de
±8% (d) y un valor de prevalencia conocido por la bibliografía del 20% (p), el tamaño
de la muestra necesario será de 96 mujeres:

(1,96)2 (0,20)(0,80)
𝑛= = 96.04 ≅ 96
(0,08)2

Población conocida: ¿A cuántas personas de una población de 8,000 habitantes se


tendrá que estudiar para conocer la prevalencia de diabetes mellitus?

Se decide trabajar con un nivel de confianza del 90% (α = 0.10; 𝑧𝛼 = 1.645), un error
máximo admitido de ±3% (d). Se asume que la prevalencia (proporción) de diabetes
mellitus en la población no puede ser mayor de 6% (p). De ahí que el tamaño de la
muestra necesario sea de:

(8,000)(1.645)2 (0.06)(0.94) 1,220.95848


𝑛= 2 2
= = 166.08 ≅ 166
(0.03) (8,000 − 1) + (1.645) (0.06)(0.94) 7.1991 + 0.1526

APLICANDO CONOCIMIENTO

1. ¿A cuántas personas de una población de 150,000 habitantes se tendrá


que estudiar para conocer la incidencia de diabetes mellitus? Elija alfa, nivel
de precisión e investigue/estime el valor de p.
32

2. Calcula el tamaño de tu muestra. Justifica los valores utilizados.


33

REPRESENTACIÓN DE LOS RESULTADOS


La representación de los datos debe hacerse de la forma más clara, resumida,
explicativa posible.
34

Diagrama de caja y bigote, box plot, box-plot o


boxplot. Es un método estandarizado para
representar gráficamente una serie de datos
numéricos a través de sus cuartiles. De esta manera,
el diagrama de caja muestra a simple vista la
mediana y los cuartiles de los datos,1 pudiendo
también representar los valores atípicos de estos.

Pirámide de población o pirámide


demográfica es un histograma o
gráfico de barras dispuestas
horizontalmente cuya longitud es
proporcional a la cantidad de
personas que representa la edad y
sexo de la población en cada una de
dichas barras y dicha información sirve para saber el porcentaje de la población.
35

ALGUNOS CONCEPTOS EPIDEMIOLÓGICOS 20


Endemia
Se emplea cuando una enfermedad está presente en una población específica.
Puede convertirse en una epidemia si existen los factores ambientales que hagan que
la enfermedad se mueva hacia otras localidades. Ej.: el dengue en RD.

Epidemia
Se habla de epidemia cuando una enfermedad comienza a tener una prevalencia
(número de personas que presentan el mismo padecimiento) mayor a lo que se espera
o se puede controlar, también se considera epidemia cuando la incidencia que son
los casos nuevos de la enfermedad rebasan lo estimado. La epidemia puede estar
restringida a un área local. Ej.: la chikungunya en el 1er año de entrada al país o la
diabetes a nivel global. La primera tuvo una alta incidencia (enf. aguda), la segunda
tiene una alta prevalencia (enf. crónica).

Pandemia
Hace referencia a la presentación de la enfermedad en varios países y continentes
simultáneamente, y relacionados por un detonante común. Ej.: la influenza A H1N1,
también enfermedades como diabetes, cáncer, VIH-SIDA, han sido consideradas
pandemias.

Brote
Es el aumento del número de casos de una enfermedad o situación de salud, limitado
en el tiempo, lugar y personas. Puede convertirse en una epidemia. Ej,: intoxicación por
toxina botulínica.

Factor de riesgo
Es toda característica o circunstancia de una persona o grupo de personas que se sabe
está asociada con un incremento en la probabilidad de padecer, desarrollar o estar
en especial vulnerabilidad a un proceso mórbido.

Vigilancia epidemiológica
Se define como la utilización de los conceptos, fundamentos, categorías y
comportamiento del proceso salud-enfermedad en la sociedad, a través de una
estructura incluida en el sistema nacional de salud, la cual permite, mediante el
conjunto de actividades que le son propias, obtener la información pertinente, explicar
en todo momento el perfil de salud de la población, y detectar y prever los cambios
que puedan ocurrir para recomendar oportunamente sobre bases objetivas y
racionales los mecanismos de vigilancia epidemiológica como un instrumento de
apoyo a los servicios de atención a la salud.

20 Elitemedical.com, Conceptos Epidemiológicos [sede web]. Disponible en: http://goo.gl/PtpVQ0


36

DISTRIBUCIÓN DE PROBABILIDAD
Es importante que leas este apartado para que puedas entender las pruebas estadísticas a explicar
en el taller.

Conceptualización
La probabilidad, desde el punto de vista subjetivo, es el grado de certeza que se posee
de la ocurrencia de un suceso. Otros lo definen como la frecuencia de aparición de un
suceso, por ejemplo, cuántas personas contraen Influenza B por cada 100 habitantes.

Por otra parte, la teoría de la probabilidad es el fundamento para la inferencia. Es la


que permite lograr uno de los objetivos de la estadística que es conocer
cuantitativamente una determinada parcela de la realidad. Para ello, es necesario
construir un modelo de esta realidad particular objeto de estudio, partiendo de la
premisa de que lo real es siempre más complejo y multiforme que cualquier modelo
que se pueda construir. De todas formas, la formulación de modelos aceptados
permite obviar la existencia del
error o distancia entre la
realidad y el modelo (Figura 1).
Los modelos teóricos a los que
se hace referencia se reducen
en muchos casos a (o incluyen
en su formulación) funciones
de probabilidad.
Figura 1: Funciones de densidad de probabilidad

La teoría de la probabilidad tiene su origen en el estudio de los juegos de azar, que


impulsaron los primeros estudios sobre cálculo de probabilidades en el siglo XVI, aunque
no es hasta el siglo XVIII cuando se aborda la probabilidad desde una perspectiva
matemática con la demostración de la «ley débil de los grandes números» según la
cual, al aumentar el número de pruebas, la frecuencia de un suceso tiende a

Por ejemplo: Se conoce que al lanzar una moneda la probabilidad de obtener cara o
escudo es del 50% o de 0.5. Si se lanza la moneda sucesivamente 20 veces, se podrían
obtener los siguientes resultados:

Cara Escudo Cara Cara Escudo Cara Cara Escudo Escudo Cara
Escudo Cara Escudo Cara Escudo Escudo Escudo Cara Escudo Escudo

Al contar, se obtuvieron 9 caras y 11 escudos. Si se calcula la frecuencia para cada opción,


cara o escudo, se obtiene que:
9
𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 (𝑐𝑎𝑟𝑎𝑠) = = 0.45 ≈ 0.50
20
aproximarse a un número 11 fijo denominado probabilidad. Este
𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 (𝑒𝑠𝑐𝑢𝑑𝑜𝑠) = = 0.55 ≈ 0.50
20
Estos valores son casi iguales a la probabilidad real de 0.50. Por lo que, según el enfoque
frecuentista de la probabilidad, si se sigue lanzando la moneda la frecuencia obtenida
tenderá a ser la probabilidad del evento.
37

enfoque es llamado «enfoque frecuentista de la probabilidad».

Uno de los conceptos más importantes de la teoría de probabilidad es el de variable21


aleatoria que, intuitivamente, puede definirse como cualquier característica medible
que toma diferentes valores con probabilidades determinadas como por ejemplo el
peso, la tensión arterial, el IMC, etc. Toda variable aleatoria posee una distribución de
probabilidad que describe su comportamiento. Si la variable es discreta, es decir, si
toma valores aislados dentro de un intervalo (como el número de hijos), su distribución
de probabilidad especifica todos los valores posibles de la variable junto con la
probabilidad de que cada una ocurra, como se observa en la gráfica siguiente:

En el caso continuo, es decir, cuando la variable puede tomar cualquier valor de un


intervalo, la distribución de probabilidad permite determinar las probabilidades
correspondientes a cada subintervalo de valores. Una forma usual de describir la
distribución de probabilidad de una variable aleatoria es mediante la denominada
función de densidad, en tanto que lo que se conoce como función de distribución

21 El concepto de variable fue tratado anteriormente.


38

representa las probabilidades acumuladas, como es el caso de las tablas de


distribución estandarizadas que se utilizarán. Las funciones se presentan a
continuación. Luego, en la Figura 2 se observa la relación entre las dos funciones.

Las distribuciones anteriores se realizaron a partir de


datos de la realidad (cantidad de hijos e IMC); sin
embargo, no siempre es posible analizar todos los
datos, de ahí que una de las preocupaciones de
los científicos haya sido (y continúa siendo)
construir modelos de distribuciones de probabilidad
que puedan representar el comportamiento
teórico de diferentes fenómenos aleatorios que
aparecen en el mundo real. La pretensión de
modelar lo observable ha constituido siempre una
necesidad básica para el científico empírico, dado
que a través de esas construcciones teóricas (los
modelos) puede experimentar sobre aquello que la
realidad no le permite. Por otra parte, un modelo
sólo resultará útil siempre y cuando se corresponda
con la realidad que pretende representar o
predecir. La Figura 1 es ejemplo de esto.

Cabe decir que las distribuciones de probabilidad Figura 2 Relación entre las dos funciones
de probabilidad (el símbolo P significa
podrán presentarse en forma de tabla, gráfica o Probabilidad)
fórmula. Conocer la distribución de probabilidad
para la variable aleatoria proporciona al médico y al investigador herramientas
poderosas para simplificar y describir un conjunto de datos, y para llegar a conclusiones
acerca de la población sobre la base de una muestra.

En la práctica hay unas cuantas leyes de probabilidad teóricas, como son, por ejemplo,
la ley binomial y la de Poisson para variables discretas o la ley normal para variables
continuas, que sirven de modelo para representar las distribuciones empíricas más
frecuentes. Sin embargo, más adelante se obviará la fundamentación estadística de
39

las prueba y solo se abordará su aplicación práctica. Las demás distribuciones y su


fundamentación teórica y/o estadística serán impartidas en sus clases de Bioestadística
I y II.

Orientándote un poco
Ante todo, suponemos que ya sabes que puedes conocer la probabilidad
de obtener un resultado en tu investigación. Ese resultado puede ser una
media (𝑥̅ ), una varianza (𝑠 2), una razón, una proporción (𝑝̂ ) o frecuencia.
Para lograrlo, en general, se necesita que la población siga una distribución
ya conocida, como la normal estándar o la de Fisher o, de no seguir la
distribución seleccionada, que la muestra sea suficientemente grande
(n≥30 para medias, n≥100 para proporciones).
Entonces, ¿Cómo lo hacemos? Se utilizan tablas estandarizadas que, para
una distribución específica de la variable, presentan la probabilidad de
obtener valores o intervalos de valores. Por ejemplo, la media de la
concentración de glucosa en sangre (glucemia) de tu estudio puede ser
de 143.8mg/dL. Podrías preguntarte ¿Este valor no es muy alto ya que la
población de dónde saqué la muestra tiene una media de 73.4mg/dL?
Para responder esa pregunta los estadísticos utilizan la probabilidad,
teniendo que cuando la probabilidad de obtener un valor (como el 143.8)
es muy pequeña, el evento es muy raro y, por ende, se podría considerar a
la muestra como un grupo diferente con respecto a la población. ¿Para
qué sería útil saber que mi muestra es diferente a la población? Porque
permitiría que se busque una explicación a la diferencia. Con esto se podría
conocer a qué factores están expuestos las personas de mi muestra que los
hace más propensos a tener una glucemia alta. Es importante señalar que,
como se busca saber la probabilidad de obtener cierto valor en una
población, es necesario conocer los parámetros (varianza o proporción)
que definen esa población, de ahí que, de no conocerlos deban de ser
estimados. La estimación de estos parámetros es explicada en el apartado
de Cálculo del tamaño de la muestra.
De ahí que, para conocer si el evento es raro, es decir, si la probabilidad de
que ocurra es muy pequeña, los datos que obtenemos en la recolección
de datos (por ejemplo la media de glucemia en sangre, la cantidad de
pacientes con diabetes en tu muestra, la diferencia en el tiempo durado
haciendo una laparoscopía y una cirugía abierta) son transformados en
valores estandarizados que nos permiten utilizar las tablas y conocer la
probabilidad de obtener determinado valor. Por eso, no es necesario que
construyamos la distribución de cada variable cada vez que hagamos un
estudio sino que solo debemos convertir nuestros datos en valores estándar
que ya tienen una probabilidad asociada en la distribución normal
estándar, la distribución de Fisher, etc. En la página siguiente se presenta un
esquema sobre la utilidad práctica de la teoría de la probabilidad en una
investigación (Figura 3).
40

Figura 3 Esquema: Utilidad de la teoría de la probabilidad en un estudio. Fuente: OReyes


41

PRUEBAS ESTADÍSTICAS
Las pruebas estadísticas son útiles para determinar la probabilidad de obtener
determinado valor de una variable aleatoria en la muestra, conociendo los parámetros
de la población. También permite comparar dos muestras para determinar si estas son
diferentes. Esto sería útil para, por ejemplo, determinar la diferencia en eficacia de dos
fármacos, o la proporción diferencial de determinada patología entre expuestos y no
expuestos a un agente patológico, etc. Aquí se hace un resumen -no meticuloso- de
las pruebas estadísticas comentadas en el taller de bioestadística para BioINTEC.

PRUEBA ESTADÍSTICA ADECUADA


¿Qué se compara? n Prueba estadística útil
Media muestral Media poblacional ≥30 Prueba Z para la media
≤30 Prueba t de estudiante
Proporción muestral Proporción poblacional ≥100 Prueba Z para la
proporción
Media muestral 1 Media muestral 2 ≥30 Prueba Z para la
diferencia de medias
≤30 Prueba t para la
diferencia de medias
Proporción muestral 1 Proporción muestral 2 ≥100 Prueba Z para la
diferencia de
proporciones
Variable cuantitativa Variable cualitativa - ANOVA
(dependiente) (factor, independiente)
Variable cuantitativa Variable cuantitativa - Regresión
(respuesta, (explicativa, Correlación
dependiente, y) independiente, x)
Variable cualitativa Variable cualitativa - Prueba de
(dependiente) (categórica, independencia o Chi
independiente) cuadrada
42

INTERVALO DE CONFIANZA
La estimación puntual aproxima mediante un número el valor de una característica
poblacional o parámetro desconocido (la altura media de los dominicanos, la
intención de voto a un partido en las próximas elecciones generales, el tiempo medio
de ejecución de un algoritmo, el número de carros públicos…) pero no nos indica el
error que se comete en dicha estimación.

Lo razonable, en la práctica, es adjuntar, junto a la estimación puntual del parámetro,


un intervalo que mida el margen de error de la estimación. La construcción de dicho
intervalo es el objetivo de la estimación por intervalos de confianza.

Un intervalo de confianza para un parámetro con un nivel de confianza 1−α


(0<α<1), es un intervalo de extremos aleatorios que, con probabilidad 1−α, contiene al
parámetro en cuestión.

Los valores más habituales del nivel de confianza 1−α son 0.9, 0.95 o 0.99 (la confianza
es del 90%,95% o 99%). En ocasiones también se emplea la terminología nivel de
significación para el valor α

En la estimación por intervalos de confianza partimos de una muestra x1,…,xn. A partir


de estos valores obtenemos un intervalo numérico. Un intervalo de confianza al 95%
garantiza que, si tomamos 100 muestras, el verdadero valor del parámetro estará
dentro del intervalo en aproximadamente el 95 de los intervalos construidos. Estas
teorías se explican fácilmente con una campana de Gauss

En esta, me señala de manera gráfica, que dependiendo de mi nivel de eficiencia


habrá una cantidad determinada de observaciones para dar respuesta a mi
planteamiento.

_____________________
Alejandro Quintela del Rio. Estadística Básica Edulcorada. 2019

También podría gustarte