Está en la página 1de 18

SEMINARIO: BIOESTADÍSTICAS A PRUEBA DE TRAUMATÓLOGOS – I.

V1.1
Dr. Tomás Zamora Helo
Residente de Traumatología y Ortopedia UC, 1er Año.
Tutor: Dr. Javier Román
Agosto del 2012

INTRODUCCIÓN

A pesar de la gran importancia que han ganado los principios estadísticos en el diseño y análisis
de datos en los últimos años, la bioestadística, aplicación de estadísticas al análisis de datos
biológicos y médicos, es todavía una materia no totalmente entendida y muchas veces sujeta a mal
uso por parte de los médicos.

La bioestadística, a veces llamada también Biometría, ha sido de fundamental importancia para


bases de las teorías de la biología y medicina moderna. Desde el primer estudio clínico registrado
en 1747, por el cirujano Ingles James Lind, en busca de una cura para el escorbuto, la medicina
transformó desde una simple observación empírica de casos a la aplicación científica de las
ciencias básicas para determinar la mejor terapia existente y catalogar los diferentes diagnósticos.

Esta revisión introductoria incluye la terminología y principios involucrados en el análisis simple de


datos y muestra de forma general los conceptos principales de la estadística medica que han
ganado prominencia en los últimos años.

DISEÑOS DE ESTUDIOS

Los estudios pueden dividirse en observacionales o experimentales. A continuación están


detallados los que no podemos NO conocer en nuestra práctica clínica.

Observacionales:
Aquellos en los que los investigadores no intervienen en ninguna forma, sino que simplemente
observa los outcomes de interés y los factores que contribuyen a su aparición; si se intenta analizar
la relación entre ambos se denominan epidemiológicos. Hay diferentes tipos de estudios
observacionales, entre los principales y que más utilizamos en nuestra especialidad podemos
encontrar:

- Transversal: La característica distintiva de este tipo de estudios es que la variable de resultado


(enfermedad o condición de salud) y las variables de exposición (características de los sujetos) se
miden en un mismo momento en el tiempo. Debido a esto, no es posible determinar si el supuesto
factor de exposición precedió al aparente efecto, ni tampoco, establecer causalidad entre
exposición y efecto. Su limitación para establecer causalidad se compensa por su flexibilidad para
explorar asociaciones entre múltiples exposiciones y múltiples efectos. Son particularmente útiles
para establecer una prevalencia de cierta condición en una población determinada. Por otro lado,
no nos permite establecer relaciones de causalidad ni tampoco establecer la incidencia de una
condición.
Ejemplo: Censo
- Longitudinales: Son estudios en los que se sigue a un grupo de pacientes a lo largo del tiempo.
Generalmente son prospectivos, en que los individuos son seguidos hacia delante en algún punto
del tiempo, pero también pueden ser retrospectivos, en los que individuos son seleccionados por
alguna condición y luego factores que han ocurrido en el pasado son rescatados. Estudios
longitudinales son mas caros y difíciles de realizar ya que dependen de la memoria o registros
médicos y puedes ser sujetos de sesgo. Dentro de ellos podemos encontrar:

Cohorte: ejemplo de estudio prospectivo observacional. En este caso se seleccionan individuos


que no presentan una determinada condición, en base a una exposiciones de interés. En forma
simple se selecciona a un grupo expuesto y a un grupo no-expuesto y ambos se siguen en el
tiempo para comparar la ocurrencia de algún evento de interés. Entre los estudios observacionales,
este tipo de diseño representa lo más cercano al diseño experimental y también tiene un alto valor
en la escala de causalidad. Dentro de sus ventajas destacan que nos permite calcular incidencia,
sirve para estudiar exposiciones poco frecuentes y además establecen una clara secuencia
temporal. Las desventajas son que pueden ser costosos, requieren mucho tiempo y el seguimiento
puede verse afectado por múltiples causas. En estos estudios por lo genera se utiliza el Riesgo
Relativo para determinar el efecto de un factor de riesgo y se calcula como el riesgo de desarrollar
cierta condición en aquellos expuestos al factor de riesgo dividido por los no expuestos. Es
importante no considerar el RR como un valor aislado , sino que siempre en relación al riesgo
absoluto de desarrollar cierta enfermedad.

Casos y Controles: Es un ejemplo de estudio observacional retrospectivo. Se selecciona una


muestra de la población en estudio con base en la presencia (caso) o ausencia (control) del evento
de estudio de interés y se analizan las diferentes exposiciones y posibles factores etiológicos para
aquellos individuos. En este tipo de estudios utilizamos el Odds Ratio (OR), el cual se puede
utilizar de forma similar que el RR para los estudios de cohorte. Es importante que los casos y
controles tengan la misma base poblacional y por lo tanto que representen la misma población de
riesgo. Entre sus ventajas están que son útiles para estudiar problemas de salud poco frecuentes,
útiles para enfermedades de larga evolución y pueden estimar relativamente bien el RR si se
cumples los principios de representatividad, simultaneidad y homogeneidad. Entre sus desventajas
destaca que no se puede estimar incidencias, son especialmente susceptibles a sesgo de
selección o información.

Estudios experimentales:
Aquellos en que los investigadores intervienen en alguna forma en el Outcome. Son longitudinales
y prospectivos. Incluyen las series de casos, experimentos de laboratorios, estudios para evaluar
medidas preventivas (vacunas) y los estudios clínicos.

Estudios clínicos: Los estudios clínicos (clinical trials) son experimentos en humanos (o también
animales) que se utilizan para evaluar el efecto del tratamiento en un outcome clínico de interés.
Los principios que se deben cumplir para que un estudio clínico este libre de sesgo son los
siguientes;
- Comparativo: Sinónimo de controlado en estadísticas. Los individuos en el grupo control
idealmente deberían ser un control negativo (si es éticamente factible) o si no un control positivo.
Su propósito es el de separar el efecto del tratamiento del efecto que se tiene solo al recibirlo
- Randomización: es la forma en que logramos tener grupos comparables basalmente para
el resto de los factores.
- Ciego: Nos permite disminuir el sesgo de selección y registro u observación por parte de
loes evaluadores como también de los pacientes. Es por esto que lo ideal es contar con un estudio
de doble ciego (tanto para los pacientes como para los evaluadores y supervisores)
sub-population with its own randomisation list; in blocked likely to provide the best evidence at the top and the weak-
randomisation, randomisation is performed so that an est at the bottom. The strongest evidence is obtained from
equal number of individuals is allocated to each treatment. a meta-analysis. This is a systematic review of the literature
It is important to design the trial so that it is free from which seeks to identify, appraise, select and synthesise all
assessment bias which may arise because an individual (the high-quality research relevant to the question of interest
patient, those responsible for administering treatment and/ and uses quantitative methods to summarise the results.
or the assessor) believes that one treatment is superior, However, the arrangement of the hierarchy depends partly
TIPOS
which may influence hisDE VARIABLES
or her behaviour. Assessment bias on the problem considered. We would choose to perform a
may be avoided by introducing blinding, otherwise known RCT to investigate a novel treatment; but to identify risk
Todas
as masking. Ideally las variables
the study y los datos
should be double-blind que factors
when se desprenden
for a diseasedeoutcome,
ellas serán unoor de
a cohort estos dos tipos:
case-control
categóricas o numéricas. El tipo de variable es muy importante
the patient, those supervising treatment and the assessors study will be more appropriate. ya que determina el análisis que
are unaware whichvamostreatment
a realizareach patient is receiving.
Sometimes this cannot be achieved, in which case it is
Meta-analysis
important thatCategóricas
the patient or the assessor of the response
- Nominal:
are blind; the study Las to
then is said categorías no son
be single-blind. ordenadas, sino que simplemente
A nega- ↓ tiene nombres. Ejemplo: Grupo
tively controlledSanguíneo
study must include a placebo treatment if Blinded randomised controlled trial
- Ordinal:
the study is to be masked. Categorías están ordenadas de alguna forma. Por ejemplo, sistemas de etapificación o

grado
A clinical trial whichde dolor o disfunción.
is comparative and uses randomisa-
tion to allocate individuals to the different treatments is Cohort study
called a randomised
Son controlled
binarias otrial (RCT). The most
dicotómicas cuandocredi-
solo hay dos opciones posibles ↓ (Ej.: SI/NO, tiene / NO tiene la
ble type of RCT incorporates Muerto/Vivo)
enfermedad, masking. These features are Case-control study
included in the CONSORT statement checklist (www.
consort-statement.org also available at ww.jbjs.org.uk) which ↓
Numérica
provides a blueprint
Cuando for los
all aspects of design
datos toman and analysis
valores numéricos. Se puede dividirCase en:series
for an optimally reported randomised
- Discretos: Cuandocontrolled trial. solo pueden ser de ciertos valores
las variables ↓ numéricos. (Ej. Número de
hijos, de visitas, etc.) Single case report
Evidence-based medicine and the hierarchy of
- Continuo: Sin limitación en los valores que puede tomar la variable.

(Ej., Peso, altura, etc.)
evidence
Evidence-based medicine has been defined by Straus et al5
Además podemos hacer la diferencia entre variables Ideas, opinions etc
numéricas intervalares o de razón. Las
as “the conscientious, explicit and judicious use of current
primeras son aquellas en que pueden establecer intervalos iguales Fig. 1 entre sus valores y permiten
best evidence in making decisions about the care of indi-
determinar la diferencia entre puntos
vidual patients”. This involves knowing how to translate a
a lo largo del
The mismo
hierarchy of continuo,
evidence (the siendo
strongest el 0 un isvalor más dentro
evidence
de la escala, pudiendo alcanzar valores
clinical problem relating to the care of a particular patient
positivos, 0
provided oat negativos.
the top).

into an answerable clinical question, locate the relevant


Por el
research and judge its contrario,
quality. It islas variables
important de razón integra aquellas variables con intervalos iguales que pueden
to recognise
situar un cero absoluto. Estas
that different study designs provide varying degrees of variables
evi- Some nombran
common orden,
terms presentan intervalos iguales y el cero
significa ausencia de la característica. El clásico ejemplo
dence relating to the answers obtained from the question If we are to appreciate fully de esto es la velocidad,
the benefits en que 0 significa
and pitfalls associated
ausencia
posed. This hierarchy de la variable
of evidence for humanmedida, en cambio
investigations la variable
with statistical temperatura
analysis, we should be(en Cº), with
familiar el 0the
esterms
sólo un valor
is represented más, pudiendo
in Figure 1, withalcanzar valores
the type of design negativos
most used(intervalar).
and the important concepts which underlie the theory.

Variable

Categorical Numerical

Ordinal Nominal Discrete


Continuous
(ordered) (unordered) (integer)

Example: Example: Example:


Example:
Disease stages Blood groups Blood pressure
Visit number
1, 2 and 3 A, B, AB and O in mmHg

Fig. 2
Otros tipos de Variables: Además de los
Categorisation of a previamente
variable. descritos podemos encontrar otros tipos de
variables. Entre ellos están los porcentajes (Ej., Porcentaje de cambio de cierto parámetro),
Cuocientes
VOL. 88-B, No. 9, SEPTEMBER 2006 (Ej., IMC), Tasas, y Score (Ej., SF-36). La gran mayoría de estas variables se pueden

trabajar como variables numéricas para la mayoría de los análisis.

ESTADÍSTICA DESCRIPTVA.

Distribución de Frecuencia
Lo primero que debemos realizar es analizar la distribución de frecuencia observada para cierto
outcome. También se puede utilizar la frecuencia relativa, en forma de porcentaje, y de esta forma
comparar la frecuencia en dos o más grupos de individuos. Distintas formas se han utilizado para
poder expresar gráficamente la distribución de frecuencia. Algunas se utilizan principalmente para
las variables categóricas (más algunas discretas) como lo son el gráfico de Barras y Torta,
mientras que otros permiten representar datos Numéricos, como el histograma, Dot-Plot, Box-Plot,
etc.

Gráfico de Barras
Barras en el eje vertical u horizontal cuya longitud es proporcional a la frecuencia de la categoría
que representa. Las barras se separan por un pequeño GAP para indicar que no hay continuidad
entre ellas y que son categóricas (o algunos tipos de discretas). Las barras deben ser de ancho
igual

Fig. Gráfico de Barras

Gráfico de Torta
Ideal para mostrar la frecuencia relativa de una variable categórica. Se divide la tora en diferentes
secciones, cada una proporcional a la frecuencia de cada categoría.

Fig.: Gráfico de Torta.

Histograma
Es similar al gráfico de barras, pero se utiliza en variables continuas y algunas discretas, por lo que
no deben haber gaps entre las distintas categorías. Acá el área de la barra debe ser proporcional a
la frecuencia dentro de ese rango. La categorización en rangos debe ser lo suficientemente
estrecha para observar una tendencia, pero no tan estrecha como para representar datos únicos.

Fig. Histograma

Dot-Plot
En este gráfico cada observación esta representado por un punto en el plano horizontal o vertical.
Generalmente se agrega una marca a la media o la mediana. Se utilizan para variables continuas o
también discretas.

Fig. Dot Plot

Box-Plot.
Es un rectángulo horizontal o vertical que representa en sus extremos los quartiles inferior y
superior de los valores de datos. La línea que se traza sobre el rectángulo es la Mediana. Los
“bigotes” (de ahí su nombre “Box and whisker Plot”) generalmente representan los valores
máximos y mínimos, pero a veces, pueden utilizarse algunos percentiles determinados ( percentil 5
y 95 por ejemplo).
Fig. Box-Plot

Steam and Leaf Plot (Gráfico de tallo y hojas)


Mezcla entre diagrama y tabla. Generalmente se dibuja con un tallo vertical (central) en que se
representan el (o los) primer (os) números de los valores en orden creciente. Desde el tallo están
las hojas que representan el dígito final de cada valor de forma ordenada horizontalmente. Estos
gráficos nos dan una vista rápida de la densidad y forma de los valores, manteniendo la integridad
de la información visible.

Fig. Steam and Leaf Plot

Diagrama de dispersión. (Scatter diagram)


Este se utiliza cuando queremos mostrar dos variables, ambas numéricas u ordinales y la relación
que presentan entre ellas. La variable X se muestra en el eje horizontal, mientras que la Y en el eje
vertical.
Fig. Scatter Diagram

DESCRIBIENDO LOS DATOS

Medidas de resumen o tendencia central

Variables Categóricas: generalmente se utilizan valores de proporción o porcentaje para describir


estas variables.

Variables Numéricas: Se pueden utilizar distintas medidas dependiendo del tipo de datos.

- Media aritmética (promedio). Se calcula sumando todos los valores y luego dividiéndolo por el
número de valores utilizados. Tiene la ventaja de que ocupa todos los datos y nos sirve
especialmente cuando la distribución es simétrica ya que es muy influenciable por los outliers o si
nuestra distribución esta desviada hacia la izquierda o derecha.

- Mediana: Es el valor justo en la mitad al ordenar de forma ascendente nuestros valores. Divide
los valores ordenados en dos mitades con igual número de valores a ambos lados. Si el n que
utilizamos es par, teóricamente no tendríamos mediana, pero por lo general se utiliza el valor que
ocupa el lugar superior de la mediana teórica (Ej.; n=10. Mediana= (n+1)/2, (10+1)/2=5.5. Se utiliza
el 6º valor como la mediana). Tiene la ventaja que no se afecta por los outliers ni las distribuciones
desviadas. Como desventajas tenemos que no esta definida algebraicamente e ignora gran parte
de la información. Por lo general es muy similar a el promedio si los datos son simétricos, es menor
a él si la distribución esta desviada a la derecha y es mayor si esta desviada a la izquierda.

- Moda: Es el valor que se repite con mayor frecuencia en un set de datos. Fácil de determinar para
variables categóricas, pero algo más difícil para las numéricas. Para variables continuas
generalmente hay que agrupar los datos y realizar una moda de grupos.

- Media geométrica: Se utiliza para calcular la media cuando tenemos una distribución desviada
hacia la derecha. Se realiza transformando nuestros datos a una distribución simétrica al tomar los
logaritmos (de base 10 o e) de cada valor para nuestro set de datos. Luego se calcula la media de
los datos obtenidos, para posteriormente realizar un antilogaritmo de esta última obteniendo el
valor conocido como la media geométrica que resulta similar a la mediana y un poco menor a la
media aritmética de los datos originales.

Medidas de dispersión

Rango: Es la diferencia entre los valores máximos y mínimos en un set de datos. (representados
como la diferencia o los valores por separados). Tiene la desventaja que se influencia mucho por
los outliers y tiende a crecer con el aumento de la muestra.
Rangos derivados de Percentiles: Se realiza eliminando los outliers sobre y bajo cierto percentil,
determinando el rango con los valores restantes. Dentro de estos se encuentran los rangos
interquartiles (como se observan en el boxplot) y el rango interdecil (entre el percentil 10 y 90). Es
el apropiado para las distribuciones desviadas, pero no puede ser calculado para muestras
pequeñas.

Varianza: Es la medida que representa la extensión con que se aleja cada observación con la
media aritmética. Se calcula elevando al cuadrado cada desviación, para luego calcular su
promedio, resultando la varianza. Es muy sensible a los outliers por lo que no se recomienda para
datos con distribución asimétrica.

Desviación estándar. Es la raíz del cuadrado de la varianza, teniendo características muy similares
a esta última. Se usa de forma más masiva ya que utiliza las mismas unidades que las medidas, en
vez de unidades al cuadrado. Si comparamos dos grupos el que tiene la menos desviación
estándar es el más homogéneo.

La elección de método estadístico más apropiado generalmente va a depender de la forma de


distribución. Generalmente la distribución de los datos es unimodal, es decir, con un solo Peak.
algunas veces puede ser bimodal (dos peaks) o Uniforme (sin peaks). Cuando la distribución es
unimodal es importante determinar si la distribución es simétrica (centrada en algún punto medio) o
desviada hacia la derecha (con una cola larga hacia la derecha del gráfico con solo un par de
valores altos) o a la izquierda.

N, % en cada
Categoria
Categórica
Gráfico de N, Promedio, DS
Barra o Torta

Simétrica y sin
Tipo de Variable valores Histograma
extremos Gráfico de Promedio +
DS
Gráfico de Promedio
+SEM
Numérica

N, Mediana, rango
Asimétrica, con
valores
extremos
Histograma / Boxplot

Fig. Medidas de tendencia central y dispersión según variables.

Además de lo antes descrito, es importante hacer algunas aclaraciones. En estadísticas la


población representa el grupo completo de sujetos en las cuales estamos interesados.
Generalmente es costoso y difícil estudiar la población completa, e incluso algunas veces es
imposible ya que la población puede ser hipotética (pacientes que recibirán cierto tratamiento en el
futuro). Es por esto que recolectamos los datos de una muestra de individuos quienes creemos
que son representativos de esta población y los usamos para sacar conclusiones, teniendo en
cuenta de que existe la probabilidad de que nuestra muestre no represente totalmente la población.

Las proporciones o medias de la población general son lo que llamamos parámetros. Cuando
nosotros tratamos de estimar estos parámetros a través de nuestra muestra, utilizamos los
estadísticos de muestra, siendo un estimativo puntual del parámetro cuando obtenemos un solo
numero, mientras que si obtenemos un rango es un estimativo intervalar. Otro concepto importante
es la del error estándar de la muestra (SEM). Este nos habla de la precisión de la muestra en
relación a la población de la cual la obtuvimos. Si tenemos un error estándar grande, es porque la
media de nuestra muestra es imprecisa, mientras que si tenemos un error estándar pequeño es lo
inverso. A diferencia de la desviación estándar, que muestra variabilidad en los datos, el SEM
muestra la precisión de la media de nuestra muestra en relación a la población de origen.

El intervalos de Confianza 95% para una media es el rango de valores en que encontraremos la
media de la población con un 95% de certeza. Mientras más ancho es esto nos indica que el valor
estimado es impreciso y viceversa. El ancho depende del error estándar, que a su vez depende del
tamaño de la muestra y la variabilidad de los datos si consideramos variables numéricas. Es por
esto, que estudios pequeños con gran variabilidad de los datos dan intervalos de confianza más
anchos. También se puede calcular el intervalo de confianza de una proporción que nos puede ser
de ayuda para otro tipo de variables.

DISTRIBUCIONES

Para poder entender el concepto de las distribuciones, debemos conocer los términos: variable al
azar y distribución de probabilidades. Una variable al azar es una entidad que puede tomar
cualquier valor desde un set, cada valor mutuamente exclusivo con una cierta probabilidad. La
distribución de probabilidades muestra la probabilidad que tenemos para cada valor posible dentro
de la variable al azar. Es decir, es una distribución teórica que toma ciertos valores que son
análogos a una distribución empírica o real. Cada distribución de probabilidades esta definida por
ciertos parámetros que son medidas de tendencia central y de dispersión, los cuales son
estimados en una muestra que se asemeja a la distribución de probabilidades por las estadísticas
(similar a los parámetros de tendencia central y dispersión, pero aplicados a nuestra muestra)

Dependiendo de que tipo de variable al azar tengamos, es el tipo de distribución que podremos
obtener. :
- Discretas: Binominal, Poisson. Tenemos variables en que cada valor al azar toma un numero
específico, pudiendo calcular la probabilidad para cada valor posible. La suma de todas las
probabilidades es 1
- Continua: Chi-cuadrado, Normal, T y F. Acá solo podemos calcular la probabilidad de una
variable al azar, x, tomando los valores en cierto rango, ya que los valores de X son infinitos. En
estas distribuciones el área bajo la curva es 1, que determina todos los posibles eventos, por lo
que la probabilidad de que X este dentro de cierto límites es igual al área bajo la curva entre estos
mismos valores.

Distribución Normal:

Es probablemente la distribución más importante en estadísticas. Sus característica son las


siguientes:
- totalmente descrita por dos variables: Media y Varianza
- Media y mediana son iguales.
- Unimodal
- Simétrica sobre su media
- Es más aplanada si la varianza se agranda, mientras que se hace más prominente cuando la
varianza disminuye (Para una misma media)
- Las probabilidades de que una variable distribuida al azar se encuentre entre los siguientes
parámetros es:
- Media ± DS = 0.68
- Media ± 1.96 DS = 0.95
- Media ± 2.58 DS = 0.99
La figura 1.96 DS por lo general se aproxima a 2DS, así, el intervalo central que contiene el 95%
de las observaciones es aproximadamente la Media ± 2DS

Para poder realizar algunos análisis, se asume que las distribuciones de los datos son normales.
De esta forma, no basta solamente con observar la curva y determinar subjetivamente la
normalidad del un grafico, sino que es mejor determinarlo de forma más objetiva con algunas
pruebas. Existen más de 40 test descritos para determinar la normalidad de una distribución,
siendo los más usados:
- Kolmorov-Smirnov Test
- Shapiro-Wilks Test    
 
El primero es el más utilizado, siendo más fácil de aplicar y encontrándose en SPSS y Minitab. El
segundo tendría la ventaja teórica de ser mejor para variables con n<50, pero es menos accesible
con los programas básicos. Típicamente, al utilizar estos test, se define la Hipótesis Nula (H0)
como que las observaciones presentan una distribución normal vs. la Hipótesis alternativa, en este
caso, H1, como que las observaciones tienen una distribución arbitraria. De esta forma, mientras
menor sea el valor p, mayor es la evidencia para rechazar la hipótesis nula. Es por esto que un
p<0,05 nos permite inferir con seguridad que la distribución se comporta de manera “no normal”.
 
 

Fig. Distribución normal.

Otras Distribuciones Continuas

Distribución T-Student
Derivada de WS Gossett quien publicaba bajo el pseudónimo “Student”. Tiene una forma muy
similar a la distribución normal, pero tiene mayor dispersión con colas más largas. Su forma se
acerca cada vez más a la normal a medida que aumenta su N y los grados de libertad. Es
especialmente útil para calcular IC y además para testear hipótesis sobre un o dos medias.

Distribución F.
Esta desviada hacia la derecha. Es especialmente útil cuando queremos comparar varianzas o
más de dos medias como es en el caso de ANOVA.

Distribución de Chi-Cuadrado.
Esta desviada a la derecha tomando solo valores positivos. Especialmente útil al analizar datos
categóricos.

Distribuciones Discretas.
Distribución Binomial
Se utiliza en caso de que encontremos un outcome con solo dos opciones (por ejemplo éxito o
fracaso de cierta intervención). Se utiliza cuando queremos hacer inferencias acerca de
proporciones.

Distribución de Poisson
Es la cuenta del numero de eventos que suceden independientemente y al azar en un espacio y
tiempo a cierta frecuencia promedio. Por ejemplo, el numero de admisiones hospitalarias
típicamente sigue la distribución de Poisson. El parámetro que describe la distribución es el
promedio de frecuencia, el cual al crecer hace que esta distribución de asemeje mucho a la normal.

Fig. Distintas formas de distribución.

Testeando una hipótesis

La prueba estadística de una hipótesis es un proceso inferencial en el que utilizamos nuestros


datos para extraer conclusiones sobre uno o varios parámetros de interés en una población.
Podemos, por ejemplo, evaluar un nuevo tratamiento porque creemos que es más eficaz que lo
estándar para una condición dada. Nuestra hipótesis es, entonces, que el nuevo tratamiento es
mejor, de alguna manera, que el estándar (H1). Usamos las herramientas de la estadística para
saber si es probable que esto sea cierto, decidiendo si tenemos suficiente evidencia en la muestra
para rechazar la hipótesis nula, H0, que nos indica que no hay un efecto superior de nuestro
tratamiento sobre la población de estudio, es decir, que los dos tratamientos son igualmente eficaz.

El valor p es la probabilidad de obtener los valores de la muestra o valores más extremos que los
observados, si la hipótesis nula sobre la población es verdadera. Es decir, es la probabilidad que
tenemos de que nuestro valor no sea diferente a la comparación y que este dentro del rango
explicado por el azar.

Si el valor p es pequeño, entonces hay una posibilidad muy pequeña de obtener los valores de la
muestra, si H0 es cierta. Dado que la muestra existe y no podemos cambiarla, esto implica que H0
es poco probable de ser cierta, dándonos evidencia suficiente para rechazarla, aceptando como
cierta la H1 (nuestra hipótesis) con resultados estadísticamente significativos.

Si el valor p es grande, entonces hay una buena probabilidad de conseguir los valores de nuestra
muestra, si H0 es cierta, es decir, que ambos tratamientos sean iguales. Debido a que los valores
de la muestra existe, la implicación es que H0 es probable de ser cierta, por lo que decimos que no
tenemos pruebas que la rechacen. Esto no es lo mismo que decir que tenemos pruebas de que la
hipótesis nula es cierta, sólo que no tenemos pruebas que lo rechazan.
Un valor arbitrario se determino hace bastantes años para determinar el corte con el cual se podía
rechazar la hipótesis nula (<0,05). Si rechazamos la H0, siempre es a favor de la hipótesis
alternativa, que por lo general se determina de forma no-direccional, es decir que si H0 es que las
muestras son iguales, H1 es que las muestras no son iguales. Se dice que el test es “two-tailed”, si
hay dos posibilidades, es decir que el tratamiento A es mejor que el B o viceversa. Alternativas
“one tailed” son usadas solo rara vez ya que hay que estar absolutamente seguros de la
direccionalidad biológica o clínica de los resultados y eso es rara vez posible.

Errores al probar una hipótesis.


Cuando tomamos la decisión de rechazar o aprobar una hipótesis basado en la magnitud del valor
p tenemos que considerar que podemos estar equivocados. Hay dos posibilidades de errores que
podemos cometer.

Error tipo I: Cuando rechazamos incorrectamente la hipótesis nula, es decir, cuando rechazamos
la hipótesis nula cuando esta es verdadera.
Error tipo II: Cuando nos equivocamos al no rechazar la hipótesis nula, es decir, la consideramos
verdadera cuando en verdad es falsa.

La probabilidad de cometer un error tipo I es definida como Alfa, que sería igual al valor p que se
obtiene con el test utilizado. El nivel máximo de error tipo I que utilizamos típicamente 0,05.

Por otro lado, el error tipo II se define como Beta. Su complemento sería (1-Beta), lo que es
llamado la “potencia del test”. Generalmente es expresado en porcentaje y significa la probabilidad
de rechazar la hipótesis nula cuando esta es falsa. Idealmente, la potencia de un test o estudio
debería ser de 100%, cosa que es imposible en la investigación clínica, ya que siempre existe un
riesgo de error.

En general se define como aceptable una potencia de 80%, que nos habla de una buena
probabilidad de detectar un efecto clínica y estadísticamente relevante, si es que este realmente
existe. Hay una serie de factores que afectan el poder de los diferentes test como lo son: el tamaño
muestral, la variabilidad de las observaciones, el efecto de interés y finalmente el nivel de
significancia. Este último factor se modifica al alterar el valor p de referencia para considerar un
resultado estadísticamente significativo y de la misma forma, alterar la probabilidad de error tipo I.

TEST ESTADÍSTICOS

Los test de hipótesis que están basados en el conocimiento de las probabilidades de distribución
de los datos son conocidos como test paramétricos. Estos asumen más condiciones que los no
paramétricos. Si estas condiciones son correctas, estos producen estimados más adecuados y
precisos, por lo que se dice que dan un poder estadístico mucho mayor. Sin embargo, si estas
condiciones asumidas no son correctos, podremos obtener resultados erróneos.
Por otro lado, los test paramétricos son más sencillos de utilizar y más rápidos de computar.

¿Cómo elegir el test?

Hay una serie de preguntas que se deben responder en orden para poder llegar al test más optimo
a utilizar.

1.- ¿Es la variable categórica o numérica? Esto nos indica si usar el grafico para variables
categóricas binarias (comparar dos o más proporciones) o para variables numéricas comparando
dos o más medianas o medias.

2.- ¿Cuántos grupos están siendo comparados?


3.- ¿Son los grupos independientes entre si? Pueden ser dependientes cuando los individuos se
relacionan con el otro grupo o también si son el mismo individuo con mediciones en diferentes
ocasiones.

4.- ¿Son las condiciones asumidas satisfechas?. Si no lo son, se debe usar un test alternativo que
no asuma estas condiciones. Los test que no asumen condiciones acerca de la distribución son los
llamados test no parametritos o test libres de distribución.
1124
1124 A.A.
PETRIE
PETRIE

Binary
Binary
variable
variable

Two groups
Two groups More than
One group (comparing
One group (comparing twoMore than
groups
2 proportions) two groups
2 proportions)

z-test of a
z-test of a
single Independent Paired Independent Related
single
proportion Independent Paired Independent Related
proportion

Chi-squared
Chi-squared McNemar’s Cochran’s
Sign test testChi-squared
(perhaps
test
Chi-squared test
McNemar’s Q Cochran’s
test
Sign test for trend)
test (perhaps
test test Q test
for trend)

Combine
Fishers’ groups, then χ2
Binomial test Combine Exact test
exact test test, or Fisher’s
Fishers’ groups, then χ2
Binomial test exact test Exact test
exact test test, or Fisher’s
exact test
Fig. 3
Fig. Elección de test para variables categóricas
Flowchart indicating choice of test when the data are binary (testsFig.
binarias.
3 shaded
in the
Los cuadros oscuros asumen ciertas
boxes require relevant assumptions to be satisfied).
condiciones para ser utilizados.
Flowchart indicating choice of test when the data are binary (tests in the shaded boxes require relevant assumptions to be satisfied).

Numerical or
ordinal variable
Numerical or
ordinal variable

Two groups More than


One group
two groups
Two groups More than
One group
two groups

One sample
Independent Paired Independent Related
t-test
One sample
Independent Paired Independent Related
t-test

Repeated
Non-parametric Two-sample One-way
Paired t-test measures
Sign test t-test ANOVA
ANOVA
Repeated
Non-parametric Two-sample One-way
Paired t-test measures
Sign test t-test ANOVA
ANOVA
Non-parametric Non-parametric Non-parametric
Non-parametric
Wilcoxon rank Sign test Friedman
Kruskal-Wallis
sum or Mann- Wilcoxon signed two-way
Non-parametric Non-parametric test Non-parametric
Whitney test rank test Non-parametric ANOVA
Wilcoxon rank Sign test Friedman
Kruskal-Wallis
sum or Mann- Wilcoxon signed two-way
test
Whitney test rankFig.
test4 ANOVA

Flowchart indicating choice of test when the data are numerical (tests in shaded boxes require relevant assumptions to be satisfied) (ANOVA, analysis
of variance). Fig. 4

Flowchart indicating choice of test when the data are numerical (tests in shaded boxes require relevant assumptions to be satisfied) (ANOVA, analysis
Fig. AElección
variable is ade
of variance). test that
quantity paracan variables numéricas
take various values for u ordinales.
The Losdetermines
type of variable cuadrosthe oscuros asumen ciertas
form of analysis
condiciones para ser
different individuals. The utilizados.
variable is either categorical, which we adopt. For example, we typically use a bar chart
when each individual
A variable belongs
is a quantity to one
that can of a number
take variousofvalues
distinct
for to illustrate
The type a set
of of categorical
variable observations,
determines the propor-
the form of analysis
categories, or numerical when the values are discrete or tion as the summary measure of interest and a chi-squared
different individuals. The variable is either categorical, which we adopt. For example, we typically use a bar chart
continuous (Fig. 2). test to compare proportions in different groups. In contrast,
when each individual belongs to one of a number of distinct to illustrate a set of categorical observations, the propor-
categories, or numerical when the values are discrete or tion as the summaryTHE measure
JOURNALofOFinterest
BONE ANDand a chi-squared
JOINT SURGERY
continuous (Fig. 2). test to compare proportions in different groups. In contrast,

THE JOURNAL OF BONE AND JOINT SURGERY


PARA VARIABLES NUMÉRICAS

Para dos grupos relacionados:


Esta situación se da en dos situaciones. Primero, cuando tenemos un mismo paciente con dos
mediciones de una misma variable en el tiempo. Cada paciente tiene entonces dos mediciones una
antes y otra después del tratamiento. La segunda, es cuando los pacientes son diferentes en cada
grupo, pero están relacionados de alguna forma. Por ejemplo, pacientes en los que se hace un
match para lograr grupos comparables en un estudio caso control. Estos datos son conocidos
como datos pareados.

- SI tenemos distribución normal: En este caso utilizamos el T-Test para muestras pareadas. Con
esto logramos calcular el valor p para rechazar o no la H0 y también la diferencia de la media real y
su IC del 95%.

- Si no tenemos distribución normal. Debemos utilizar un test que no asuma esa condición como el
sign test o el test de Wilcoxon (Wilcoxon’s signed ranks test) que es un test más potente al
considerar no solo la diferencia en las mediciones sino que también la magnitud de esta.

Para dos grupos no pareados:


Acá queremos comparar dos promedios, por ejemplo, el peso en dos grupos distintos distribuidos
de forma aleatoria.

- Si tenemos distribución normal: Se puede utilizar el T-Test para grupos no pareados que
considera a la H0 como que la diferencia entre ambos grupos es cero, mientras que la H1 que no
lo es. Esto nos entregará un valor p que nos habla de la significancia estadística de la diferencia y
un IC, cuyos valores extremos nos da una idea de la significancia clínica, por ejemplo, si los
valores en un IC 95% son muy cercanos a cero, los resultados pueden tener muy poco valor clínico
a pesar que tener valides estadística.

- Si no tenemos distribución normal podemos: o transformar los datos para alcanzar normalidad o
utilizar un test no paramétrico como el Wilcoxon Rank Sum Test o el test de Mann-Whitney que es
similar al anterior pero un poco más complejo de desarrollar a mano.

Para más de dos grupos:


Acá tenemos comparaciones en diferentes grupos para una misma variable numérica. Aunque
podríamos realizar test para comparar la variable en diferentes pares de grupos, habría una alta
probabilidad de error tipo I por lo que podríamos llegar a conclusiones incorrectas.

El test de ANOVA es el más utilizado para esto, aunque tiene la desventaja que asume normalidad
y varianzas iguales. Es por esto que debemos checkear normalidad con alguno de los test
descritos y además evaluar la simetría de las varianzas en los distintos grupos pudiendo usar el
test de Levene o Bartlett. El “one way analysis of variance” o ANOVA tiene como hipótesis nula que
la media de los grupos serán las mismas, y por ende, las varianzas entre los grupos y dentro del
mismo grupo también lo serán. En este caso la H1 sería que al menos uno de los grupos difiere en
su media con el resto. Aunque parecen ser diferentes, el T-Test para grupos no pareados y el
ANOVA darán resultados iguales si solo tenemos dos grupos. Si la distribución de los distintos
grupos no es normal o si las varianzas no son las mismas entre los distintos grupos hay que usa un
test no paramétrico como el test de Kruskal-Wallis

PARA DATOS CATEGÓRICOS

Dos proporciones:
Si tenemos dos grupos independientes entre si podemos utilizar el test de Chi-Cuadrado. El dato
que tenemos inicialmente son las frecuencias, por ejemplo el número de pacientes con o sin la
característica en la muestra y a partir de ellos, obtenemos las proporciones. La tabla en que se
muestran los datos son llamadas tablas de contingencia y en este caso sería una tabla de 2 x 2
(dos filas y dos columnas). Las filas y las columnas son mutualmente exclusivas, lo que significa
que cada individuo puede pertenecer solo a una columna y a una fila.

Como H0 tenemos que las proporciones de los individuos con las características son iguales en la
población y H1 que las proporciones No son iguales.
El test de Chi cuadrado se basa en la similitud, o diferencia entre los valores esperados y los
observados en la frecuencia de un evento, lo que nos indica si las dos proporciones son iguales o
diferentes. Si el valor esperado es < a 5 en alguna de las casillas hay que usar el test de Fisher

Para datos pareados:


Acá se utiliza el test de McNemar por ejemplo cuando medimos un evento o característica en dos
momentos distintos para el mismo paciente o lo realizamos en grupos distintos, pero que fueron
pareados para un grupo caso control.

Para más de dos categorías:


Si tenemos más de dos categorías por cada variable a comparar se puede utilizar también el test
de Chicuadrado con tablas de contingencia mayores. En este caso se sigue asumiendo que la
frecuencia esperada es mayor a 5, por lo que si más del 20% de las frecuencias esperadas no lo
son, será apropiado combinar algunas categorías para poder utilizar este test.

Si tenemos datos categóricos en el cual uno de los dos factores tiene dos categorías y el otro tiene
más de dos, los cuales pueden ser ordenados de alguna forma (ordinales) y son mutuamente
exclusivas, es factible utilizar el test Chi Cuadrado para tendencias, el que nos habla de la relación
lineal entre las variables.

RELACIONES ENTRE DISTINTAS VARIABLES

Correlaciones
Estas se utilizan cuando queremos medir el grado de asociación entre dos variables numéricas.
Estas se muestran en un diagrama de dispersión y con él podemos evaluar visualmente la relación
entre las dos variables.

Coeficiente de correlación de pearson

Este Coeficiente se utiliza para medir una relación lineal entre dos variables. Este generalmente se
denomina con la Letra R, que va desde -1 a +1, cuyos signo depende de si una variable aumenta o
disminuye mientras la otra aumenta. Su magnitud determina que tan cercano esta de una línea
recta, por lo que si el valor es 1, la relación lineal es perfecta, con todos los valores dentro del eje,
mientras que si el valor es 0, no existe relación lineal (aunque si puede haber una relación NO
lineal). Es importante tener en cuenta que una relación lineal no necesariamente indica causalidad.

El Valor R2 representa la proporción de la variabilidad de la variable y que puede ser atribuida a su


relación lineal con la variable x.

No se debe usar si: A) No hay relación lineal entre las dos variables. B) Los datos incluyen más de
una observación por individuo. C) hay outliers d) Cuando los datos muestran subgrupos de
individuos que difieren mucho en sus medias. E) Si ninguna de las dos variables tiene distribución
normal.

El equivalente no parametrito de la correlación de Pearson es el Coeficiente de Correlación de


Spearman. Que se debe utilizar si:
A) Al menos una de las variables es ordinal
B) Ninguna es normal
C) Muestra pequeña
D) Se quiere medir la asociación de las dos variables cuando la relación es NO lineal.
La principal diferencia es que con este coeficiente no se calcula R2.

Regresión Lineal.

En la regresión lineal lo que tratamos de calcular es la recta que mejor describe la relación lineal
que ya concluimos con la correlación.
La ecuación matemática que describe la regresión linar simple es

Y=a+bx

Siendo x la variable independiente (o explicadora), y la variable dependiente (o el outcome), a es el


valor que asume y cuando x es 0 y, finalmente, b es la gradiente de la recta, también denominado
coeficiente de regresión.

La regresión lineal asume lo siguiente:


- Hay relación lineal entre x e y
- Las observaciones son independientes.
- Los valores residuales son de distribución normal y su media es 0
- Los valores residuales tiene la misma variabilidad.
En el caso de que no se cumplan estos puntos, se deben transformar los datos logaritmicamente
para tratar de alcanzar los objetivos y realizar una nueva regresión.

Si la gradiente de la recta es cero, significa que no hay relación lineal entre X e Y, es decir, que
cambiando la X no se produce efecto en la Y. En este caso es necesario calcular posteriormente el
IC 95% y observar sus valores mínimos y máximos, determinando si efectivamente es significativa
el resultado de la gradiente, al ser distinta de 0 y no pasar por él (en conjunto con el valor p).

Regresión Linear Múltiple

Se utiliza cuando estamos interesados en el efecto de múltiples variables explicatorios (x1, x2, x…)
sobre una variable outcome o dependiente Y. En este caso el valor Beta será un coeficiente de
regresión parcial que significa cuanto Y aumenta en promedio si aumentamos X1 en una unidad,
pero mantenemos todas las otras X constantes. De esta forma, hacemos un análisis independiente
de X1, sin influirnos por las otras variables explicatorios.
La regresión linear múltiple asume las mismas condiciones que la regresión lineal, pero puede
utilizarse en variables categóricas (binarias) y también ordinales, siendo más difícil de realizar.
Como guía general es importante que el número de sujetos en estudio sea por lo menos 10 veces
mayor que la cantidad de variables a estudiar.

Regresión Logística

Es muy similar a la regresión logística y la usamos cuando tenemos un outcome binario de interés
(Presencia o ausencia de complicaciones por ejemplo) y variables explicatorias. No se puede usar
la variable categórica dicotómica como variable dependiente en una regresión lineal simple, ya que
no se cumple normalidad y no se pueden interpretar valores predictivivos que no sean iguales a 0 o
1. De esta forma obtendremos los datos necesarios para determinar cual de nuestras variables
explicatorias se relacionan independientemente con el outcome binario estudiado.
El valor p nos dará la significancia de nuestra relación. Además de eso, obtendremos el coeficiente
de regresión logístico estimado con su error estándar, el OR con sus respectivos IC y el valor del
test de Wals, que prueba como hipótesis nula que el valor de el coeficiente de regresión logística
es cero.
TATISTICS IN ORTHOPAEDIC PAPERS 1123

t; in blocked likely to provide the best evidence at the top and the weak-
so that an est atANEXO
the bottom. The strongest evidence is obtained from
ch treatment. a meta-analysis. This is a systematic review of the literature
is free from whichJerarquía
seeks to identify,
y Nivelesappraise, select and synthesise all
de Evidencia:
dividual (the high-quality research relevant to the question of interest
eatment and/ and uses quantitative
La evidencia másmethods
fuerte to summarise
comienza contheel results.
Meta-Análisis, que es una revisión sistemática de la
is superior, literatura
However, que pretende
the arrangement identificar,
of the seleccionar
hierarchy depends partlyy sintetizar toda la evidencia relevante de alta
essment bias on thecalidad
problem para el temaWe
considered. dewould
interés y usa
choose métodos
to perform a cuantitativos para resumir la información. Sin
rwise known RCT embargo, el método
to investigate a novel atreatment;
utilizar nobutsolo dependerisk
to identify de esto, sino que también del tipo de problema a
e-blind when considerar.
factors Si queremos
for a disease outcome, ainvestigar
cohort or un tratamiento nuevo, un ECR será la primera elección,
case-control
the assessors studymientras que appropriate.
will be more para identificar factores de riesgo, los estudios de cohorte o caso control pueden ser
is receiving. más apropiados.
ch case it is
Meta-analysis
the response
ind. A nega- ↓
treatment if Blinded randomised controlled trial

s randomisa-
treatments is Cohort study
e most credi- ↓
features are Case-control study
cklist (www.
org.uk) which ↓
and analysis Case series
ed trial. ↓
Single case report
chy of

5
Straus et al Ideas, opinions etc
se of current
Fig. 1
care of indi- Fig. Jerarquía de la evidencia
o translate a The hierarchy of evidence (the strongest evidence is
provided at the top).
cular patient
the relevant BIBLIOGRAFÍA
to recognise
egrees of evi- Some 1.-common
Petrie A, Sabin
termsC. Medical statistics at a glance. Second ed. Oxford: Blackwell Publishing Ltd,
the question 2000.
If we are to appreciate fully the benefits and pitfalls associated
nvestigations 2.- Pagano
with statistical M. Principles
analysis, we shouldofbe
Biostatistics.
familiar withSecond ed. Brooks / Cole. 2000
the terms
design most used and the important concepts which underlie the theory. Br. 88-B, No. 9, 2006
3.- Petrie, A. Statistics in orthopaedic papers. JBJS
4.- Clinical Epidemiology and Biostatistics: A Primer for Orthopaedic Surgeons. JBJS Am. 86-A .
2004
5.- Estadística Descriptiva a través de Excel. Primera edición. Alfaomega, 2010
Variable

Numerical

ominal Discrete
Continuous
ordered) (integer)

xample: Example:
Example:
od groups Blood pressure
Visit number
AB and O in mmHg

Fig. 2

Categorisation of a variable.

También podría gustarte