Está en la página 1de 6

Lectura crtica

en pequeas dosis
Las trampas de la estadstica
M. Molina Arias

Publicado en Internet:
Servicio de Gastroenterologa. Hospital Infantil Universitario La Paz. Madrid. Espaa.
30-junio-2014
Grupo de Trabajo de Pediatra Basada en la Evidencia AEP/AEPap. Editor de www.cienciasinseso.com
Manuel Molina Arias:
mma1961@gmail.com
Resumen

Diariamente se publican gran cantidad de artculos en revistas biomdicas pero, desgraciadamente, una
alta proporcin de ellos estn afectos de errores metodolgicos que pueden poner en peligro la validez
de sus resultados. Estos errores suelen ser debidos a la falta de formacin en metodologa de los auto-
res de los artculos, que son fundamentalmente clnicos, y a la falta de revisores adecuadamente forma-
dos en las revistas cientficas. Adems, en algunas ocasiones los errores pueden ser deliberados para
favorecer la obtencin de determinadas conclusiones, como ocurre en los casos con conflicto de inters.
Palabras clave: En el presente artculo se revisan los errores ms frecuentes que pueden observarse en el uso de las
Metodologa pruebas estadsticas, bien por falta de formacin de los autores, bien para maquillar los datos a fin de
Estadstica mostrar las conclusiones deseadas.
Conflicto de inters

Cheating with statistics


Abstract

Huge quantities of medical papers are published every day in biomedical journals, but unfortunately, a
high proportion of them have methodological errors that may question the validity of their results.
These errors are usually due to the lack of knowledge about methodology by the authors, who are
primarily clinical physicians, and the lack of adequately trained reviewers in scientific journals. Also,
sometimes mistakes can be made deliberately to favor obtaining certain conclusions, as in the cases
Key words: with conflict of interest. In this article we review the most common mistakes that can be observed in
Methodology the use of statistical tests, either for lack of training of the authors, or to mask the data to show the
Statistics desired conclusions.
Conflict of interest

INTRODUCCIN la intencionalidad de transmitir algn mensaje


concreto a travs de los resultados del trabajo.
Como ya comentamos en una publicacin anterior, Muchos de estos errores pueden ser relativamente
la mayor parte de los trabajos cientficos que se fciles de detectar si hacemos una lectura crtica
publican en la actualidad estn aquejados de gra- del trabajo, para lo cual dimos una serie de pistas
ves defectos en su metodologa1, en ocasiones de- tiles que nos permitiesen evitar malgastar nues-
bidos a la falta de formacin de los autores y revi- tro limitado tiempo con la lectura de trabajos de
sores, pero tambin, en otras ocasiones, debidos a escasa validez2.

Cmo citar este artculo: Molina Arias M. Las trampas de la estadstica. Rev Pediatr Aten Primaria. 2014;16:181-6.

Rev Pediatr Aten Primaria. 2014;16:181-6 181


ISSN: 1139-7632 www.pap.es
Molina Arias M. Las trampas de la estadstica

Quizs el aspecto ms difcil de valorar para el cl- repartido los participantes entre los dos grupos al
nico sin formacin en metodologa sean los aspec- azar, cualquier diferencia se deber al azar, sea cual
tos relacionados con los estudios estadsticos utili- sea el valor de p. De todas formas, el valor de p
zados para el anlisis de los datos del trabajo. Es tampoco tiene mucho significado en este caso, ya
aqu, sin duda, donde nos pueden engaar con que el tamao de la muestra del estudio est cal-
ms facilidad utilizando, o dejando de utilizar, los culado para valorar la diferencia del efecto de la
mtodos de anlisis adecuados en favor de otros intervencin en los dos grupos y no para valorar las
que proporcionen unos resultados ms vistosos o diferencias basales entre ellos. Lo realmente inte-
apetecibles. resante ser valorar la importancia clnica de las
Daremos a continuacin una serie de pistas que, diferencias que podamos observar.
sin ser expertos en estadstica, nos permitan de- Podemos tener diferencias relevantes que no al-
tectar algunas de estas posibles trampas. cancen valor significativo desde el punto de vista
estadstico por no ser la muestra lo suficientemen-
te grande. Por tanto, ser el autor el que debe deci-
1. SE HA UTILIZADO ALGN MTODO dir si las diferencias observadas son relevantes
ESTADSTICO? para el estudio y hacer el ajuste pertinente en la
fase de anlisis de los resultados.
Esta pregunta puede parecer obvia, pero no lo es
en absoluto. Aunque afortunadamente con poca
3. EL AZAR NO PRODUCE GRUPOS IGUALES
frecuencia, en alguna ocasin podemos encontrar-
nos con un trabajo cuyos autores se limitan a com-
parar los resultados para extraer directamente sus La aleatorizacin es una parte fundamental de
conclusiones sin hacer uso de metodologa esta- cualquier ensayo clnico, por lo que debe estar cla-
dstica alguna. Evidentemente, toda comparacin ramente definido cmo se ha hecho. Con relativa
deber hacerse con el adecuado contraste de hip- frecuencia vemos trabajos en los que el grupo con-
tesis, e indicarse su nivel de significacin y la prue- trol y el de intervencin tienen el mismo nmero
ba estadstica utilizada. En caso contrario las con- de participantes. Pues bien, esto es altamente im-
probable si se hace un muestreo aleatorio simple.
clusiones no sern vlidas.
Por ejemplo, si aleatorizamos 100 individuos, la
probabilidad de que el azar reparta exactamente
2. LA COMPARABILIDAD BASAL 50 a cada grupo es del 9% (0,09). Esta probabilidad
DE LOS GRUPOS DE ESTUDIO es an menor cuanto mayor sea el nmero de par-
ticipantes, por lo que podremos desconfiar cuando
Todo estudio, especialmente si se trata de un ensa- los autores consigan grupos iguales con un mues-
yo clnico, debe incluir una tabla que muestre las treo aleatorio.
caractersticas basales de los grupos de control e Esto no tiene nada que ver con otras situaciones en
intervencin. Esto es as porque para poder valorar las que el muestreo no es aleatorio simple. Existen
el efecto de la intervencin se necesita que los gru- tcnicas, como el muestreo estratificado, por blo-
pos sean comparables en todo, excepto en la inter- ques o las tcnicas de minimizacin, que tratan de
vencin estudiada. asegurar un nmero similar de participantes en
Aunque cada vez con menos frecuencia, podemos todos los grupos. Estas tcnicas son lcitas si se uti-
ver en estas tablas las diferencias en los distintos lizan de forma adecuada y s nos pueden dar fcil-
parmetros con su correspondiente valor de p para mente grupos con un mismo nmero de partici-
decidir si se deben o no al azar, pero esto, si lo pen- pantes.
samos un poco, no tiene mucho sentido. Si hemos

182 Rev Pediatr Aten Primaria. 2014;16:181-6


ISSN: 1139-7632 www.pap.es
Molina Arias M. Las trampas de la estadstica

4. OPERACIONES CON DATOS CUALITATIVOS el anlisis de la varianza (que solo nos indica que
no todas la medias son iguales, pero no nos dice
El tipo de datos utilizados y las operaciones que se cules son diferentes entre s). En estos casos es
hagan con ellos es otro aspecto que debemos te- preceptivo realizar siempre alguna correccin,
ner en cuenta. Hay que juzgar con especial aten- como la de Bonferroni, ya que al aumentar el n-
cin la aritmtica que se haga con variables cuali- mero de comparaciones aumenta el riesgo de ob-
tativas. Si la variable es dicotmica puede tener una significativa por azar.
codificarse como cero y uno y hallarse la media A modo orientativo, en la Tabla 1 se muestran las
aritmtica, pero el resultado debe interpretarse pruebas correctas para realizar comparaciones de
con precaucin. medias segn el nmero de muestras, la presencia
Tambin es posible hacer operaciones similares de homocedasticidad y la distribucin de los datos.
con escalas de variables cualitativas, pero para que Otro aspecto que debemos tener en cuenta es qu
esto tenga sentido debe haber una graduacin medidas de centralizacin y dispersin se han uti-
constante y proporcional entre los diferentes valo- lizado. En casos de distribuciones no normales o
res de la variable. De lo contrario, las operaciones muy sesgadas, es preferible utilizar la mediana y
aritmticas carecern de sentido. los recorridos intercuartlicos en lugar de la media
Aunque a veces es til categorizar una variable y la desviacin tpica. Esto puede evitarse utilizan-
continua, esta transformacin debe tener un sen- do medidas de centralizacin robustas, como la
tido clnico lgico o de gradacin; sin embargo, media recortada o la media geomtrica, o bien
esto no siempre es as, por lo que se pueden encon- aplicando a los datos una transformacin como la
trar diferencias estadsticas significativas donde a logartmica, inversa, etc.
priori no las hay. Transformar los datos es completamente lcito,
siempre que se tenga despus la precaucin de
deshacer la transformacin a la hora de interpretar
5. SE HA EMPLEADO LA PRUEBA
los resultados.
ESTADSTICA CORRECTA?
Por ltimo, llamar la atencin sobre la existencia
de datos pareados. En estos casos, el anlisis esta-
Este puede ser uno de los puntos ms difciles de
dstico debe realizarse empleando las pruebas
valorar para el no experto en estadstica. Un error
adecuadas para anlisis de datos pareados.
frecuente es utilizar pruebas paramtricas sin com-
probar previamente que los datos siguen una dis-
tribucin normal. Esto es as porque las pruebas no 6. POR QU HAN USADO UN MTODO
paramtricas suelen ser bastante ms conservado- TAN RARO?
ras, por lo que siempre es ms fcil obtener signifi-
cacin estadstica con una prueba paramtrica. Eso es lo que nos preguntamos a veces cuando lee-
Adems de la asuncin de normalidad, la mayor mos la descripcin de una tcnica estadstica de la
parte de las pruebas de contraste de hiptesis, que nunca antes habamos odo hablar. Si los datos
como la t de Student o el anlisis de la varianza, del trabajo son datos estndares recogidos de for-
precisan tener en cuenta la independencia de las ma estndar, por qu utilizar un mtodo raro?
muestras o la existencia de homocedasticidad En estos casos debe exigirse de los autores que jus-
(igualdad de varianzas), comprobaciones que se tifiquen su eleccin e, idealmente, que aporten
pasan por alto en numerosos trabajos. una cita bibliogrfica donde se describa la tcnica
Un error frecuente al comparar medias de ms de empleada. En estadstica hay que elegir la tcnica
dos poblaciones es realizar comparaciones dos a correcta para cada ocasin y no buscar aquella que
dos una vez obtenida significacin estadstica con nos d el resultado que ms nos guste.

Rev Pediatr Aten Primaria. 2014;16:181-6 183


ISSN: 1139-7632 www.pap.es
Molina Arias M. Las trampas de la estadstica

Tabla 1. Tcnicas estadsticas para la comparacin de medias


Variable Variable dependiente (Y)
independiente (X) Cualitativa Cuantitativa (normal) Cuantitativa (no normal)
Cualitativa Chi-cuadrado t de Student (comparacin de U de Mann-Withney (suma
Exacto de Fisher dos medias). Correccin para de rangos de Wilcoxon)
varianzas desiguales
ANOVA (ms de dos medias) Kruskal-Wallis
(F de Sndecor)
Cuantitativa Regresin logstica Correlacin Correlacin de Spearman
Regresin lineal

7. SE HA RESPETADO EL PROTOCOLO 9. MANEJO DE VALORES EXTREMOS


ORIGINAL?
Los valores extremos (outliers) son aquellos que se
El anlisis de los datos debe realizarse siguiendo alejan mucho del valor central de la distribucin.
siempre el protocolo descrito a priori. Debemos Pueden deberse a errores de clculo, de medicin o
desconfiar de los estudios post hoc que no estaban de transcripcin de los valores de las variables,
planificados desde el comienzo. Si buscamos lo su- pero tambin pueden ser reales y deberse a la idio-
ficiente entre los grupos de participantes siempre sincrasia de la variable que estemos midiendo.
podremos encontrar uno que se comporte de una Existe cierta tendencia a eliminarlos del anlisis,
forma determinada. Hacer grupos de forma retros- pero esto solo es lcito en el caso de que se deban
pectiva puede conducir a errores de interpretacin a algn tipo de error.
de los resultados. Su presencia debe tenerse en cuenta a la hora de
Otra conducta inaceptable es la finalizacin del analizar los resultados. Existen mtodos estadsti-
ensayo antes de tiempo por observarse buenos re- cos robustos que permiten ajustar las desviaciones
sultados. Siempre que sea posible, el seguimiento producidas por los valores extremos, aunque sue-
debe ser completo para comprobar que los buenos len ser ms sofisticados que los habituales. En
resultados se mantienen hasta el final. Por supues- cualquier caso, debemos desconfiar de la validez
to, s es lcito finalizar prematuramente por objeti- de los resultados si existen valores extremos y no
varse toxicidad o algn efecto adverso grave para se realiza ningn tipo de ajuste.
los participantes.

10. CORRELACIN, REGRESIN


8. CON UNA O CON DOS COLAS? Y LA TRAMPA DE LA CAUSALIDAD

El contraste de hiptesis unilateral (con una cola) Esta es una fuente bastante comn de error. El
es menos exigente que el bilateral a la hora de con- coeficiente de correlacin de Pearson investiga la
seguir significacin estadstica, por lo que algunos fuerza de la relacin lineal entre dos variables con-
autores presuponen la direccin del efecto de la tinuas. Solo nos dice si estn relacionadas, pero no
intervencin y realizan un contraste unilateral. Sin si son dependientes o independientes, y mucho
embargo, y como norma general, no es bueno asu- menos si una es causa de la otra. Tampoco sirve
mir la direccin del efecto, por lo que siempre es para calcular el valor de una variable a partir de
preferible el contraste bilateral. otra. Para eso tenemos que recurrir a la regresin,
que mide la naturaleza de la relacin entre las dos
variables y nos da una idea de la direccin de la

184 Rev Pediatr Aten Primaria. 2014;16:181-6


ISSN: 1139-7632 www.pap.es
Molina Arias M. Las trampas de la estadstica

influencia de una variable sobre la otra. En cual- valor de significacin estadstica es totalmente ar-
quier caso, insistimos, ni correlacin ni regresin bitrario, por lo que tiene mucha ms utilidad el uso
implican causalidad. de los intervalos de confianza3, que nos permiten
Otro error que podemos encontrar es el uso del valorar tambin la importancia clnica de los resul-
coeficiente de correlacin de Pearson sin que se tados, incluso aunque las diferencias no alcancen
cumplan las exigencias para su uso: las variables significacin estadstica.
deben seguir una distribucin normal, deben ser
estructuralmente diferentes (no tiene sentido 12. E L USO DE MEDIDAS
calcular la correlacin entre, por ejemplo, peso e MS PRESENTABLES
ndice de masa corporal, que incluye el peso) y
solo debe haber dos medidas por cada participan-
Siempre hay muchas formas de presentar los re-
te en el estudio. Lo correcto es, adems, acompa-
sultados y, aunque todas digan en el fondo lo mis-
arlo de un valor de p o del correspondiente inter-
mo, la apariencia puede ser muy diferente segn el
valo de confianza.
parmetro que escojamos.
En los casos en los que no se cumplen las condicio-
Quizs el ejemplo ms claro y ms frecuente sea el
nes previas, debe utilizarse el coeficiente de corre-
de la utilizacin de medidas de impacto relativas
lacin de Spearman, que es el equivalente no para-
en lugar de las absolutas. Es frecuente que los au-
mtrico.
tores del trabajo nos muestren la estimacin del
Otro mal uso del coeficiente de correlacin es el efecto utilizando la reduccin relativa del riesgo en
que se comete con frecuencia al utilizarlo para lugar de la reduccin absoluta o el nmero necesa-
comparar los resultados entre dos observadores rio de pacientes a tratar4. Esto es as porque el valor
distintos. En estos casos lo correcto es utilizar un de la reduccin relativa es mayor que el de la abso-
coeficiente de correlacin intraclase (para varia- luta, por lo que parece que el impacto de la inter-
bles continuas) o un ndice kappa para variables vencin es mayor. Sin embargo, la reduccin abso-
dicotmicas. luta y, sobre todo, el nmero necesario a tratar son
Por ltimo, otro error frecuente y similar al anterior las medidas que nos informan del valor absoluto
es comparar dos mtodos de medicin mediante del impacto de nuestra intervencin. Dado que las
una correlacin o regresin lineal, por ejemplo medidas absolutas se calculan fcilmente a partir
comparar la glucemia capilar con la venosa. Esto de los mismos datos que las relativas, deberemos
no es correcto, ya que estas pruebas estudian la desconfiar cuando no se nos ofrezcan en el traba-
relacin entre dos variables ya sea de forma sim- jo: quizs el efecto no sea tan importante como los
trica (correlacin) o asimtrica (regresin). En estos autores nos pretenden hacer ver.
casos hay que utilizar la regresin de Passing y Ba-
Otro ejemplo podemos encontrarlo en los estudios
blok, que tiene la ventaja de estimar una recta de
sobre pruebas diagnsticas, en los que con fre-
regresin no sesgada mediante mtodos no par-
cuencia solo se muestran indicadores como sensi-
metricos.
bilidad o especificidad, ocultndose los cocientes
de probabilidades, que son los que mejor estiman
11. EL VALOR DE P Y SUS USOS el rendimiento de la prueba.
Otra trampa que puede observarse de forma oca-
El valor de p es la probabilidad de que la diferencia sional es mostrar los resultados utilizando la me-
de efecto observada entre dos o ms grupos no se dia ms menos el error estndar en lugar de la
deba al azar o, dicho de otro modo, la probabilidad media ms menos la desviacin estndar. La razn
de cometer un error de tipo I (rechazar la hiptesis para esto es casi pueril: el error estndar es mucho
nula siendo cierta). No debemos olvidar que este menor que la desviacin estndar, con lo que se

Rev Pediatr Aten Primaria. 2014;16:181-6 185


ISSN: 1139-7632 www.pap.es
Molina Arias M. Las trampas de la estadstica

transmite la impresin de una mayor precisin de Tabla 2. Las trampas de la estadstica


los resultados. Sin embargo, los dos trminos re- 1. Realizar comparaciones directas sin el adecuado
presentan conceptos totalmente distintos. La des- contraste de hiptesis
2. No ajustar segn las diferencias basales entre
viacin estndar mide la separacin media de los
los dos grupos
valores de la distribucin respecto de la media (por 3. No especificar claramente el mtodo
lo que es til como medida de dispersin), mien- de aleatorizacin
tras que el error estndar es una estimacin de 4. Operaciones aritmticas inadecuadas
con variables cualitativas
cmo variara la media de la distribucin si la repi- 5. Uso de una prueba incorrecta para el contexto
tisemos con distintas muestras de la poblacin: del trabajo
nada que ver la una con el otro. 6. Buscar la prueba estadstica que d el resultado
apetecido
Por ltimo, hacer referencia al maquillaje de los 7. No respetar el protocolo original del estudio.
grficos que puede llevarse a cabo segn las unida- Anlisis posterior de subgrupos
des de medida que los autores escojan para la re- 8. Realizar contraste de hiptesis unilateral
para alcanzar significacin estadstica
presentacin grfica. Siempre debemos observar 9. No ajustar el efecto producido por valores
estas unidades y tratar de extraer la informacin extremos, o eliminarlos indebidamente
del grfico ms all de lo que pueda parecer que 10. Uso indebido de regresin y correlacin
11. Mal uso del valor de p. Realizacin de
representan a primera vista.
comparaciones mltiples
Y con esto terminamos de exponer algunos de los 12. Uso de medidas de efecto relativas en lugar
errores ms habituales que podemos encontrar de absolutas
entre los mtodos estadsticos utilizados en los
trabajos cientficos. En la Tabla 2 se resumen algu- CONFLICTO DE INTERESES
nas de estas posibles trampas que debemos estar
El autor declara no presentar conflictos de intereses en rela-
preparados para detectar.
cin con la preparacin y publicacin de este artculo.

BIBLIOGRAFA 3. Molina Arias M. El significado de los intervalos de


confianza. Rev Pediatr Aten Primaria. 2013; 15:91-4.

1. Altman DG. Poor-quality medical research: what can 4. Molina Arias M. Clculo de la reduccin del riesgo y
journal do? JAMA. 2002;287:2765-7. el nmero necesario de pacientes a tratar. Rev Pedia-
tr Aten Primaria. 2012;14:369-72.
2. Molina Arias M. Razones para dejar de leer un artcu-
lo. Rev Pediatr Aten Primaria. 2014;16:87-91.

186 Rev Pediatr Aten Primaria. 2014;16:181-6


ISSN: 1139-7632 www.pap.es