Está en la página 1de 9

Traducido del inglés al español - www.onlinedoctranslator.

com

Rincón de las estadísticas

Verdades, mentiras y estadísticas.

Matthew S. Thiese, Skyler Walker, Jenna Lindsey

Rocky Mountain Center for Occupational & Environment Health, Department of Family and Preventive Medicine, School of Medicine, University of Utah,
Salt Lake City, UT 84108, EE. UU.
Correspondencia a:Matthew S. Thiese, PhD, MSPH. Rocky Mountain Center for Occupational & Environment Health, Department of Family and
Preventive Medicine, School of Medicine, University of Utah, 391 Chipeta Way, Suite C, Salt Lake City, UT 84108, USA. Correo electrónico:
matt.thiese@hsc.utah.edu .

Abstracto:La distribución de valiosos descubrimientos de investigación es necesaria para el avance continuo de la atención al

paciente. La publicación y la subsiguiente confianza en los resultados falsos del estudio serían perjudiciales para la atención al

paciente. Desafortunadamente, la mala conducta en la investigación puede tener su origen en muchas fuentes. Si bien hay

evidencia de mala conducta en la investigación en curso en todas sus formas, es un desafío identificar la ocurrencia real de la

mala conducta en la investigación, lo cual es especialmente cierto para la mala conducta en los ensayos clínicos. La mala

conducta en la investigación es difícil de medir y hay pocos estudios que informen la prevalencia o las causas subyacentes de la

mala conducta en la investigación entre los investigadores biomédicos. Es probable que las estimaciones de prevalencia

informadas de mala conducta sean subestimaciones y oscilan entre el 0,3 % y el 4,9 %. Ha habido esfuerzos para medir la

prevalencia de la mala conducta en la investigación; sin embargo, los relativamente pocos estudios publicados no son

libremente comparables debido a las diversas caracterizaciones de la mala conducta en la investigación y los métodos utilizados

para la recopilación de datos. Hay algunas señales que pueden indicar una mayor posibilidad de mala conducta en la

investigación, sin embargo, es necesario que los investigadores biomédicos sigan autocontrolándose. Hay recursos existentes

para ayudar a garantizar métodos estadísticos apropiados y prevenir otros tipos de fraude en la investigación. Estos incluyeron

los "Análisis y métodos estadísticos en la literatura publicada", también conocidos como las pautas SAMPL, que ayudan a los

científicos a determinar el método apropiado para informar varios métodos estadísticos; el “Fortalecimiento del Pensamiento

Analítico para los Estudios Observacionales”, o el STRATOS, que hace énfasis en la ejecución e interpretación de resultados; y el

Comité de Ética de la Publicación (COPE), que fue creado en 1997 para brindar orientación sobre la ética de la publicación. COPE

tiene una secuencia de visiones y estrategias fundamentadas en los valores de honestidad y precisión.

Palabras clave:Investigación de mala conducta; falsificación; fabricación; métodos analíticos

Enviado el 19 de agosto de 2017. Aceptado para su publicación el 28 de agosto de

2017. doi: 10.21037/jtd.2017.09.24

Ver este artículo en:http://dx.doi.org/10.21037/jtd.2017.09.24

Introducción basado en literatura publicada y revisada por pares para mejorar la


atención al paciente y continuar tomando decisiones de tratamiento
La difusión de los resultados de la investigación de calidad es necesaria
informadas mientras se considera la creciente complejidad en la atención
para la mejora generalizada de la atención al paciente. Sin una
médica, incluidos nuevos tratamientos, procedimientos, pautas y
investigación de calidad, la mejora de la práctica dependería de las
preocupaciones relacionadas (1).
propias observaciones de los médicos individuales y del deseo de La investigación, quirúrgica o de otro tipo, debe tener un diseño, una
mejorar. Esto es particularmente cierto para la medicina quirúrgica, ejecución y un análisis sólidos para ser considerada de calidad. El diseño
donde la difusión de investigaciones de calidad mejora exponencialmente y la ejecución del estudio a menudo pueden tener deficiencias, lo que
el tratamiento de las poblaciones de pacientes. El objetivo de la afecta la calidad de la investigación. Los ejemplos de estos incluyen el uso
investigación médica debe ser determinar la verdad científica con de un tratamiento de comparación deficiente, la falta de cegamiento, la
respecto a un tratamiento, exposición o resultado. Los médicos confían aleatorización deficiente y el tamaño de muestra pequeño. En general,

© Revista de enfermedades torácicas. Reservados todos los derechos. jtd.amegroups.com Enfermedad torácica J2017;9(10):4117-4124
4118 Thiese et al. Verdades, mentiras y estadísticas.

tabla 1Indicar actividades o métodos de mala conducta en la investigación La investigación biomédica se ha vuelto cada vez más compleja, particularmente en la investigación clínica quirúrgica (1).

Diseño del estudio y recopilación de datos La revisión de la literatura encuentra análisis estadísticos que consisten principalmente en pruebas t y estadísticas descriptivas

Diseño inapropiado (es decir, medias, desviaciones estándar, rango) (5,9). Los avances recientes en los métodos estadísticos y el poder

computacional cada vez mayor han dado lugar a herramientas analíticas cada vez más sólidas que se pueden utilizar en la
Distorsión del diseño
investigación clínica. Aunque los métodos de análisis estadístico se han vuelto más robustos, las pruebas estadísticas básicas

Descuido o incompetencia empleadas comúnmente en los años setenta continúan siendo la principal o, a menudo, la única herramienta analítica en la

Fabricación de datos investigación quirúrgica (10). Todavía es relativamente común encontrar evaluaciones estadísticas incorrectas realizadas para el

diseño de estudio dado y/o tipo de datos. Las pruebas paramétricas básicas siguen utilizándose con frecuencia, aunque la
No seguir protocolo de seguridad o consentimiento informado
mayoría de los datos no se distribuyen normalmente (11). Una revisión de 91 artículos quirúrgicos comparativos publicados
No obtener la aprobación de la junta de revisión institucional antes de
encontró que la mayoría (78%) contenía errores potencialmente significativos en la aplicación de estadísticas analíticas. Los
comenzar el estudio
errores comunes incluían no realizar una prueba de significancia cuando estaba indicado, proporcionar valores de p sin
métodos analíticos
referencia a una comparación específica y la aplicación inadecuada de métodos estadísticos básicos (12). Otro estudio que

Falsificación de datos
evaluó 100 artículos sobre cirugía ortopédica informó que el 17 % de los resultados no respaldaron las conclusiones exageradas

Análisis inadecuado y el 39 % realizó un análisis incorrecto en conjunto (13). Las revisiones de otra literatura revisada por pares encontraron que

Comparaciones múltiples no informadas o ajustadas aproximadamente la mitad de la investigación clínica tiene uno o más errores estadísticos, algunos de los cuales influyeron en

los resultados y la interpretación de los hallazgos del estudio (14-16). Una revisión de 91 artículos quirúrgicos comparativos
Tergiversación de métodos/análisis estadísticos
publicados encontró que la mayoría (78%) contenía errores potencialmente significativos en la aplicación de estadísticas
Análisis post hoc no identificados
analíticas. Los errores comunes incluían no realizar una prueba de significancia cuando estaba indicado, proporcionar valores de

Exclusión de valores atípicos p sin referencia a una comparación específica y la aplicación inadecuada de métodos estadísticos básicos (12). Otro estudio que

Publicación evaluó 100 artículos sobre cirugía ortopédica informó que el 17 % de los resultados no respaldaron las conclusiones exageradas

y el 39 % realizó un análisis incorrecto en conjunto (13). Las revisiones de otra literatura revisada por pares encontraron que
Informes selectivos
aproximadamente la mitad de la investigación clínica tiene uno o más errores estadísticos, algunos de los cuales influyeron en
Falta de publicación/acuerdo de no publicación
los resultados y la interpretación de los hallazgos del estudio (14-16). Una revisión de 91 artículos quirúrgicos comparativos

Sobreinterpretación de los resultados


publicados encontró que la mayoría (78%) contenía errores potencialmente significativos en la aplicación de estadísticas

Debilidades del estudio no descritas Publicaciones analíticas. Los errores comunes incluían no realizar una prueba de significancia cuando estaba indicado, proporcionar valores de

p sin referencia a una comparación específica y la aplicación inadecuada de métodos estadísticos básicos (12). Otro estudio que
duplicadas o casi idénticas Conflictos de interés
evaluó 100 artículos sobre cirugía ortopédica informó que el 17 % de los resultados no respaldaron las conclusiones exageradas
significativos o no revelados No proporcionará datos
y el 39 % realizó un análisis incorrecto en conjunto (13). Las revisiones de otra literatura revisada por pares encontraron que

sin procesar
aproximadamente la mitad de la investigación clínica tiene uno o más errores estadísticos, algunos de los cuales influyeron en los resultados y la interpre

El objetivo de este artículo es describir los errores


estadísticos comunes en la literatura publicada y cómo
la mayoría de estos elementos se pueden detectar y considerar con una evitar y detectar estos errores.
lectura exhaustiva de los métodos y resultados de un estudio. Muchos
criterios pueden ayudar en la identificación de evidencia de calidad, que
Investigación de mala conducta
se emplean al crear pautas de tratamiento (2,3). Por el contrario, el
análisis de los datos del estudio se puede manipular para lograr los La mala conducta en la investigación, a menudo denominada fraude, puede
resultados deseados. En general, la mayoría de los estudios informan abarcar una variedad de actividades que incluyen: fabricación de datos o
relativamente pocas o ninguna decisión de análisis estadístico o resultados, plagio de ideas o texto sin otorgar el crédito adecuado, falsificación
evaluaciones de validez (4-6). Los autores a menudo solo indican los de métodos o resultados de investigación (p. ej., omitir datos o desviarse
métodos analíticos empleados y el paquete de análisis estadístico significativamente de la investigación). protocolo) y la manipulación del
utilizado para realizar los análisis. proceso de revisión por pares. La mala conducta en la investigación
El desarrollo de un plan de análisis estadístico, el cumplimiento de ese generalmente no incluye errores no intencionales, sino tergiversaciones
plan, el análisis estadístico específico utilizado, las decisiones tomadas intencionales de los datos, procesos y/o hallazgos de la investigación.tabla 1
durante el análisis, las suposiciones hechas con respecto a los datos y los incluye prácticas de investigación que son indicadores de una posible mala
resultados posteriores están influenciados por factores que incluyen la conducta en la investigación, si no de la propia mala conducta en la
calidad de los datos, la elección adecuada y la implementación de investigación (17-19).
métodos de análisis estadístico. , evaluación rigurosa de los datos e Es difícil identificar la verdadera prevalencia de la mala conducta en la
interpretación veraz de los resultados (7,8). investigación, particularmente en los ensayos clínicos. Allí tienen

© Revista de enfermedades torácicas. Reservados todos los derechos. jtd.amegroups.com Enfermedad torácica J2017;9(10):4117-4124
Jo 4119

19.00
con estimaciones de artículos retractados en 0,07% (21). Un
20.00
estudio de 1999 identificó artículos retractados indexados en
15.00 Medline desde 1966 hasta 1996 (22). El estudio identificó 198
declaraciones de retractación de publicación, retractando 235
10.00 8.60
artículos. Posteriormente, se clasificaron según el motivo

5.00
principal de la retractación, y la mayoría (38,7 %) se retractó por
1.07 errores, seguido de cerca por (36,6 %) por mala conducta (22).
0.00 Muchos de estos artículos retractados fueron luego citados por
1955-2009 2010-2017 2015-2016
1.893 artículos posteriores después de que se realizó la
Figura 1Número medio de retracciones por año en la literatura retractación, siendo casi todas las citas explícitas (14,5 %) o
neuroquirúrgica publicada adaptada de Wangy otros. 2017 (26). implícitamente positivas (77,9 %) y solo una pequeña proporción
(7,5 %) reconociendo la retractación (22 ). Un estudio reciente
que evaluó las retractaciones específicamente en la
ha habido algunos intentos de cuantificar la prevalencia de la mala investigación ortopédica encontró que la mayoría de las
conducta en la investigación; sin embargo, los diferentes estudios no son retractaciones fueron por fraude (26,4 %) o plagio (22,7 %) (23).
fácilmente comparables debido a las distintas definiciones de mala Hay múltiples estudios que demuestran que las tasas de retracción
conducta en la investigación. Además, la población estudiada es difícil de están aumentando (24). Un artículo que evaluó las retractaciones entre
identificar y analizar. Teóricamente, cualquier persona que realice una 2001 y 2011 informó un aumento de 10 veces en las retractaciones para
investigación podría cometer una mala conducta en la investigación, ese período de tiempo (25).Figura 1 muestra datos adaptados de Wang et
desde asistentes de investigación en pequeños estudios piloto hasta el al que representan el aumento en la frecuencia de retracción de la
investigador principal (PI) en un gran ensayo multicéntrico. La literatura neuroquirúrgica (26). El estudio de las retracciones en la
identificación del PI es relativamente fácil; sin embargo, la enumeración investigación ortopédica encontró tendencias crecientes similares en el
de todos los trabajadores investigadores involucrados en un estudio número de retracciones por año (26).
generalmente no es factible. Además, es lógico creer que las personas en Se han sugerido algunas soluciones y se ha avanzado en el
ciertos niveles de carrera pueden tener una mayor probabilidad de intento de prevenir el fraude en la investigación clínica. Las posibles
cometer una mala conducta en la investigación (p. ej., publicar para soluciones incluyen la regulación legal (19) y el requisito de
obtener un puesto). El mayor problema para identificar la prevalencia de compartir datos sin procesar para una evaluación independiente y la
la mala conducta en la investigación es el sesgo de respuesta hacia la replicación de los resultados (18).
subdeclaración, incluso en encuestas anónimas. La investigación en esta
área ha tratado de abordar esto haciendo preguntas que no son de
Tergiversaciones estadísticas no intencionales
autoinforme, como "¿conoce a alguien que haya cometido una mala
conducta en la investigación?" en lugar de preguntas de autoinforme En muchos casos específicos, puede ser difícil o imposible identificar si un
como "¿alguna vez cometió una mala conducta en la investigación?". Es problema con un estudio fue intencional y, por lo tanto, se consideró una
probable que la prevalencia informada de individuos que respondieron la mala conducta en la investigación, o si no fue intencional y se atribuyó a
pregunta de autoinforme sea significativamente diferente de la un error honesto, una diferencia de opinión u otra causa benigna. Es
prevalencia imparcial o no autoinformada. A pesar de estas deficiencias, probable que las estimaciones de prevalencia de errores no intencionales
hay un cuerpo de literatura pequeño pero creciente que evalúa la en la investigación estén menos sesgadas que las estimaciones de mala
prevalencia de la mala conducta en la investigación tanto en estudios conducta en la investigación, aunque ambas siguen siendo
autoinformados como no autoinformados. Entre la prevalencia subestimaciones. Los errores no intencionales en el análisis de datos
autoinformada de mala conducta en la investigación, la prevalencia representan solo el 15% de las publicaciones retractadas (21). Las causas
media estimada es de aproximadamente el 2%, con una posible no intencionales informadas para las retractaciones incluyen informes
tendencia a la baja levemente decreciente en el tiempo (20). Por el inadecuados de casos, exclusión inadvertida de valores atípicos que
contrario, la prevalencia general de mala conducta en la investigación no conducen a interpretaciones erróneas y sesgos no reconocidos que
autoinformada fue ligeramente superior al 14 % (20). salieron a la luz al final del estudio o después de la publicación.

La detección de tergiversaciones, incluido el error


Detectar y evitar falsedades estadísticas
involuntario y la mala conducta intencional, debe dar lugar a la
retractación de los artículos publicados, lo cual es poco común. Existen múltiples recursos para ayudar a evitar

© Revista de enfermedades torácicas. Reservados todos los derechos. jtd.amegroups.com Enfermedad torácica J2017;9(10):4117-4124
4120 Thiese et al. Verdades, mentiras y estadísticas.

Tabla 2Signos estadísticos que indican una posible mala conducta en la investigación de muchas fuentes, incluidos: pares de investigación, revisores,
Emplear una prueba estadística incorrecta auditores del IRB e incluso participantes del estudio. Un estudio
informó que casi una cuarta parte (24,4 %) de los 115 casos de mala
Simplificación excesiva de los análisis
conducta fueron informados por un participante del estudio (30).
Exclusión de datos
También hay algunos signos estadísticos comunes que pueden
Análisis exploratorios indicar una posible mala conducta en la investigación (4,8,17,30).

Múltiples pruebas realizadas pero pocas estadísticamente significativas Estos se describen enTabla 2.

Patrón de tamaño del efecto inconsistente

Valores de p no ajustados para comparaciones múltiples Elección de la prueba estadística

Baja potencia estadística/alto error de tipo II La selección del tipo correcto de prueba estadística para usar en el plan

Identificación incorrecta del diseño del estudio analítico se elige según el tipo de datos y la pregunta de estudio que se
aborda (33). Las preguntas de estudio generalmente vienen en dos
No siguió un plan de análisis a priori
formas diferentes, las que evalúan las diferencias entre los grupos y las
Realizar solo pruebas unilaterales de significación que evalúan las similitudes/igualdad entre los grupos. Por ejemplo, si la
estadística sin justificación
pregunta del estudio es evaluar si existe una diferencia estadística entre
dos enfoques quirúrgicos, entonces hay un número selecto de pruebas
estadísticas que se pueden emplear para evaluar la diferencia entre los
presentación y procedimientos estadísticos inapropiados. Uno enfoques quirúrgicos. Sin embargo, si la pregunta del estudio tiene como
de los cuales es el "Análisis y métodos estadísticos en la objetivo demostrar que dos abordajes quirúrgicos son equivalentes,
literatura publicada", también conocido como las pautas SAMPL, entonces se debe emplear un conjunto diferente de pruebas estadísticas,
que ayudan a los investigadores a informar sobre diversos según el tipo de datos que se analicen (11). Se necesita una identificación
métodos estadísticos (27). Otro recurso valioso es el adecuada de la pregunta de estudio y el tipo de datos correctos antes de
“Fortalecimiento del Pensamiento Analítico para Estudios hacer un plan de análisis para minimizar errores significativos y posibles
Observacionales”, o el STRATOS, que se enfoca en la orientación interpretaciones erróneas de los resultados del estudio. Los resultados
de ejecución e interpretación de resultados (28). Por último, el de emplear la prueba estadística incorrecta podrían convertirse en una
Comité de Ética de la Publicación (COPE) se estableció en 1997 limitación menor o, en el peor de los casos, completando la invalidación
para brindar orientación sobre la ética de la publicación. La de los resultados del estudio (34).
COPE cuenta con una serie de postulados y lineamientos, los
cuales se basan en los principios de honestidad y exactitud (29). Las evaluaciones estadísticas incorrectas a menudo caen en una de
La honestidad, en forma de transparencia, divulgación y dos categorías. La categoría más común es la prueba para evaluar si hay
autoevaluación crítica en la investigación quirúrgica, prohíbe las una diferencia entre dos grupos (35) y se supone que los datos están
tergiversaciones intencionales. La precisión evita distribuidos normalmente, cuando en realidad no lo están. Las pruebas
tergiversaciones estadísticas no intencionales. La inexactitud de diferencias pueden ser pruebas de un solo lado, es decir, evaluar si
demuestra comprensión metodológica, analítica o interpretativa hay una diferencia entre los grupos en una sola dirección (solo mejorado,
o atención al detalle. solo más alto, etc.), o una prueba de dos lados que analiza las diferencias
La investigación clínica requiere autocontrol y obligar a los pares a cumplir estadísticas en cualquier dirección. (mejorado o peor, mayor o menor,
con altos estándares rigurosos para mantener la credibilidad (30). Los estudios etc.). Las pruebas unilaterales son menos conservadoras que las pruebas
seleccionados identificaron acciones tomadas contra la mala conducta en la bilaterales y deben estar bien justificadas y descritas en un plan de
investigación. En un estudio, se tomó alguna medida en el 46 % de los 78 casos análisis antes de realizar el estudio. El otro tipo de pruebas estadísticas
de mala conducta en la investigación no informados por los propios son las pruebas de equivalencia y no inferioridad, que evalúan si dos
encuestados (31). En otro estudio de casos de mala conducta en la grupos o intervenciones son estadísticamente equivalentes (36,37). Estas
investigación no autoinformados, más de la mitad de las personas que pruebas no indican que dos grupos simplemente no sean
informaron de mala conducta no propia, también informaron haber estadísticamente diferentes (37). Además, se utilizan para evaluar si dos
confrontado a la persona que cometió la mala conducta. Además, muchos cosas son estadísticamente intercambiables y, a menudo, se utilizan para
también denunciaron la mala conducta al supervisor (36,4 %) o a la Junta de evaluar nuevos métodos de evaluación, abordajes quirúrgicos o
Revisión Institucional (IRB) (12,1 %) (32). tratamientos (38). Un ejemplo de una prueba de no inferioridad diseñada
La identificación de la mala conducta en la investigación a menudo viene para evaluar si un nuevo

© Revista de enfermedades torácicas. Reservados todos los derechos. jtd.amegroups.com Enfermedad torácica J2017;9(10):4117-4124
Journal of Thoracic Disease, Vol 9, No 10 Octubre 2017 4121

enfoque quirúrgico tiene los resultados positivos como el enfoque fuentes de datos erróneos (11). Las posibles circunstancias que pueden resultar en datos individuales incorrectos e inexactos

quirúrgico actual. La aplicación de pruebas de diferencias en lugar de deben considerarse antes de la recopilación de datos y deben reducirse a través de un protocolo de estudio (p. ej., estandarizar a

pruebas de similitudes puede aplicarse de manera inapropiada, lo que da los médicos o calibrar el equipo antes de cada evaluación) o memorizarse en un plan para identificar y manejar estos

como resultado conclusiones falsas. problemas. . Una circunstancia en la que la exclusión de datos a menudo se realiza sin explicación en la publicación son los

La identificación del tipo correcto de datos (numéricos o categóricos) y la valores atípicos. Es aconsejable tener una definición establecida de lo que constituye un valor atípico (es decir, 3 desviaciones

distribución (normal o no normal) dictan las pruebas específicas a usar (35), y a estándar o 1,5 IQR) antes del análisis e incluir claramente esta información en la sección de métodos. Sin tener en cuenta las

menudo se simplifica demasiado en los ensayos quirúrgicos. Los ensayos restricciones de recuento de palabras ni dar demasiada información, es mejor ser lo más transparente posible al incluir análisis

aleatorizados solían utilizar pruebas t para muestras apareadas si se evaluaba de datos con valores atípicos y sin ellos. Los planes de análisis están cada vez más disponibles a través de fuentes secundarias,

al mismo paciente tanto antes como después de la intervención, o pruebas t como Clinicaltrials.gov, o los solicitan los editores de revistas antes de publicar un artículo. La explicación adecuada para excluir

para muestras independientes en los ensayos experimentales tradicionales. cada dato debe ser el resultado de una desviación de protocolo documentada o un error de laboratorio, no simplemente puntos

contraensayo de control. Sin embargo, las pruebas t suponen una distribución de datos que están "más allá de lo esperado" (p. ej., 2 desviaciones estándar por encima de la media). Un estudio que analizó la

normal de los datos y los datos biomédicos no suelen tener una distribución mala conducta en la investigación concluyó que más de un tercio (33,7 %) de los investigadores encuestados admitieron

normal. Cuando los datos no se distribuyen normalmente, se debe emplear el metodologías de investigación deficientes indicativas de mala conducta en la investigación, incluida la exclusión de datos o datos

uso de pruebas no paramétricas (p. ej., prueba de chi-cuadrado, prueba U de múltiples debido a una "intuición de que eran inexactos" y engañosos o selectivos. notificación del diseño, los datos o los

Mann-Whitney, prueba de rango de signo de Wilcoxon, prueba de suma de resultados del estudio (20). gov o solicitado por los editores de revistas antes de publicar un artículo. La explicación adecuada

rango de Wilcoxon) (39). El uso inapropiado de estas pruebas paramétricas en para excluir cada dato debe ser el resultado de una desviación de protocolo documentada o un error de laboratorio, no

lugar de su equivalente no paramétrico probablemente haya resultado en simplemente puntos de datos que están "más allá de lo esperado" (p. ej., 2 desviaciones estándar por encima de la media). Un

resultados falsos. La suposición de que todos los datos se distribuyen estudio que analizó la mala conducta en la investigación concluyó que más de un tercio (33,7 %) de los investigadores

normalmente es una indicación de descuido, ignorancia o incompetencia del encuestados admitieron metodologías de investigación deficientes indicativas de mala conducta en la investigación, incluida la

éter (11) y puede ser un síntoma de una mala conducta de investigación más exclusión de datos o datos múltiples debido a una "intuición de que eran inexactos" y engañosos o selectivos. notificación del

amplia y generalizada. Muchos estudios anteriores describen el tipo de análisis diseño, los datos o los resultados del estudio (20). gov o solicitado por los editores de revistas antes de publicar un artículo. La

apropiado dado el tipo de datos y el diseño del estudio (5,11,13,27,39-41). explicación adecuada para excluir cada dato debe ser el resultado de una desviación de protocolo documentada o un error de

laboratorio, no simplemente puntos de datos que están "más allá de lo esperado" (p. ej., 2 desviaciones estándar por encima de

la media). Un estudio que analizó la mala conducta en la investigación concluyó que más de un tercio (33,7 %) de los

investigadores encuestados admitieron metodologías de investigación deficientes indicativas de mala conducta en la


Simplificación excesiva de los análisis
investigación, incluida la exclusión de datos o datos múltiples debido a una "intuición de que eran inexactos" y engañosos o

La complejidad estadística en la investigación en cirugía clínica está selectivos. notificación del diseño, los datos o los resultados del estudio (20). 2 desviaciones estándar por encima de la media). Un estudio que analizó la m

creciendo (1); sin embargo, las pruebas y modelos estadísticos simples y


básicos todavía se emplean comúnmente en el análisis de datos
Detección de fraude
complejos. Una evaluación de 240 publicaciones quirúrgicas revisadas
por pares encontró que proporciones significativas de estudios tenían Hay tres tipos distintos de detección de fraude. Estos incluyen la
uno o más signos de posible mala conducta en la investigación. De estas supervisión por parte de los comités de juicio, el seguimiento in situ y el
publicaciones, el 60 % utilizó estadísticas paramétricas rudimentarias sin seguimiento estadístico central (42). Cada tipo es importante para
que se informara una prueba de normalidad, el 21 % no informó una detectar diferentes aspectos del fraude. La supervisión por parte de los
medida de tendencia central (media, mediana o moda) para las medidas miembros del comité del ensayo es mejor para evitar fallas en el diseño
primarias y el 10 % no identificó el tipo de prueba estadística. se utilizó del estudio, así como en la interpretación de los resultados (42). El
para calcular un valor P (10). seguimiento in situ es útil para garantizar que no se produzcan errores
de procedimiento durante la recopilación de datos en los centros
participantes (42). Por último, el seguimiento estadístico es esencial para
Exclusión de datos y tratamiento de valores atípicos
eliminar errores de datos, así como la incidencia de equipos defectuosos
La exclusión de datos rara vez debe ocurrir. Además, solo es justificable o descuidos. Desafortunadamente, la mayoría de los estudios solo
cuando existen errores documentados en el proceso de recopilación de implementan un tipo de detección de fraude, el monitoreo en el sitio (43).
datos. La mejor situación es la planificación adecuada de los posibles Si bien este tipo de detección de fraude es útil para garantizar que la
errores de recopilación de datos que se consideran antes de recopilar recopilación de datos se realice de manera eficiente y correcta (es decir,
datos y se escriben en un plan de análisis (12,20) La falla del protocolo, el asegurarse de que todos los participantes estén dando su
error de prueba, el error de laboratorio o la falla del equipo son consentimiento, etc.). Desafortunadamente, este tipo de detección de
lamentablemente comunes en la investigación y son todas razones fraude no garantiza la verificación de los datos de origen sin ser costoso y
razonables para excluir datos, dado que están documentados oportuno (44-46). Sin embargo, los datos de origen

© Revista de enfermedades torácicas. Reservados todos los derechos. jtd.amegroups.com Enfermedad torácica J2017;9(10):4117-4124
4122 Thiese et al. Verdades, mentiras y estadísticas.

la verificación mediante el monitoreo estadístico central es necesaria de la beca de capacitación del Centro de Educación e
para asegurarse de que los datos recopilados sean confiables para Investigación del Instituto Nacional para la Seguridad y Salud
responder a su pregunta central, detectar fraude y cualquier patrón Ocupacional (NIOSH/CDC) T42/CCT810426-10.
anormal, especialmente en los ensayos multicéntricos (17,47,48). En
algunas circunstancias, principalmente para reducir el costo de la
Nota
verificación constante de los datos de origen, se pueden recomendar
auditorías de datos específicos para detectar fraudes además de Conflictos de interés:Los autores no tienen ningún conflicto de intereses que
promover otras actividades de autocontrol (44-46,48). declarar.

Principios del seguimiento estadístico Referencias

El seguimiento estadístico es posible gracias a la naturaleza estructurada de los 1. Kurichi JE, Sonnad SS. Métodos estadísticos en la literatura
datos clínicos. Con respecto a los ensayos multicéntricos, a menudo los datos quirúrgica. J Am Coll Surg 2006;202:476-84.
se recopilan utilizando formularios de recopilación similares, lo que facilita la 2. Harris JS, Sinnott PL, Holland JP, et al. Metodología para
realización de análisis que evalúen cualquier anomalía en todas las variables o actualizar las recomendaciones de práctica en las Pautas de
variables específicas de un centro en comparación con otros (49-52). Los práctica de medicina ocupacional del American College of
senderos aleatorios también pueden aprovechar la naturaleza estructurada de Occupational and Environmental Medicine, segunda edición. J
las variables para el seguimiento estadístico. En teoría, las variables de Occup Environ Med 2008;50:282-95.
referencia no deberían diferir significativamente entre todos los grupos 3. Melhorn JM HK. Metodología. En: Melhorn JM, Ackerman WE.
aleatorizados. Las fechas de las visitas de los participantes también pueden editor. Guías para la evaluación de la causalidad de
monitorearse en busca de anomalías, incluido un número sospechosamente enfermedades y lesiones. Prensa AMA; 2008.
elevado de visitas durante el fin de semana (42, 48, 53). Otro acto fraudulento 4. Strasak AM, Zaman Q, Pfeiffer KP, et al. Errores estadísticos en la
que realizan los investigadores es copiar y pegar datos de un participante a investigación médica: una revisión de las trampas comunes. suizo
otro. Se puede utilizar una prueba de similitud para garantizar la honestidad en Semanal Med 2007;137:44-9.
el informe de datos. En cambio, algunos investigadores adoptan un enfoque 5. Feinstein AR. Bioestadística clínica. XXV. Una encuesta de los
más largo para fabricar datos inventando valores para las variables faltantes. procedimientos estadísticos en revistas médicas generales. Clin
Sin embargo, los humanos no son buenos para hacer números completamente Pharmacol Ther 1974; 15:97-107.
aleatorios, usando la Ley de Benford sobre la distribución de los primeros 6. Williams JL, Hathaway CA, Kloster KL, et al. Baja potencia, errores
dígitos, los investigadores pueden ver si los investigadores han inventado de tipo II y otros problemas estadísticos en la investigación
números (54). cardiovascular reciente. Am J Physiol 1997;273:H487-93.
7. Thiese MS, Arnold ZC, Walker SD. El mal uso y abuso de la
estadística en la investigación biomédica. Biochem Med
Conclusiones
(Zagreb) 2015;25:5-11.
La mala conducta en la investigación puede tener su origen en muchas 8. Cassidy LD. Conceptos básicos de análisis estadístico para la
fuentes. A menudo es difícil de detectar y se sabe poco sobre la investigación quirúrgica. J Surg Res 2005;128:199-206.
prevalencia o las causas subyacentes de la mala conducta en la 9. Emerson JD, Colditz GA. Uso del análisis estadístico en el
investigación entre los investigadores biomédicos. Es probable que las New England Journal of Medicine. N Engl J Med
estimaciones de prevalencia de mala conducta sean subestimaciones, 1983;309:709-13.
que van del 0,3 % al 4,9 %. Hay signos que pueden indicar una mala 10. Oliver D, Salón JC. Artículos originales: uso de estadísticas
conducta en la investigación y que se necesita un autocontrol continuo en la literatura quirúrgica y el fenómeno 'Huérfano P'.
por parte de los investigadores biomédicos. Además, existen algunas Aust NZJ Surg 1989;59:449-51.
mejores prácticas, incluido el desarrollo y la difusión de un plan de 11. Greenland S, Senn S, Rothman K, et al. Pruebas estadísticas,
análisis antes de recopilar datos, que pueden minimizar la oportunidad valores de P, intervalos de confianza y potencia: una guía para
de mala conducta en la investigación. las malas interpretaciones. Eur J Epidemiol 2016;31:337-50.
12. Salón JC, Colina D, Watts JM. Mal uso de métodos estadísticos
en la literatura quirúrgica de Australasia. Aust NZJ Surg
Agradecimientos
1982;52:541-3.
Fondos:Este estudio ha sido financiado, en parte, por subvenciones 13. Parsons NR, Price CL, Hiskens R, et al. Una evaluación de

© Revista de enfermedades torácicas. Reservados todos los derechos. jtd.amegroups.com Enfermedad torácica J2017;9(10):4117-4124
Journal of Thoracic Disease, Vol 9, No 10 Octubre 2017 4123

la calidad del diseño estadístico y el análisis de la investigación 2009;50:532-5.


médica publicada: resultados de una encuesta sistemática de 30. Tito SL, Wells JA, Rhoades LJ. Reparación de la integridad de la

revistas ortopédicas generales. Método BMC Med Res investigación. Naturaleza 2008;453:980-2.

2012;12:60. 31. Tangney JP. El fraude saldrá a la luz, ¿o sí? Nuevo científico
14. Gore SM, Jones IG, Rytter CE. Mal uso de métodos 1987; 115: 62-3.
estadísticos: evaluación crítica de artículos en BMJ de 32. MS de Kattenbraker. Investigación y publicación en educación
enero a marzo de 1976. Br Med J 1977;1:85-7. para la salud: consideraciones éticas y la respuesta de los
15. Kim JS, Kim DK, Hong SJ. Evaluación de errores y estadísticas educadores en salud. Universidad del Sur de Illinois en
mal utilizadas en la investigación dental. Int Dent J Carbondale, 2007.
2011;61:163-7. 33. Hulley SB, Cummings SR, Browner WS, et al. Diseño de
16. Blanco SJ. Errores estadísticos en artículos del British Journal of investigaciones clínicas. Lippincott Williams & Wilkins, 2013.
Psychiatry. Br J Psiquiatría 1979;135:336-42. 34. Jamart J. Pruebas estadísticas en la investigación médica. Acta Oncol

17. George SL, Buyse M. Fraude de datos en ensayos clínicos. Clin 1992;31:723-7.

Investig (Londres) 2015;5:161-73. 35. Woolson RF, Clarke WR. Métodos estadísticos para el
18. PO de Myers. Datos abiertos: ¿pueden prevenir el fraude en la investigación, análisis de datos biomédicos. John Wiley & Sons, 2011.
promover la reproducibilidad y permitir el análisis de big data en la 36. Altman DG, Bland JM. Medición en medicina: el análisis de los
investigación clínica? Ann Thorac Surg 2015;100:1539-40. estudios de comparación de métodos. El estadístico
19. Smith R. Regulación legal necesaria para exponer y detener el 1983;32:307-17.
fraude médico. BMJ 2016;352:i293. 37. Wellek S. Prueba de hipótesis estadísticas de equivalencia y no
20. Fanelli D. ¿Cuántos científicos fabrican y falsifican investigaciones? inferioridad. Prensa CRC; 2010.
Una revisión sistemática y metanálisis de los datos de la encuesta. 38. D'Agostino RB, Massaro JM, Sullivan LM. Ensayos de no inferioridad:
PLoS One 2009;4:e5738. conceptos y problemas de diseño: los encuentros de
21. Moylan CE, Kowalczuk MK. Por qué se retractan los artículos: un consultores académicos en estadística. Stat Med 2003;22:169-86.
estudio transversal retrospectivo de los avisos de retractación en 39. Hollander M, Wolfe DA, Chicken E. Métodos
BioMed Central. Abierto BMJ 2016;6:e012047. estadísticos no paramétricos. John Wiley & Sons, 2013.
22. Budd JM, Sievert M, Schultz TR, et al. Efectos de la retractación de 40. Gore A, Kadam Y, Chavan P, et al. Aplicación de la bioestadística en la
artículos sobre la citación y la práctica en medicina. Bull Med Libra investigación por parte de docentes y estudiantes de posgrado de
Assoc 1999;87:437-43. último año en facultades de medicina moderna: un estudio
23. Yan J, MacDonald A, Baisi LP, et al. Retracciones en la investigación transversal. Int J Appl Basic Med Res 2012;2:11-6.
ortopédica. Articulación ósea Res 2016;5:263-8. 41. Pequeño RJ, Rubin DB. Análisis estadístico con datos perdidos.
24. Frijol JR. Verdad o consecuencias: la creciente tendencia de retractación de John Wiley e hijos; 2014.
publicaciones. Neurocirugía Mundial 2017;103:917-8. 42. Baigent C, Harrell FE, Buyse M, et al. Garantizar la validez de los ensayos

25. Van Noorden R. El problema con las retractaciones. Naturaleza mediante el aseguramiento de la calidad de los datos y la diversificación

2011; 478:26. de los métodos de seguimiento. Ensayos clínicos 2008;5:49-55.

26. Wang J, Ku JC, Alotaibi NM, et al. Retracción de publicaciones 43. Morrison BW, Cochran CJ, White JG, et al. Supervisión de la calidad
neuroquirúrgicas: una revisión sistemática. World de la realización de ensayos clínicos: una encuesta de las prácticas
Neurosurg 2017;103:809-14.e1. actuales. Ensayos clínicos 2011;8:342-9.
27. Lang TA, Altman DG. Informes estadísticos básicos para 44. Eisenstein EL, Collins R, Cracknell BS, et al. Enfoques sensatos para
artículos publicados en revistas biomédicas: los "Análisis y reducir los costos de los ensayos clínicos. Ensayos Clínicos
métodos estadísticos en la literatura publicada" o las 2008;5:75-84.
pautas SAMPL. En: Smart P, Maisonneuve H, Polderman A, 45. Christina Reith MB C, Martin Landray MB C, Granger CB, et al.
eds. Manual de editores científicos, Asociación Europea de Ensayos clínicos aleatorizados: eliminación
Editores Científicos, 2013. obstáculos innecesarios. N Engl J Med 2013;369:1061-5.
28. Sauerbrei W, Abrahamowicz M, Altman DG, et al. Fortalecimiento del 46. Grimes DA, Hubacher D, Nanda K, et al. La guía de buenas
pensamiento analítico para estudios observacionales: la iniciativa prácticas clínicas: un estándar de bronce para la investigación
STRATOS. Stat Med 2014;33:5413-32. clínica. Lancet 2005;366:172-4.
29. Apuesta E, Barbour V, Yentis S, et al. Retractaciones: 47. Administración de Alimentos y Medicamentos. Orientación para la industria:

Orientación del comité de ética de publicaciones (COPE). supervisión de investigaciones clínicas: un enfoque basado en el riesgo

© Revista de enfermedades torácicas. Reservados todos los derechos. jtd.amegroups.com Enfermedad torácica J2017;9(10):4117-4124
4124 Thiese et al. Verdades, mentiras y estadísticas.

al monitoreo. Silver Spring, MD: FDA 2013. Monitoreo del sitio central: resultados de una prueba de precisión en la identificación

48. Buyse M, George SL, Evans S, et al. El papel de la bioestadística de ensayos y sitios que no pasaron la inspección de la Administración de Alimentos y

en la prevención, detección y tratamiento del fraude en los Medicamentos. Ensayos Clínicos 2014;11:205-17.

ensayos clínicos. Stat Med 1999;18:3435-51. 52. Venet D, Doffagne E, Burzykowski T, et al. Un enfoque estadístico
49. Edwards P, Shakur H, Barnetson L, et al. Supervisión central y para el control central de la calidad de los datos en los ensayos
estadística de datos en el ensayo Clinical Randomization of an clínicos. Ensayos clínicos 2012;9:705-13.
Antifibrinolytic in Significant Hemorrhage (CRASH-2). Ensayos 53. Buyse M, Evans SJ. Fraude en ensayos clínicos. Wiley statsref:
Clínicos 2014;11:336-43. referencia de estadísticas en línea, 2005.
50. Kirkwood AA, Cox T, Hackshaw A. Aplicación de métodos para el 54. Al-Marzouki S, Evans S, Marshall T, et al. ¿Son reales estos
control estadístico central en ensayos clínicos. Ensayos clínicos datos? Métodos estadísticos para la detección de fabricación
2013;10:783-806. de datos en ensayos clínicos. BMJ 2005;331:267-70.
51. Lindblad AS, Manukyan Z, Purohit-Sheth T, et al.

Citar este artículo como:Thiese MS, Walker S, Lindsey J.


Verdades, mentiras y estadísticas. J Thorac Dis
2017;9(10):4117-4124. doi:10.21037/jtd.2017.09.24

© Revista de enfermedades torácicas. Reservados todos los derechos. jtd.amegroups.com Enfermedad torácica J2017;9(10):4117-4124

También podría gustarte