Está en la página 1de 6

www.nature.

com/npjdigitalmed

PERSPECTIVA ABIERTO

Poner los datos antes de que el algoritmo de grandes volúmenes de datos frente a la medicina

personalizada
Eli M. Cahan 1,2, Tina Hernández-Boussard 3,4,5, Sonoo Thadaney-Israni 4 y Daniel L. Rubin 3,4,6

Tecnologías que aprovechan los grandes datos, incluyendo algoritmos predictivos y aprendizaje automático, están desempeñando un papel cada vez más importante en la prestación de asistencia sanitaria.

Sin embargo, la evidencia indica que este tipo de algoritmos tienen el potencial de empeorar las desigualdades intrínsecas actualmente para el sistema sanitario actual, incluyendo los prejuicios raciales. La

culpa de éstos de fi deficiencias a menudo se ha colocado en el algoritmo - pero los datos de entrenamiento subyacente tiene una mayor responsabilidad por estos errores, como salidas parciales se producen

inexorablemente por las entradas sesgadas. La utilidad, la equidad y la generalización de los modelos de predicción dependen de los datos de formación de población representativa con conjuntos de

características robustas. Así, mientras que el paradigma convencional de grandes volúmenes de datos es de naturaleza deductiva - apoyo a la decisión clínica - un futuro modelo aprovecha el potencial de

grandes volúmenes de datos para el razonamiento inductivo. Esto puede ser conceptualizado como cuestionamiento de decisiones clínicas, la intención de liberar el proceso predictivo humano a partir de las

lentes preconcebida de solicitud y / o interpretación de los datos. ef fi cacia, la representatividad y la generalización son todos acentúan en este esquema. Por lo tanto, los posibles riesgos de grandes

volúmenes de datos sesgados derivados de los mismos insumos deben ser reconocidas y tratadas. El conocimiento de los datos de fi deficiencias, estructuras para la inclusión de datos, estrategias para el

saneamiento de datos, y mecanismos de corrección de datos pueden ayudar a hacer realidad el potencial de grandes volúmenes de datos para una era de la medicina personalizada. Aplicada

deliberadamente, estas consideraciones pudo evitar riesgos Mitigación de la perpetuación de las desigualdades sanitarias en medio de la adopción generalizada de las nuevas aplicaciones de grandes

volúmenes de datos.

Medicina Digital npj ( 2019) 2:78; https://doi.org/10.1038/s41746-019-0157-2

PASADO: dicotomía entre los datos y el algoritmo de manera, que puede carecer de representatividad, y por lo tanto podrían exacerbar las

El tsunami de grandes volúmenes de datos - aprovechado más prominente a través de algoritmos disparidades de salud potencialmente (3) Proporcionar las recomendaciones para mejorar la utilidad

predictivos y de aprendizaje automático - ha barrido a través de la asistencia sanitaria en los últimos de los futuros conjuntos de datos, para cumplir con los grandes datos ' s potencial para facilitar la

años. 1 Existen aplicaciones demostradas para muchos escenarios clínicos discretos (Tabla 1 ). Las medicina personalizada.
solicitudes también han envuelto a la investigación biomédica, revisión de la utilización de sistemas
de salud, y el rediseño curricular médica. 2 - 4
PRESENTE: Confluencia entre los datos y el algoritmo

Sin embargo, este tipo de algoritmos - agnóstico a las fuentes, o la validez, de los grandes
Delaware fi deficiencias en los datos inexorablemente comprometen el algoritmo. El algoritmo es
datos utilizados para el entrenamiento - tienen el potencial de agravar preexistentes
el nodo terminal en los datos de gran valor de cadena: la generación, la desinfección, la
disparidades demográficas en la asistencia sanitaria. 5 sesgos raciales anclados en formación
transmisión y almacenamiento de datos de todos preceder a su fi predicciones final. 13 La integridad
de datos sesgados históricamente han dado lugar a modelos predictivos racista de penal
de los datos imparciales, clínicamente útiles depende de la fiabilidad de las fuentes tales como
la justicia, la contratación
notas de historiales médicos electrónicos y sensores remotos. Su trans- misión se basa en la fi infidelidad
decisiones, la asignación de los servicios sociales / beneficio fi ts, emisión de
de software descentralizado. Su almacenamiento depende de la seguridad de los servidores
vivienda de apoyo y evaluación de abuso infantil. 6 , 7 En biomedicina, algoritmos también
locales y basadas en la nube. 13 De esta manera, los grandes datos no se refiere a algoritmos
han mostrado sesgos raciales: por ejemplo, en los modelos de pronóstico diseñados a
filomediáticas producir estadísticamente significativa fi salidas de consideración en el aislamiento.
partir del Framingham Heart Study, y los protocolos de medicina de precisión basado
Más bien, esas salidas deben ser vistos como productos secundarios inevitables de entradas
predominantemente en los genotipos ancestrales europeos. 8 - 10
anteriores.

Los algoritmos menudo se culpa a éstos de fi deficiencias. 11


Sin embargo, afirmamos que los datos utilizados para entrenar a estos algoritmos lleva una Big Data ha sido de fi nida por “ 4 V ' s “: volumen, la velocidad, la variedad y veracidad.
mayor responsabilidad. El concepto de “ basura dentro basura fuera ” es de suma importancia
Mientras que los dos últimos promover la replicabilidad, el volumen y la velocidad de
para los algoritmos médico capacitado en conjuntos de datos sanitarios y pacientes impactando
datos se han obtenido más habitualmente hasta la fecha. 14 Desarrollo de algoritmos se
aguas abajo. 12
ha centrado en la recopilación de datos - y más datos. Los investigadores e inventores
En este artículo (1) argumentan que los grandes conjuntos de datos existentes son con reclaman datos, centrándose en su cantidad y no en su calidad. Por ejemplo, una
frecuencia limitados en su inclusividad - un problema potencialmente Magni fi ed por los reciente revisión de identi fi ed 15 dispositivos desarrollados en los últimos
dispositivos digitalizados en el futuro (2) examinar cómo, si estos conjuntos de datos se
aprovechan por algoritmos en un sin corregir años para electrocardiográfico continuo (ECG)

1 Escuela Universitaria de Medicina de Nueva York, Nueva York, NY, EE.UU.; 2 Departamento de Ortopedia Pediátrica, Universidad de Stanford, Palo Alto, CA, EE.UU.; 3 Departamento de Ciencias Biomédicas de datos, la Universidad de Stanford, Palo Alto, CA,

EE.UU.; 4 Departamento de Medicina de la Universidad de Stanford, Palo Alto, CA, EE.UU.; 5 Departamento de Cirugía, Universidad de Stanford, Palo Alto, CA, EE.UU. y 6 Departamento de Radiología de la Universidad de Stanford, Palo Alto, CA, EE.UU.

Correspondencia: Eli M. Cahan ( emcahan@stanford.edu )

Recibido: 31 Marzo 2019 Aceptado: 17 Julio 2019

Instituto Scripps de Investigación traslacional


EM Cahan et al.

Tabla 1. Seleccionados aplicaciones de aprendizaje automático actuales que utilizan grandes volúmenes de datos en la asistencia sanitaria

Especialidad Problema clínico Metodología Fuente

Radiología calci arteria coronaria fi detección de imágenes reconstrucción mejorada mejorada Giger ML. J Am Coll Radiol. 2018; 15 (3 Pt B): 512 - 20.
cación Torácica característica (de diagnóstico) Mejora de la interpretación
mamografía característica (pronóstico)
inspección lesión

Patología Cáncer de mama detección de imágenes reconstrucción mejorada mejorada Beck AH, Sangoi AR, Leung S, Marinelli RJ, Nielsen A, van de Vijver
característica (de diagnóstico) Mejora de la interpretación MJ, et al. Sci Transl Med. 2011; 3 (108): 108ra13.
característica (pronóstico)

Oftalmología Retinopatía diabética detección de imágenes reconstrucción mejorada mejorada Gulshan V, Peng L, Coram M, Stumpe MC, Wu D, Narayanaswamy
característica (de diagnóstico) A, et al. JAMA. 2016; 316 (22): 2402 - 10.

Medicina de Emergencia clasificación clínica El uso de los datos retrospectivos de HCE para la formación → la Hong WS, Haimovich AD, Taylor AR. Más uno. 2018; 13 (7):
predicción de resultados sobre la nueva presentación del paciente e0201016.

Cardiología La insuficiencia cardíaca resultados del uso de los datos retrospectivos para HME Ahmad T, Lund LH, Rao P, Ghosh R, Warier P, Vaccaro B, et
formación → la predicción de resultados sobre la nueva presentación al. J Am Assoc corazón. 2018; 7 (8).
del paciente

Neurología los resultados del ictus El uso de los datos retrospectivos de HCE para la formación → la Asadi H, Dowling R, Yan B, Mitchell P. PLoS One. 2014; 9 (2):
isquémicos predicción de resultados sobre la nueva presentación del paciente e88225.

Dermatología El melanoma puesta en escena detección de imágenes reconstrucción mejorada mejorada Gautam D, Ahmed M, Meena YK, Ul Haq A. Int J Numer Método
característica (de diagnóstico) Biomed Eng. 2018; 34 (5): e2953.
1234567890 ():,;

el seguimiento, sin embargo, sólo una minoría de ellos lleva a cabo cualquier apreciación de la ha observado en los dispositivos conectados a través de una variedad de especialidades de salud - tal
calidad o la utilidad de estas vastas datos acumulados. 15
como en esfigmomanometría utilizados para la evaluación de la presión arterial 23 ( Mesa 2 ). Sin
Sin embargo, la virtud de algoritmos movilización de grandes volúmenes de datos ha parecido férreo embargo, aunque mala calibración se puede corregir, en una revisión de la literatura 2016 de alto
por esta inmensidad de norte valor. impacto (de fi definida en términos de publicación en una de las 12 mejores revistas biomédicas),
Sin embargo, los datos no son necesariamente útiles, simplemente porque son menos de la mitad de todos los artículos considerados sesgo de observación, y sólo el 7%
voluminosos. La abundancia de datos no se puede presuponer su diversidad necesaria, corregida para ello. 24 La introducción de la incertidumbre de medida a los estudios que no

representativa de la población de los algoritmos buscan servir. Más bien, la multiplicidad de consideran que compromete inicial fi hallazgos, como se demuestra en las simulaciones utilizando

medios de recogida de datos, mecanismos y contextos puede producir susceptibilidad la presión arterial para predecir la enfermedad cardiovascular. 25

adicional a los sesgos comprometedoras. dieciséis Esto es especialmente cierto para los datos
derivados de fuentes informales (tales como los teléfonos inteligentes y dispositivos portátiles
conectados), que no están sujetos a metodológica rigor, hipótesis impulsada caracterizar Según lo indicado por Chiolero, “ grandes volúmenes de datos ” no hablan por sí mismas ni las “ datos
científica clásica fi recopilación de datos c. 17 Fitbit acelerómetro datos han mostrado pequeños ”. 26 La aceptación de la veracidad de los datos de entrada en la cuenta del volumen da a la parte
diferencias considerables a través de paso cuenta, puntuaciones de intensidad, y las tasas más vulnerable del volumen peligrosos, en su capacidad de amplificar la falsedad. Incluso para grandes
metabólicas calculados a partir de los instrumentos de investigación de grado, por ejemplo. 18 volúmenes de datos,
“ nada es demasiado grande para caer ”. 26

Como se destaca por Zhang et al., “ un concepto importante de grandes volúmenes de datos es que el
conjunto de los datos no es a propósito ”. 19 FUTURO: Interdependencia entre los datos y el algoritmo

Dos bien de fi formas definidas de sesgo justifican discusión adicional: sesgo de muestreo y el
sesgo de observación. Sesgo de muestreo - por el que determinadas cohortes de pacientes están Oculto Florida AWS en los datos utilizados para los algoritmos de tren tienen
ausentes de las entradas - los rendimientos no representativa salidas algorítmicos. Actualmente, implicaciones tanto en las predicciones que se generan por los datos (amplificando
signi fi Existen diferencias de consideración en los patrones de teléfono inteligente, sensor móvil, y falsos positivos), y los que no lo son (agravando falsos negativos).
otro uso de dispositivo, de tal manera que las tuberías de grandes volúmenes de datos sanitarios
son homogéneos y carecen de diversidad demográfica. 20 Las mismas poblaciones que podrían
bene fi t más de las intervenciones médicas optimizados - incluyendo a los pobres, los ancianos, la Los falsos negativos: predicciones válidas perdidas por el algoritmo debido a
población rural, y los discapacitados Florida AWS en los datos

La generalización de los modelos depende de la formación de datos representativos. En ambos


- se encuentran entre los menos probable que se utilizan plataformas que generan modelos estructurados y no estructurados, representatividad requiere un gran conjunto de
grandes volúmenes de datos. 21 Además, el consentimiento necesario para la captura de características re Florida caz de la diversidad en la población en general.
datos pueden ser retenidos en las poblaciones marginadas cuyos maltrato histórico de la
biomedicina ha llevado a una falta de fe y el uso de los sistemas de salud (por ejemplo, los Sin embargo, los datos clínicos existentes a menudo carece de diversos subgrupos (como se
afroamericanos siguientes Tuskegee). 22 Esta línea roja digitales solicita salidas algorítmicos discute a través de sesgo de muestreo). 20 , 21 Amplificar este tema, por una opinión, la mayoría de los
que tienen utilidad inconsistentes entre las poblaciones. Por ejemplo, se lleva a misweighting algoritmos basados ​en los EHR no pudo corregir los datos que faltan, y menos del 10% corregida
de factores de riesgo cardiovascular entre poblaciones, dando lugar a fenómenos tales para todas las dimensiones que faltan. 27
como la subestimación del riesgo de HDL en poblaciones hispanas y de riesgo de diabetes
en poblaciones afroamericanas. 8
Además, introducción de heterogeneidad se basa en la
conceptualización de la heterogeneidad - es decir, el conjunto de funciones cognitivas apreciado por los
investigadores de investigación. La estrechez de la representación problema desde una metodológicos
La segunda forma de sesgo es el sesgo de observación, que denota la mala clientes potenciales puntos de vista para la estrechez de la capacidad de resolución de problemas
calibración sistemática de medición. El error de medición tiene algorítmicos. Como Loscalzo

Medicina Digital npj (2019) 78 Instituto Scripps de Investigación traslacional


EM Cahan et al.

Tabla 2. casos documentados de error de medición que utilizan dispositivos conectados

Especialidad problema clínico Dispositivo / Instrumento Fuente

Rehabilitación de la medicina deambulación acelerómetro Yang Y, Schumann M, Le S, Cheng S. PeerJ. 2018; 6: e5775.
la tolerancia al ejercicio

Ortopedía Rango de movimiento Digitalizada transportador / Awatani T, Enoki T, Morikita I. J Phys Ther Sci. 2017; 29 (10): 1869 - 73.
goniómetro

Salud ocupacional neumoconiosis Monitor ambiental de Nazelle A, Seto E, Donaire-González D, Mendez M, Matamala J, Nieuwenhuijsen MJ,
et al. Environ Pollut. 2013; 176: 92 - 9.

Cardiología cardiopatía isquémica esfigmomanómetro teléfono ES Lee, Lee JS, Joo MC, Kim JH, Noh SE. Ann Med Rehabil. 2017; 41 (1): 129 - 37.
Hipertensión inteligente

enfermedad de la infección brotes microbianas Crowdsensors Edoh T. J Med Syst. 2018; 42 (5): 91.

Neurología La marcha anormalidad Parkinson ' giroscopio teléfono inteligente Ellis RJ, Ng YS, Zhu S, Tan DM, Anderson B, Schlaug G, et al. Más uno. 2015; 10 (10):
enfermedad de s e0141694.

otorrinolaringología Pérdida de la audición sonografía ambiental Ventura R, Mallet V, Issarny V, Raverdy PG, Rebhi F. J Acoust Soc Am. 2017; 142 (5):
3084.

Endocrinología diabetes glucómetro Vettoretti M, Facchinetti A, Sparacino G, Cobelli C. Conf Proc IEEE Eng Med Biol Soc.
prediabetes 2015; 2015: 2359 - 62.

Oftalmología El examen físico biométrico óptico Rozema JJ, Wouters K, Mathysen DG, Tassignon MJ. Am J Ophthalmol. 2014;
158 (6): 1111 - 20 E1.

y Barabasi describir, una reductora “ tradición Oslerian de [lineal y mecanicista] grupos demográficos y llevado a tratamiento insuficiente del 29% de la cohorte. 33
correlación clínico ” en la enfermedad conceptualización engendra un conjunto restringido
de simplificación fi pro enfermedad ed fi les. 4

Por ejemplo, el escaso poder predictivo de fi hallazgos de los estudios genómicos se ha


demostrado que surgen de la exclusión de los factores ambientales - que puede contribuir El viejo paradigma: el razonamiento deductivo DE BIG DATOS
tanto a la variación fenotípica al igual que los rasgos genéticos. 28 Estos problemas pueden
ser intensificada fi ed si conjuntos de características reductoras están programados de Vista de la cautela actual en la utilidad de los datos grandes, es necesario aclarar la
forma explícita en los modelos. Chen y Asch han observado que “ ninguna cantidad de tecnología ' s limitaciones actuales, e identificar posibles enfoques que permiten la ful fi llment
algorítmica fi Nesse o potencia de cálculo pueden exprimir a información que no está de su potencial en el futuro. El paradigma tradicional de grandes datos es deductiva en
presente ”. 17 la naturaleza. especí fi se dan preguntas c (entradas) se les pide, y respuestas discretas
(salidas) - por ejemplo, si o no a la orden una especí fi c prueba de diagnóstico. Esto se
considera “ apoyo a la decisión clínica “:

Los falsos positivos: predicciones válidas realizadas por el algoritmo debido a


algoritmo como martillo, y como problema clínico de uñas.
Florida AWS en los datos
Por intermediación de la interacción de los datos y el algoritmo, clínico-investigadores
El compromiso de las predicciones que se generan por los datos es potencialmente más
desempeñan un papel fundamental. Como se discutió, sin la intermediación apropiada,
insidiosa. A menudo, estos se deben a factores de confusión no considerados. Alimentado
estas predicciones están sujetas a la distorsión resultante de la formación algoritmo
en los datos que existe, pero tiene veracidad mínima, algoritmos, a su vez hacen
apropiado. Además, el clínico investigadores imponen rigor a través de un enfoque
mínimamente predicciones generalizables. 29
deliberado de recogida de datos, para fomentar la validez interna y externa. 30 También
imponen estructura a través de contextualización en la prestación de atención, para
causas importantes más allá de sesgo de observación en la asistencia sanitaria incluyen evitar el desacoplamiento de las predicciones de relevancia clínica. Por ejemplo, Wells ' criterios
cambios en médico prácticas o variaciones de codificación en la práctica clínica, los cuales para la predicción de la embolia pulmonar depende en gran medida de la discreción
forman la base de conjuntos de datos clínicamente derivados. 19 , 30 Esto puede conducir a (i) más clínica y es menos precisa sin ella. 34
de fi tting, en el que las predicciones son internamente válido, pero externamente no válido (el
equivalente computacional de hubris) o (ii) las asociaciones no causales, que son tanto interna
como externamente válido, pero no clínicamente impactante. 31
No obstante, el potencial de grandes datos dentro de este esquema es limitado, sólo capaz
de mejoras incrementales en la atención al paciente, ofreciendo un respaldo binaria tarde en
El mayor peligro de asociaciones causales es su potencial para presunciones el proceso de toma de decisiones - como a favor o en contra de una tomografía computarizada.
incorrectas perpetúan. Esto incluye los relacionados con la raza y las disparidades de Por otra parte, la generalización de este enfoque ha sido puesto en duda, debido al impacto
salud basados ​socioeconómicos. 6 , 7 Por ejemplo, bebé negro y la mortalidad materna son de los datos que no se ven. Por ejemplo, al comparar los casos hospitalarios fuera de los
más de dos y cuatro veces superiores a las de sus homólogos blancos, sin embargo, esta casos utilizados para la formación, el rendimiento de los modelos de aprendizaje profundas
asociación es poco probable que sea exclusivamente biológico. Un total de 95% de las que evaluaron las radiografías de tórax para la detección de neumonía fue signi fi cativamente
diferencias genéticas se producen dentro de las carreras en vez de entre ellos, y sólo el inferior a 60% del tiempo. 35
14% de éstos exhiben efectos clínicamente relevantes. 32

factores causantes de estas asociaciones no pueden ser analizados por los conjuntos de datos
que contienen categorías de raza sola (y que carecen de consideraciones psicosociales más El nuevo paradigma: el razonamiento inductivo desde Big DATOS
granulares). Un modelo de futuro para el uso de grandes volúmenes de datos es aprovechar su potencial
En resumen, los algoritmos entrenados en sesgados, conjuntos de datos no corregidos son para el razonamiento inductivo. 36 En este modelo, algunas predicciones entrar y salir muchas
vulnerables a la exacerbación de los falsos negativos y falsos positivos por igual. Viciado preguntas. Esto puede ser pensado como “ cuestionamiento de decisiones clínicas “: la práctica
predicciones en la práctica clínica silico misguide y puede dañar a los pacientes cuando se convencional clínico como clavo abollado, y el algoritmo como garra. El nuevo paradigma se
traduce in vivo. 29 Por ejemplo, en las puntuaciones de riesgo de Framingham sin ajustar un logra mediante el reconocimiento, y la iluminación, de falsos positivos y falsos negativos.
estudio demostró subestimación de la mortalidad cardiovascular en hasta un 48% en diversa

Instituto Scripps de Investigación traslacional Medicina Digital npj (2019) 78


EM Cahan et al.

Figura 1 Directrices que describen normas de calidad para los conjuntos de datos analíticos (utilizados y modificados fi ed con permiso de Cai y Zhu 51

Un famoso no médico - Dr. Seuss - una vez declarado que “ A veces las preguntas son Glymour et al. fijado: “ innovación metodológica no se trata sólo de la aplicación de métodos
complicadas y las respuestas son simples. ” novedosos para mejorar nuestra estimación en el tercer punto decimal. Los nuevos datos y nuevos
El poder de los algoritmos aquí es liberar el proceso predictivo humano a partir de las potencia de cálculo que nos deben permitir a abordar los problemas de manera diferente ”. 20 la
lentes preconcebida de solicitud y / o interpretación de los datos. 37 predicciones utilización temprana de grandes volúmenes de datos de forma inductiva puede ayudar a la

inductivas pueden desencadenar a las decisiones clínicas de la estrechez y prejuicios investigación médica y el rediseño de la atención clínica que emerge de ella.

inculcados por la formación médica humana (y se manifiesta en la gestalt clínica).

algoritmos de inducción ya han sido empleados para descubrir relaciones causales en


ARMONÍA DE DATOS, algoritmos, y los médicos PARA medicina personalizada
conjuntos de datos con grandes cantidades de datos sin etiqueta. Genoma secuencias,
muestras de patología, radiología e imágenes han sido aprovechado por los algoritmos de
Big Data ' potencial para la salud es profunda. En la etapa preclínica, que puede fi ll investigar
inducción a nuevos relaciones Derivar no descubiertas por la interpretación humana por sí sola. 38
huecos (a través de la emulación de ensayo en conjuntos de datos preexistentes) y acelerar
- 40 Es probable que no todas las relaciones derivadas será clínicamente impactante, ya que este
el movimiento de la investigación del banco a la cabecera del paciente (a través de gía
enfoque también es susceptible a las correlaciones no causales. Sin embargo, las capacidades
sistemas computacionales biol-). 4 , 44 En la etapa clínica,
de hipótesis de generación de estos métodos han demostrado uso particular para las salidas con
mejor puede exponer sociales
baja prevalencia, en los que el pensamiento reductora puede ser especialmente perjudicial. 41 Grandes
determinantes de la salud (poniendo de relieve áreas de incertidumbre enfermedad
conjuntos de datos complejos con prevalencia de la enfermedad cada vez más pequeño,
poco explicado por la biología solo) y elucidar matices fenotípicas individuales (al
progresando hacia la N-de-1: estos son los parámetros exactos de la medicina personalizada.
permitir la medición multidimensional de un paciente determinado). 45 De esta manera,
se ofrece la ruta más rápida hacia la medicina personalizada - a través del cual se
individualiza rigurosa gestión de la salud.

Por lo tanto, un inductivos ofrece el enfoque de la revelación antes que faltan, características
Big Data ' potencial para la atención también es signi fi hipocresía. la acumulación de conocimiento
impactantes, mientras que retirarse preexistentes, los obsoletos. Se puede conducir la inclusión de
no puede, de hecho, ser el médico ' más grande de s valor para los pacientes. Más bien, los médicos
estas nuevas características en futuros conjuntos de datos a través de re fi namiento de las
y pacientes por igual Florida florecer más cuando el “ retención, acceso, y el análisis ” del conocimiento
herramientas de medición existentes y adicionales de otras nuevas. 42 ef fi cacia, la representatividad y
de los proveedores se delega a los algoritmos, la creación de una oportunidad para el retorno a la
la generalización de la investigación están acentúan en este esquema. La inclusión de
características menos habitualmente considerado en la atención clínica - a través del avance de la
“ aspectos particularmente humanos de la profesión ”. 46 Por otra parte, un valor adicional se crea
historia clínica, trabajo de diagnóstico, y los procesos de tratamiento - a través de tales humana - Sociedad del ordenador. Mejoramiento de la reunión faculta
interacción de esos puntos de datos íntimos solicitó a través de una historia reflexiva y un
Del mismo modo puede mejorar los resultados. examen físico minucioso. 47 Estos son los puntos de datos muy esencial para superar las
Por ejemplo, la información sobre los determinantes sociales de la salud (como el código circunstancias sociales con factores médicos para la optimización de la atención. La tan temida
postal, el estatus socioeconómico y nivel educativo) ha demostrado mejorar el pronóstico y eliminación de los seres humanos de esta escena es poco probable, ya que el último tramo de
plan de tratamiento para los pacientes en riesgo de enfermedad cardiaca coronaria en grandes volúmenes de datos (aplicación de las recomendaciones de la predicción a la acción
comparación con las consideraciones biomédicas solos. 43 Se utiliza en toda escenarios tomada clínicamente) se apoya de manera inequívoca en la salud humana - contacto humano. 17 , 47
clínicos, los modelos inductivos podrían ayudar a los proveedores dan prioridad a la Como tal, las grandes ofertas de datos hacia un retorno conveniente personificación fi medicina
evaluación y la focalización de manera similar insuficientemente investigado, de alto impacto ed -
Ofrece alguna en el futuro.
a través del cual la atención es integral humanística.

Medicina Digital npj (2019) 78 Instituto Scripps de Investigación traslacional


EM Cahan et al.

5
Sin embargo, los posibles riesgos de grandes volúmenes de datos - utilizado deductiva o 3. Monlezun, DJ et al. La máquina de aprendizaje aumentada por puntaje de propensión ajustada al análisis multinivel panel de

inductivamente - surgir de las propias entradas. El uso óptimo de las tecnologías creciente de los efectos mixtos de la práctica en la cocina y la educación nutricional en comparación con plan de estudios tradicional para

océanos recién descubiertas de datos requiere la administración de los datos ' s integridad. estudiantes de medicina preventiva como cardiología: estudio de cohortes multicéntrico de 3.248 participantes de más de 5

años. Biomed. Res. En t. 2018,

5051289 (2018).
Varias estrategias pueden apoyar estos objetivos. Anotación de la formación de conjuntos de
4. Loscalzo, J. & Barabasi, biología AL Sistemas y el futuro de la medicina. Wiley
datos con metadatos etiquetado, mediante la documentación de sesgos intrínsecos a ellos (tales
Enterrar. Rev. Syst. Biol. Medicina. 3, 619 - 627 (2011).
como el desequilibrio de muestreo), puede aumentar la transparencia. 48 A su vez, el rediseño de los
5. Char, DS, Shah, NH & Magnus, D. Implementación de aprendizaje automático en el cuidado de la salud - abordar
métodos para la recolección de datos (específica fi camente relativa a plataformas digitales periféricos) los problemas éticos. N. Engl. J. Med. 378, 981 - 983 (2018).
puede asegurar la variedad de datos más allá de volumen solo. 49 Por ejemplo, los esfuerzos de 6. O ' Neil, C. Las armas de destrucción matemática: lo grande que los datos aumenta la desigualdad y

alcance deliberadas se pueden hacer por los investigadores a las poblaciones con acceso a la salud amenaza a la democracia. ( Corona, Nueva York, 2016).

más pobre. La imputación de la heterogeneidad a conjuntos de datos y la utilización de métodos 7. Eubanks, V. La automatización de la desigualdad: cómo las herramientas de alta tecnología Pro fi le, la policía, y castigar

los pobres. ( San Martín ' s Press, Nueva York, Nueva York, 2017).
federados puede apoyar veracidad datos a través de la inclusión de diversos conjuntos de
8. Gijsberts, CM et al. Raza / diferencias étnicas en las asociaciones de los factores de riesgo de Framingham con
características cuando divulgación esfuerzos no pueden llevarse a cabo factible. 50 Del conjunto de
IMT de la carótida y los eventos cardiovasculares. Más uno 10,
datos estándares de calidad y los umbrales mínimos de inclusión utilizado para el análisis del mismo
e0132321 (2015).
modo deben ser adoptadas por las revistas para promover la utilidad de lo que publican 51 ( Higo. 1 ).
9. Popejoy, AB et al. El imperativo clínico para la inclusión: raza, etnia, y la ascendencia (REA) en la genómica. Tararear.
Por último, la transparencia en las características de los conjuntos de datos se debe proporcionar a
Mutat. 39, 1713 - 1720 (2018).
los profesionales que tratan de interpretar los estudios emergentes. 10. Paulus, JK, Wessler, BS, Lundquist, CM & Kent, DM efectos de la raza rara vez se incluyen en los modelos de
predicción clínica para las enfermedades cardiovasculares. J. Gen. Intern. Medicina. 33, 1429 - 1430 (2018).

11. Cabitza, F., Rasoini, R. & Gensini, GF consecuencias no intencionales de aprendizaje automático en la medicina.

La movilización de la tecnología en sí misma de una manera inductiva también puede apoyar JAMA 318, 517 - 518 (2017).

estas evaluaciones. Por ejemplo, métodos como análisis de componentes principales contrastantes, 12. Viga, AL & Kohane, ES Big data y la máquina de aprendizaje en el cuidado de la salud. JAMA

que comparan los patrones de enriquecimiento multidimensionales entre conjuntos de datos, son 319, 1317 - 1318 (2018).
13. Hu, H., Wen, Y., Chua, T. & Li, X. Hacia sistemas escalables para análisis de datos grandes: un tutorial tecnología. El
capaces de visualizar sesgos de datos arraigados. identi fi cación de las deficiencias de los conjuntos
acceso IEEE 2, 652 - 687 (2014).
de datos ofrece un camino para mejorar la utilidad de los estudios. 52
14. Baro, E., Degoul, S., Beuscart, R. & Chazard, E. Hacia una de literatura impulsada fi nición
de grandes volúmenes de datos en la asistencia sanitaria. Biomed. Res. En t. 2015, 639 021 (2015).

A través de todas estas estrategias, privacidad de la información de salud del paciente 15. Bansal, A. y Joshi, R. portátil electrocardiografía salir del hospital: una revisión de las tecnologías actuales. J.
(PHI) debe ser una prioridad. El aumento de la magnitud y la dimensionalidad de los datos de Arrhythm. 34, 129 - 138 (2018).
poner en peligro los pacientes anonym- dad incluso en de-identificado fi bases de datos ed. 53 Compromiso
16. Scott, el aprendizaje IA de la máquina y la medicina basada en la evidencia. Ana. Interno. Medicina. 169,

de privacidad en medio de acelerar la generación de datos y el uso de la amenaza médica, fi financiera, 44 - 46 (2018).

y el bienestar social de los pacientes: por ejemplo, la discriminación en los seguros de salud y 17. Chen, JH y Asch, el aprendizaje y la predicción de la máquina SM en la medicina - más allá

el empleo de trabajo sobre la base de su PHI pueden perpetuar las desigualdades de salud por el pico de en Florida ated expectativas. N. Engl. J. Med. 376, 2507 - 2509 (2017).

el impacto de acceso a los servicios y medicamentos. 6 , 7 18. Dominick, GM, Winfree, KN, Pohlig, RT & Papas, la evaluación de la actividad física entre MA acelerómetros el
consumidor e investigación de grado: un estudio comparativo de las condiciones de vida libre. JMIR mHealth
UHealth 4, E110 (2016).
19. Zhang, L., Wang, H., Li, Q., Zhao, MH Zhan, QM grandes volúmenes de datos y la investigación médica en China. BMJ
Como se reivindica por Confucio, “ conocimiento real es conocer la extensión de uno ' s ignorancia. ” Con este 360, j5910 (2018).
fin, el conocimiento de los datos de fi deficiencias, estructuras para la inclusión de datos, estrategias para el 20. Glymour, MM, Osypuk, TL y Rehkopf, DH comentario de invitado: off-road con la epidemiología social de

saneamiento de datos, y mecanismos de corrección de datos pueden ayudar a hacer realidad el potencial de exploración, la causalidad, la traducción. A.m. J. Epidemiol.

grandes volúmenes de datos para una era de la medicina personalizada. Al mismo tiempo, pueden evitar los 178, 858 - 863 (2013).
21. Weiss, D. et al. Las tecnologías innovadoras y las desigualdades sociales en salud: una revisión de la literatura de
riesgos de la perpetuación de las desigualdades sanitarias en medio de la adopción generalizada de las nuevas
alcance. Más uno 13, e0195447 (2018).
aplicaciones de grandes volúmenes de datos.
22. Alsan, M. & Wanamaker, M. Tuskegee y la salud de los hombres Negro. QJ Econ.
133, 407 - 455 (2018).
23. Lee, ES, Lee, JS, Joo, MC, Kim, JH y Noh, SE Precisión de la medición del ritmo cardíaco usando teléfonos
inteligentes durante la rueda de ejercicio en pacientes varones con enfermedad isquémica del corazón. Ana.
CONTRIBUCIONES DE AUTOR
Rehabil. Medicina. 41, 129 - 137 (2017).
Todos los autores (EMC, THB, infecciones de transmisión sexual, y DLR) contribuyeron igualmente a la 24. Brakenhoff, TB et al. El error de medición es a menudo descuidado en la literatura médica: una revisión
conceptualización, edición y fi nalizar el manuscrito. EMC redactó el manuscrito y creó el sistemática. J. Clin. Epidemiol. 98, 89 - 97 (2018).
fi cifras. Todos los autores cumplan con los siguientes criterios: (1) las contribuciones sustanciales a la concepción o 25. Brakenhoff, la tuberculosis, van Smeden, M., Visseren, FLJ y Groenwold, el error de medición aleatorio RHH: ¿Por
el diseño de la obra o la adquisición, análisis o interpretación de los datos; (2) la redacción del trabajo o la revisión qué preocuparse? Un ejemplo de factores de riesgo cardiovascular. Más uno 13, e0192298 (2018).
crítica de su contenido intelectual; (3) la aprobación final de la versión completado; y (4) de Responsabilidades de
todos los aspectos del trabajo en asegurar que las cuestiones relativas a la exactitud o integridad de cualquier parte 26. Chiolero, A. de datos grande en epidemiología: demasiado grande para caer? Epidemiología 24, 938 - 939
de la obra están adecuadamente investigado y resuelto. (2013).
27. Goldstein, BA, Navar, AM, Pencina, MJ y Ioannidis, Oportunidades y retos en el desarrollo de modelos de
predicción de riesgo con los datos de la historia clínica electrónica JP: una revisión sistemática. Mermelada.
Medicina. Inf. Assoc. 24, 198 - 208 (2017).
INFORMACIÓN ADICIONAL 28. Reed, LK et al. interacciones genotipo-por-dieta coche variación fenotipo metabólico en melanogaste Drosophila r.

Conflicto de intereses: Los autores declaran no tener conflictos de intereses. Genética 185, 1009 - 1019 (2010).
29. Gianfrancesco, MA, Tamang, S., Yazdany, J. & Schmajuk, G. sesgos potenciales en la máquina algoritmos de
aprendizaje a partir de datos de historiales médicos electrónicos. JAMA Intern. Medicina. 178, 1544 - 1547 (2018) https://www.ncbi.nlm.ni
Editor ' Es nota: Springer Naturaleza se mantiene neutral con respecto a las reclamaciones jurisdiccionales en los mapas
.
publicados y af institucional fi afiliaciones.
30. Ehrenstein, V. et al. Ayudando a todos hacer mejor: una llamada para estudios de validación de los datos de salud registrados

de forma rutinaria. Clin. Epidemiol. 8, 49 - 51 (2016).

31. Chiolero, A. Los datos no son suficientes para la causalidad-hurra! A.m. J. Salud Pública 108,
Referencias 622 (2018).
1. Obermeyer, Z. y Emanuel, EJ Predecir el futuro - grandes volúmenes de datos, aprendizaje automático, 32. Ioannidis, JP, Ntzani, EE & Trikalinos, TA ' Racial ' diferencias en los efectos genéticos
y la medicina clínica. N. Engl. J. Med. 375, 1216 - 1219 (2016). para enfermedades complejas. Nat. Gineta 36, 1312 - 1318 (2004).
2. Frizzell, JD et al. Predicción de 30 días por todas las causas reingresos en pacientes hospitalizados por 33. Brindle, PM et al. La precisión del riesgo de Framingham en diferentes grupos socioeconómicos: un estudio
insuficiencia cardíaca: comparación de aprendizaje de máquinas y otros enfoques estadísticos. JAMA Cardiol. 2, 204 prospectivo. Br. J. Gen. Pr. 55, 838 - 845 (2005).
- 209 (2017).

Instituto Scripps de Investigación traslacional Medicina Digital npj (2019) 78


EM Cahan et al.

6
34. Kabrhel, C, McAfee, AT & Goldhaber, SZ La contribución de la componente subjetivo de la puntuación 47. Verghese, A., Shah, NH & Harrington, RA Lo que necesita este equipo es un médico: humanismo y arti fi inteligencia
canadiense embolia pulmonar a la puntuación global en pacientes de urgencias. Acad. Emerg. Medicina. 12, 915 cial. JAMA 319, 19 - 20 (2018).
- 920 (2005). 48. Zou, J. & Schiebinger, L. IA puede ser sexista y racista - se ' Es hora de que sea justo. Naturaleza

35. Zech, JR et al. generalización de rendimiento variable de un modelo de aprendizaje profundo para detectar 559, 324 - 326 (2018).
neumonía en la radiografía de tórax: un estudio transversal. PLoS Med. 15, 49. Vayena, E., Blasimme, A. y Cohen, IG Máquina de aprendizaje en la medicina: frente a los desafíos éticos. PLoS
e1002683 (2018). Med. 15, e1002689 (2018).
36. Seward, JB cambio de paradigma en la gestión de datos médicos: los datos grandes y pequeños de datos. JACC 50. Sweeney, TE et al. análisis no supervisado de transcriptómica en la sepsis bacteriana a través de múltiples
Cardiovascular Imaging 10, 1304 - 1306 (2017). conjuntos de datos revela tres grupos robustos. Crit. Med Care. 46, 915 - 925 (2018).
37. Miller, DD & Brown, EW Arti fi cial de inteligencia en la práctica médica: la cuestión
a la respuesta ?. A.m. J. Med. 131, 129 - 133 (2018). 51. Cai, L., Zhu, Y. Los retos de la calidad de los datos y la evaluación de calidad de los datos en la gran era de los datos. Sci

38. Chen, L. et al. Multi-etiqueta finalización matriz inductivo para MGMT conjunta y la predicción de estado IDH1 para datos. J. 14. https://doi.org/10.5334/dsj-2015-002 (2015).
los pacientes de glioma. Medicina. Imagen Comput. Comput. Ayudar. Enterrar. 10434, 450 - 458 (2017). 52. Abid, A., Zhang, MJ, Bagaria, VK y Zou, los patrones de Exploración de J. enriquecida en un conjunto de datos con

análisis de componentes principales contrastante. Nat. Commun. 9, 2134 (2018).

39. Momen, M. et al. Incluidas las redes causales fenotípicos en estudios de asociación de genoma utilizando
efectos mixtos modelos de ecuaciones estructurales. Frente. Gineta 9, 53. Na L, YC, Lo, CC, Zhao, F., Fukuoka, Y. y Aswani, A. Viabilidad de reidentificar individuos en grandes conjuntos
455 (2018). de datos de la actividad física de las que los información de salud protegida se ha eliminado con el uso de la
40. Burnside, ES, et al. descubrimiento de conocimiento a partir de informes de mamografía estructurados utilizando máquina de aprendizaje. JAMA Serv. Abierto 1, e186040 (2018). https://doi.org/10.1001/jamanetworkopen.2018.6040
programación lógica inductiva. AMIA Annu Symp Proc, 96 - 100. .
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1560852/ (2005).
41. McKnight, LK, Wilcox, A. y Hripcsak, G .. El efecto del tamaño de la muestra y la enfermedad de prevalencia en el
aprendizaje automático supervisado de datos narrativos. Proc AMIA Symp, Acceso abierto Este artículo está licenciado bajo una licencia Creative Commons Atribución
519 - 522. https://www.ncbi.nlm.nih.gov/pmc/articles/pmid/12463878/ (2002). Internacional 4.0, que permite el uso, el intercambio,
42. Zou, J. et al. Cuantificación de las variantes codificantes de proteínas no observados en las poblaciones humanas proporciona una adaptación, distribución y reproducción en formato anymediumor, siempre y cuando se da el crédito apropiado al
hoja de ruta para proyectos de secuenciación a gran escala. Nat. Commun. 7, autor original (s) y la fuente, proporcionan un enlace a la licencia Creative Commons, e indicar si se han realizado
13293 (2016). cambios. Las imágenes u otro material de terceros en este artículo se incluyen en el artículo ' s licencia de Creative
43. francos, P., Tancredi, DJ, Winters, P. & Fiscella, el estatus socioeconómico K. incluido en la estimación del riesgo de Commons, a menos que se indique lo contrario en una línea de crédito para el material. Si el material no está
enfermedad coronaria. Ana. Fam. Medicina. 8, 447 - 453 (2010). incluido en el artículo ' No se permite la licencia de Creative Commons s y su uso previsto por la regulación legal o
44. Hernan, MA y Robins, JM El uso de grandes volúmenes de datos para emular un juicio objetivo cuando un ensayo aleatorio excede el uso permitido, tendrá que obtener el permiso del titular o titulares de derechos de autor. Para ver una
no está disponible. A.m. J. Epidemiol. 183, 758 - 764 (2016). copia de esta licencia, visite http: // creativecommons. org / licencias / por / 4.0 / .
45. Chen, R. & Snyder, M. promesa de ómicas personalizadas a la medicina de precisión. Wiley
Enterrar. Rev. Syst. Biol. Medicina. 5, 73 - 82 (2013).

46. ​Johnston, SC Anticipando y formación del médico del futuro: la importancia de cuidar en una época de arti fi inteligencia
cial. Acad. Medicina. 93, 1105 - 1106 (2018).
© El Autor (s) 2019

Medicina Digital npj (2019) 78 Instituto Scripps de Investigación traslacional

También podría gustarte