El Impacto Del Big Data en Salud: Artículo de Revisión

ARTÍCULO DE REVISIÓN
EL IMPACTO DEL BIG DATA EN SALUD
RESUMEN
Este trabajo analiza lo que puede aportar la creciente generación y acumulación de datos que actualmente se CORRESPONDENCIA
está produciendo en el mundo al campo de la Salud. Cómo se recogen, analizan y utilizan enormes volúmenes
de datos para la toma de mejores decisiones médicas y cuál podría ser su impacto en la salud de las personas.
Juan Vega1
1.Escuela de Ingeniería
Además se presenta, a modo de ejemplo, una aplicación de una técnica de análisis de datos para la clasicación
Industrial, Informática y Sistemas.
del comportamiento de jóvenes referente al sedentarismo y hábitos saludables que poseen.
Universidad de Tarapacá, Arica,
Palabras claves: Campo de la Salud, hábitos saludables.
Chile.
ABSTRACT
Correo autor:
This paper analyzes what can provide the rising generation and the accumulation of data, which is currently
jvegav@uta.cl
taking place in the World to the department of health care. How are collected, analyzed and used huge volumes
of data to better medical decisions, and how could they could make an impact on Human Health.
Also it is presented, as an example, an Application o Analysis o Data or the classication o teenagers behavior about sedentarism and healthy habits
they have.
Keywords: Department of health care, healthy habits.
INTRODUCCIÓN
El mundo de la salud genera impresionantes cantidades gran escala que contienen grandes conjuntos de datos
de datos. Hoy en día los centros de salud y sus pacientes y variables (4)
. Cuando se habla de Big Data se piensa
producen a diario un gran volumen de datos en distintos en volúmenes de información tan grande que no puede
formatos, ya sea en papel o en forma electrónica. Muchos manejarse con los programas y hardwares tradicionales, ni
de éstos son cruciales para realizar diagnósticos y tampoco se puede analizar con las herramientas comunes
tratamientos certeros, sin embargo no siempre pueden de gestión de datos (5).
utilizarse debido a la imposibilidad de procesarlos de
manera eciente (1)
. Con el advenimiento de nuevas
tecnologías como el Internet de las cosas, la biometría, BIG DATA EN SALUD
las aplicaciones de smartphones, dispositivos, sensores,
aparatos de tness y equipos sosticados de diagnóstico A la gran cantidad de datos que día a día se producen se irán
de salud, se espera que esa cantidad vaya en aumento . (2)
sumando aquellos generados por la creciente utilización
Y no solamente los centros de salud, actualmente son de la tecnología wearable, esto se reere a todos aquellos
muchas las organizaciones que almacenan numerosos elementos digitales que podemos llevar sobre nuestro
datos, sin embargo, no los utilizan para obtener cuerpo como accesorios e incluso como vestimenta (6)
.
información de manera efectiva sino que simplemente Dentro de este concepto se encontrarían lentes, pulseras,
los recogen por una cuestión de protocolos, que obligan relojes, zapatillas, etc., que podemos vestir y que, gracias a
a contar con registros pormenorizados sin utilizarlos con la tecnología, van a tener una serie de funciones añadidas
nes más allá de los meramente procedimentales (3)
. Esto a las funciones tradicionales. La mayoría de estos
es precisamente lo que está empezando a cambiar, el dispositivos aplicados a la salud miden diferentes variables
“Big Data” es una referencia a bases de información de biológicas, las cuales son transmitidas vía inalámbrica a
98
una aplicación especíca de nuestro teléono móvil, donde poblacionales, analizar cómo se encuentra la salud en
los datos son procesados. Recuérdese el rescate de los un territorio o región, e identicar aquellos pacientes con
33 mineros atrapados en 2010 en nuestro país, en esa riesgo elevado. Por ejemplo, se podría saber dónde se está
oportunidad se utilizaron chaquetas equipadas con un extendiendo un virus de la gripe y a qué ritmo, adaptar la
conjunto de sensores portátiles capaces de medir datos respuesta y garantizar el inventario de vacunas suciente
biomédicos para su evaluación y análisis a distancia . (7)
para los sitios que lo necesiten (5). En gestión de la atención
sanitaria, las técnicas de Big Data permitirían el desarrollo
Los sensores incorporados en estos accesorios de indicadores sosticados para comparar la calidad de la
proporcionan información minuto a minuto sobre la atención que reciben los pacientes atendidos en distintos
evolución del paciente lo que podría ayudar al seguimiento centros o por diferentes médicos y desarrollar estrategias
y monitoreo de determinadas patologías (3)
. Así, los de mejora (2)
. En investigación clínica, farmacológica y
profesionales de la salud podrían avisar a las personas las epidemiológica el análisis de grandes bases de información
probabilidades de padecer ciertas enfermedades antes que supondría enormes benecios para la población (2)
. En
ocurran. De esta manera, se podría realizar una atención la investigación farmacéutica se podría, por ejemplo,
personalizada al paciente y permitiría el seguimiento de determinar la efectividad de medicamentos y predecir la
enfermos crónicos ayudando a los cuidados médicos tanto aparición de efectos secundarios.
presenciales como en el propio domicilio del enfermo (5)
.
Gracias al avance de las Tecnologías de Información y La utilización del Big Data para transformar la atención
Comunicación (TIC) y al Big Data los pacientes tendrían una sanitaria no está libre de barreras y limitaciones. En primer
gestión proactiva, se podría tener una mejor coordinación lugar se debe contar con bases de datos adecuadas, en
para la atención y se mejorarían las deciencias clínicas Chile a través del denominado Proyecto SIDRA se intenta
y administrativas lo que traería como consecuencia un llevar un proceso de informatización de los datos clínicos
ahorro importante en la inversión en el área sanitaria . (5)
mediante el Registro Clínico Electrónico (8)
. Otro tema
importante es el mantenimiento de la privacidad de las
El Big Data permitiría, por ejemplo, identicar personas y la protección de los datos personales. Por esto
anticipadamente los pacientes crónicos en riesgo de se hace necesario establecer mecanismos y políticas que
descompensación, para incluirlos en programas especícos aseguren la protección y aprovechamiento responsable de
de atención. También puede ayudar a la toma de decisiones la información recogida (9). Sobre esto, Jason Abrevaya, de
clínicas en tiempo real (analizando casos similares y la Universidad de Texas, en su análisis sobre los desafíos
proponiendo alternativas de manejo) y así reducir la del uso de datos en el sector de salud en Latinoamérica y
variabilidad en la práctica médica. Adicionalmente, sería EE.UU. señala: “No estamos lo sucientemente equipados
posible entregar información directamente a los pacientes, para la avalancha de datos que se nos avecina”. “el desafío
permitiéndoles un rol más activo en sus propios cuidados es más que tecnológico es también legislativo” (4)
. En
y, quizás, una mayor eectividad para modicar estilos de opinión de Boris Lopicich (10)
, en Chile la regulación actual
vida, controlar factores de riesgo y mejorar la adherencia a no parece estar sucientemente preparada para hacer
los tratamientos (2). frente a los avances tecnológicos y al fenómeno del Big
Data, así la legislación actual no sería adecuada, teniendo
Además, será posible predecir las hospitalizaciones “severas lagunas” en esta materia.
de patologías basándose en factores ambientales o
99
Por otro lado, no solo la atención médica se beneciará de Los individuos (u otras unidades de análisis) que forman
la irrupción del Big Data en la gestión del sistema sanitario. parte del estudio, y que se intentan clasicar vendrán
También la investigación experimentará una mejora a la caracterizados o denidos por dierentes valores obtenidos
hora de poder determinar las causas de las enfermedades al medir determinadas variables sobre ellos. Es decir,
y establecer mejores soluciones (5)
, de esta forma se
podrá mejorar la prevención, diagnóstico y tratamiento de
enfermedades.
ALGUNAS TÉCNICAS DE BIG DATA
Dentro de las técnicas frecuentemente utilizadas en

Big Data se encuentran (11)
: Machine learning, redes
Figura 1: Ejemplo de matriz de datos.
neuronales, algoritmos genéticos, minería de datos,
árboles de clasicación, técnicas de segmentación y otras.
Sin embargo, no todas estas técnicas requieren el uso de cada individuo poseerá un determinado valor para cada
grandes cantidades de datos, algunas se pueden aplicar una de las variables que se traten en el estudio. De esta
con ecacia en conjuntos más pequeños, de hecho Big Data manera si se consideran n individuos y m variables, los
utiliza muchos métodos desarrollados con anterioridad. datos que denen a toda la muestra se pueden representar
En Big Data frecuentemente se hace uso del Análisis en la matriz de datos A=(aij), de modo que cada individuo
Multivariante que es una parte de la estadística que estudia aparece en cada una de las las y los valores que las
y analiza los datos que resultan de observar más de una variables toman aparecen en las columnas.
variable simultáneamente sobre un conjunto de individuos o
entidades (12). Dentro del análisis multivariante, una técnica Por otro lado, se denomina un espacio métrico a un
muy utilizada es el análisis de clusters (o conglomerados) espacio en el que se ha denido una distancia (o orma de
que es un método de clasicación automática que a medir), por ejemplo, la conocida distancia euclidiana (del
partir de una matriz de datos trata de situarlos en grupos teorema de Pitágoras) en un espacio bidimensional (X,Y).
homogéneos, conglomerados o clusters, sugeridos por la Si en un espacio métrico consideramos como sistema de
propia esencia de los datos, de manera que las unidades ejes de coordenadas el denido por las variables objeto
de análisis que puedan ser consideradas similares sean de estudio, se está en un espacio de tantas dimensiones
asignadas a un mismo cluster, mientras que unidades como número de variables se considera, es decir, m
diferentes se localicen en clusters distintos(13). Los grupos dimensiones. Entonces, cada uno de los n individuos
se realizan basándose en la proximidad o lejanía de unos puede ser tomado como un punto en dicho espacio métrico
con otros, por lo tanto es esencial el uso del concepto dando lugar a una nube de n puntos. De este modo, cada
de distancia. A continuación se explicará brevemente en uno de los valores aij se considerarán como coordenadas
qué consiste esta técnica de análisis de datos, ya que se de cada individuo(13).
utilizará más adelante para un ejemplo de aplicación.
De forma general es posible representar la tabla de datos Con esta información, se procede luego a elaborar la
mediante la siguiente matriz de la gura 1 (13)
: matriz de distancias entre los individuos y a continuación
100
se selecciona el algoritmo que formará las diferentes comportamiento sedentario de los jóvenes y del estilo de
clusters o conglomerados de individuos. El paso vida referente a hábitos saludables que posean.
siguiente es obtener una representación gráca de los Para el procesamiento de los datos se utilizará el
conglomerados obtenidos, de modo de poder visualizar software SPSS 21, en especial el módulo de Análisis de
los resultados obtenidos. Este proceso se realiza mediante conglomerados. En primer lugar, se obtiene una tabla con
un gráco llamado dendograma. La ase nal consiste estadísticos descriptivos de las variables consideradas. En
en la interpretación de los resultados. Los diferentes la tabla 1 se observa que los valores de las tres variables
algoritmos utilizados para la formación de los grupos
surgen de las diferentes formas de unir los elementos en Tabla 1: Estadísticos descriptivos de las variables originales
cada grupo. Sin ser exhaustivo podemos mencionar los N Mínimo Máximo Media Desv. típ.
métodos jerárquicos como los métodos de vinculación Horas semanales 175 1 30 18,48 10,507
de TV e Internet
intergrupo, del vecino más cercano, de la distancia media,
Gasto comida no 175 1000 9000 5709,14 2985,487
del centroide, de mínima varianza, etc. Estos métodos se saludable
llaman jerárquicos porque forman grupos homogéneos Actividad Fisica 175 1 9 3,67 2,540
N válido (según 175
estableciendo relaciones de orden o jerárquicas entre los lista)
grupos. Dentro de los métodos no jerárquicos los más
conocidos son el algoritmo de H-medias y de K-medias. En son muy distintos, no siendo posible la comparación directa
estos últimos el investigador ja de antemano el número de entre los valores. Esto es así porque las tres variables
clusters en que quiere agrupar sus datos. están medidas en escalas diferentes, las unidades
respectivamente son: horas semanales, gasto en Pesos y
El objetivo del análisis cluster consiste en separar de alguna frecuencia en una escala de 1 a 9, desde nunca a todos los
forma los puntos de esta nube, de modo que se obtengan días. Por esta razón, antes de realizar el análisis cluster es
grupos de individuos relativamente parecidos, esto implica necesario tipicar las variables, lo que signica llevar todas
que tengan entre ellos una menor distancia, por esto se las variables a la misma unidad. Básicamente la tipicación
recurre a un espacio métrico donde esté denida una consiste en restar de cada valor de la variable su media
métrica o forma de medir(13). y esta diferencia dividirla por su desviación estándar, de
esta forma se lleva a unidades de desviación estándar. La
tabla 2 muestra estadísticos descriptivos de las variables
EJEMPLO DE APLICACIÓN tipicadas (SPSS les antepone el nombre de Puntuación Z)
que presenta valores comparables para las tres variables.
El método para ejecutar un análisis de conglomerados
comienza con la selección de los individuos objeto del A continuación, se procederá a conformar los clusters
estudio. En este ejemplo la muestra considerada consiste con el método jerárquico de vinculación intergrupo y
en 175 jóvenes entre 12 y 20 años de una determinada con la distancia euclidiana al cuadrado. El dendograma
población (ver tabla 1). Se recopilaron datos acerca de correspondiente se presenta en la gura 2, donde se
la frecuencia de la actividad física que realizan, las horas muestran tres clusters o conglomerados.
semanales que ven televisión y navegan en internet y
el gasto semanal en comida no saludable. El objetivo Posteriormente se realiza un diagrama de dispersión de
del estudio es obtener información relevante acerca del los datos en 3 dimensiones, en el cual se considera como
101
Tabla 2: Estadísticos descriptivos de las variables tipifcadas
N Mínimo Máximo Media Desv. típ.

Puntuación Z: Horas semanales de TV e Internet 175 -1,66337 1,09667 ,0000000 1,00000000
Puntuación Z: Gasto comida no saludable 175 -1,57734 1,10228 ,0000000 1,00000000
Puntuación Z: Actividad Fisica 175 -1,05294 2,09687 ,0000000 1,00000000
N válido (según lista) 175
ejes las variables tipicadas, esto se muestra en la gura

3. Como puede observarse se conrma la presencia de los
tres grupos.
Figura 3: Gráfco de dispersión indicando los tres grupos
Tabla 4: Estadísticos descriptivos de las variables para el cluster 2
Figura 2: Dendograma para los datos del ejemplo N Mínimo Máximo Media Desv. típ.
Horas semanales de 26 11 30 19,79 4,290
TV e Internet
El primer cluster (rojo) está formado por 103 jóvenes que Gasto comida no 26 1000 6600 3873,08 1627,159
representan el 58,9% de la muestra. El segundo cluster saludable
Actividad Fisica 26 1 5 2,88 1,243
(azul) está formado por 26 jóvenes que representan
el 14,9% y el tercer cluster (verde) está formado por
46 jóvenes con el 26,3% del total. En las tablas 3 a 5
Tabla 5: Estadísticos descriptivos de las variables para el cluster 3.
se muestran estadísticas descriptivas de las variables
N Mínimo Máximo Media Desv. típ.
separadas por clusters.
Horas semanales de 46 1 5 2,35 ,994
TV e Internet
Tabla 3: Estadísticos descriptivos de las variables para el cluster 1 Gasto comida no 46 1000 3300 1643,48 629,162
saludable
N Mínimo Máximo Media Desv. típ. Actividad Fisica 46 6 9 7,50 ,913
Horas semanales de 103 15 30 25,35 4,234 N válido (según lista) 46
TV e Internet
Gasto comida no 103 6000 9000 7988,35 906,437
saludable Se observa que en el cluster 1 hay un alto gasto en comida
Actividad Fisica 103 1 4 2,17 1,095 no saludable, los jóvenes pasan muchas horas viendo
televisión y en internet y realizan muy poca actividad física.
102
Es decir, se trata de un grupo muy sedentario con muy jóvenes en practicar un estilo de vida más saludable.
pocos hábitos saludables. Lamentablemente, este grupo
es el más numeroso en la muestra, representando casi el Como puede apreciarse, este estudio pone en evidencia
60% de los jóvenes. El cluster 2 tiene un gasto moderado la posición desavorecedora en la que se encuentran los
en comida no saludable (aunque menos que el grupo jóvenes adolescentes con respecto a estos hábitos tan
anterior), los jóvenes de este grupo pasan muchas horas necesarios durante esta etapa evolutiva. De esta forma, se
viendo televisión y navegando en internet (menos que el convierten en una población susceptible de ganar peso, lo
grupo anterior), además realiza poca actividad física (más que a su vez tiene repercusiones para su bienestar actual
que el grupo anterior). En resumen, es un grupo sedentario y futuro.
con malos hábitos de vida saludables pero en menor grado
que el grupo anterior. En el tercer cluster los jóvenes
gastan poco en comida no saludable, pasan pocas horas REFERENCIAS
viendo televisión y en internet, además realizan una buena
cantidad de actividad física. En resumen, no es un grupo 1. Anchelerguez S. Big Data la mejor receta para el sec-
sedentario con buenos hábitos de vida saludable. tor sanitario. 2014 [Consultado el 19 de Abril de 2016].
Disponible en: www.innovacion.cl/columna/bigdatala-
En la tabla 6 se presenta la distribución de hombres y mejorrecetaparaelsectorsanitario/.
mujeres por grupo. Cabe destacar que en el cluster 3, 2. Planner Media. Informe Big data y salud. 2015 [Con-
conormado por jóvenes que tienen un comportamiento sultado el 19 de Abril de 2016]. Disponible en: http://
más sano, se observa una mayor presencia de mujeres, www.plannermedia.com/downloads/informebigdatay-
correspondiendo casi al 70%. En la tabla 7 se presenta salud.pdf.
la distribución de la edad por grupo, como se observa al 3. Martínez-Cava et al. Big data, El poder de los datos.
parecer no hay mayores diferencia en cada grupo. Fundación innovación Bankinter. [Consultado el 19
de Abril de 2016]. Disponible en: https://www.funda-
Tabla 7. Distribución de la edad por grupo. cionbankinter.org/documents.
Media Media Media 4. Cluster Salud, La Industria de la vida. Big data: in-
Grupo 1 Grupo 2 Grupo 3
formación y análisis en el futuro de la industria de la
Válidos Edad 15,77 15,73 15,74
N vida. América Economía. [Consultado el 19 de Abril
103 26 46
de 2016]. Disponible en: http://clustersalud.americae-
En resumen, el uso del análisis de conglomerados permitió conomia.com/bigdatainformacionyanalisisenelfuturo-
clasifcar a los jóvenes en 3 grupos, el primero de ellos delaindustriadelavida.
es muy sedentario y con muy pocos hábitos saludables, 5. Poyatos JM. Big Data y el sector de la salud: el futuro
lamentablemente es el más numeroso, el segundo grupo de la sanidad. [Consultado el 19 de Abril de 2016]. Di-
es sedentario y con pocos hábitos de vida saludables pero sponible en: http://poyatosdiaz.com/index.php/bigda-
en menor grado que el anterior, el tercero no es un grupo tayelsectordelasaludelfuturodelasanidad.
sedentario, tiene buenos hábitos de vida saludable y en 6. Ávila de Tomás J. ¿Qué son los wearables y cuál es su
su mayoría está conformado por mujeres, esto podría de- futuro? 2014 [Consultado el 19 de Abril de 2016]. Di-
berse a la mayor preocupación y cuidado que tienen las sponible en: http://www.espididoctor.com/quesonwear-
ablesfuturo.
103
7. Hola C. La chaqueta inteligente que mide en terreno la mos resguardados contra su comercialización? Pro-
salud de los mineros. BBC Mundo. 2013 [Consultado grama Bioética. 2016 [Consultado el 19 de Abril de
el 19 de Abril de 2016]. Disponible en: http://www.bbc. 2016]. Disponible en: http://www.bcn.cl/observatorio/
com/mundo/noticias/2013/10/131015_tecnologia_ch- bioetica/noticias/proteccion-de-los-datos-de-salud-es-
aqueta_estacion_monitoreo_movil_mineros_ch. tamos-resguardados-contra-su-comercializacion.
8. Avila L. Desafíos del registro clínico electrónico: ¿Infor- 11. Baoss. Técnicas de análisis big data. 2015 [Consulta-
mación integrada y completa? ¿O solamente reempla- do el 19 de Abril de 2016]. Disponible en: http://www.
zar al papel? 2014 [Consultado el 19 de Abril de 2016]. baoss.es/tecnicasdeanalisisbigdata.
Disponible en: http://matasanos.org/2014/04/08/co- 12. Cuadras C. Nuevos Métodos de Análisis Multivariante.
moimplementarunsistemaderegistroclinicoelectronico- CMC Editions; 2014.
partei. 13. Pérez C. Métodos Estadísticos Avanzados con SPSS.
9. Observatorio Iberoamericano de Protección de datos. Thomson; 2005
Big Data en sanidad y su posible impacto en la privaci- 14. IBM SPSS Statistics 21 - España [Internet]. Www-01.
dad. [Consultado el 19 de Abril de 2016]. Disponible ibm.com. 2016 [Consultado el 19 de Abril de 2016].
en: http://oiprodat.com/2014/08/05/big-data-en-sani- Disponible en: http://www-01.ibm.com/software/es/
dad-y-su-posible-impacto-en-la-privacidad. stats21.
10. Lopicich B. Protección de los datos de salud: ¿Esta-
104

El Impacto Del Big Data en Salud: Artículo de Revisión

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

El Impacto Del Big Data en Salud: Artículo de Revisión

Cargado por

Copyright:

Formatos disponibles

ARTÍCULO DE REVISIÓN

EL IMPACTO DEL BIG DATA EN SALUD

ALGUNAS TÉCNICAS DE BIG DATA

Dentro de las técnicas frecuentemente utilizadas en

Tabla 2: Estadísticos descriptivos de las variables tipifcadas

N Mínimo Máximo Media Desv. típ.

ejes las variables tipicadas, esto se muestra en la gura

Figura 3: Gráfco de dispersión indicando los tres grupos

Tabla 4: Estadísticos descriptivos de las variables para el cluster 2

También podría gustarte