Está en la página 1de 13

ANALIZANDO LOS REPOSITORIOS DE DATOS EN SALUD

Objetivo de la actividad
Interiorizar los conceptos aprendidos en el tercer módulo y analizar algunos de los
repositorios de datos clínicos más relevantes a día de hoy. La competencia que se
va a trabajar es la de identificar los diferentes tipos de bases de datos que se
pueden utilizar para almacenar datos en salud y saber identificar los más útiles en
cada caso.

Desarrollo de actividades

1. Instala RStudio. Utilizando este programa, carga la tabla


PEC3_bases_de_datos.txt del material para la PEC3 para así poder leer el
listado de las bases de datos. A continuación, escribe el código empleado y
adjunta la tabla que has obtenido.

Tabla 1

PEC3-bases de datos.txt

Nota: Bases de datos en el programa RStudio (2023).


Tabla 2

Nacimientos en Australia

Nota: Bases de datos de nacimientos entre 1860-2020 de HMD (2023).

2. Selecciona las 2 bases de datos que veas interesantes. 

Las bases de datos seleccionadas provienen de Base de Datos de Mortalidad


Humana (HMD). Es un sitio web que tiene bases de datos de la población de
varios países; se seleccionó los nacimientos y mortalidad en Australia con el
objetivo de analizar el crecimiento poblacional.

3. Para cada una de las bases de datos seleccionadas, recopila la siguiente


información (La extensión propuesta es para las 2 bases de datos):
I. Nombre de la base de datos y URL de descarga. ¿Qué porcentaje de los
datos son gratuitos? ¿El acceso es público o se requiere una autorización
especial?

 Las dos bases de datos seleccionadas provienen de Base de datos


de mortalidad humana (HMD) nacimientos y fallecimientos.
 URL: https://www.mortality.org/Country/Country?cntr=AUS
 100% de los datos son gratuitos, pero se debe registrar (generar un
usuario) para poder acceder a la información.
II. ¿Qué tipo de licencia y política de privacidad tiene?

 La política de privacidad en HMD está basada en la protección de


datos personales recopilados cuando se visita el sitio web de
conformidad con la legislación de protección de datos aplicable. No
se publica los datos personales ni los transmitimos a terceros sin
autorización. Respecto a la licencia el sitio web no registra, sin
embargo, los datos están protegidos bajo el Max-Planck-
Gesellschaft zur Förderung der Wissenschaften eV (MPG). (HMD,
2023)

III. ¿Qué tipos de datos integra esta base de datos (tipo de estudios, tipo de
pacientes, si los datos son individuales o agregados y cuántos hay)?

 En la primera base de datos sobre nacimientos entre 1860 a 2020 en


Australia. Se compone de un estudio poblacional en el que se recolectaron
datos como: el área, el sexo, año de nacimiento, código de referencia,
acceso, notas de códigos y total nacimientos por año. Los datos son
agrupados ya que representan los resultados de nacimientos por año en el
país. El total de datos son de 323.
 En la segunda base de datos representa la cantidad de fallecimientos por
año en Australia que comprende los años entre 1911-2020. En la base de
datos se recopilan datos como: el área, el año, sexo, edad códigos de
referencias, y numero de muertes por año. El total de datos individuales son
de 50746.

IV. ¿Cuál es el formato de la base de datos? 


Por ejemplo, es formato libre (texto), XML, CSV, relacional, NoSQL, o
cualquier otro formato.

El formato de las bases de datos esta segmentada y organizada teniendo en


cuenta los siguientes criterios:
 Los archivos de datos son archivos de texto delimitado por tabuladores
(ASCII).
 Los archivos están organizados por sexo, edad y tiempo.
 El tamaño de la población se da para los grupos de edad de un año y cinco
años.
 Las muertes, exposición al riesgo, las tasas de mortalidad y las tablas de
vida se dan en formatos similares de edad y tiempo:
 1x1 (por edad 1 y año)
 1x5 (por edad 1 y intervalo de tiempo de 5 años)
 1x10 (por edad 1 y intervalo de tiempo de 10 años)
 5x1 (por grupo de edad de 5 años y año)
 5x5 (por grupo de edad de 5 años e intervalo de tiempo de 5 años)
 5x10 (por grupo de edad de 5 años e intervalo de tiempo de 10 años)
 Las muertes también se dan mediante triángulos de Lexis (es decir, por
edad, 1 cohorte de nacimiento y año calendario). 
 1-Grupos de edad de un año (o "por edad") significa 0, 1, 2, 109, 110+.

 2- Grupos de edad de cinco años significa 0, 1-4, 5-9, 10-14, 105-109,


110+. Los grupos de edad se definen en términos de la edad completa, por
lo que "5-9" se extiende desde los 5 años exactos hasta justo antes del
décimo cumpleaños (a veces escrito en otros lugares como "5-10").
 3- Algunas de estas cifras son estimaciones (del tamaño de la población o
del número de muertes), no recuentos reales y, por lo tanto, pueden
expresarse como números no enteros. (HMD, 2023)

V. ¿Cómo se han generado los datos contenidos en esta base de datos? Por
ejemplo, son registros de pacientes y sus enfermedades, o se han
generado gracias a alguna tecnología genómica o proteómica. Resume la
tecnología en un párrafo de hasta 250 palabras, pudiendo complementar la
explicación con un diagrama.

Los datos obtenidos de HMD de nacimientos y fallecimientos por países.


Están registrados bajo periodos indexados por año calendario, mientras
que los cohortes están indexados por año de nacimiento. Además, las
tasas de mortalidad de la cohorte se proporcionan si hay al menos 30 años
calendario consecutivos. Por ejemplo, la serie de mortalidad de Suecia
empieza en 1751, por lo que podemos mostrar las tasas de mortalidad de
la cohorte de nacimiento de 1675 para personas de 76 años o más. Las
tasas de mortalidad de la cohorte a edades más jóvenes se muestran como
faltantes. De forma similar, si la serie de mortalidad termina en 2002,
podemos mostrar las tasas de mortalidad para la cohorte de 1972 hasta los
29 años porque para el 31 de diciembre de 2002 todos en esa cohorte han
cumplido los 30 años.

Por otro lado, respecto a las tablas de vida de cohorte se presentan para
una población si hay al menos una cohorte observada desde el nacimiento
hasta la extinción (es decir, la fecha en la que se supone que todos los
miembros de la cohorte han muerto). En ese caso, se proporcionan tablas
de vida para todas las cohortes extintas y también para algunas cohortes
casi extintas.
En continuidad a lo anterior, la tecnología empleada en las bases de datos es NoSQL, esta se caracteriza por englobar
varios tipos de datos, cada uno particularmente con su lenguaje de consulta especifico. Y en algunos casos el lenguaje
tiende a ser parecido a SQL lo que facilita su lectura, además de su esquema de datos es flexible lo que permite facilidad
en tratar datos heterogéneos (Julbe et al., s.f.)

A continuación, en el siguiente diagrama se muestra una descripción general de agrupamiento de los datos consignadas
en las tablas bases de datos.
VI. ¿Cuál es la importancia de esta base de datos? ¿Puedes nombrar bases
de datos similares a esta en cuanto a contenido?, ¿Cuál de ellas dirías que
es más útil o mejor (o si son complementarias) y por qué?

La importancia de esta base de datos reside en la eficiente captura de grandes


volúmenes de información (Big Data) que se obtienen en la sistematización de la
información cuando una persona nace o fallece. Allí el almacenamiento de los
datos permite la manipulación de datos de manera eficiente y por ello utiliza
tecnología NoSQL combinadas con RDBMS para mayor flexibilidad, manipulación
y comprensión de los datos. La información que se obtiene del Big Data ayuda
enormemente a ser una base para estudios demográficos y nutre bases de los
diferentes sectores públicos y privados de los países. De allí resalto el sistema
digital Clinical Health Record, que permite llevar la historia clínica personal de
cada ciudadano y que debe tenerse en cuenta en la captura de información de
datos obtenidos por HMD.

El almacenamiento de los datos usualmente usa tecnologías SQL y NoSQL, estas


comparten el mismo objetivo que es almacenar datos, pero lo realizan de manera
diferente. El SQL usa una base de datos estructurada y segmentada que es
esencia de los datos relacionales; necesidad de búsquedas complejas y necesidad
recurrente de escritura y modificaciones de datos sobre elementos específicos.
Mientras que el NoSQL, bases de datos sin esquemas específicos; datos
distribuidos; grandes conjuntos de datos y necesidad de múltiples búsquedas de
lectura, todos los datos necesarios se pueden recuperar efectivamente de una vez
sin combinación en particular. Para finalizar el SQL y NoSQL son dos DMS, es
decir, dos tecnologías que tienen la misma finalidad: almacenar datos y ofrecer las
herramientas para leer y manipular esos datos. Elegir la base de datos más
adecuada es una etapa muy importante ya que la base de datos será la base de
trabajo de todas las profesiones de la data. (DataScientest, 2021)

VII. ¿Qué tipo de preguntas se pueden hacer con esta base de datos?
Deberías buscar artículos de investigación (en Google Scholar por ejemplo)
que usen esta base de datos o tipos de datos similares y sugerir una serie
de estudios tipo.

SQL

 ¿Cómo mostrarías la hora y fecha actual con SQL queries?


 ¿Qué es query?
 ¿Puedes explicar qué es Data Integrity?
 ¿Qué es SQL?
NoSQL
 ¿Cómo empiezo con el desarrollo de aplicaciones con NoSQL Database?
 ¿Como usar indices de documentos embebidos? 
 ¿Cómo modelar datos en Firebase? 
 ¿Mostrar documentos en Firebase en React en botones?

El trabajo López y Holanda, (2018) titulado “Base de datos biológica en base de


datos orientada a documentos NoSQL” consiste en que los experimentos en
bioinformática se implementan a través de flujos de trabajo científicos. En este
contexto, este estudio implementa datos de procedencia en flujos de trabajo
bioinformáticos en un NoSQL basado en documentos. Donde se usa el programa
MongoDB que es un sistema de gestión de datos para validar la base de datos y
su procedencia; los tipos de datos analizados y secuenciados están relacionados
con el cromosoma 22 del genoma humano y programas de recuento de HTSeq y
archivo de anotación del genoma de referencia en formato GTF.

Este tipo de investigaciones permite nutrir bases de datos como Electronic Health
Record y Clinical Health Record entre otras. Ya que permite tener un seguimiento
en tiempo real del tipo de complicaciones a nivel genómico que tiene el paciente,
que impactara en el tratamiento de la patología entre muchos mas aspectos de la
historia clínica del paciente. Quiero resaltar que los grandes estudios de
investigación de bases de datos clínicas se están volviendo omnipresentes y
ofrecen una serie de beneficios potenciales. Sin embargo, no se deben pasar por
alto las limitaciones de dichas fuentes de datos; cada estudio de investigación
debe ser considerado cuidadosamente por derecho propio, junto con la
justificación para usar los datos para ese propósito específico.

VIII. En tu lugar de trabajo, o algún lugar de trabajo que conozcas y donde las
tecnologías de Big Data no estén muy establecidas aún, ¿cómo hacen para
responder el tipo de preguntas sanitarias de la pregunta 7? ¿Qué mejoras
crees que comparativamente tendría la implementación de la estrategia
digital?

En el colegio Bilingüe Reino Unido, las tecnologías del Big data no están
establecidas ni conocidas. Sin embargo, menciono ese lugar de trabajo
porque los volúmenes de información que se obtiene de los estudiantes,
profesores y administrativos son de preocupación en cuanto al manejo de
la información, direccionamiento y organización de la información para
análisis. Una capacitación y asesoramiento en Big Data daría un nuevo
abanico de soluciones a problemas administrativos, estudiantiles y de otra
naturaleza. Como por ejemplo habitualmente los datos recopilados del
proceso de aprendizaje de los estudiantes en diferentes áreas del
conocimiento. Se quedan cortos en su desarrollo en los estudiantes, debido
a que no se usan programas de Big Data que le facilite la lectura y el
análisis del grupo de estudiantes al docente y que posteriormente repercute
en el direccionamiento del ciclo de aprendizaje que implementa el maestro.
La implementación de esta tecnología en los docentes permitiría guiar más
personalizadamente el proceso educativo en aula para que el docente sea
más consciente en otras estrategias que debe implementar para mejorar el
proceso de aprehensión del conocimiento en los estudiantes con base a los
análisis e información recopilada del Big Data.

4. Si fueras a combinar 2 de estas bases de datos en una aplicación de eHealth,


¿qué bases de datos serían, qué tipo de pregunta harías y cómo combinarías
los datos? 
Puedes valerte de un diagrama para ilustrar la respuesta.
Asimismo, la creación de un prototipo (por ejemplo usando
https://moqups.com/) donde se visualiza la funcionalidad de la app es clave a
modo de explicación funcional y presentación del producto. Se deben adjuntar
pantallazos del prototipo, mientras que ponerlo online es optativo. (Extensión
máxima: 2 páginas)

La aplicación del sector de la salud eHealth tiene el propósito de mejorar la


atención medica que se les ofrece a los pacientes, además de fomentar la
investigación y el conocimiento. Todo con el fin de satisfacer las necesidades
de la ciudadanía, los proveedores, los profesionales e incluso de los
responsables políticos. Las bases de datos sobre cantidad de nacimientos y
fallecimientos por sectores en un país pueden nutrirse bidireccionalmente con
casos clínicos, para mejorar la rapidez, la atención y demás servicios
hospitalarios. A continuación, se detalla más la relación.
Modelo de aplicación eHealth: Clinical Report database. A continuación, se muestra la funcionalidad de la aplicación
modelo.
Bibliografía
 Cook JA, Collins GS. The rise of big clinical databases. Br J Surg. 2015
Jan;102(2):e93-e101. doi: 10.1002/bjs.9723. PMID: 25627139.
 DataScientest. (2021). SQL vs NoSQL : diferencias, usos, ventajas y
inconvenientes. Recuperado de https://datascientest.com/es/sql-vs-nosql-
diferencias-usos-ventajas-y-inconvenientes
 IS López y M. Holanda, "Base de datos biológica en base de datos
orientada a documentos NoSQL", 2018 13th Iberian Conference on
Information Systems and Technologies (CISTI) , Cáceres, España, 2018,
pp. 1-6, doi: 10.23919/CISTI.2018.8399168 .
 Julbe, F.,Conesa, J., Casas, J. y Gonzalez, E. (s.f). Captura,
preprocesamiento y almacenamiento de datos masivos. Universitat Oberta
de Catalunya.
 La base de datos de mortalidad humana https://www.mortality.org/ Barbieri
M et al (2015) Perfil de recursos de datos: la base de datos de mortalidad
humana (HMD). Revista internacional de epidemiología 44(5):1549-1556

También podría gustarte