Está en la página 1de 7

Análisis de “mycoplasma pneumoniae” en simulador

Mariana Castañeda Ramírez, Salomé Zuluaga Sánchez, Sebastián Alejandro Tibanta Rodríguez, Sergio David
Casanova Campos
mariana.castanedar@autonoma.edu.co, salome.zuluagas@autonoma.edu.co,
sebastiana.tibantar@autonoma.edu.co, sergiod.casanovac@autonoma.edu.co

I. Introducción:

En el siguiente informe vamos a encontrar un Análisis de la


secuenciación genómica de la bacteria Mycoplasma Pneumoniae, el
cual será revisado desde dos ámbitos principales que serán la escala
de Pherb y las especificaciones colorimétricas, además de hacer una
revisión referente a la tendencia media aritmética. Para ello vamos a
utilizar el Simulador Galaxy que nos permite realizar la
secuenciación y luego con la herramienta de FastQC podremos
analizar la calidad de nuestra muestra que será nuestro principal Fig 1: Mycoplasma pneumoniae
objetivo.

II. Metodología:
II. Organismo de estudio: Mycoplasma pneumoniae
Accedemos al Simulador de Galaxy, el cual nos va a
permitir analizar la calidad de una muestra, en el buscador de Google
La Mycoplasma pneumoniae es una cepa antigénicamente ingresaremos usegalaxy.org el cual nos llevará directamente a la
homogénea, es decir, solo cuenta con un serotipo que se reproduce imagen que observamos en la Figura número 2
por fisión binaria, ésta bacteria sólo se ha detectado en humanos y se
aloja en la zona del tracto respiratorio, generando afecciones que se
derivan como patológicas.

La Mycoplasma pneumoniae es una bacteria de muy poco


tamaño, que oscila entre 150 y 200 nm (Fig 1) y presenta un genoma
de ADN muy compacto. Su afección patológica inicia cuando este
microorganismo se adhiere a las paredes de las células epiteliales,
cilios y microvellosidades y se instalan ahí, lo cual genera una
respuesta inmune fuerte que termina produciendo descamación
celular e inflamación, causando enfermedades respiratorias como la
neumonía atípica. Debido a su compacto genoma y a su presencia en Fig 2: Página principal simulador Galaxy
una serie de infecciones pulmonares, es que decidimos usar a la
Mycoplasma pneumoniae como foco en esta revisión. Vamos a seleccionar la opción GET DATA que se observa
en la Figura 2 , para luego seleccionar en las opciones desplegables
seleccionar Download and Extract Reads In BAM. opción que
podemos observar en la Fig 3.

Fig 4: Ingreso del código de Mycoplasma Pneumoniae


En la zona derecha de nuestra pantalla, podremos observar
cuando la operación esté lista, ya que nos aparecerá un en recuadro Después de tener seleccionada esa opción, vamos a
verde como se puede revisar en la Figura 5, lo cual indica que se ha presionar el botón que se asemeja a una carpeta que observamos en la
realizado exitosamente la secuenciación. Figura 7 dos casillas a la derecha del recuadro naranja , el cual nos va
a importar la secuenciación anteriormente realizada y procedemos a
seleccionar Run tool nuevamente.

Fig 5: Operación de Secuenciación Lista Fig 3: Herramientas simulador Galaxy

Al tener lista nuestra secuenciación, vamos a realizar el Luego, en la zona de Accession que se observa en la Figura
análisis de su calidad, para ello, nos dirigimos a la zona de 4 , escribimos el código de nuestra bacteria en el espacio justo
herramientas y escribimos la palabra FastQC de la misma forma que debajo, en este caso es el ERR9467537 “Mycoplasma pneumoniae” y
se ilustra en la figura 6 y seleccionaremos la opción FastQC Read luego seleccionamos la opción Run tool que encontramos en Azul
Quality reports. también en la Figura 4.

Fig 7: Ingreso del Parámetro a Analizar

Al correr Run tool, obtendremos a mano derecha


nuevamente dos recuadros, uno que indica el Raw Data y otro que
indica el WebPage de la forma en la que se observa en en la Figura 8,
los recuadros en verde nos indican que nuestros datos están listos .

Fig 6: Herramienta de Análisis


Fig 10: Análisis de la muestra de Mycoplasma Pneumoniae

III. Características del Gráfico y su Significado

[1] La secuenciación se utiliza para descifrar el código


genético y determinar el orden de las bases de las moléculas que
conforman el ADN que todos los seres vivos poseen, para determinar
la secuencia completa de una bacteria con millones de pares de bases,
Fig 8: Análisis listo
se pueden utilizar tecnologías de secuenciación masiva de ADN, las
cuales permiten secuenciar millones de fragmentos de ADN
Al seleccionar WebPage como se mencionó anteriormente
simultáneamente, sin embargo, en las NGS (Next-Generation
y como se ilustra en la figura 9 vamos a la opción de Download que
Sequencing) como Ilumina, se debe emplear un análisis de los datos
se representa por la primera opción seleccionable de la zona inferior
secuenciados para comprobar la calidad de las secuencias antes de
derecha y ahí obtendremos el análisis de la calidad de nuestra
cualquier estudio o análisis bioinformático.
muestra el cual deberá lucir como en nuestra figura 10.
Cuando se habla de calidad, en el contexto, se refiere a la
confiabilidad de las lecturas generadas por el encoder (Sanger /
Illumina 1.9). Una alta calidad indica una baja probabilidad de error
en la secuenciación, lo que permite tener un parámetro con el cual
garantizar que los resultados de un estudio de secuenciación sean
precisos y fiables. La herramienta FastQC se utiliza para el análisis
de datos y evalúa la calidad de las secuencias obtenidas y para eso
proporciona recursos como el gráfico "Per Base Sequence Quality".
Las implicaciones que tiene este análisis en las investigaciones
subsiguientes es poder garantizar que la secuenciación de ADN es
fiable y por consiguiente, las interpretaciones genómicas en las
investigaciones tienen un respaldo sólido, ya que resultados
provenientes de un estudio con datos de baja calidad carecen de
precisión y credibilidad.

A. Características y significado del gráfico:

[2] En la gráfica "Per Base Sequence Quality"


horizontalmente, donde aparece la inscripción “position in read (bp)”
se muestra la posición de la secuencia de ADN, la secuenciación de
ADN lee la cadena de extremo a extremo, por lo que a cada punto del
eje x le corresponde una posición específica de la secuencia. Cada
Fig 9: Descarga del Análisis
secuencia de ADN posee una longitud determinada y esa longitud se
expresa en pares de bases (bp).

La calidad de la secuenciación se representa verticalmente,


a más alta se posicione, más calidad tendrá la secuenciación, en este
eje se pueden apreciar tres colores en tres regiones a diferentes
alturas, el color verde indica que se encuentra en una región de alta
calidad, el color naranja indica calidad moderada y el color rojo
señala regiones de baja calidad. Estos colores permiten discernir
entre posiciones en las que la calidad es notoriamente baja y
posiciones en las que las secuenciaciones tienen un puntaje de
calidad alto.

El eje vertical representa la calidad en la escala Phred, una


medida utilizada para proporcionar una cuantificación de la
probabilidad de error en la llamada de una base durante la
secuenciación.

En la siguiente figura se muestra la escala Phred como


medida logarítmica que se relaciona la probabilidad de error y una
tabla que ejemplifica el significado de cada puntaje, donde se
evidencia que a mayor sea el puntaje de la escala Phred, menor será
la probabilidad de error y por ende, mayor será la calidad de la Fig 12: Comparación de gráfica de simulador con diagrama estadístico
secuenciación.
Por lo tanto, la línea roja central indica la mediana, el punto
medio en un conjunto de datos ordenados de menor a mayor, la línea
azul es la media o el promedio de calidad, es sensible a valores
extremos o atípicos, la caja amarilla abarca desde en primer cuartil
hasta el tercer cuartil, lo que representa la porción central de datos
desde el 25% hasta el 75% y la línea negra es la que abarca la
totalidad del rango de los datos de extremo a extremo.

IV. Análisis del Gráfico "Per Base Sequence Quality"


Fig 11: Escala de Phred

● Q: Puntaje Phred.
● P: Probabilidad de error.
● Primera columna: Puntaje en la escala Phred.
● Segunda columna: Probabilidad de error en la llamada de la
base en la secuenciación.
● Tercera columna: precisión de la llamada de la base.

B. Significado de las barras:


Las barras del gráfico indican el nivel de calidad en una
posición determinada, tiene diferentes elementos estadísticos que
ayudan a interpretar el gráfico, el cual se presenta en el modelo
llamado “Cajas y Bigotes”. A continuación un ejemplo de los
indicadores estadísticos que se representan en este tipo de gráficas.
franja verde, nos indica una confiabilidad del 99.9% Esto significa
que como peor calidad tendremos ese porcentaje en estos valles.

En términos generales, es una muestra con una calidad aceptable.

F. Calidad genómica de Mycoplasma pneumoniae:

En relación a los resultados de los análisis que hemos


podido realizar anteriormente, concluimos que la muestra de
Mycoplasma Pneumoniae que hemos seleccionado para el estudio,
tiene un calidad bastante aceptable para trabajar debido a que el
punto mínimo que alcanza de verosimilitud es del 99% o un puntaje
de 18 en la escala de Pherb en las posiciones de 150-151, más sin
Fig 13: Gráfica de secuenciación masiva de la cadena de ADN en el
embargo la muestra en casi su totalidad se mantiene en un 99.9% de
simulador
fiabilidad o en un aproximado puntaje de (28-30) en la escala de
Ferb, esto nos permite determinar que la prueba es apta para realizar
C. Parámetros de Análisis: estudios de buena calidad.

Para poder analizar la calidad de la secuenciación desde


una perspectiva estadística, los revisaremos desde dos ambitos V. Conclusión y Recomendaciones
principales, las regiones de calidad (verde-amarillo-rojo) y la linea de
tendencia media aritmetica (promedio) que se encuentra destacada en
color azul. G. Recomendaciones para posibles acciones
correctivas o ajustes en futuras investigaciones:

D. Grado de Uniformidad de la Muestra: Para obtener buenos resultados en futuras investigaciones,


se debe priorizar la calidad de la muestra de ADN a analizar, y esto
Frente al gráfico a analizar encontramos que nuestra se hace con una buena extracción, siguiendo un protocolo y
secuenciación presenta un grado alto de uniformidad entre los pares cumpliendo con unos criterios.
de bases número 8 y la número 79 las cuales se encuentran en la
franja verde de nuestro gráfico con un puntaje extremo mínimo de 32 [3] Para conseguir esto, se debe hacer uso de buenos kits de
en la escala Phred, lo cual nos permite constatar que la porción purificación de ADN, luego se realizan procesos como lisis alcalina
uniforme de nuestra muestra tiene un aproximado de 99.9% de para extraer el ADN (explota las diferencias en las propiedades de
confiabilidad, esta información puede ser corroborada si apoyamos desnaturalización y renaturalización entre el ADN plasmídico y el
este análisis con la revisión del promedio, el cual también oscila en ADN cromosómico); luego de extraer el ADN y purificarlo, se debe
un puntaje de calidad de 34, el cual nos sigue indicando un 99.9% de amplificarlo para analizarlo o comprobar alteraciones, para esto se
confiabilidad según la escala Phred. llevan a cabo 2 pasos, el primer paso es un diseño de cebadores, que
sirve para replicar el ADN y el producto de este diseño de cebadores
es lo que se utiliza en el segundo paso, reacción en cadena de la
E. Picos y Valles en la Muestra: polimerasa (PCR). Estos cebadores o primers, son los principales
elementos para una reacción de PCR, ya que de ellos depende la
En nuestro grafico, podemos encontrar 1 pico y 2 valles especificidad, porque al unirse complementariamente a las dos
principales, nuestro pico se encuentra en la posicion de la secuencia cadenas de ADN de la secuencia molde, fijan por así decirlo las
número 150-151, significa que en esas bases de la secuenciacion la coordenadas donde se llevará a cabo la reacción.
fiabilidad no es muy alta, ya que al encontrarse el extremo en el
puntaje de calidad 18 y en la región de color rojo, sugiere una Una vez conseguidas las muestras, obtenido el ADN
confiabilidad casi del 99% pero por debajo de esta cifra, lo que purificado y amplificado, se puede hacer el análisis del ADN, en este
disminuye la calidad de nuestra muestra. caso, mediante la secuenciación, ya que es la técnica más exacta,
Ahora, al referirnos a los valles, posicionados entre las bases 15-19 después de todo el proceso, las lecturas generadas por el encoder
de nuestra secuenciación, podemos concluir que en estos puntos se (Sanger/ Illumina 1.9) pueden tener mucha más calidad y menor
encuentran las muestras que presentan una mejor calidad de probabilidad de errores de secuenciación que ensucien la muestra
secuenciación, ya que se encuentran con un puntaje de calidad en el final.
extremo de 34 en la escala de Phred, lo que al ser parte de nuestra
H. Importancia de la calidad de secuenciación en la representan una mejora significativa en la calidad de vida de las
interpretación de datos genómicos: personas.

A continuación, se muestra un ejemplo de una buena La bioinformática, por un lado, se encarga de proporcionar
secuenciación a partir de una muestra sin alterar y bien filtrada, herramientas y técnicas para analizar grandes conjuntos de datos
donde se evidencia que desde la posición 1 hasta la posición 40, la genómicos, secuenciación del genoma, la anotación de genes y la
calidad de la muestra es excelente ya que su rango no excede el 30 y identificación de variantes genéticas que pueden estar asociadas con
permanece en el área verde de la gráfica. enfermedades específicas, sin la bioinformática, sería casi imposible
manejar y analizar la enorme cantidad de datos generados por los
estudios genómicos, no se podrían identificar mutaciones o
enfermedades de manera eficiente y mucho menos con un bajo
porcentaje de error.

Por otro lado, la biofísica se complementa con la


bioinformática al proporcionar una comprensión más profunda de
cómo los genes y las proteínas interactúan a nivel molecular y
celular. Incluyendo la estructura tridimensional del ADN,
transcripción y traducción, y cómo las interacciones físicas entre
moléculas pueden influir en la función y regulación de los genes.

La biomedicina se beneficia de ambas áreas, ya que gracias


a la genómica, se ha desarrollado el campo de la medicina
personalizada, donde los tratamientos médicos pueden estar basados
en el perfil genético de cada individuo. Además, la genómica ha
Fig 14: Ejemplo de gráfica de secuenciación masiva de otra muestra en el
facilitado la identificación de genes asociados con enfermedades
simulador específicas, lo que ha llevado al desarrollo de nuevas terapias y
medicamentos.
Por el contrario, aquí ejemplifico una muestra con mucho ruido y con
un inadecuado pre-procesamiento, donde más del 50% de la La tecnología permite que con el pasar del tiempo, cada
secuencia se encuentra en un rango de calidad menor a 20. vez menos enfermedades sean las que acaban con miles de vidas sin
tener posibilidad a tratamiento porque es desconocido, la
implementación de bases de datos y estudios permiten que los
tratamientos y la medicina a nivel global ya no sea un privilegio para
pocos, y se proyecta que a futuro, sean más la cantidad de individuos
que puedan acceder a todos estos tratamientos y potenciar la calidad
de vida en todas las partes del mundo.

Esta estructura busca ofrecer una presentación clara y


organizada del análisis de calidad de Mycoplasma pneumoniae,
desde la contextualización hasta las conclusiones y recomendaciones,
dentro del contexto de la biofísica y la biomedicina.

Fig 15: Ejemplo de gráfica de secuenciación masiva de otra muestra en el VII. Bibliografía:
simulador

[1] Hernández, M., Quijada, N. M., Rodríguez-Lázaro, D., & Eiros,

J. M. (2020). Aplicación de la secuenciación masiva y la


VI. Cierre: Integración del Informe
bioinformática al diagnóstico microbiológico clínico. Revista
Es fascinante ver cómo el conocimiento de áreas como la
bioinformática, biofísica y biomedicina, se complementan para Argentina de microbiología, 52(2), 150–161.
formar avances científicos y descubrimientos que cada vez más,
https://doi.org/10.1016/j.ram.2019.06.003
[2] González., M. S. (s/f). TÉCNICAS DE SECUENCIACIÓN

MASIVA (NGS). Seqc.es. Recuperado el 4 de febrero de 2024, de

https://www.seqc.es/download/tema/25/5627/1559040346/826284/c

ms/tema-5-tecnicas-de-secuenciacion-masiva-ngs.pdf/#:~:text=La%2

0plataforma%20de%20Illumina%20permite,vez%20de%20por%20u

no%20solo

[3] Ampligen. (2020, diciembre 3). Técnicas para el análisis del

ADN. Ampligen; Ampligen Diagnósticos S.L.

https://www.ampligen.es/adn-genetica/tecnicas-analisis-adn/

También podría gustarte