Current Protocols - 2021 - Kim - Exploring Chemical Information in PubChem - En.es

Traducido del inglés al español - www.onlinedoctranslator.
com
Explorando información química en

PubChem
Sunghwan Kim1,2
1Centro Nacional de Información Biotecnológica, Biblioteca Nacional de Medicina, National
Institutos de Salud, Bethesda, Maryland
2Autor correspondiente:kimsungh@ncbi.nlm.nih.gov
Pub Chem (https:// pubchem.ncbi.nlm.nih.gov) es una base de datos química pública que sirve tanto a las comunidades científicas
como al público en general. Esta base de datos recopila información química de cientos de fuentes de datos y la organiza en
múltiples colecciones de datos, que incluyen Sustancia, Compuesto, Bioensayo, Proteína, Gen, Vía y Patente. Estas colecciones están
interrelacionadas entre sí, lo que permite a los usuarios descubrir registros relacionados en las distintas colecciones (por ejemplo,
fármacos dirigidos a una proteína o genes modulados por una sustancia química). PubChem se puede buscar por palabra clave (por
ejemplo, un nombre químico, de proteína o de gen), así como por estructura química. La estructura de entrada se puede
proporcionar utilizando notaciones de línea populares o dibujarse con PubChem Sketcher. PubChem admite varios tipos de
búsquedas de estructuras, incluidas búsquedas de identidad, búsquedas de similitudes en 2D y 3D y búsquedas de subestructuras y
superestructuras. Los resultados de varias búsquedas se pueden combinar mediante operadores booleanos (es decir, Y, O y NO)
para formular consultas complejas. PubChem permite al usuario recuperar rápidamente una lista de registros anotados con una
clasificación particular o un término ontológico. Este documento proporciona instrucciones paso a paso sobre cómo explorar los
datos de PubChem con ejemplos de tareas solicitadas comúnmente. © 2021. Este artículo es un trabajo del gobierno de los EE. UU. y
es de dominio público en los EE. UU. Protocolos actuales publicados por Wiley Periodicals LLC. Este documento proporciona
instrucciones paso a paso sobre cómo explorar los datos de PubChem con ejemplos de tareas solicitadas comúnmente. © 2021. Este
artículo es un trabajo del gobierno de los EE. UU. y es de dominio público en los EE. UU. Protocolos actuales publicados por Wiley
Periodicals LLC. Este documento proporciona instrucciones paso a paso sobre cómo explorar los datos de PubChem con ejemplos de
tareas solicitadas comúnmente. © 2021. Este artículo es un trabajo del gobierno de los EE. UU. y es de dominio público en los EE. UU.
Protocolos actuales publicados por Wiley Periodicals LLC.
Protocolo básico 1:Encontrar genes y proteínas que interactúen con un compuesto

dado
Protocolo básico 2:Encontrar compuestos similares a fármacos similares a un compuesto de consulta
a través de una búsqueda de similitud bidimensional (2-D)
Protocolo básico 3:Encontrar compuestos similares a un compuesto de consulta a través de
una búsqueda de similitud tridimensional (3-D)
Protocolo de soporte:Cálculo de puntuaciones de similitud entre compuestos Protocolo básico 4:
Obtención de los datos de bioactividad de los compuestos afectados a partir de la búsqueda de
subestructuras
Protocolo Básico 5:Encontrar fármacos que se dirijan a un gen en particular
Protocolo Básico 6:Obtención de datos de bioactividad de todos los productos químicos probados contra una proteína.
Protocolo básico 7:Encontrar compuestos anotados con clasificaciones o términos

ontológicos
Protocolo Básico 8:Encontrar estereoisómeros e isotopómeros de un compuesto a través de
la búsqueda de identidad
Palabras clave: quimioinformática - búsqueda de estructuras químicas - descubrimiento de fármacos -

similitud molecular - PubChem - base de datos pública
Kim
Protocolos Actualese217, Volumen 1
Publicado en Wiley Online Library (wileyonlinelibrary.com). doi: 1 de 32
10.1002/cpz1.217
© 2021. Este artículo es un trabajo del gobierno de los EE. UU. y es de dominio público
en los EE. UU. Protocolos actuales publicados por Wiley Periodicals LLC. Este es un
artículo de acceso abierto bajo los términos
de la Creative Commons Attribution License, que permite su uso,
distribución y reproducción en cualquier medio, siempre que se cite
debidamente la obra original.
Cómo citar este artículo:
Kim, S. (2021). Explorando información química en PubChem.
Protocolos Actuales,1, e217. doi: 10.1002/cpz1.217
INTRODUCCIÓN
Pub Chem (https:// pubchem.ncbi.nlm.nih.gov; Kim, 2016; Kim et al., 2019; Kim et al., 2021; Kim et al., 2016)
es una base de datos química pública creada por la Biblioteca Nacional de Medicina (NLM), un instituto
dentro de los Institutos Nacionales de Salud (NIH) de EE. UU. Con millones de usuarios únicos cada mes,
PubChem es un recurso de información química muy popular para las comunidades de investigación
biomédica en muchas áreas, incluidas la quimioinformática, la biología química, la química médica y el
descubrimiento de fármacos. Es importante destacar que PubChem también sirve como fuente de big data
en química, que se utiliza en muchos proyectos de ciencia de datos y aprendizaje automático para detección
virtual, toxicología computacional, reutilización de medicamentos, etc.
El contenido de información de PubChem, recopilado de cientos de fuentes de datos, está organizado

en múltiples recopilaciones de datos, que incluyen Sustancia, Compuesto, Bioensayo, Gen, Proteína,
Vía y Patente (Kim et al., 2021). Substance archiva los datos químicos enviados por fuentes de datos
individuales y Compound almacena las estructuras químicas únicas extraídas de Substance a través
de la estandarización de estructuras químicas (Hähnke, Kim y Bolton, 2018; Kim et al., 2016). BioAssay
contiene descripciones de ensayos biológicos y resultados de pruebas depositados por proveedores
de datos de ensayos. Los identificadores de registro (ID) utilizados en Sustancia, Compuesto y
Bioensayo se denominan ID de sustancia (SID), ID de compuesto (CID) e ID de ensayo (AID),
respectivamente. Las otras colecciones de datos (es decir, Gene, Protein, Pathway y Patent) brindan
vistas alternativas de los datos de PubChem, relacionados con un gen específico, proteína, ruta y
documento de patente, respectivamente. Cada registro en las recopilaciones de datos tiene una
página web dedicada (llamada página Resumen), que presenta la información disponible en PubChem
para ese registro. Esta página también presenta anotaciones relevantes recopiladas por PubChem de
fuentes de datos autorizadas.
La interfaz de búsqueda de PubChem, disponible en la página de inicio de PubChem (https://pubchem.

ncbi.nlm.nih.gov), permite a los usuarios buscar simultáneamente las colecciones de datos mediante una
consulta de texto. Una consulta de estructura química se puede utilizar para realizar varios tipos de
búsquedas de estructuras químicas, incluidas búsquedas de identidad, similitud bidimensional (2-D) y
tridimensional (3-D), y búsquedas de subestructura y superestructura. Además, PubChem proporciona varias
herramientas y servicios que ayudan a los usuarios a explotar los datos de PubChem, que se describen en
detalle en artículos anteriores (Kim et al., 2019; Kim et al., 2021; Kim et al., 2016).
Este artículo proporciona instrucciones paso a paso sobre cómo realizar tareas comunes en
Pub-Chem. En el Protocolo Básico 1, el losartán (un fármaco antihipertensivo) se usa como
ejemplo para explicar cómo buscar en PubChem por nombre químico y encontrar genes y
proteínas que interactúen con ese químico. Los Protocolos Básicos 2 y 3 se enfocan en
búsquedas de similitud 2-D y 3-D, respectivamente, que se describen en detalle en la
Información de Antecedentes. El Protocolo Básico 2 muestra cómo encontrar compuestos
estructuralmente similares a losartán en base a la similitud 2-D y cómo filtrarlos en función de
las propiedades moleculares para identificar compuestos similares a fármacos. El Protocolo
básico 3 demuestra cómo encontrar compuestos similares a losartán en términos de similitud
tridimensional. En el Protocolo de soporte, las puntuaciones de similitud entre los compuestos
se calculan mediante el servicio de matriz de puntuación de PubChem. En el Protocolo básico 4,
Kim
2 de 32
Protocolos Actuales
se descargan los datos de bioactividad. El Protocolo básico 5 muestra cómo buscar medicamentos que se
dirigen a un gen en particular, y el Protocolo básico 6 explica cómo recuperar los datos de bioactividad de los
compuestos probados contra una proteína determinada. En el Protocolo básico 7, el Explorador de
clasificación de PubChem se utiliza para buscar compuestos anotados con una clasificación o un término
ontológico (p. ej., agentes antihipertensivos). Finalmente, el Protocolo Básico 8 detalla cómo realizar una
búsqueda de identidad para encontrar estereoisómeros e isotopómeros de un compuesto dado, usando
valsartán como ejemplo.
ENCONTRAR GENES Y PROTEÍNAS QUE INTERACTUAN CON UN BÁSICO

COMPUESTO DADO PROTOCOLO 1
El uso más común de PubChem es buscar información específica sobre una sustancia química. Esto
generalmente se hace realizando una búsqueda de texto con un nombre químico como consulta,
yendo a la página Resumen del compuesto más exitoso obtenido de la búsqueda y ubicando la
información deseada en esa página. Este proceso se muestra en el Protocolo básico 1, que demuestra
cómo encontrar proteínas y genes que interactúan con losartán (CID 3961), un fármaco
antihipertensivo ampliamente utilizado.
Los datos de interacción químico-proteína y químico-gen en PubChem provienen de múltiples

fuentes, como DrugBank (Wishart et al., 2018), Comparative Toxicogenomics Database (CTD;
Davis et al., 2021), Drug-Gene Interaction Database (DGIdb ; Freshour et al., 2021), IUPHAR/BPS
Guide to PHARMACOLOGY (Armstrong et al., 2020), ChEMBL (Mendez et al., 2019) y RCSB Protein
Data Bank (PDB; Burley et al., 2019). Los resultados de las pruebas biológicas de una sustancia
química también pueden ser una buena fuente de sus interacciones con las macromoléculas. Si
bien los datos de interacción de DrugBank se recuperan en el Protocolo básico 1 como ejemplo,
las asociaciones de macromoléculas químicas de una fuente de datos no son necesariamente
las mismas que las de otras fuentes. Por lo tanto, se recomienda acceder a los datos de todas
las fuentes relevantes y revisar las variaciones en los registros relacionados.
Materiales
Un navegador web actualizado, como Google Chrome, Microsoft Edge, Safari o

Firefox, es necesario para este protocolo (y todos los demás protocolos de este artículo)
1. Vaya a la página de inicio de PubChem (https:// pubchem.ncbi.nlm.nih.gov).
La página de inicio de PubChem sirve como punto de entrada para varios servicios de PubChem.
Tiene un cuadro de búsqueda que acepta varios tipos de consultas de texto y se proporcionan
ejemplos debajo del cuadro de búsqueda. Estos ejemplos incluyen nombres químicos (p. ej.,aspirina
), símbolos genéticos (p. ej.,EGFR), números de registro de servicios de resumen químico (CAS) (p. ej.,
57-27-2) y fórmulas moleculares (p. ej.,C9H8O4). También es posible buscar mediante notaciones de
línea para estructuras químicas, como el Sistema de entrada de línea de entrada molecular
simplificado (SMILES; Weininger, 1988, 1990; Weininger, Weininger y Weininger, 1989) y el
Identificador químico internacional de la IUPAC (InChI; Heller , McNaught, Pletnev, Stein y
Tchekhovskoi, 2015). Los identificadores de tipo entero para los registros de PubChem (es decir, SID,
CID y AID) también se pueden utilizar como consulta.
2. Tipolosartánen el cuadro de búsqueda y haga clic en el botón de búsqueda (lupa) ('1' en

la Fig. 1).
La interfaz de búsqueda de PubChem tiene una función de autocompletar/autosugerencia. Cuando se escribe una
consulta en el cuadro de búsqueda, la interfaz sugiere una lista de posibles consultas. Esto permite al usuario buscar
rápidamente en PubChem haciendo clic en uno de los términos sugeridos.
3. Haga clic en la mejor coincidencia que se muestra en la parte superior de los resultados de búsqueda ('2' en la Fig. 1) para
ir a la página Resumen del compuesto seleccionado.
Kim
3 de 32
Protocolos Actuales
Figura 1Búsqueda en PubChem mediante una consulta de texto. Cuando se proporciona una consulta de texto (1), PubChem busca registros
relevantes en varias colecciones, y los resultados de cada colección se pueden ver haciendo clic en la pestaña correspondiente (indicada en el cuadro
morado). Cuando es posible, PubChem sugiere el mejor resultado en la parte superior de los resultados de búsqueda. Por ejemplo, cuando el nombre
químicolosartánse utiliza como una consulta, PubChem sugiere CID 3961 como el mejor resultado. Al hacer clic en este registro o en uno de los
resultados que se encuentran en la colección Compuesto, se dirige al usuario a su página compuesta (2).
Cuando se ingresa un término de búsqueda, PubChem busca simultáneamente múltiples colecciones de datos. La
página de resultados de búsqueda tiene pestañas que permiten al usuario ver los resultados de diferentes
colecciones (indicado en el cuadro morado en la Fig. 1). Para compuestos y sustancias (Pub-Chem, 2014), una
consulta de texto encuentra sustancias químicas cuyos nombres coincidan. Para otras recopilaciones de datos (como
genes, proteínas, vías, literatura y patentes), los resultados devueltos contienen la cadena de consulta dentro de los
registros.
Cuando es posible, PubChem intenta identificar el registro más relevante y mostrarlo en la parte superior de
la lista de resultados de búsqueda. para la consultalosartán, PubChem identifica CID 3961 como el registro
más relevante. Al hacer clic en este registro, se dirige al usuario a la página Resumen del compuesto para
CID 3961.
4. Vaya a la subsección "Interacciones con bancos de medicamentos" en la sección "Interacciones y

vías biomoleculares" ('2' en la Fig. 2), usando la Tabla de contenido en la columna de la derecha
Kim
('1' en la Fig. 2).
4 de 32
Protocolos Actuales
Figura 2Navegación por la página Resumen de compuestos de losartán (CID 3961) (https://pubchem.ncbi.nlm.nih.gov/compuesto/3961). El
usuario puede navegar por la página Resumen del compuesto usando la Tabla de contenido (1), disponible en la columna de la derecha.
Uno puede encontrar las macromoléculas con las que interactúa el losartán haciendo clic en "Interacciones con bancos de
medicamentos" (2) en la Tabla de contenido. La información presentada en cada sección se puede descargar haciendo clic en el botón
"Descargar" (3). Cuando hay demasiada información para presentar en una sección de la página Resumen, solo se muestran los primeros
datos. Para ver toda la información disponible para la sección, el usuario debe hacer clic en el botón de vista de pantalla completa (4). Toda
la información presentada en la página Resumen del compuesto se puede descargar a través del botón "Descargar" disponible en la
esquina superior derecha de la página Resumen del compuesto (indicado en el cuadro morado).
La página Compound Summary a menudo contiene una gran cantidad de información, especialmente para
compuestos bien estudiados y conocidos. El usuario puede navegar esta página usando la Tabla de
contenido, disponible en la columna de la derecha. Alternativamente, uno puede buscar rápidamente un
término o una cadena en particular dentro de la página Resumen presionando Ctrl+F (en una PC con
Windows/Linux) o Comando+F (en una Mac) en el teclado.
La subsección "Interacciones de DrugBank" contiene información sobre las macromoléculas que

interactúan con CID 3961 (losartán), seleccionada por DrugBank. En DrugBank, las macromoléculas
se clasifican en cuatro grupos según el tipo de interacción con una molécula de fármaco: dianas,
enzimas, portadores y transportadores. Entre las macromoléculas enumeradas
Kim
5 de 32
Protocolos Actuales
en este apartado se clasifica como diana el “receptor de angiotensina II tipo 1”, por lo que el
efecto terapéutico de losartán proviene de su interacción con esta proteína.
Al hacer clic en el nombre de destino "receptor de angiotensina II tipo 1" en esta sección, se dirige al usuario
a la página correspondiente en DrugBank, donde se puede encontrar información más detallada. Hay
información adicional disponible en las páginas de Resumen de genes y proteínas, a las que se puede
acceder haciendo clic en el símbolo del gen (p. ej., "AGTR1") en la columna "PubChem Gene" y la entrada (p.
ej., "P30556") en la columna "PubChem Protein". " columna. Las páginas de genes y proteínas de PubChem
se explican con más detalle en los Protocolos básicos 5 y 6.
Cada sección/subsección en una página de resumen se puede marcar para un acceso rápido. Por
ejemplo, se puede acceder directamente a la subsección de interacciones de DrugBank para CID
3961 a través de la URL https:// pubchem.ncbi.nlm.nih.gov/compuse/ 3961#section=DrugBank-
Interactions.
5. Haga clic en el botón "Descargar" para descargar la lista de macromoléculas que interactúan con
losartán ('3' en la Fig. 2).
Los datos de las páginas de Resumen de compuestos se actualizan periódicamente. Cuando se actualizan los datos
en una fuente de datos original, este cambio también se refleja en PubChem a través del próximo ciclo de
actualización. Por lo tanto, se recomienda encarecidamente guardar los datos necesarios en una computadora local.
6. Si es necesario, haga clic en el botón de vista de pantalla completa ('4' en la Fig. 2) para ver todas las filas y
columnas.
De forma predeterminada, una página de Resumen a menudo muestra solo una parte de los datos disponibles. Por
ejemplo, la subsección "Interacciones de los bancos de medicamentos" en este protocolo muestra solo las primeras
filas y columnas de los datos tabulares. Los datos restantes se pueden ver en el modo de vista de pantalla completa.
BÁSICO ENCONTRAR COMPUESTOS SIMILARES A MEDICAMENTOS SIMILARES A UN COMPUESTO DE CONSULTA

PROTOCOLO 2 A TRAVÉS DE LA BÚSQUEDA DE SIMILARIDAD 2-D
La interfaz de búsqueda de PubChem ofrece muchas funciones más allá de la simple búsqueda de texto. Por
ejemplo, admite una búsqueda por estructura química. Una estructura química se puede utilizar como una
consulta para varios tipos de búsquedas de estructuras, incluidas búsquedas de identidad, búsquedas de
similitud 2-D y 3-D y búsquedas de subestructura y superestructura. La estructura química de entrada puede
especificarse con una notación de línea (p. ej., SMILES o InChI) o dibujarse con PubChem Sketcher. Si la
estructura de entrada ya existe en la base de datos de PubChem Compound, su CID se puede usar como una
consulta. También es posible iniciar una búsqueda de estructura química a partir de uno de los compuestos
de éxito devueltos por una búsqueda anterior. Se describen más detalles sobre las búsquedas de estructuras
químicas en PubChem en la sección Información general de este artículo.
Otra característica importante de la interfaz de búsqueda de PubChem es que proporciona filtros que limitan
los resultados de la búsqueda a solo aquellos registros con los atributos deseados. Cada colección de datos
tiene un conjunto diferente de filtros. Por ejemplo, los registros de compuestos se pueden filtrar según
varias propiedades moleculares, como el peso molecular, el recuento de donantes y aceptores de enlaces de
hidrógeno, el recuento de enlaces giratorios, etc. Los registros de ensayos se pueden filtrar según las
fuentes de datos y los tipos de ensayos (p. vivo, in vitro, celular, bioquímico, etc.). La información de
taxonomía se puede utilizar para filtrar los registros de genes y proteínas.
El Protocolo Básico 2, diseñado para demostrar estas dos características (es decir, búsqueda y filtrado de estructuras
químicas), tiene como objetivo encontrar sustancias químicas similares a drogas que sean estructuralmente
similares a una sustancia química dada. En este protocolo, el CID del mejor compuesto de éxito devuelto por la
consulta de textolosartán (en el Protocolo básico 1) se utiliza para especificar la estructura química de entrada para
una búsqueda de similitud 2-D posterior. La lista de compuestos resultante se refina aún más con filtros para
Kim identificar compuestos que cumplan con todos los criterios de la regla de cinco de Lipinski (Lipinski,
6 de 32
Protocolos Actuales
Lombardo, Dominy, & Feeney, 1997), que es una regla general para evaluar la similitud de las moléculas con
las drogas. La lista de compuestos refinados, junto con las propiedades calculadas, se descarga en una
computadora local.
Materiales

1. Repita los pasos 1 y 2 del Protocolo básico 1 para buscar PubChem usandolosartáncomo consulta.
2. Haga clic en el enlace "Búsqueda de estructuras similares" en la parte inferior del panel superior que muestra la
mejor coincidencia ('1' en la Fig. 3).
Para cada compuesto de éxito devuelto de una búsqueda, PubChem proporciona enlaces a la información
comúnmente solicitada sobre ese compuesto. Uno de los enlaces es el enlace "Búsqueda de estructuras similares",
que permite usar ese compuesto como una consulta para realizar una búsqueda de similitud 2-D y otros tipos de
búsquedas de estructuras (es decir, identidad, subestructura, superestructura y 3-D). búsquedas de similitud). Como
implica el nombre del enlace ("Búsqueda de estructuras similares"), los resultados de la búsqueda de similitud 2-D se
muestran de forma predeterminada ('2' en la Fig. 3). Los resultados de los otros tipos de búsquedas se pueden ver
haciendo clic en la pestaña correspondiente.
3. Si es necesario, haga clic en el botón Configuración ('3' en la Fig. 3) y ajuste el umbral de similitud al
valor deseado.
Durante una búsqueda de similitud 2-D, la similitud entre la consulta y todos los compuestos
en PubChem se evalúa utilizando la huella dactilar de la subestructura de PubChem (PubChem,
2009) y el coeficiente de Tanimoto (Chen y Reynolds, 2002; Holliday, Hu y Willett, 2002;
Holliday, Salim, Whittle y Willett, 2003). Cuando el coeficiente de Tanimoto entre la consulta y
un compuesto es mayor o igual que el umbral de similitud [0,9 (o 90 %) de forma
predeterminada], el compuesto se considera similar a la consulta y se devuelve como un
acierto. El umbral de similitud es ajustable. Si se aumenta el umbral de similitud [por ejemplo,
a 0,99 (o 99%)], la búsqueda de similitud devuelve un número menor de compuestos de
aciertos que son más similares a la consulta. Si se utiliza un umbral más bajo [por ejemplo,
0,85 (o 0,85%)], la búsqueda da un mayor número de aciertos que son más diversos,
4. Haga clic en el botón "Filtros" ('4' en la Fig. 3) y refine las coincidencias a solo compuestos similares a
drogas que satisfagan la regla de cinco de Lipinski.
Cuando se hace clic en el botón "Filtros", se mostrarán los histogramas interactivos de algunas
propiedades moleculares importantes. Cambiar los valores mínimo y máximo de cada propiedad
limita los resultados a aquellos compuestos cuyos valores para esa propiedad están dentro del rango
especificado.
La regla de cinco de Lipinski (Lipinski et al., 1997) evalúa la similitud de una sustancia química con un
fármaco, en función de las propiedades químicas y físicas importantes para la farmacocinética de la
sustancia química (p. ej., su absorción, distribución, metabolismo y excreción en el cuerpo humano). ). Según
la regla de cinco de Lipinski, un fármaco oralmente activo normalmente tiene las siguientes propiedades:
• Un peso molecular inferior a 500 g/mol

• No más de 5 donantes de enlaces de hidrógeno
• No más de 10 aceptores de enlaces de hidrógeno
• Un coeficiente de partición octanol-agua (log P) que no exceda de 5.
Aunque PubChem tiene valores de log P experimentales para más de 26 000 compuestos, esto corresponde a
una fracción muy pequeña de los 100+millones de compuestos en PubChem, y no es práctico utilizar los
valores de log P experimentales como filtro para refinar los resultados de la búsqueda. Por lo tanto, para este
propósito, PubChem utiliza valores de log P calculados, denominados “XLogP” (Cheng et al., 2007). Los valores
XLogP están disponibles para más del 90 % de los compuestos en PubChem (excepto para compuestos
inorgánicos y organometálicos).
5. Haga clic en el botón "Descargar" ('5' en la Fig. 3) para guardar la lista de aciertos como un archivo CSV para su posterior
análisis.
Kim
7 de 32
Protocolos Actuales
figura 3Realización de una búsqueda de similitud utilizando un compuesto de éxito devuelto de una búsqueda anterior. Cada compuesto de hit se
presenta con enlaces que permiten al usuario acceder a datos o servicios comúnmente solicitados relacionados con el compuesto. Entre ellos se
encuentra el enlace “Búsqueda de Estructuras Similares” (1). Al hacer clic en este enlace, se invocarán búsquedas de estructuras múltiples [incluida la
búsqueda de similitud 2-D (2)] utilizando el compuesto como una consulta y se presentarán los resultados de la búsqueda. El usuario puede volver a
ejecutar la búsqueda de similitud 2-D con un umbral de similitud diferente (3) y aplicar filtros (4) para refinar los compuestos seleccionados en función
de varias propiedades moleculares. La lista de compuestos de éxito se puede descargar mediante el botón "Descargar" (5). El resultado de la búsqueda
de similitud 3D se puede ver haciendo clic en la pestaña "similitud 3D" (indicada en el cuadro morado).
El archivo descargado contiene la lista de compuestos exitosos y sus propiedades moleculares calculadas (como el
peso molecular, el recuento de átomos pesados, el recuento de enlaces giratorios, el recuento de donantes y
aceptores de enlaces de hidrógeno, el área de superficie polar, la complejidad molecular y XLogP). También contiene
información adicional [p. ej., los ensayos en los que se probaron los compuestos, los identificadores de objetos
digitales (DOI) para los artículos que mencionan los compuestos, las fechas de creación de los registros de
Kim
compuestos, etc.]. Este archivo se puede cargar en un programa de hoja de cálculo
8 de 32
Protocolos Actuales
(p. ej., Microsoft Excel y Google Sheets) o un script de computadora (p. ej., escrito en python o R) para
su posterior análisis.
ENCONTRAR COMPUESTOS SIMILARES A UN COMPUESTO DE CONSULTA A TRAVÉS DE LA BÁSICO

BÚSQUEDA DE SIMILARIDAD 3-D PROTOCOLO 3
La interfaz de búsqueda de PubChem admite búsquedas de similitud en 2D y 3D. Los métodos de similitud
molecular utilizados para las dos búsquedas de similitud son complementarios entre sí. Es decir, un método
a menudo puede reconocer una similitud estructural que el otro enfoque pasa desapercibida. Una breve
descripción de los métodos subyacentes utilizados en la búsqueda de similitud 3-D se proporciona en la
información de antecedentes.
En el Protocolo básico 3, se realiza una búsqueda de similitudes en 3D para encontrar los compuestos
estructuralmente similares a losartán en función de las puntuaciones de similitudes en 3D, y las estructuras en 3D de
los compuestos devueltos se descargan en un archivo de datos de estructura (SDF) formato. El archivo SDF
descargado se puede abrir en visores moleculares tridimensionales populares. Tenga en cuenta que estas
estructuras tridimensionales no se determinan experimentalmente, sino que se generan computacionalmente como
se describe en detalle en artículos anteriores (Bolton, Kim y Bryant, 2011a; Kim, Bolton y Bryant, 2013).
Materiales

1. Repita los pasos 1 y 2 del Protocolo básico 2 para realizar una búsqueda de estructura conlosartán como
consulta.
2. Haga clic en la pestaña "Similitud 3D" para ver la lista de aciertos para la búsqueda de similitud 3D (el
cuadro morado en la Fig. 3).
Debido a que las moléculas pueden tener múltiples confórmeros, la puntuación de similitud 3D entre dos moléculas
se determina seleccionando la puntuación más alta de las puntuaciones de similitud 3D calculadas para todos los
posibles pares de confórmeros que surgen de las moléculas. Si bien hay disponibles hasta diez confórmeros por
compuesto para el cálculo de similitudes en 3D, no es práctico realizar una búsqueda de similitudes en 3D contra
todos los compuestos utilizando hasta diez confórmeros por compuesto, porque una búsqueda de similitudes en 3D
es mucho más lenta y más intensivo en recursos. Por lo tanto, para encontrar la mayoría de los resultados ricos en
información en un tiempo de respuesta razonable, se introduce un enfoque de tres niveles para la búsqueda de
similitudes en 3D. En este enfoque, los compuestos se clasifican en tres niveles, en función de su contenido de
información, y se utilizan diferentes números de confórmeros por compuesto durante la búsqueda de similitud 3D:
• Nivel 1: Compuestos con anotaciones, usando hasta diez conformadores por compuesto
• Nivel 2: Compuestos con enlaces de patentes, usando hasta cinco confórmeros por compuesto
• Nivel 3: Todos los compuestos restantes, usando hasta tres conformadores por compuesto.
De forma predeterminada, se realiza una búsqueda de similitud 3D solo con los compuestos de Nivel 1
(usando hasta diez conformadores por compuesto). La búsqueda puede extenderse a los compuestos de
Nivel 2 o Nivel 3 utilizando el botón “AJUSTES” ('1' en la Fig. 4), pero se utilizará un número menor de
conformadores por compuesto.
Además, tenga en cuenta que no es posible ajustar el umbral de búsqueda de similitud 3D, en
contraste con el umbral de búsqueda de similitud 2D (consulte el Protocolo básico 2). Durante la
búsqueda de similitud tridimensional, dos compuestos se consideran similares si cualquier par de
confórmeros que surja de ellos tiene una puntuación de forma-Tanimoto (ST) de≥0,80 (o 80%) y un
color-Tanimoto (CT) de ≥0,50 (o 50 %) (Bolton, Kim y Bryant, 2011b; Kim, Bolton y Bryant, 2016). Puede
encontrar más información sobre el método de similitud 3-D utilizado en PubChem en Información
general.
3. Haga clic en el botón "Descargar" ('2' en la Fig. 4).

Kim
9 de 32
Protocolos Actuales
Figura 4El botón Configuración disponible para la búsqueda de similitud 3-D y el botón de descarga para registros compuestos. El botón
Configuración (1) permite a los usuarios seleccionar los niveles compuestos contra los que se realiza la búsqueda de similitud 3D (consulte el
texto principal para la búsqueda de estructura 3D de tres niveles). El botón de descarga (2) permite descargar registros compuestos en
varios formatos de archivo. Para descargar hasta 10 conformadores por compuesto en un formato de archivo de datos de estructura
comprimido (SDF), seleccione "3D" para el tipo de coordenadas (3), "10" para el número de conformadores (4) y "gzip" para compresión ( 5),
y haga clic en el botón “SDF” (6).
4. Para guardar las estructuras 3D de los compuestos de impacto en formato SDF, seleccione "3D"
para el tipo de coordenadas, "10" para el número de conformadores por compuesto, "gzip" para
compresión y "SDF" para formato de archivo. ('3' a '6' en la Fig. 4).
PubChem genera un modelo conformer para cada compuesto si cumple con los siguientes
criterios:
• No demasiado grande (con≤50 átomos que no son de hidrógeno)

Kim • No demasiado flexible (con≤15 bonos giratorios)
10 de 32
Protocolos Actuales
• Tiene menos de seis átomos indefinidos o estereocentros de enlaces
• Tiene una sola unidad unida covalentemente (es decir, no es una sal o una mezcla)
• Consta solo de elementos orgánicos admitidos (H, C, N, O, F, Si, P, S, Cl, Br e I)
• Contiene solo tipos de átomos reconocidos por el campo de fuerza MMFF94s (Halgren, 1996,
1996ab, 1999).
Alrededor del 87% de los compuestos tienen modelos de conformación generados computacionalmente, y si
un compuesto en la lista de aciertos no tiene un modelo de conformación, ese compuesto se ignorará para la
descarga. Si bien cada uno de estos modelos de confórmeros contiene hasta 500 confórmeros, el público solo
tiene acceso a hasta 10 confórmeros por compuesto. Se puede encontrar información más detallada sobre la
generación de confórmeros en PubChem en artículos anteriores (Bolton et al., 2011a; Kim et al., 2013).
CÁLCULO DE PUNTUACIONES DE SIMILITUD ENTRE COMPUESTOS APOYO

PROTOCOLO
Los protocolos básicos 2 y 3 demuestran cómo encontrar compuestos que son estructuralmente similares a un
compuesto de consulta en función de las puntuaciones de similitud 2D y 3D, respectivamente. Sin embargo, los
datos devueltos por las búsquedas de similitud no incluyen las puntuaciones de similitud entre la consulta y los
compuestos devueltos. Estos puntajes se pueden usar para clasificar los compuestos de éxito y encontrar
compuestos de mayor rango dentro de la lista. También se pueden usar para realizar un análisis de conglomerados
para identificar patrones estructurales importantes de los compuestos afectados.
En este Protocolo de soporte, descargamos los puntajes de similitud 3-D para los compuestos
devueltos de una búsqueda de similitud 2-D (en el Protocolo básico 2) utilizando el Servicio de matriz
de puntaje PubChem (https:// pubchem.ncbi.nlm.nih.gov/ score_matrix). El servicio de matriz de
puntuación de PubChem calcula puntuaciones de similitud 2-D y 3-D entre compuestos en PubChem.
Este servicio toma una lista de compuestos M y otra lista de compuestos N como entrada, calcula
puntuaciones de similitud para M×N pares compuestos que surgen de la combinación de las dos listas
y devuelve las puntuaciones en forma de matriz o en una lista de triples CID-CID-score. Cuando solo
se proporciona una lista (de compuestos M) como entrada, las puntuaciones de similitud se calculan
para M(M+1)/2 pares CID únicos, que surgen de la combinación de los compuestos M.
Materiales

Además, este protocolo requiere un archivo de texto que contenga los CID del hit
compuestos devueltos del Protocolo básico 2. Este archivo se puede generar a partir del archivo CSV
descargado en el Protocolo básico 2. Abra el archivo CSV en un software de hoja de cálculo (por
ejemplo, Microsoft Excel o Google Sheets). Copie la primera columna que contiene los CID (excepto
el encabezado de la columna), péguelos en un editor de texto (p. ej., Notepad en Windows PC y
TextEdit en Mac) y guárdelos como un archivo de texto. En este protocolo, se supone que el nombre
del archivo es mycids.txt. Vuelva a verificar que el archivo tenga el mismo formato que el archivo
mycids.txt en la Figura 5 (por ejemplo, un CID para cada línea).
1. Vaya al servicio de matriz de puntuación de PubChem (https:// pubchem.ncbi.nlm.nih.gov/ score_

matrix).
También se puede acceder a esta página a través de PubChemDocs (https://

pubchemdocs.ncbi.nlm.nih.gov), que contiene los documentos de ayuda de PubChem. También sirve
como punto de entrada a varios servicios de PubChem. La página de ayuda para el servicio Score
Matrix se puede encontrar en la sección "Búsqueda y análisis" de PubChemDocs, y esta página tiene
un enlace al servicio Score Matrix.
2. Seleccione "Similitud 3D, forma optimizada" para el tipo de puntuación ('1' en la Fig. 5).
Kim
11 de 32
Protocolos Actuales
Figura 5Cálculo de puntuaciones de similitud entre compuestos, utilizando el servicio de matriz de puntuación de PubChem (https: //
pubchem.ncbi.nlm.nih.gov/score_matrix/). Se puede seleccionar uno de los tres tipos de puntuación (similitud 2-D, así como similitudes 3-D
optimizadas para la forma y las características) a través de un menú desplegable (1). Hay opciones adicionales (2) disponibles para el cálculo de la
puntuación de similitud 3D. La(s) lista(s) de CID para el cálculo de la puntuación de similitud se pueden proporcionar en un cuadro de texto o cargar en
un archivo (3). El formato de salida (4) y el método de compresión (5) se pueden seleccionar a través de menús desplegables. Al hacer clic en el botón
"Enviar trabajo" se inicia el cálculo de la puntuación de similitud.
Se admiten tres medidas de similitud: una medida de similitud 2D y dos medidas de similitud 3D
(optimización de forma y optimización de funciones). Para obtener más detalles sobre estas medidas
de similitud, consulte la información de antecedentes.
3. Seleccione "1 conformador por CID" y marque la casilla "No sustituir padres 3D" ('2' en la
Fig. 5).
Se pueden considerar hasta diez confórmeros por compuesto durante el cálculo de similitud 3-D. Tenga en
cuenta que algunos compuestos no tienen modelos confórmeros, como se menciona en el Protocolo básico
3. Por ejemplo, PubChem no genera un modelo confórmero para sales y mezclas, pero sus formas originales
pueden tener modelos tridimensionales. Un compuesto original es conceptualmente la parte "importante"
de la molécula cuando la molécula tiene más de una unidad unida covalentemente. Específicamente, un
componente principal debe tener al menos un carbono y contener al menos el 70 % de los átomos pesados
(que no sean de hidrógeno) de todas las unidades unidas covalentemente únicas (ignorando la
Kim estequiometría).
12 de 32
Protocolos Actuales
De forma predeterminada, si un CID determinado no tiene un modelo conformer 3-D, pero su
estructura principal sí lo tiene, el CID principal se sustituirá automáticamente en la matriz. Marcar la
casilla "no sustituir padres 3D" desactiva esta sustitución y devuelve resultados solo para los CID
solicitados con modelos conformadores 3D.
4. Seleccione el archivo de texto que contiene la lista de CID de entrada (es decir,mycids.txt; '3' en la figura 5).
La lista de CID de entrada se puede cargar en un archivo o escribir en el cuadro de texto. Cuando solo se
proporciona una lista, se calculan las puntuaciones de similitud entre los compuestos dentro de la lista. Si se
proporciona una segunda lista CID, las puntuaciones de similitud se calculan para todos los pares CID-CID que
surgen de la combinación de las dos listas CID.
Tenga en cuenta que existe un límite en el tamaño de la matriz de puntuación que puede manejar
este servicio. Actualmente, para el cálculo de similitud 2-D, tanto la lista de compuestos principal
como la opcional no deben tener más de 10 000 compuestos, y el número de pares de compuestos a
considerar no debe exceder 1 000 000. Para el cálculo de la similitud en 3D, los límites son no más de
10 000 "conformes" para ambas listas y no más de 1 000 000 de "pares de conformistas". Por lo
tanto, si el cálculo de la similitud en 3D falla debido al límite de tamaño, puede ser necesario reducir
el número de confórmeros a considerar ('2' en la Fig. 5).
5. Seleccione "CSV" para el formato y "gzip" para la compresión ('4' y '5' en la Fig. 5) y haga clic en
"Enviar trabajo" ('6' en la Fig. 5).
Este paso llevaría varios minutos porque el cálculo de la similitud 3D requiere mucho
tiempo.
OBTENER LOS DATOS DE BIOACTIVIDAD PARA LOS COMPUESTOS HIT DE LA BÁSICO

BÚSQUEDA DE SUBESTRUCTURAS PROTOCOLO 4
Cuando un patrón de estructura química aparece en una estructura química más grande, la primera se
denomina subestructura y la segunda se denomina superestructura (ver Fig. 6). En este protocolo, se realiza
una búsqueda de subestructura para encontrar compuestos con una subestructura dada y sus datos de
bioactividad se descargan en una computadora local. Los datos descargados se pueden utilizar en análisis
posteriores por medio de paquetes de software de terceros. Este protocolo utiliza dos funciones importantes
de la interfaz de búsqueda de PubChem, PubChem Sketcher para la entrada de estructuras y el botón
"Conjuntos de datos vinculados" para la recuperación rápida de datos vinculados.
Anteriormente, en los Protocolos básicos 2 y 3, una búsqueda de nombre químico (es decir,losartáncomo
una consulta) se realizó primero para encontrar el compuesto correspondiente (CID 3961), que se utilizó para
especificar la estructura química de entrada para una búsqueda posterior de similitud 2-D y 3-D. Sin
embargo, este enfoque no se puede utilizar cuando la estructura de consulta no existe.
Figura 6El concepto de subestructura y superestructura. La estructura de CID 15207492

Kim
(subestructura) aparece como parte de CID 3961 (superestructura).
13 de 32
Protocolos Actuales
Figura 7Uso de PubChem Sketcher para proporcionar una estructura de consulta para búsquedas de estructuras químicas. Se puede
acceder al dibujante de PubChem desde la página de inicio de PubChem a través del botón "Dibujar estructura" (1). La estructura de
consulta se puede dibujar manualmente o convertir a partir de una notación de línea como una cadena SMILES o InChI (2). Al hacer clic en el
botón "Buscar esta estructura" (3) se inicia la búsqueda de estructuras.
en PubChem o cuando su nombre es desconocido o ambiguo. En este caso, la estructura de entrada

se puede proporcionar dibujándola en PubChem Sketcher.
Este protocolo también ejemplifica la utilidad de los datos vinculados en PubChem. Como se mencionó en la
Introducción, PubChem tiene múltiples recopilaciones de datos. Algunos usuarios a menudo necesitan recuperar
registros en una recopilación de datos que están relacionados con los de otra recopilación de datos. Por ejemplo, el
presente protocolo recupera datos de bioactividad (en BioAssay) asociados con una lista de productos químicos (en
Compound). Esta tarea se puede realizar sin problemas con el botón "Conjuntos de datos vinculados" disponible en
la página de resultados de búsqueda.
Materiales

Firefox, es necesario para este protocolo (y todos los demás protocolos de este
artículo)
1. Vaya a la página de inicio de PubChem (https:// pubchem.ncbi.nlm.nih.gov) e inicie PubChem

Sketcher haciendo clic en el botón "Dibujar estructura" ('1' en la Fig. 7).
Kim
14 de 32
Protocolos Actuales
Figura 8Recuperación de datos de bioactividad para los compuestos devueltos de la búsqueda de subestructuras. Cuando se proporciona la estructura
de entrada, PubChem realiza múltiples tipos de búsqueda de estructuras. Los resultados de la búsqueda de subestructura se pueden ver haciendo clic
en la pestaña "Subestructura" (1). De forma predeterminada, la búsqueda de estructuras se detiene cuando encuentra 1000 compuestos de éxito. Si el
usuario desea encontrar más de 1000 compuestos de acierto, es necesario marcar la casilla “Buscar todo” (2). Los datos de bioactividad de los
compuestos afectados se pueden recuperar haciendo clic en el botón "Conjuntos de datos vinculados" disponible en la columna de la derecha (3) y
luego seleccionando "Bioactividades" en el menú emergente (4). Los datos de bioactividad se pueden descargar a través del botón “Descargar” (5).
2. Dibuja la estructura del 5-(2-fenilfenil)-2H-tetrazol proporcionando su cadena SONRISAS

C1=CC=C(C=C1)C2=CC=CC=C2C3=N[N]N=N3en el cuadro de texto disponible en la parte
superior del Sketcher ('2' en la Fig. 7).
Si bien el usuario puede dibujar la estructura de entrada manualmente, es posible generar la estructura de entrada
a partir de una notación de línea como una cadena SMILES o InChI. También se pueden usar las cadenas de
especificación de destino arbitrario SMILES (SMARTS) (Daylight Chemical Information Systems Inc.; consulte Recursos
de Internet) e InChIKeys (Heller et al., 2015). Esta funcionalidad es muy útil, especialmente cuando la estructura de
entrada es demasiado grande o compleja para dibujarla manualmente.
3. Después de dibujar la estructura de entrada, haga clic en el botón "Buscar esta estructura" ('3' en la Fig. 7).
Kim
15 de 32
Protocolos Actuales
La consulta se utilizará para varios tipos de búsquedas de estructura y, de forma predeterminada, se muestra el
resultado de la búsqueda de identidad. El usuario puede pasar a los resultados de otros tipos de búsquedas
haciendo clic en las pestañas correspondientes.
4. Haga clic en la pestaña "Subestructura" para ver los compuestos de éxito de la búsqueda de subestructura ('1' en
la Fig. 8).
5. Marque la casilla "Buscar todo" ('2' en la Fig. 8) para extender la búsqueda a todos los compuestos en
PubChem.
En general, una búsqueda de estructura requiere mucho tiempo y recursos. Por lo tanto, por defecto, cada
tipo de búsqueda de estructura se detiene cuando se encuentran un máximo de 1000 compuestos de
aciertos, y el resultado de la búsqueda se muestra con un mensaje que indica qué porcentaje de la base de
datos se busca. Al hacer clic en el cuadro "Buscar todo" debajo de este mensaje, se extiende la búsqueda a la
parte restante de la base de datos.
Cuando una consulta para la búsqueda de subestructuras es demasiado pequeña o demasiado genérica, dará como resultado
demasiados compuestos de éxito para que PubChem los maneje. Por lo tanto, el número máximo de aciertos que se pueden
devolver de una búsqueda de estructura está limitado a 1.000.000.
6. Haga clic en el botón "Conjuntos de datos vinculados" en la columna de la derecha ('3' en la Fig. 8) y seleccione el
enlace "Bioactividades" en el menú emergente ('4' en la Fig. 8).
A través del botón Conjuntos de datos vinculados, el usuario puede acceder a varios tipos de datos asociados con los
registros de visitas. En este ejemplo, se recuperan los datos de bioactividad de los compuestos seleccionados
obtenidos de la búsqueda de subestructuras.
7. Haga clic en el botón Descargar para guardar los datos vinculados en una computadora local ('5' en la Fig. 8).
Los datos descargados contienen los AID, los resultados de la actividad, las concentraciones de la actividad, los
nombres de las actividades y otra información relacionada. Los datos de bioactividad descargados, junto con la
información de la estructura molecular, se pueden utilizar para desarrollar un modelo de relación estructura-
actividad.
BÁSICO ENCONTRAR MEDICAMENTOS QUE SE DIRIGEN A UN GEN EN PARTICULAR

PROTOCOLO 5
Si bien es posible recuperar todas las macromoléculas que interactúan con una sustancia química dada (como se hizo en el
Protocolo básico 1), el usuario puede querer encontrar todas las sustancias químicas que interactúan con un gen o una
proteína determinados. Esta tarea se puede realizar a través de la página Resumen de un registro de gen o proteína, que
presenta todos los datos de PubChem relacionados con esa macromolécula. Incluye no solo medicamentos conocidos y
productos químicos probados, sino también anotaciones recopiladas de los principales recursos de información sobre genes
o proteínas.
El Protocolo Básico 5 tiene como objetivo encontrar todos los fármacos conocidos que interactúan con el gen
que codifica el receptor de angiotensina II de tipo 1 humano, que es el objetivo de losartán (consulte el
Protocolo Básico 1). Este protocolo comienza con una búsqueda de texto utilizando el nombre del gen como
consulta. Luego, la lista de genes resultante se filtra en función de los taxones para identificar el gen para los
humanos. La página Resumen de este gen contiene listas de medicamentos dirigidos a él, que se recopilan
de DrugBank (Wishart et al., 2018), ChEMBL (Mendez et al., 2019) y IUPHAR/BPS Guide to PHARMACOLOGY
(Armstrong et al., 2020). Estas listas se pueden descargar en una computadora local.
Materiales

1. Vaya a la página de inicio de PubChem y realice una búsqueda de texto con el receptor de angiotensina II
tipo 1 como consulta ('1' en la Fig. 9).
Cuando una consulta de texto consta de varias palabras separadas por espacios en blanco, la consulta se interpreta
Kim
de tal manera que un valor booleanoYEl operador se aplica entre las palabras. Es decir, la consulta
16 de 32
Protocolos Actuales
Figura 9Busque por nombre de gen/proteína usando "receptor de angiotensina II tipo 1" como ejemplo. Cuando se utiliza un nombre de gen/proteína
como consulta (1), se buscan múltiples colecciones. Al hacer clic en la pestaña "Genes" se muestran los registros de genes obtenidos de la búsqueda
(2). Para ver los registros de proteínas de éxito, haga clic en la pestaña "Proteínas" (indicada en el cuadro morado). El filtro (3) permite seleccionar
únicamente los registros de genes humanos (4). Haciendo clic en el humanoAGTR1gene (5) dirige al usuario a su página Resumen. Tenga en cuenta
que los registros de genes pueden tener registros de bioensayos y/o rutas asociados en PubChem (como se indica en el recuadro azul).
vitamina Cse interpreta comovitamina Y Cy recupera los registros que contienen las
cadenasvitaminayCjuntos. Para buscar la frasevitamina C, la consulta debe estar entre
comillas dobles. Dicho esto, las siguientes consultas se interpretarán de manera
diferente:
• receptor de angiotensina II tipo 1

• receptor de angiotensina II tipo 1
• “receptor de angiotensina II tipo 1” (entre comillas dobles)
• “receptor de angiotensina II tipo 1” (entre comillas dobles).
Entre estos ejemplos, el primero se usa como una consulta en el Protocolo Básico 5, como se muestra
en la Figura 9. Se interpreta como "tipo AND 1 AND angiotensina AND II AND receptor" y devuelve
Kim
cualquier registro que contenga las cinco palabras. Si la consulta debe interpretarse como una frase
17 de 32
Protocolos Actuales
(p. ej., "receptor de angiotensina II tipo 1") para identificar aciertos más específicos, la consulta debe estar
entre comillas dobles. En este caso, sin embargo, la búsqueda perdería registros que contuvieran una frase
como “receptor de angiotensina II tipo 1”.
2. Seleccione la pestaña "Genes" ('2' en la Fig. 9) para mostrar el resultado de la búsqueda de la colección de
genes.
Como se mencionó en el Protocolo básico 1, cuando se proporciona una consulta de texto, se buscan
simultáneamente varias colecciones de datos. Tenga en cuenta que la consulta "receptor de angiotensina II tipo 1"
puede verse como el nombre de una proteína o el gen que la codifica. Debido a que el objetivo del Protocolo básico
5 es descargar los medicamentos que interactúan con el gen, se hace clic en la pestaña "Gen".
3. Haga clic en el botón Filtros ('3' en la Fig. 9) y seleccione "Humano" en el grupo de taxonomía ('4' en
la Fig. 9).
La búsqueda en PubChem a menudo da como resultado una gran cantidad de

resultados. Los resultados de la búsqueda se pueden restringir filtrándolos en función de
ciertos atributos, como se muestra en el Protocolo básico 2, donde los compuestos
seleccionados se filtran en función de varias propiedades moleculares, como el peso
molecular, el recuento de donantes y aceptores de enlaces de hidrógeno, XLogP, etc.
Para la colección Gene, los registros de aciertos se pueden filtrar por grupo de taxonomía
(p. ej., humano, ratón, rata y otros) y tipo de fuente de datos (p. ej., bioensayo y ruta).
Tenga en cuenta que el filtro de tipo de fuente de datos permite al usuario filtrar los
genes en función de si tienen bioensayos asociados o registros de vías. La colección de
genes contiene: (1) aquellos genes que se han probado en cualquier bioensayo archivado
en PubChem y/o (2) aquellos que están involucrados en una vía archivada en PubChem.
Por ejemplo,
4. Haga clic en el registro genético del receptor de angiotensina II humano tipo 1 ('5' en la Fig. 9).
Al hacer clic en este registro de genes, se dirige al usuario a su página Resumen de genes. La página Gene
Summary contiene una amplia variedad de información sobre el gen. Esto incluye los nombres, símbolos,
identificadores y clasificaciones de los genes, así como la estructura y función de las proteínas codificadas
por el gen. La página Gene Summary también contiene información sobre sustancias químicas,
medicamentos, bioensayos, vías y enfermedades relacionadas, junto con enlaces a artículos científicos
relevantes. Esta página tiene enlaces cruzados a registros relacionados en otras recopilaciones de datos de
PubChem, así como a recursos externos a PubChem.
5. Use la tabla de contenido ('1' en la Fig. 10) en la columna de la derecha para ir a la subsección de Medicamentos del Banco
de Medicamentos ('2' en la Fig. 10).
Esta subsección presenta una lista de los medicamentos asociados con el receptor de angiotensina II
de tipo 1 humano, junto con sus CID, nombres y PMID para artículos relevantes. Al hacer clic en CID,
nombres y PMID en esta tabla (los cuadros amarillo, azul y morado en la Fig. 10) se dirige al usuario a
la página del registro correspondiente en PubChem, DrugBank y PubMed, respectivamente.
6. Haga clic en el botón Descargar ('3' en la Fig. 10) para descargar los datos.
El archivo CSV descargado contiene información adicional sobre los medicamentos.
7. Si es necesario, haga clic en el botón "Vista completa" ('4' en la Fig. 10) para obtener información más
detallada.
8. Obtenga la información sobre medicamentos de ChEMBL de manera similar a la descrita en los pasos 5 a
7. Esta información se puede encontrar en la sección "Medicamentos de ChEMBL".
9. Obtenga la información del fármaco de la Guía de FARMACOLOGÍA de forma similar a como

se describe en los pasos 5 al 7. Esta información se puede encontrar en la sección "Guía de
ligandos de FARMACOLOGÍA".
Las listas de medicamentos de las tres fuentes (DrugBank, ChEMBL y Guide to PHARMACOL-OGY) no son las
Kim mismas, mientras que algunos medicamentos aparecen en las tres listas. En general, cada dato
18 de 32
Protocolos Actuales
Figura 10Uso de la página Resumen de genes para el receptor de angiotensina II tipo 1 humano (https://pubchem.ncbi.nlm. nih.gov/gene/185) para
encontrar fármacos dirigidos al gen (o las proteínas que codifica). La tabla de contenido de la columna de la derecha (1) se puede utilizar para navegar
por la página Resumen de genes. Al hacer clic en "DrugBank Drugs" (2), se dirige al usuario a la sección que contiene información sobre los
medicamentos dirigidos al gen, seleccionados por DrugBank. La información presentada en esta sección se puede descargar (3). El botón de vista de
pantalla completa (4) presenta información adicional en un modo de vista de pantalla completa. Para cada fármaco, hay enlaces a los registros
correspondientes en PubChem Compound y DrugBank (indicados en los recuadros amarillo y azul, respectivamente), así como enlaces a los registros
de PubMed que brindan evidencia de la información del objetivo del fármaco (indicados en los recuadros amarillo y azul, respectivamente). caja
morada).
la fuente tiene su propia área de enfoque, cobertura de drogas/químicos, contenido de datos y estrategia de
curación. Por lo tanto, la verificación cruzada de datos de múltiples fuentes es una buena práctica.
OBTENCIÓN DE DATOS DE BIOACTIVIDAD DE TODOS LOS PRODUCTOS QUÍMICOS PROBADOS CONTRA UNA BÁSICO
PROTEÍNA PROTOCOLO 6
El Protocolo Básico 6 está diseñado para demostrar cómo descargar los datos de bioactividad de todos los
productos químicos probados contra una proteína dada y cómo acceder rápidamente a los datos de una
proteína ortóloga de otra proteína, utilizando el receptor de angiotensina II tipo 1 humano y su ortólogo de
rata como un ejemplo. Este protocolo es similar al Protocolo básico 5, que descarga la lista de medicamentos
que interactúan con el gen que codifica el receptor de angiotensina II tipo 1. Sin embargo, debe tenerse en
cuenta que un registro de genes en PubChem se puede asociar con múltiples registros de proteínas, lo que
refleja el hecho de que un gen puede producir múltiples secuencias de proteínas (por ejemplo, isoformas o
variantes). Porque se realizaron bioensayos archivados en PubChem
Kim
19 de 32
Protocolos Actuales
Figura 11Uso de la página Resumen de proteínas para el receptor de angiotensina II tipo 1 humano (https://pubchem.ncbi.nlm. nih.gov/
protein/P30556) para encontrar compuestos probados contra la proteína y sus ortólogos de rata. Esta página se puede navegar usando la
Tabla de contenido en la columna derecha (1). Al hacer clic en "Compuestos probados" (2), se dirige al usuario a la sección "Compuesto
probado". Los datos de bioactividad de estos compuestos frente a la proteína diana se pueden descargar a través del botón "Descargar" (3),
y se puede ver información adicional haciendo clic en el botón "Vista de pantalla completa" (4). Se puede acceder a una lista de los ortólogos
de la proteína haciendo clic en la sección "Proteínas ortólogas" (5). Al hacer clic en "P29089 (rata de Noruega)" en esta sección (6), se accede
a la página Resumen de proteínas, donde se puede encontrar información sobre los compuestos probados contra los ortólogos de rata.
típicamente contra una de las múltiples secuencias de proteínas que pueden surgir de un solo gen, las
páginas de resumen de las diferentes proteínas del mismo gen presentan diferentes conjuntos de
datos de bioactividad. Estos datos se fusionan y se presentan en la página Resumen del gen
codificante. Por lo tanto, se debe tener especial cuidado al descargar los datos de bioactividad de la
página Resumen de un gen o una proteína.
Materiales

1. Vaya a la página Resumen de proteínas del receptor de angiotensina II de tipo 1 humano.

Esto se puede hacer de manera similar a los pasos 1 a 4 del Protocolo Básico 5 (Fig. 9),
Kim
20 de 32
Protocolos Actuales
excepto que se debe hacer clic en la pestaña "Proteínas" (el cuadro morado en la Fig. 9) para acceder a los
registros de proteínas en lugar de a los registros de genes.
2. Use la Tabla de contenido ('1' en la Fig. 11) en la columna de la derecha para ir a la subsección
Compuestos probados ('2' en la Fig. 11).
Esta tabla de datos contiene los compuestos probados, los resultados de la actividad (p. ej., activo,
inactivo, no concluyente o no especificado) y los tipos y valores de actividad (p. ej., IC50, CE50, ki, kd,
etc.). Por lo general, estos datos no provienen de un solo ensayo, sino de múltiples ensayos. Significa
que un compuesto puede aparecer varias veces en esta tabla, porque se puede analizar en múltiples
ensayos. Es probable que estos ensayos se realicen en diferentes condiciones experimentales y
utilizando diferentes métodos experimentales. Además, los criterios utilizados para determinar si un
compuesto es activo o no son diferentes entre los ensayos. Por lo tanto, se debe tener cuidado al
interpretar estos datos.
3. Descargue la lista de los compuestos probados con sus datos de bioactividad frente a la proteína
objetivo ('3' en la Fig. 11).
El archivo CSV descargado contiene información más detallada presentada en la tabla de datos de la página
Resumen de proteínas. Para los datos de bioactividad derivados de un artículo científico, el PMID
correspondiente también se incluye en el archivo descargado.
4. Si es necesario, haga clic en el botón "Vista completa" ('4' en la Fig. 11) para obtener información más
detallada.
5. Vaya a la sección Proteínas ortólogas ('5' en la Fig. 11) y haga clic en "P29089 (rata de
Noruega)" ('6' en la Fig. 11). Esto lleva al usuario a la página Resumen de la proteína
ortóloga en ratas.
6. Repita los pasos 2 a 4 para descargar la lista de compuestos probados y sus datos de bioactividad
para el receptor de angiotensina II de tipo 1 de rata.
BÚSQUEDA DE COMPUESTOS ANOTADOS CON CLASIFICACIONES O BÁSICO

TÉRMINOS ONTOLÓGICOS PROTOCOLO 7
Los registros de PubChem están anotados con varias clasificaciones y términos ontológicos. Por
ejemplo, losartan (CID 3961) está anotado con tres términos de encabezados de temas médicos
(MeSH): "Bloqueadores del receptor de angiotensina II tipo 1", "Agentes antihipertensivos" y
"Agentes antiarrítmicos", como se muestra enhttps:// pubchem.ncbi.nlm.nih.gov/compuse/
3961#section=MeSH-Pharmacological-Classification.
Los usuarios de PubChem a menudo desean acceder a todos los registros anotados con un término en particular.
Esta tarea se puede realizar utilizando el Explorador de clasificación de PubChem, al que se puede acceder desde la
página de inicio de PubChem o a través dehttps:// pubchem.ncbi.nlm.nih.gov/clasificación/.
El navegador de clasificación permite a los usuarios examinar la distribución de registros de PubChem

entre nodos en la jerarquía de términos y clasificaciones ontológicas y subconjuntos de registros de
Pub-Chem anotados con el término deseado.
En este protocolo, el navegador de clasificación se utiliza para recuperar sustancias químicas con los mismos
usos terapéuticos que losartán, según las anotaciones de MeSH (es decir, sustancias químicas que se
conocen como agentes antihipertensivos y antiarrítmicos). Esto implica realizar dos búsquedas
independientes (una para agentes antihipertensivos y otra para agentes antiarrítmicos) y encontrar
sustancias químicas devueltas en ambas búsquedas. Los usuarios de PubChem a menudo necesitan realizar
una serie de búsquedas, seguidas de tomar la intersección o unión de los resultados de la búsqueda o
identificar los registros devueltos de una búsqueda, pero no de otra. Estas tareas se pueden realizar en
PubChem mediante operadores booleanos (AND, OR y NOT), como se ejemplifica en este protocolo.
Kim
21 de 32
Protocolos Actuales
Figura 12Encontrar registros anotados con clasificación y términos ontológicos, utilizando el Navegador de clasificación de PubChem (https://
pubchem.ncbi.nlm.nih.gov/classification/). También se puede acceder al navegador de clasificación haciendo clic en el botón "Examinar datos" (1),
disponible en la página de inicio de PubChem. Para encontrar compuestos anotados con los términos "Agentes antihipertensivos" de Medical Subject
Headings (MeSH), seleccione "MeSH" para la clasificación (2), "Compuesto" para los recuentos de tipos de datos que se mostrarán (3) y escriba "Agente
antihipertensivo" en la búsqueda caja (4). Al hacer clic en el recuento de registros compuestos (5) para el término MeSH, se mostrarán los registros
relevantes (consulte la Fig. 13). Tenga en cuenta que los términos MeSH están organizados en una estructura jerárquica (árbol) (como se indica en el
recuadro azul). El menú de tipo de vista (indicado en el cuadro morado) permite al usuario seleccionar para ver los términos MeSH devueltos en una
lista o vista de árbol.
Materiales

1. Vaya a la página de inicio de PubChem y haga clic en el icono "Examinar datos" debajo del cuadro de
búsqueda ('1' en la Fig. 12). Esto lleva al Explorador de clasificación, al que también se puede acceder
directamente a través dehttps:// pubchem.ncbi.nlm.nih.gov/clasificación/.
Kim
22 de 32
Protocolos Actuales
Figura 13Guardar un resultado de búsqueda para su uso posterior. Se puede guardar una búsqueda haciendo clic en el botón "Guardar para más
tarde" (1) y dándole un alias (2). Cuando se guarda correctamente, aparece el botón "Búsqueda guardada" encima del cuadro de búsqueda.
2. Seleccione "MeSH" en el menú desplegable "Seleccionar clasificación" ('2' en la Fig. 12).
El Navegador de clasificaciones admite varias clasificaciones y ontologías, incluidas, entre otras, las
siguientes:
• Encabezamientos de temas médicos (ver Recursos de Internet)

• Ontología ChEBI (Hastings et al., 2016)
• Ontología génica (Ashburner et al., 2000;Carbón et al., 2021)
• Clase farmacológica de la Administración de Alimentos y Medicamentos (FDA) (FDA, 2021)
• Clasificación Internacional de Patentes de la OMPI (Organización Mundial de la Propiedad Intelectual)
(OMPI, 2021)
• Sistema de clasificación Anatómico Terapéutico Químico (ATC) de la Organización Mundial de la
Salud (OMS) (OMS, 2021)
• Tabla de contenido compuesto de PubChem (TOC).
La TOC de compuestos de PubChem también está disponible en el Explorador de clasificación. Esto permite a los
usuarios identificar y recuperar rápidamente compuestos que tienen un tipo particular de anotación (por ejemplo,
aquellos con datos de solubilidad, aquellos con información toxicológica, aquellos que han sido probados en un
ensayo clínico, aquellos mencionados en artículos científicos o documentos de patentes, etc. ).
3. Seleccione el "Compuesto" del menú "Tipo de datos cuenta para mostrar" ('3' en la Fig.
12).
Este menú desplegable permite a los usuarios seleccionar el tipo de registro deseado. En este
ejemplo, se selecciona la opción "Compuesto" porque queremos encontrar "compuestos" anotados
con el término MeSH "Agente antihipertensivo". Si queremos encontrar “artículos” sobre agentes
antihipertensivos, se debe seleccionar la opción “PubMed”. Tenga en cuenta que las opciones
disponibles en este menú varían según la clasificación seleccionada ('2' en la Fig. 11). Por ejemplo, si
se selecciona la Clasificación Internacional de Patentes de la OMPI para la clasificación, aparecerá la
opción "Patente" para el menú de tipo de datos.
Kim
23 de 32
Protocolos Actuales
Figura 14Combinar búsquedas guardadas para realizar una búsqueda compleja. Al hacer clic en el botón "Búsquedas guardadas" (1) se
presenta un cuadro de diálogo en el que las búsquedas guardadas se pueden combinar mediante operadores booleanos (Y, O y NO). En esta
captura de pantalla, dos búsquedas guardadas "MySearch1" y "MySearch2" se combinan con el operador AND (2) y se agregan a la lista de
búsquedas guardadas. Los hits resultantes se pueden ver haciendo clic en el botón "Ver resultados" (3).
4. TipoAgentes antihipertensivosen el cuadro de búsqueda ('4' en la Fig. 12).
Este cuadro de búsqueda tiene una función de autocompletar/autosugerencia para ayudar a los usuarios a
proporcionar la palabra clave de entrada. Este cuadro puede aceptar una palabra clave o un identificador como
entrada. Para proporcionar un identificador, se debe seleccionar un tipo de identificador adecuado en el menú
desplegable junto al cuadro de búsqueda de texto.
5. En la lista de aciertos devuelta, busque el nodo "Agentes antihipertensivos" y haga clic en el recuento de
registros para ese nodo ('5' en la Fig. 12).
Como se indica en el cuadro azul de la Figura 12, cada registro devuelto corresponde a un nodo en un
árbol de clasificación. Los resultados devueltos se pueden presentar de dos maneras diferentes (la vista de
árbol y la vista de lista), y el usuario puede moverse entre las dos vistas seleccionando "Árbol" o "Lista" en
el menú "Tipo de vista" (indicado por el color púrpura). cuadro de la Fig. 12).
Kim
24 de 32
Protocolos Actuales
6. El paso anterior conduce a una página web que muestra compuestos anotados como antihipertensivos
(Fig. 13). Guarde esta lista haciendo clic en el botón "Guardar para más tarde" disponible en la columna
de la derecha y proporcionando un alias para esa lista (por ejemplo, "MySearch1") ('1' en la Fig. 13).
Cuando la lista se guarda correctamente, aparece un nuevo botón "Guardado buscado (1)" encima del
cuadro de búsqueda ('2' en la Fig. 13).
El mensaje que se presenta en el cuadro de búsqueda del panel inferior de la Figura 13 no es la consulta que
pueden utilizar los usuarios.
7. Repita los pasos del 1 al 6 para recuperar la lista de compuestos anotados con el término
MeSH "Agentes antiarrítmicos" y guárdelos como "MySearch2".
Si ambas listas se guardan correctamente, aparecerá un botón "Búsquedas guardadas (2)" encima del cuadro de
búsqueda como se muestra en la Figura 14.
8. Haga clic en el botón “Búsqueda guardada (2)” ('1' en la Fig. 14). Esto abre un cuadro de diálogo
que permite a los usuarios realizar búsquedas avanzadas combinando resultados de búsquedas
anteriores utilizando operadores booleanos (Y, O y NO).
Los resultados guardados caducan después de 7 horas de inactividad.
9. Seleccione los resultados guardados, "MySearch1" y "MySearch2", en los menús desplegables

Consulta 1 y Consulta 2 y seleccione "Y" en el menú Operador. Luego, haga clic en el botón
"Agregar a guardados" ('2' en la Fig. 14).
10. Haga clic en el botón "Ver resultados" para ir a la página web que muestra la lista de compuestos
resultante ('3' en la Fig. 14).
OBTENER ESTEREISÓMEROS E ISOTOPÓMEROS DE UN COMPUESTO BÁSICO

MEDIANTE BÚSQUEDA DE IDENTIDAD PROTOCOLO 8
Este protocolo demuestra cómo encontrar estereoisómeros e isotopómeros de un compuesto

determinado, con valsartán (CID 60846) como ejemplo. Esta tarea se puede realizar mediante la
búsqueda de identidad, que es uno de los tipos de búsqueda de estructura admitidos por PubChem.
Una búsqueda de identidad devuelve compuestos idénticos a la molécula de consulta. Si bien puede
parecer sencillo, los resultados de la búsqueda pueden variar, según lo que se entienda por
compuestos "idénticos". La búsqueda de identidad de PubChem permite cierta flexibilidad en la
definición de identidad química. Por defecto, dos moléculas se consideran idénticas si tienen la misma
conectividad, isotopismo y estereoquímica [es decir, configuración (R/S) e isomería cis/trans]. El
usuario puede cambiar este comportamiento eligiendo ignorar el isotopismo y/o la estereoquímica.
Cuando se ignora la estereoquímica, se obtienen compuestos con la misma conectividad e
isotopismo, pero con estereoquímica variable (es decir, estereoisómeros). Si se ignora el isotopismo,
la búsqueda de identidad encuentra compuestos con la misma conectividad y estereoquímica, pero
con diferentes isótopos (es decir, isotopómeros). En este protocolo, la búsqueda de identidad se
realiza con diferentes definiciones de identidad química para encontrar estereoisómeros e
isotopómeros de valsartán (CID 60846), que es un análogo estructural de losartán.
Materiales

1. Vaya a la página de inicio de PubChem, escribaEstructura CID 60846 ('1' en la Fig. 15), y presione el
botón de búsqueda.
La consultaEstructura CID 60846invoca una búsqueda de estructura química para CID 60846.
SiCódigo postal 60846se utiliza solo como una consulta (sinestructura), dirigirá al usuario a la
página Compound Summary de CID 60846.
Kim
25 de 32
Protocolos Actuales
Figura 15Realización de una búsqueda de identidad. La consulta “estructura CID 60846” (1) inicia varios tipos de búsquedas de estructura
utilizando la estructura de 60846 como consulta. El resultado de la búsqueda de identidad se puede ver en la pestaña "Identidad" (2). El
botón Configuración permite a los usuarios seleccionar una de las varias definiciones de identidad química (3).
2. Haga clic en la pestaña "Identidad" ('2' en la Fig. 15) y en el botón "Configuración" ('3' en la Fig. 15).
Esto mostrará las opciones que controlan la definición de identidad química. De forma predeterminada, la
opción "Mismo isótopo estéreo" está seleccionada, lo que significa que la búsqueda devuelve compuestos
con la misma conectividad, estereoquímica e isótopo. El proceso de estandarización de la estructura química
de PubChem (Hähnke et al., 2018) garantiza que las estructuras químicas con la misma conectividad,
estereoquímica e isotopismo se asignen a un CID idéntico. Por lo tanto, una búsqueda de identidad con la
opción predeterminada devuelve solo un resultado, la consulta en sí, si la molécula de consulta existe en la
base de datos de PubChem Compound, o ningún resultado si la consulta no existe en Compound.
3. Seleccione la opción "Mismo isótopo" para encontrar estereoisómeros de valsartán.
Como se mencionó anteriormente, la conectividad, el isotopismo y la estereoquímica son los tres

factores considerados durante una búsqueda de identidad. La opción "Mismo isótopo" requiere que
los compuestos idénticos tengan la misma conectividad e isótopos, pero ignora la estereoquímica.
Como resultado, esta opción devuelve estereoisómeros de la molécula de consulta. Por ejemplo, la
molécula de consulta (valsartan: CID 60846) tiene un centro quiral en configuración (S), y la opción
"Mismo isótopo" devuelve tres compuestos: la consulta en sí [forma (S)], CID 5284633 [(R )-forma], y
CID 5650 (con la configuración "no especificada" en su centro quiral) (ver Fig. 16).
Además, la búsqueda de identidad tiene opciones llamadas “Estéreo no conflictivo” y “Estéreo no

conflictivo del mismo isótopo” (Fig. 15). Estas opciones ayudan al usuario a lidiar con la ambigüedad
que surge de los estereocentros con una configuración no especificada. Por ejemplo, la
configuración no especificada en el centro quiral de CID 5650 significa que el compuesto puede ser
una forma (R), una forma (S) o ambas (por ejemplo, una mezcla racémica). CID 5650 puede o no tener
la misma estereoquímica que la forma (S) (CID 60846), el compuesto de consulta utilizado para una
búsqueda de identidad en este protocolo. Por lo tanto, se considera que estos dos CID tienen
estereoquímica "no conflictiva". Por el contrario, las formas (R) y (S) tienen una estereoquímica "en
conflicto", porque no pueden tener la misma estereoquímica. Las opciones "Estéreo no conflictivo" y
"Estéreo no conflictivo del mismo isótopo" permiten al usuario tener en cuenta esta ambigüedad con
respecto a la configuración estéreo no especificada. Si se utiliza la opción "Mismo isótopo estéreo no
conflictivo" (en lugar de "Mismo isótopo") en este paso, la búsqueda de identidad devolverá solo dos
compuestos, el compuesto de consulta (forma (S)) y CID 5650 (con estereoquímica no especificada) .
Kim
26 de 32
Protocolos Actuales
Figura 16Compuestos con estereocentros conflictivos y no conflictivos.
4. Descargue los estereoisómeros devueltos en formato CSV.
5. Seleccione la opción "Mismo estéreo" para encontrar estereoisómeros de valsartán.
Con esta opción, la identidad química se evaluará en función de la conectividad y la estereoquímica, pero se
ignorará el isotopismo. Como resultado, este paso da como resultado la consulta y sus diversos
isotopómeros.
6. Descargue los isotopómeros devueltos en formato CSV.
COMENTARIO
Información de contexto 2021; Kim et al., 2016) es un recurso de información
PubChem como archivo y como química popular que desempeña un papel doble como
base de conocimientos depósito de datos (archivo) y base de conocimientos.
Pub Chem (https:// pubchem.ncbi.nlm.nih. Como depósito de datos, PubChem necesita archivar
gobierno; Kim, 2016; Kim et al., 2019; Kim et al., varios tipos de información química
Kim
27 de 32
Protocolos Actuales
proporcionados por contribuyentes de datos tity”, como se demuestra en el Protocolo básico 8. De forma
individuales. Como base de conocimientos, predeterminada, la búsqueda de identidad devuelve
debe proporcionar al usuario un fácil acceso a compuestos con la misma conectividad, estereoquímica e
datos químicos completos de fuentes isotopismo que la molécula de consulta.
autorizadas. Estas dos demandas se tienen en
cuenta en la organización de datos en Búsqueda de similitud 2-D y 3-D
PubChem. Como se mencionó anteriormente, La búsqueda de similitud devuelve estructuras compuestas.
PubChem tiene múltiples recopilaciones de turalmente similar a una molécula de consulta

datos, que incluyen Sustancia, Compuesto, (Protocolos básicos 2 y 3). Debido a que la similitud
Bioensayo, Gen, Proteína, Vía y Patente. Entre molecular es un concepto subjetivo, que no se puede
ellos, Substance y BioAssay juegan un papel medir físicamente, se han propuesto varios métodos de
como archivo. Substance almacena similitud para cuantificarla. Los más utilizados son los
información química proporcionada por métodos de similitud 2-D. En estos enfoques, la
fuentes de datos individuales, y BioAssay similitud entre dos moléculas se evalúa comparando
archiva la descripción y los resultados de las sus huellas dactilares moleculares (vectores de
pruebas de los experimentos de ensayos fragmentos binarios que codifican las estructuras
biológicos. Compound es una base de bidimensionales de las moléculas) y calculando una
conocimiento que proporciona información puntuación de similitud, que cuantifica cuán similares
completa sobre estructuras químicas únicas son las moléculas. Este puntaje se puede calcular
extraídas de Substance. Las otras colecciones usando varias métricas, pero el coeficiente de Tanimoto
de datos (es decir, Gen, Proteína, Vía, es la opción más popular. En otro grupo de métodos,
llamados métodos de similitud tridimensional, se
superponen estructuras tridimensionales de moléculas
Búsqueda de estructuras químicas en PubChem para encontrar la "mejor" superposición entre ellas. Si
Más allá de las búsquedas de nombres químicos (Ba- bien los métodos de similitud 3D son mucho más lentos
sic Protocols 1), PubChem permite al usuario buscar que los métodos de similitud 2D, a menudo reconocen
por estructura química. La estructura química de similitudes moleculares que no se detectan fácilmente
entrada se puede proporcionar utilizando mediante métodos de similitud 2-D. PubChem admite
notaciones lineales como SMILES (Weininger, 1988, búsquedas de similitud en 2D y 3D. Por lo general, dan
1990; Weininger et al., 1989) e InChI (Heller et al., diferentes listas de compuestos exitosos, que se
2015), o dibujarse con Pub-Chem Sketcher complementan entre sí. A continuación se proporciona
(Ihlenfeldt, Bolton, y Bryant, 2009). Si la estructura información más detallada sobre los métodos de
de entrada existe en la base de datos de Pub-Chem similitud 2D y 3D utilizados en PubChem.
Compound, su CID también se puede usar como
una consulta. Alternativamente, también se puede
usar la estructura de un compuesto de éxito de una Búsqueda de subestructuras y superestructuras
búsqueda anterior, como se demuestra en los Cuando una estructura química se presenta como parte
Protocolos básicos 2 y 3). Se admiten varios tipos de de una estructura química más grande, la primera
búsquedas de estructuras, incluida la búsqueda de se denomina subestructura y la segunda se
identidad, búsquedas de similitud 2D y 3D y denomina superestructura. Por ejemplo, como se
búsquedas de subestructura/superestructura. muestra en la Figura 6, la estructura de CID
15207492 (5-(2-fenilfenil)-2H-tetrazol) se presenta
Búsqueda de identidad como parte de CID 3961. Por lo tanto, CID 15207492
A través de la búsqueda de identidad (Protocolo Básico 8), es una subestructura de CID 3961.
el usuario puede encontrar compuestos idénticos a un En una búsqueda de subestructura, se proporciona una
compuesto de consulta. Si bien parece sencillo, la subestructura como una consulta para encontrar moléculas
búsqueda de identidad puede dar como resultado que contengan la subestructura (es decir, superestructuras
resultados diferentes, según la definición de que contengan la subestructura de consulta). Por el
"compuestos idénticos". Por ejemplo, mientras que la contrario, la búsqueda de superestructura devuelve
glucosa marcada isotópicamente (con13C y15átomos de moléculas que comprenden o constituyen la consulta de
N) tienen las mismas propiedades químicas y biológicas superestructura proporcionada (es decir, subestructuras
que uno no marcado, muestran diferentes señales en que están contenidas en la superestructura de consulta).
experimentos de resonancia magnética nuclear (NMR) PubChem admite búsquedas de subestructuras y
o espectrometría de masas (MS). Por lo tanto, superestructuras. También proporciona opciones de
dependiendo del contexto, las dos moléculas pueden o combinación flexibles que permiten al usuario especificar
no considerarse idénticas. La búsqueda de identidad de cómo tratar la estereoquímica, el isotopismo, el
Pub-Chem permite al usuario seleccionar uno de varios tautomerismo, las cargas formales, los enlaces aromáticos y
Kim
contextos diferentes de "identidad". los hidrógenos explícitos durante
28 de 32
Protocolos Actuales
las busquedas El Protocolo básico 4 demuestra cómo ers A y B. La similitud de características se evalúa
realizar una búsqueda de subestructura utilizando CID utilizando el color-Tanimoto (CT) (OpenEye Scientific
15207942 como subestructura de consulta. Software, 2010a, 2010b), como se muestra en la
Ecuación 3:
Similitud molecular 2-D y 3-D
∑
evaluación en PubChem FVFAB
Esta sección proporciona una breve descripción de Connecticut= ∑ ∑ F ∑
FVFAutomóvil club británicoFV+cama y desayuno− FVFAB
los métodos de similitud 2-D y 3-D utilizados en
PubChem y se brinda información más detallada Ecuación 3
sobre ellos en otro lugar (Bolton et al., 2011; Kim et
al., 2016; Kim, Bolton y Bryant, 2011). PubChem donde el índice “F” indica cualquiera de los seis tipos de
evalúa la similitud molecular 2-D utilizando las átomos de características (colores) “ficticios” (donadores y
huellas dactilares de la subestructura de PubChem aceptores de enlaces de hidrógeno, cationes, aniones,
hidrófobos y anillos.),VF
F
(PubChem, 2009). Son vectores binarios de 881 bits yV y desayunoson
Automóvil club británicocama los
de largo, cada bit representa la ausencia (0) o la Volúmenes de autosuperposición de los confórmeros A y B para
presencia (1) de una característica estructural el tipo de átomo característicoF, respectivamente, yVF
AB
particular que se encuentra en una estructura es el volumen de superposición entre los confórmeros
química, como un recuento de elementos, un tipo A y B para el tipo de átomo característicoF. Para
de sistema de anillos, emparejamiento de átomos. y considerar la similitud de forma (estérica) y la similitud
patrones de fragmentos. Las huellas dactilares de de características (químicas) simultáneamente, se
PubChem se utilizan para cuantificar la similitud utiliza el combo-Tanimoto (ComboT), como se indica en
bidimensional entre dos compuestos, junto con el la Ecuación 4:
coeficiente de Tanimoto, como se muestra en la
Ecuación 1 (Chen & Reynolds, 2002; Holliday et al., Combo=S T+Connecticut
2002; Holliday et al., 2003):
ecuación 4
Tanimoto=
norteAB
Debido a que las puntuaciones de ST y CT
norteA+norteB−norteAB
varían de 0 (sin similitud) a 1 (para moléculas
Ecuación 1 idénticas), por definición, la puntuación
ComboT puede tener un valor de 0 a 2 (sin
dóndenorteAynorteBson los recuentos de bits
normalización).
establecidos en las huellas dactilares que representan
Para encontrar la mejor superposición entre
las moléculas A y B, respectivamente, ynorteABes el
moléculas, se pueden utilizar dos enfoques:
recuento de bits comunes establecidos en ambas
optimización de forma y optimización de
huellas dactilares. Mientras que un coeficiente de
características. El enfoque de optimización de forma
Tanimoto varía de 0 (sin similitud entre moléculas) a 1
encuentra la superposición molecular que maximiza la
(para moléculas idénticas, en relación con la resolución
puntuación de ST y luego calcula las puntuaciones de
de la huella digital de la subestructura).
CT y ComboT en esa superposición. Por otro lado, el
Por otra parte, la similitud tridimensional en
enfoque de optimización de funciones considera la
Pub-Chem se evalúa utilizando el método de
forma y la función simultáneamente para encontrar la
superposición de forma gaussiana de Grant and
mejor superposición.
Pickup (Grant & Pickup, 1995, 1996, 1997; Grant,
Cabe señalar que la comparación de similitud
Gallardo, & Pickup, 1996), implementado en el
tridimensional requiere estructuras moleculares
Superposición rápida de estructuras químicas
tridimensionales (es decir, confórmeros) y que una
(ROCS; Rush, Grant, Mosyak y Nicholls, 2005). Este
molécula puede tener múltiples confórmeros. Por lo
método cuantifica dos aspectos de la similitud
tanto, la similitud tridimensional entre dos moléculas se
tridimensional (es decir, la similitud de forma y la
evalúa calculando las puntuaciones de similitud
similitud de características) entre dos confórmeros.
tridimensional para todos los posibles pares de
La similitud de la forma se calcula usando la forma-
confórmeros que surgen de la combinación de los
Tanimoto (ST) (OpenEye Scientific Software, 2010a,
confórmeros de las moléculas y seleccionando la
2010b), como se muestra en la Ecuación 2:
puntuación más alta entre ellos. Para cada compuesto
VAB en Pub-Chem, se genera un modelo de confórmero que
S T=
VAutomóvil club británico+Vcama y desayuno−VAB contiene hasta 500 confórmeros diversos, entre los
cuales se ponen a disposición del público hasta 10
ecuación 2
confórmeros diversos por compuesto y también se
dóndeVAutomóvil club británicoyVcama y desayunoson los volúmenes de pueden usar para la evaluación de similitud 3-D en
autosuperposición de los confórmeros A y B, respectivamente, y PubChem (Bolton et al., 2011; Bolton et al., 2011a; Kim
Kim
VABes el volumen de superposición entre conform- et al., 2013).
29 de 32
Protocolos Actuales
Parámetros críticos y desde donde se originaron los datos), para que los usuarios
resolución de problemas puedan ir a la fuente de datos original y encontrar
La interfaz de búsqueda de PubChem proporciona filtros información adicional que pueda ayudarlos a comprender
que permiten a los usuarios refinar los registros de resultados los datos contenidos en PubChem.
en función de los atributos seleccionados. Cada una de las
colecciones de datos de PubChem tiene su propio conjunto de Agradecimientos
filtros. Por ejemplo, los registros compuestos se pueden filtrar Este trabajo fue apoyado por el Programa de
en función de las propiedades moleculares (p. ej., peso Investigación Intramural de la Biblioteca
molecular, número de enlaces giratorios, número de átomos Nacional de Medicina, Institutos Nacionales de
pesados, número de donantes y aceptores de enlaces de Salud. El autor desea agradecer a Dera
hidrógeno, área de superficie polar y XLogP), así como la fecha Tompkins, NIH Library Editing Service, por
de creación. Los filtros utilizados en los registros de genes revisar el manuscrito.
incluyen grupos taxonómicos (p. ej., humanos, ratones, ratas,
etc.) y fuentes de datos (p. ej., Bioensayo y Pathway). Estos filtros Contribuciones de autor
ayudan a los usuarios a encontrar información más específica
Sunghwan Kim: conceptualización,
metodología, visualización, redacción del borrador
para sus necesidades.
original, revisión de la redacción y edición.
Las búsquedas de estructuras químicas en PubChem se
pueden personalizar usando varias opciones disponibles a
Conflicto de intereses
través del botón "Configuración". Vale la pena mencionar
Los autores declaran no tener conflicto de intereses.
que, debido a que las búsquedas de estructuras químicas
consumen mucho más tiempo que las búsquedas de texto
Declaración de disponibilidad de datos
(palabra clave), están configuradas de forma Todos los datos, herramientas y servicios de PubChem
predeterminada para detenerse cuando se han devuelto mil se proporcionan al público de forma gratuita.
compuestos exitosos. Si bien la búsqueda puede
extenderse más allá de este límite de 1000 resultados Literatura citada
(marcando la casilla "Buscar todo"), solo se devolverán Armstrong, JF, Faccenda, E., Harding, SD,
hasta un millón de resultados, como máximo. Por lo tanto, Pawson, AJ, Southan, C., Sharman, JL... Nc, I.
una estructura de consulta debe ser lo suficientemente (2020). La Guía IUPHAR/BPS de FARMACOLOGÍA
en 2020: Ampliación del contenido de
específica para no exceder este límite.
inmunofarmacología e introducción de la Guía
Los protocolos de este artículo están diseñados IUPHAR/MMV de FARMACOLOGÍA CONTRA LA
para demostrar la utilidad de PubChem y pueden MALARIA.Investigación de ácidos nucleicos,48
modificarse y adoptarse fácilmente para muchas (D1), D1006–D1021. doi: 10.1093/nar/gkz951.
otras tareas. Vale la pena mencionar que estos Ashburner, M., Ball, California, Blake, JA, Botstein,
protocolos son para usuarios interactivos que D., Butler, H., Cherry, JM, … Ontología genética,
acceden a los datos de PubChem a través de C. (2000). Gene Ontology: Herramienta para la
unificación de la biología.Genética de la Naturaleza,25
navegadores web (por ejemplo, Google Chrome,
(1), 25–29. doi: 10.1038/75556.
Microsoft Edge, Safari, FireFox, etc.). Cuando es
Bolton, EE, Chen, J., Kim, S., Han, LY, He,
necesario repetir una tarea interactiva para una
SQ, Shi, WY... Bryant, SH (2011). Pub-Chem3D:
gran cantidad de registros de PubChem, es un nuevo recurso para científicos.Revista de
probable que se pueda automatizar a través de las quimioinformática,3, 32. doi: 10.1186/
interfaces programáticas de PubChem, como PUG- 1758-2946-3-32.
REST (Kim, Thiessen, Bolton y Bryant, 2015; Kim, Bolton, EE, Kim, S. y Bryant, SH
Thiessen, Cheng, Yu, & Bolton, 2018) y PUG-View (2011a). PubChem3D: Generación de
(Kim et al., 2019). PubChem también admite la conformadores.Revista de quimioinformática,3,
4. doi: 10.1186/1758-2946-3-4.
descarga masiva de sus datos a través del sitio FTP
(protocolo de transferencia de archivos) de Bolton, EE, Kim, S. y Bryant, SH
(2011b). PubChem3D: conformadores
PubChem. Puede encontrar información adicional
similares.Revista de quimioinformática,3, 13.
sobre PubChem en PubChemDocs (https:// doi: 10.1186/1758-2946-3-13.
pubchemdocs.ncbi.nlm.nih.gov).
Burley, SK, Berman, HM, Bhikadiya, C., Bi,
CX, Chen, L., Di Costanzo, L., … Zardecki,
Comprender los resultados C. (2019). Banco de datos de proteínas RCSB:
PubChem contiene una gran cantidad de datos, Estructuras macromoleculares biológicas que
permiten la investigación y la educación en biología
recopilados de cientos de fuentes de datos. Aunque
fundamental, biomedicina, biotecnología y energía.
PubChem hace todo lo posible para garantizar una alta
Investigación de ácidos nucleicos,47(D1), D464–
calidad de los datos, se pueden encontrar D474. doi: 10. 1093/nar/gky1004.
inconsistencias en los datos de diferentes fuentes. Por
Carbono, S., Douglass, E., Bueno, BM, Unni,
esta razón, PubChem conserva información sobre la DR, Harris, NL y Mungall, CJ … Ontología
Kim
procedencia de los datos (es decir, qué fuente genética, C. (2021) La ontología genética
30 de 32
Protocolos Actuales
recurso: Enriquecimiento de una mina de oro.Investigación Halgren, TA (1996b). campo de fuerza molecular de Merck
de ácidos nucleicos,49(D1), D325–D334. doi: 10.1093/nar/ . 2. MMFF94 van der Waals y parámetros
gkaa1113. electrostáticos para interacciones intermoleculares.
Revista de Química Computacional,17(5-6), 520–
Chen, X. y Reynolds, CH (2002). Actuación
552. doi: 10.1002/(sici)1096-987×(199604) 17: 6〈
de medidas de similitud en la búsqueda de similitud
520::Ayuda-jcc2〉3.3.Co;2-w.
basada en fragmentos 2D: comparación de
descriptores estructurales y coeficientes de Halgren, TA (1999). FFMM VI. MMFF94s op-
similitud.Revista de Información Química y Ciencias ción para estudios de minimización de energía.
de la Computación,42(6), 1407–1414. doi: 10.1021/ Revista de Química Computacional,20(7), 720–
ci025531g. 729. doi: 10.1002/(sici)1096-987×(199905) 20: 7〈
720::Ayuda-jcc7〉3.0.Co;2-x.
Cheng, T., Zhao, Y., Li, X., Lin, F., Xu, Y.,
Zhang, X. … Lai, L. (2007). Cálculo de los Hastings, J., Owen, G., Dekker, A., Ennis, M.,
coeficientes de partición octanol-agua Kale, N., Muthukrishnan, V. … Steinbeck, C. (2016).
guiando un modelo aditivo con conocimiento. ChEBI en 2016: servicios mejorados y una colección
Revista de información y modelado químico, de metabolitos en expansión.Investigación de
47(6), 2140–2148. doi: 10.1021/ci700257y. ácidos nucleicos,44(D1), D1214–D1219. doi:
10.1093/nar/gkv1031.
Davis, AP, Grondin, CJ, Johnson, RJ, Sci-
aky, D., Wiegers, J., Wiegers, TC y Mattingly, CJ Heller, SR, McNaught, A., Pletnev, I., Stein,
(2021). Base de datos de toxicogenómica S. y Chekhovskoi, D. (2015). InChI, el
comparativa (CTD): actualización de 2021. identificador químico internacional IU-PAC.
Investigación de ácidos nucleicos,49(D1), D1138– Revista de quimioinformática,7, 23. doi:
D1143. doi: 10.1093/nar/gkaa891. 10.1186/ s13321-015-0068-4.
FDA. (2021). Clase farmacológica. Disponible Holliday, JD, Hu, CY y Willett, P. (2002).
en https://www.fda.gov/industry/ Agrupación de coeficientes para el cálculo de
structuredproduct-labeling-resources/ similitud y disimilitud intermolecular utilizando
pharmacologicclass. cadenas de bits de fragmentos 2D.Química
combinatoria y cribado de alto rendimiento,5(2),
Freshour, SL, Kiwala, S., Cotto, KC, Coff-
155–166. doi: 10.2174/1386207024607338.
man, AC, McMichael, JF, Song, JJ… Wagner, AH
(2021). Integración de la base de datos de Holliday, JD, Salim, N., Whittle, M. y Willett, P.
interacción fármaco-gen (DGIdb 4.0) con esfuerzos (2003). Análisis y visualización de la dependencia del
abiertos de colaboración abierta.Investigación de tamaño de los coeficientes de similitud química.Revista
ácidos nucleicos,49(D1), D1144–D1151. doi: de Información Química y Ciencias de la Computación,
10.1093/nar/gkaa1084. 43(3), 819–828. doi: 10.1021/ci034001x.
Grant, JA, Gallardo, MA y camioneta, BT Ihlenfeldt, WD, Bolton, EE y Bryant, S.

(1996). Un método rápido de comparación de H. (2009). El dibujante de estructuras químicas
formas moleculares: una aplicación simple de una de PubChem.Revista de quimioinformática,1, 20.
descripción gaussiana de formas moleculares. doi: 10.1186/1758-2946-1-20.
Revista de Química Computacional,17(14), 1653–
Kim, S. (2016). Aprovechar al máximo Pub-
1666. doi: 10.1002/(sici)1096-987×(19961115) 17: 14
Chem para el cribado virtual.Opinión de expertos sobre el
〈1653::Ayuda-jcc7〉3.0.Co;2-k.
descubrimiento de fármacos,11(9), 843–855. doi: 10.1080/
Subvención, JA y recogida, BT (1995). un gaus- 17460441.2016.1216967.
Descripción siana de la forma molecular.Revista
Kim, S., Bolton, EE y Bryant, SH (2011).
de química física,99(11), 3503–3510. doi:
PubChem3D: similitud tridimensional biológicamente
10.1021/j100011a016.
relevante.Revista de quimioinformática,3, 26. doi:
Subvención, JA y recogida, BT (1996). Una de- 10.1186/1758-2946-3-26.
descripción de la forma molecular (vol 99, pg
Kim, S., Bolton, EE y Bryant, SH (2013). Pub-
3505, 1995).Revista de química física,100(6),
Chem3D: Precisión del conjunto conformador.
2456–2456. doi: 10.1021/jp953707u doi: 10.
Revista de quimioinformática,5, 1. doi: 10.1186/
1021/jp953707u.
1758-2946-5-1.
Subvención, JA y recogida, BT (1997). forma gaussiana
Kim, S., Bolton, EE y Bryant, SH (2016).
métodos. En WF van Gunsteren, PK Weiner y AJ
Compuestos similares frente a confórmeros similares:
Wilkinson (Eds.),Simulación por ordenador de
Complementariedad entre conjuntos vecinos 2-D y 3-D
sistemas biomoleculares(págs. 150–176).
de PubChem.Revista de quimioinformática,8, 62. doi:
Dordrecht: Editores académicos de Kluwer.
10.1186/s13321-016-0163-1.
Hähnke, VD, Kim, S. y Bolton, EE (2018). Kim, S., Chen, J., Cheng, T., Gindulyte, A., Él, J.,
Estandarización de estructuras químicas de
Él, S. … Bolton, EE (2019). Actualización de PubChem
PubChem. Revista de quimioinformática,10, 36. doi:
2019: Acceso mejorado a datos químicos.
10. 1186/s13321-018-0293-8.
Halgren, TA (1996a). Fuerza molecular Merck D1109. doi: 10.1093/nar/gky1033.
campo .1. Base, forma, alcance, Kim, S., Chen, J., Cheng, T., Gindulyte, A., He,
parametrización y rendimiento de MMFF94. J., He, S.... Bolton, EE (2021). PubChem en 2021:
Revista de Química Computacional,17(5-6), nuevo contenido de datos e interfaces web
490– 519. doi: 10.1002/(sici)1096-987×( mejoradas.Investigación de ácidos nucleicos,49(D1),
199604) 17: 6〈490::Ayuda-jcc1〉3.3.Co;2-v. D1388–D1395. doi: 10.1093/nar/gkaa971. Kim
31 de 32
Protocolos Actuales
Kim, S., Thiessen, Pensilvania, Bolton, EE y Bryant, PubChem. (2014). ¿Cuál es la diferencia entre un
SH (2015). PUG-SOAP y PUG-REST: Servicios web sustancia y un compuesto en PubChem? Disponible
para acceso programático a información en http://go.usa.gov/x72qw.
química en PubChem.Investigación de ácidos
Rush, TS, Grant, JA, Mosyak, L. y Nicholls,
nucleicos,43(W1), W605–W611. doi: 10.1093/nar/
A. (2005). Un método de salto de andamio
gkv396.
tridimensional basado en la forma y su aplicación a
Kim, S., Thiessen, Pensilvania, Bolton, EE, Chen, J., Fu, una interacción proteína-proteína bacteriana.
G., Gindulyte, A. … Bryant, SH (2016). Bases de datos Revista de Química Medicinal,48(5), 1489–1495. doi:
de sustancias y compuestos de Pub-Chem. 10.1021/jm040163o.
Weininger, D. (1988). Sonrisas, un lenguaje quimico
D1213. doi: 10.1093/nar/gkv951.
calibre y sistema de información.1. Introducción a la
Kim, S., Thiessen, Pensilvania, Cheng, T., Zhang, metodología y reglas de codificación.Revista de
J., Gindulyte, A. y Bolton, EE (2019). PUG-View: Información Química y Ciencias de la Computación,
acceso programático a anotaciones químicas 28(1), 31–36. doi: 10.1021/ci00057a005.
integradas en PubChem.Revista de Weininger, D. (1990). Sonrisas.3. representar-gráfico
quimioinformática,11(1), 56. doi: 10.1186/ Representación de estructuras químicas.Revista de
s13321-019-0375-2. Información Química y Ciencias de la Computación,
Kim, S., Thiessen, Pensilvania, Cheng, TJ, Yu, B. y 30(3), 237–243. doi: 10.1021/ci00067a005.
Bolton, EE (2018). Una actualización de PUG-REST:
Weininger, D., Weininger, A. y Weininger, JL
interfaz RESTful para el acceso programático a
(1989). Sonrisas .2. algoritmo para la generación de
PubChem.Investigación de ácidos nucleicos,46(W1),
notación de sonrisas únicas.Revista de Información
W563–W570. doi: 10.1093/nar/gky294.
Química y Ciencias de la Computación,29(2), 97–
Lipinski, CA, Lombardo, F., Dominy, BW y 101. doi: 10.1021/ci00062a008.
Feeney, PJ (1997). Enfoques experimentales y
OMS. (2021). Anatómico Terapéutico Químico
computacionales para estimar la solubilidad y la
(ATC) Clasificación. Disponible en https://www.
permeabilidad en entornos de descubrimiento y desarrollo
who.int/tools/atc-ddd-toolkit/atc-classification.
de fármacos.Revisiones avanzadas de administración de
medicamentos,23(1-3), 3–25. doi: 10.1016/s0169-409× OMPI. (2021). Clasificación Internacional de Patentes
(96)00423-1. catión. Disponible en https://www.wipo.int/
classifications/ipc/en/.
Méndez, D., Gaulton, A., Bento, AP, Cham-
bers, J., De Veij, M., Felix, E. … Leach, AR (2019). Wishart, DS, Feunang, YD, Guo, AC, Lo,
ChEMBL: Hacia la deposición directa de datos de EJ, Marcu, A., Grant, JR… Wilson, M. (2018).
bioensayo.Investigación de ácidos nucleicos,47(D1), DrugBank 5.0: una actualización importante de la
D930–D940. doi: 10.1093/nar/gky1075. base de datos de DrugBank para 2018.Investigación
de ácidos nucleicos,46(D1), D1074–D1082. doi:
Software científico OpenEye. (2010a). ROCS— 10.1093/nar/gkx1037.
Superposición rápida de estructuras químicas. 3.1.0.
Santa Fe, Nuevo México: OpenEye Scientific Software, Recursos de Internet
Inc. https://www.daylight.com/dayhtml/doc/theory/
Software científico OpenEye. (2010b). ShapeTK- teoría.inteligencia.html.
C++. 1.8.0. Santa Fe, Nuevo México: OpenEye Scientific Daylight Chemical Information Systems Inc.
Software, Inc. SMARTS: un lenguaje para describir patrones
moleculares.
PubChem. (2009). Aleta de subestructura PubChem
huella dactilar (20/02/2021). Disponible en https:// https://www.nlm.nih.gov/mesh.
ftp. ncbi.nlm.nih.gov/pubchem/specifications/ Biblioteca Nacional de Medicina (NLM): Medical Sub-
pubchem_fingerprints.pdf. Encabezados de proyecto (2021).
Kim
32 de 32
Protocolos Actuales

Current Protocols - 2021 - Kim - Exploring Chemical Information in PubChem - En.es

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Current Protocols - 2021 - Kim - Exploring Chemical Information in PubChem - En.es

Cargado por

Copyright:

Formatos disponibles

Traducido del inglés al español - www.onlinedoctranslator.

Explorando información química en

búsquedas de estructuras, incluidas búsquedas de identidad, búsquedas de similitudes en 2D y 3D y búsquedas de subestructuras y

Protocolos actuales publicados por Wiley Periodicals LLC.

Protocolo básico 1:Encontrar genes y proteínas que interactúen con un compuesto

Protocolo básico 7:Encontrar compuestos anotados con clasificaciones o términos

Palabras clave: quimioinformática - búsqueda de estructuras químicas - descubrimiento de fármacos -

El contenido de información de PubChem, recopilado de cientos de fuentes de datos, está organizado

La interfaz de búsqueda de PubChem, disponible en la página de inicio de PubChem (https://pubchem.

ENCONTRAR GENES Y PROTEÍNAS QUE INTERACTUAN CON UN BÁSICO

Los datos de interacción químico-proteína y químico-gen en PubChem provienen de múltiples

Un navegador web actualizado, como Google Chrome, Microsoft Edge, Safari o

1. Vaya a la página de inicio de PubChem (https:// pubchem.ncbi.nlm.nih.gov).

2. Tipolosartánen el cuadro de búsqueda y haga clic en el botón de búsqueda (lupa) ('1' en

4. Vaya a la subsección "Interacciones con bancos de medicamentos" en la sección "Interacciones y

La subsección "Interacciones de DrugBank" contiene información sobre las macromoléculas que

BÁSICO ENCONTRAR COMPUESTOS SIMILARES A MEDICAMENTOS SIMILARES A UN COMPUESTO DE CONSULTA

Un navegador web actualizado, como Google Chrome, Microsoft Edge, Safari o

• Un peso molecular inferior a 500 g/mol

ENCONTRAR COMPUESTOS SIMILARES A UN COMPUESTO DE CONSULTA A TRAVÉS DE LA BÁSICO

Un navegador web actualizado, como Google Chrome, Microsoft Edge, Safari o

3. Haga clic en el botón "Descargar" ('2' en la Fig. 4).

• No demasiado grande (con≤50 átomos que no son de hidrógeno)

CÁLCULO DE PUNTUACIONES DE SIMILITUD ENTRE COMPUESTOS APOYO

Un navegador web actualizado, como Google Chrome, Microsoft Edge, Safari o

1. Vaya al servicio de matriz de puntuación de PubChem (https:// pubchem.ncbi.nlm.nih.gov/ score_

También se puede acceder a esta página a través de PubChemDocs (https://

OBTENER LOS DATOS DE BIOACTIVIDAD PARA LOS COMPUESTOS HIT DE LA BÁSICO

Figura 6El concepto de subestructura y superestructura. La estructura de CID 15207492

en PubChem o cuando su nombre es desconocido o ambiguo. En este caso, la estructura de entrada

Un navegador web actualizado, como Google Chrome, Microsoft Edge, Safari o

1. Vaya a la página de inicio de PubChem (https:// pubchem.ncbi.nlm.nih.gov) e inicie PubChem

2. Dibuja la estructura del 5-(2-fenilfenil)-2H-tetrazol proporcionando su cadena SONRISAS

BÁSICO ENCONTRAR MEDICAMENTOS QUE SE DIRIGEN A UN GEN EN PARTICULAR

Un navegador web actualizado, como Google Chrome, Microsoft Edge, Safari o

• receptor de angiotensina II tipo 1

La búsqueda en PubChem a menudo da como resultado una gran cantidad de

El archivo CSV descargado contiene información adicional sobre los medicamentos.

9. Obtenga la información del fármaco de la Guía de FARMACOLOGÍA de forma similar a como

Un navegador web actualizado, como Google Chrome, Microsoft Edge, Safari o

1. Vaya a la página Resumen de proteínas del receptor de angiotensina II de tipo 1 humano.

BÚSQUEDA DE COMPUESTOS ANOTADOS CON CLASIFICACIONES O BÁSICO

El navegador de clasificación permite a los usuarios examinar la distribución de registros de PubChem

Un navegador web actualizado, como Google Chrome, Microsoft Edge, Safari o

2. Seleccione "MeSH" en el menú desplegable "Seleccionar clasificación" ('2' en la Fig. 12).

• Encabezamientos de temas médicos (ver Recursos de Internet)

4. TipoAgentes antihipertensivosen el cuadro de búsqueda ('4' en la Fig. 12).

Los resultados guardados caducan después de 7 horas de inactividad.

9. Seleccione los resultados guardados, "MySearch1" y "MySearch2", en los menús desplegables

OBTENER ESTEREISÓMEROS E ISOTOPÓMEROS DE UN COMPUESTO BÁSICO

Este protocolo demuestra cómo encontrar estereoisómeros e isotopómeros de un compuesto

Un navegador web actualizado, como Google Chrome, Microsoft Edge, Safari o

3. Seleccione la opción "Mismo isótopo" para encontrar estereoisómeros de valsartán.

Como se mencionó anteriormente, la conectividad, el isotopismo y la estereoquímica son los tres

Además, la búsqueda de identidad tiene opciones llamadas “Estéreo no conflictivo” y “Estéreo no

4. Descargue los estereoisómeros devueltos en formato CSV.

5. Seleccione la opción "Mismo estéreo" para encontrar estereoisómeros de valsartán.

6. Descargue los isotopómeros devueltos en formato CSV.

PubChem tiene múltiples recopilaciones de turalmente similar a una molécula de consulta

Grant, JA, Gallardo, MA y camioneta, BT Ihlenfeldt, WD, Bolton, EE y Bryant, S.

También podría gustarte