Está en la página 1de 12

Química Medicinal – QSAR 2020

Autores
Dr. Guido Noguera
Dra. María Cristina Soraires

El objetivo de este texto es dar soporte teórico a la presentación de la clase de QSAR que se
daba de forma presencial. La idea general de este texto es complementar la bibliografía
recomendada y la presentación de la clase. Usted encontrará en este texto únicamente un
resumen de la teoría necesaria para poder resolver la ejercitación.

1. QSAR: generalidades y objetivos.

Un estudio de QSAR (acrónimo del inglés: quantitative structure-activity relationship) permite


correlacionar cuantitativamente a través de un modelo matemático, la estructura química de
un conjunto de moléculas (expresada mediante descriptores moleculares) y su actividad
biológica experimental.

En palabras más sencillas, en un estudio de QSAR, se correlaciona mediante una ecuación


matemática [y=f(x)] la actividad biológica de un grupo de moléculas con sus propiedades
moleculares (que podrían ser sus propiedades fisicoquímicas). A través de esta ecuación, se
establece una relación cuantitativa entre la estructura química y la actividad biológica.

Si bien en un estudio de QSAR se obtiene un modelo matemático que explica la relación


estructura-actividad (cuáles son las propiedades que más influyen en la actividad biológica), el
principal objetivo de un estudio de QSAR es predecir la actividad de compuestos que aún no
fueron sintetizados o, si alguna vez fueron sintetizados, no se conoce la actividad biológica en
estudio. Un estudio de QSAR tiene un fin predictivo.

Los estudios de QSAR se basan en la estructura química de los ligandos y se utiliza cuando no
se conoce la estructura de la diana biológica. Cuando la estructura de la diana biológica es
conocida, se eligen los estudios de Docking para realizar predicciones de la actividad biológica.

En un estudio de QSAR se genera una ecuación que correlaciona la actividad biología (variable
dependiente y) y los descriptores moleculares (variables independientes x) calculado en un
grupo de moléculas.

2. Descriptor biológico.

Como se mencionó anteriormente, la actividad biológica es la variable dependiente Y del


modelo. La actividad biológica siempre debe ser un dato experimental.

Como dato de actividad biológica se pueden utilizar medidas de afinidad entre el ligando y la
diana biológica (se mide la unión del ligando a la diana biológica) o medidas de eficacia (se
mide la respuesta que genera la unión del ligando a la diana biológica).
Ejemplos de medidas de afinidad son:

o Kd Constante de disociación
o KA Constante de afinidad
o Ki Constante de inhibición

Ejemplos de medidas de eficacia son:

o IC50 Concentración inhibitoria 50


o EC50 Concentración efectiva 50
o CC50 Concentración citotóxica 50
o pD2 -log[EC50]

En los estudios de QSAR, generalmente se usan transformaciones logarítmicas sobre los datos
de actividad biológica con el objetivo de generar modelos que sean ecuaciones lineales. Las
ventajas de los modelos lineales son que son más fáciles de generar, trabajar e interpretar.

3. Descriptores moleculares.

Como se mencionó anteriormente, los descriptores moleculares son la variable independiente


X del modelo. En base a la cantidad de descriptores que tenga el modelo, los mismos pueden
ser monoparamétricos (la ecuación tiene solo una variable X o un descriptor) o
multiparamétricos (la ecuación tiene dos o más variables X o dos o más descriptores).

Un descriptor molecular básicamente es un número. Este número cuantifica una propiedad de


la molécula o un sustituyente de la molécula.

En base a cuál es el origen de este número (cómo se calcula), los descriptores moleculares
pueden ser divididos en dos categorías principales:

o Descriptores moleculares calculados a partir de un experimento: como LogP (logaritmo


del coeficiente de partición), refractividad molar, polarizabilidad y, en general, cualquier
propiedad fisicoquímica.

o Descriptores moleculares teóricos calculados a partir de una representación simbólica de


la molécula. En general estos descriptores se calculan con programas computacionales:
cargas parciales, potencial electrostático, Sterimol, superficie molecular, etc.

En la actualidad, muchos de los descriptores que tienen un origen experimental (ejemplo


LogP), se pueden predecir de forma teórica a través de distintos métodos de cálculo.

A fines prácticos, no vamos a utilizar esta clasificación de descriptores. Los descriptores


moleculares los vamos a clasificar en tres grupos de acuerdo al tipo de propiedad que
describen:

 Descriptores electrónicos

 Descriptores estéricos

 Descriptores lipofílicos
Esta clasificación va a ser muy importante tenerla en cuenta para cuando veamos el concepto
de ortogonalidad de descriptores (independencia de descriptores).

En este texto no analizaremos el origen del cálculo de cada uno de lo descriptores. Los mismos
se encuentran explicados en libro Introducción a la química terapéutica, capitulo 8, página
143. Solo repasaremos algunos de ellos.

A la hora de estudiar descriptores moleculares, es muy importante en primer lugar poder


determinar si se trata de un descriptor electrónico, estérico o lipofílico. En segundo lugar, si el
descriptor se calcula para la molécula (tiene en cuenta la molécula entera) o para un
sustituyente.

3.1. Descriptores electrónicos.

3.1.1. Constante de Hammet σ

El descriptor σ es un descriptor de tipo electrónico que básicamente cuantifica cuan atractor o


dador de electrones es un sustituyente en un anillo aromático.

σ < 0 sustituyente donadores de electrones

σ > 0 sustituyente atractores de electrones

σ = 0 para el H

Este descriptor se calcula para la posición para y meta del anillo aromático, obteniéndose los
descriptores σp y σm respectivamente. Para la posición orto no se calcula porque el mismo se
ve muy afectado por el componente estéreo.

Este descriptor se encuentra tabulado (ver figura 1, tercer columna σm y cuarta columna σp).

Figura 1: extracto de la tabla de descriptores (ver tabla completa).


3.1.2. Constante de Taft σ*

El descriptor σ* es un descriptor de tipo electrónico que básicamente cuantifica cuan atractor


o dador de electrones es un sustituyente en un sistema alifático. El mismo se encuentra
tabulado (ver figura 1, séptima columna).

3.1.3. Constantes F y R

Uno de los problemas asociados al empleo de la constante σ deriva del hecho de que esta
tiene en cuenta tanto el efecto resonante como inductivo del sustituyente. Dado que ambos
efectos pueden influir de forma distinta sobre la actividad biológica, el parámetro σ se puede
descomponer en la constante F, efecto inductivo, y en la constante R, efecto resonante.

En realidad, la constante σ puede representarse como una combinación lineal de ambos


factores:

σx = rR + fF

En la figura 1 se puede observar que ambos descriptores se encuentran tabulados. F en la


octava columna y R en la novena columna.

3.1.4. Otros descriptores electrónicos.

Cualquier propiedad electrónica puede ser usada como un descriptor electrónico. Ejemplos:

 pKa: depende de los sustituyentes.

 RMN: Los corrimientos de señales se deben a la naturaleza electrónica de los


sustituyentes

 IR: Las señales también se ven afectadas por la naturaleza electrónica de los
sustituyentes.

También pueden ser utilizados como descriptores electrónicos los provenientes de cálculos
teóricos, como por ejemplo HOMO, LUMO, cargas atómicas, potencial electrostático,
momento dipolar, etc.

3.2. Descriptores estéricos.

3.2.1. Constante Es de Taft

El descriptor Es es un descriptor de tipo estérico que básicamente cuantifica cuan voluminoso


es un sustituyente. Cuanto más negativo sea el descriptor Es, más voluminoso o mayor efecto
estérico tiene un sustituyente. Este descriptor se encuentra tabulado (figura 1, sexta columna).

3.2.2. Radio de van der Waals

El radio de van der Waals (rvdw) es un descriptor estérico y está linealmente relacionado con la
constante Es.

Es = -1,839 rvdw + 3,484


3.2.3. Peso Molecular (PM), Volumen Molar (VM) y Refractividad Molar (MR)

El peso molecular puede ser un indicador estérico. En general a mayor PM mayor será el
efecto estérico.

El volumen molar se calcula a partir del PM y la densidad (δ). En general a mayor VM mayor
será el efecto estérico.

La refractividad molar se calcula a partir del VM y el índice de refracción. En general a mayor


MR mayor será el efecto estérico. Sin embargo, hay que tener cuidado con el empleo de este
descriptor ya que contiene un componente electrónico relacionado con la polarizabilidad. Por
lo tanto, la MR no es un parámetro estéreo puro, por lo que podría no ser ortogonal con otros
descriptores estéricos (ver más adelante principio de ortogonalidad).

La MR está tabulada. Ver figura 1, quinta columna.

3.2.4. Sterimol

Los descriptores estéricos mencionados anteriormente tienen la desventaja de no caracterizar


la distribución estérica. Por ejemplo, un aumento en el valor de Es (en modulo) nos indica un
mayor volumen de un sustituyente determinado, pero no tenemos noción de cómo se
distribuye ese componente estérico en el espacio. Dado que no todos los sustituyentes son
esféricos, se han desarrollado distintas formas de cálculo para medir la distribución espacial de
un sustituyente. Un ejemplo es el programa computacional Sterimol, el cual calcula seis
vectores para cada sustituyente en su conformación más estable: la longitud (L), la anchura
mínima (B1), la anchura máxima (B5) y otras tres anchuras (B2, B3 y B4) perpendiculares entre sí
y con B1 (figura 2). Cuanto mayor sea el valor de cada uno de estos vectores, mayor será el
efecto estérico es esa dirección del espacio.

Figura 2: representación de los parámetros Sterimol para un sustituyente.


3.3. Descriptores lipofílicos.

3.3.1. LogP

El LogP es el logaritmo del coeficiente de reparto (P). P se calcula como la solubilidad de un


compuesto en n-octanol y agua luego de someterlo a un proceso de reparto entre ambos
disolventes:

Por lo tanto cuanto mayor sea el valor de LogP, más lipofílico o hidrofóbico será un compuesto.

La forma clásica de determinar el LogP es con una ampolla de decantación. Sin embargo, se
puede calcular por cualquier método que consista en la partición de un compuesto en dos
fases. Es así que por ejemplo, se puede determinar el LogP a partir de una corrida
cromatográfica, con un equipo de HPLC, a partir de los tiempos de retención. Por lo tanto, los
índices de retención de una corrida cromatográfica pueden ser utilizados como un descriptor
lipofílico.

3.3.2. Constante de sustituyentes hidrofóbicos π

El descriptor π determina el aporte a la lipofília de un sustituyente a una molécula. Por lo


tanto, el LogP es una propiedad global de una molécula y π es el aporte de un sustituyente en
una posición específica de la molécula.

π por definición adopta un valor de cero para el átomo de H, será mayor a cero cuanto más
lipofílico sea el sustituyente y, será menor a cero cuanto más hidrofílico sea el sustituyente.

En la figura 1 se puede observar que se encuentra tabulada la constante π para sustituyentes


en sistemas aromáticos (segunda columna) y la constante π para sustituyentes en sistemas
alifáticos (última columna).

4. Generación de un modelo de QSAR.

Como se mencionó anteriormente, un modelo de QSAR correlaciona la actividad biológica


experimental (variable Y) con ciertos descriptores moleculares (variable X). Ahora que ya
sabemos cuáles son los datos que van a ocupar la variable Y (descriptor biológico) y la variable
X (descriptores moleculares), veremos cuáles son los pasos para generar una ecuación
estadísticamente valida.

Los pasos de un estudio de QSAR son:

1) Selección de compuestos o análogos

2) Síntesis de los compuestos o análogos seleccionados

3) Medición de la actividad biológica de los compuestos o análogos sintetizados


4) Cálculo de descriptores moleculares de los compuestos o análogos sintetizados

5) Generación de los modelos matemáticos

6) Selección del modelo matemático que mejor explica la relación estructura-actividad

7) Predicción de la actividad biológica de compuestos que aún no han sido sintetizados

En relación a los puntos 2 y 3, en la actualidad, existe gran cantidad de datos publicados. Por lo
que uno podría tomar de la literatura (en caso que existan) los valores de actividad biológica
experimental y evitar la síntesis de los compuestos (y la medición de la actividad biológica). Al
tomar datos de la literatura, obviamente, la selección de los compuestos o análogos se verá
limitada a lo que se encuentre publicado en la misma.

4.1. Selección de compuestos o análogos

Imaginemos que tenemos un compuesto cabeza de serie proveniente de una vía de hallazgo. El
primer paso para realizar un estudio de QSAR a partir de este cabeza de serie va a ser decidir
con cuántos compuestos voy a realizar el estudio y, con cuáles van a ser esos compuestos.

Este es el momento de pensar un estudio de QSAR como cualquier estudio estadístico. A partir
de una población, debo seleccionar una muestra que sea lo más representativa posible de la
población. En este caso la población de compuestos o análogos de cabeza de serie puede ser
infinita. ¿Cómo me aseguro que la muestra sea representativa? La respuesta es que me debo
asegurar que los análogos con los que voy a realizar el estudio (que va a ser mi número de
sujetos o compuestos “n”) presentes variabilidad estructural y la misma se traduzca en
variabilidad en sus propiedades fisicoquímicas. De esta forma, voy a tener variabilidad en los
descriptores calculados (variable X del modelo).

Si obtengo variabilidad estructural esta debería darme variabilidad en la respuesta biológica y,


por lo tanto, debería obtener una buena correlación entre la actividad y la estructura química
(expresada como descriptores moleculares).

Tomemos como ejemplo el logP y consideremos que la actividad depende del logP. Si para mi
estudio de QSAR selecciono compuestos que presentan valores de logP muy parecidos,
probablemente todos ellos presente una actividad biológica semejante. En este caso sería
imposible encontrar la relación matemática entre la actividad (Y) y el logP (X). En la figura 3 se
observa que al graficar la actividad biológica en función del logP, todos los puntos están muy
próximos. Esto podría verse como un único gran punto por los que pueden pasar infinitas
funciones.
Figura 3: -log CE50 en función del logP para compuestos con poca variabilidad estructural.

Por el contrario si selecciono análogos que presenten distintos valores de logP, podría
encontrar una relación matemática entre ambas variables (figura 4).

Figura 4: -log CE50 en función del logP para compuestos con mayor variabilidad estructural.

Existen distintos métodos para la selección de análogos, entre ellos el más representativo es el
Diagrama de Craig, el cual consiste en graficar dos descriptores distintos que sean ortogonales
(independientes entre sí). Por ejemplo, la figura 5 muestra el Diagrama de Craig obtenido al
graficar un descriptor electrónico (σ) en función de un descriptor lipofílico (π). También se
pude graficar un descriptor electrónico en función de un descriptor estérico o, un descriptor
lipofílico en función de un descriptor estérico.

Observando el diagrama de la figura 5, si elijo un sustituyente de cada cuadrante, me aseguro


que esos 4 compuestos son distintos en sus propiedades electrónicas y lipofilicas.

o Un sustituyente atractor de electrones y lipofílico,

o Un sustituyente atractor de electrones e hidrofílico,


o Un sustituyente dador de electrones y lipofílico,

o Un sustituyente dador de electrones y hidrofílico.

4.2. Generación de los modelos matemáticos de QSAR

Una vez seleccionados los análogos, se deberán sintetizar los mismos. A esos compuestos se
les deberá medir la actividad biológica y calcular distintos descriptores electrónicos, estéricos y
lipofilicos. Por lo tanto, tendremos nuestros valores de la variable Y (actividad biológica) y los
valores de la variable X (descriptores).

Como a priori no sabemos de qué propiedades depende la actividad biológica, debemos


calcular la mayor cantidad de descriptores moleculares posible. Con estos datos, se generan
distintas ecuaciones. En la actualidad, existen distintos programas computacionales para
calcular miles de descriptores moleculares y procesar esta gran cantidad de datos. Muchos de
estos programas también generan una cierta cantidad de modelos matemáticos mediante
distintos métodos (regresión lineal simple y múltiple, componentes principales, regresión de
mínimos cuadrados parciales, etc).

La cantidad de modelos o ecuaciones que se puedan generar depende de la cantidad de


descriptores calculados. Se podrá generar un modelo monoparamétrico por cada descriptor
calculado y, diferente modelos multiparamétricos combinando 2 o más de ellos.

Ahora el desafío es seleccionar el modelo matemático que mejor explica la relación estructura-
actividad. Esta selección se realiza estadísticamente.

4.3. Selección del modelo matemático que mejor explica la relación estructura-actividad

Por lo general, cuando uno tiene una cierta cantidad de ecuaciones, no elige en un principio la
mejor ecuación, si no que se van descartando aquellas ecuaciones que no cumplen ciertos
criterios estadísticos. Es decir, que se van descartando ecuaciones hasta que se obtienen dos o
tres ecuaciones que son validas estadísticamente y, en este punto, se elige el modelo que
mejor explica la relación estructura-actividad.

Un estudio de QSAR tiene varios pasos de validación, sin embargo en este curso, solo haremos
una validación estadística teniendo en cuenta los siguientes estadísticos y criterios:

a) Coeficiente de determinación (R2) y desvío estándar (SD): de una forma muy


simplificada, ambos estadísticos nos darán una idea de si nuestras variables ajustan a
una recta (si hay correlación entre la actividad biológica y el descriptor/es
molecular/es empleado/s). Lo ideal es que el valor de R2 tienda a 1 y, el valor de SD
tienda a 0.

b) Número de compuestos (n): es el número de compuestos con los que generamos el


modelo. Cuanto mayor sea el n, mayor significancia estadística tendrá el modelo.
Como norma general, definiremos que serán necesarios 5 compuestos por cada
variable que presente el modelo. Es decir, que para construir una ecuación
monoparamétrica (con una única variable X o descriptor molecular) necesito como
mínimo 5 compuestos. Si deseo con construir un modelo con 2 descriptores
moleculares (2 variables X) necesito como mínimo 10 compuestos. Si deseo con
construir un modelo con 3 descriptores moleculares (3 variables X) necesito como
mínimo 15 compuestos. Y así sucesivamente. Si no se cumple esta regla el modelo no
tendrá significancia estadística.

c) Ortogonalidad de descriptores: este principio establece que las variables presentes en


el modelo deben ser independientes entre sí. Es decir, que los descriptores
moleculares presentes en la ecuación deben ser independientes (o ortogonales) entre
sí. Obviamente, este principio no aplica a modelos monoparamétricos. Pero es
sumamente importante en modelos multiparamétricos. Esto se debe a que si uno va
agregando variables que no son ortogonales a un modelo, estas variables se van
compensado y el R2 comienza a acercarse a 1 y el SD a acercarse a 0. Así, el modelo
queda sobreajustado y esta “mejora aparente” de los estadísticos no se refleja en el
poder predictivo del modelo.

Por ejemplo, el siguiente modelo no cumple el principio de ortogonalidad:

Log (1/C) = 6.20xMGvolume - 0.067xMW + 12.55

Ya que ambos MGvolume (volumen molecular) y MW (peso molecular) son


descriptores estéricos.

Por lo general, pero no siempre, dos descriptores que cuantifiquen una misma
propiedad (electrónica, estérica o lipofílica) no son ortogonales. Una forma fácil de
determinar si dos descriptores son ortogonales entre sí, es graficar uno en función del
otro. En la figura 5 se observa la dependencia (correlación) entre MGvolume y MW
(R2=0.86).

Figura 5: MGvolume en función de MW (ambos descriptores estéricos).

d) Principio de parsimonia: este principio establece que a igualdad de significancia


estadística, se elige el modelo más simple; en general, se considera el modelo más
simple aquél que contiene menor número de variables (descriptores moleculares) o
bien las variables de más fácil determinación.

Hay que tener mucho cuidado al utilizar este principio ya que estadísticamente es
válido únicamente cuando los estadísticos de ambos modelos (R2, SD, n) son similares.

Veamos el siguiente ejemplo:

Modelo n R2 SD

1 Log (1/C) = 5.81 - 2.26xSigma 14 0.91 0.29

2 Log (1/C) = 0.025xlogP - 2.22xSigma + 5.71 14 0.92 0.30

En este caso, debido a que ambos modelos presenta estadísticos similares (R2, SD, n),
por el principio de parsimonia podría seleccionar el modelo 1 ya que es el modelo más
simple (presenta una variable o descriptor).

Es importante conocer el fundamento estadístico del principio de parsimonia para no


cometer errores a la hora de seleccionar un modelo. Siguiendo con el mismo ejemplo,
el modelo 2 lo estamos descartando porque la variable logP no está correlacionando
con la actividad (el logP no está “aportando” al modelo). Es decir, que con cierto grado
de confianza la pendiente de logP es cero y por lo tanto, la variación de logP no varía la
actividad. O mejor dicho, la actividad no varía con el logP.

La forma estadística de determinar si hay correlación entre Y (actividad biológica) y X


(descriptor molecular) es a través del t de student o a través del p-valor (que se calcula
a partir del t de student). Ambos estadísticos se determinan teniendo en cuenta los
grados de libertad (n - 1) y el nivel de confianza que deseo (α). Si selecciono un nivel de
confianza del 95% (α= 0.05) voy a obtener un correlación entre la actividad y el
descriptor cuando el p-valor < 0.05.

Siguiendo con el mismo ejemplo, en la figura 6 se observa una salida del programa
Excel. En la misma podemos observar para cada variable (descriptor) la pendiente
(coeficientes), el valor del t de student (estadístico t) y el p-valor (probabilidad). Si
analizamos el p-valor para el descriptor sigma el mismo es << 0.05. En cambio, para el
descriptor logP p-valor > 0.05. Esto se traduce en que la pendiente para logP es cero
(con un 95% de confianza) y por lo tanto no hay una correlación entre la actividad y
logP. Pero si hay una correlación entre la actividad y sigma. Por este motivo
descartamos el modelo 2 y seleccionamos el modelo 1.

Figura 6: estadísticos calculados por el programa Excel para el modelo 2.


4.4. Predicción de la actividad biológica

Una vez seleccionado y validado estadísticamente el modelo que mejor explica la relación
estructura-actividad, el mismo puede ser utilizado para predecir la actividad de nuevos
compuestos (objetivo de un estudio de QSAR). Si a un compuesto de actividad desconocida le
calculo sus descriptores moleculares (poseo la variable X), utilizando la ecuación resultante,
puedo predecir la actividad bilógica estudiada (variable Y).

QSAR es un método racional de hallazgo de nuevos fármacos. En donde con un grupo pequeño
de compuestos (el n utilizado), uno puede generar un modelo matemático que le permita
predecir la actividad de una gran cantidad de compuestos. En la actualidad, el modelo
resultante de un estudio de QSAR se utiliza para filtrar bases de datos que contienen de miles
de compuestos y así hallar posibles compuestos que presenten la actividad biológica deseada.

Es importante tener en cuenta que las predicciones realizadas con el modelo resultante, están
condicionadas o limitadas a los compuestos que utilicé para generar el modelo. Esto se conoce
como el dominio de aplicabilidad del modelo. Por ejemplo, si estoy estudiando la inhibición de
una enzima y, mi estudio QSAR fue realizado con análogos de un cabeza de serie
pertenecientes todos a una misma familia química (ejemplo: péptidos); el modelo resultante
sólo me permitirá predecir la inhibición enzimática de un nuevo compuesto de esa familia
química, pero no me permitirá predecir la inhibición enzimática de un compuesto que
pertenezca a otra familia química (ejemplo: pequeñas moléculas).

También podría gustarte