Está en la página 1de 28

SECRETARÍA DE ESTADO

DE SANIDAD

DIRECCIÓN GENERAL DE
SALUD PÚBLICA

INFORME DE EVALUACIÓN
El sistema de vigilancia de SARS-CoV-2
en aguas residuales
28 de octubre de 2022
SECRETARÍA DE ESTADO
DE SANIDAD

DIRECCIÓN GENERAL DE
SALUD PÚBLICA

CEMAT
Carolina García Martos (COVIDBENS, Universidad Politécnica de Madrid), Ricardo Cao
Abad (COVIDBENS, Universidad de A Coruña)

Ministerio de Sanidad

Equipo CCAES (orden alfabético):


Elena Vanessa Martínez Sánchez, Francisco David Rodríguez Cabrera, Patricia Alejandra
Santágueda Balader, María José Sierra Moros, Fernando Simón Soria.

Subdirección General de Sanidad Ambiental y Salud Laboral: Margarita Palau Miguel,


Covadonga Caballo Dieguez.
SECRETARÍA DE ESTADO
DE SANIDAD

DIRECCIÓN GENERAL DE
SALUD PÚBLICA

1. Resumen
En España se están desarrollando en la actualidad nuevas formas de vigilancia, que
pretenden complementar la información de casos notificados hacia los diferentes servicios
autonómicos de Epidemiología. Este informe analiza la relación existente entre la carga viral
obtenida en las Estaciones Depuradoras de Aguas Residuales (EDAR) y las series de
incidencia de casos notificados al nivel estatal correspondientes a la zona de colección de
estas estaciones depuradoras.

Se evaluó el grado de correlación cruzada entre cada serie de carga viral medida en una
EDAR y la serie de incidencia acumulada de 14 días de COVID-19 en su área geográfica de
referencia, mostrando que la correlación máxima se produce con una anticipación de una
semana, tanto a nivel de cada EDAR único como para el conjunto de las EDAR analizadas.
En este sentido, para el total estatal se obtiene una correlación cruzada anticipada de una
semana del orden de 0,83 en escala lineal entre ambas series, llegando al 0,85 si se realiza
una transformación logarítmica.

Por último, se evaluó la variabilidad existente entre los valores de cada EDAR con técnicas
estadísticas de análisis de factores dinámicos. En ellas se permite explicar, con solo dos
factores, cerca de un 60% de la variabilidad entre todas las series de carga viral de cada
EDAR.

El primer factor dinámico (que explica más de un 50% de la variabilidad) se corresponde con
la media de las series de todas las EDAR, representando la tendencia de la pandemia a nivel
global en toda España. El segundo factor obtenido (que explica un 9% de la variabilidad) está
muy asociado con la ubicación geográfica de las EDAR, teniendo comportamiento
relativamente homogéneo para las EDAR del norte de España (CCAA de Galicia, Asturias,
Cantabria, el País Vasco, La Rioja, Navarra, Aragón, Cataluña y Canarias) y también
homogéneo para las del resto del país, siendo bastante diferente el comportamiento de este
segundo factor entre los dos grupos encontrados. Es posible que esta variabilidad por
ubicación geográfica pueda ser explicada por el mayor volumen de precipitaciones en la
mayoría de estos territorios con respecto al resto.

Los resultados encontrados exponen la importancia de impulsar este tipo de vigilancia, que
puede permitir obtener información que complemente a la vigilancia de casos humanos.
Existen todavía, no obstante, limitaciones metodológicas, especialmente a la hora de
controlar factores como los fenómenos meteorológicos, la carga fecal y factores
fisicoquímicos de las aguas en los valores obtenidos de carga viral en aguas residuales.
SECRETARÍA DE ESTADO
DE SANIDAD

DIRECCIÓN GENERAL DE
SALUD PÚBLICA

2. Introducción
Durante la última década, la vigilancia epidemiológica basada en aguas residuales ha surgido
como una disciplina de gran relevancia, con el potencial de proporcionar información
combinando el uso de metodologías analíticas con el desarrollo de enfoques de modelización
ad hoc. Esta vigilancia ha sido ampliamente utilizada en los últimos años para predecir con
gran precisión patrones de consumo de numerosas sustancias (EMCDDA, 2020). Durante la
pandemia de COVID-19, se desarrollaron por primera vez procesos para monitorizar la carga
viral de SARS-CoV-2 en aguas residuales en los Países Bajos (Medema et al., 2020).

Alrededor de un tercio de las personas primoinfectadas por SARS-CoV-2 en España fueron


asintomáticas (Pollán et al., 2020). No obstante, el porcentaje de casos asintomáticos
depende de muchos factores, tales como la edad media y el grado de inmunidad natural o
artificial en cada población. Además, una proporción importante de personas infectadas con
COVID-19, incluidas sintomáticas y asintomáticas, a las que se les hizo la prueba de ARN
viral fecal dieron positivo desde los pasos iniciales de la infección (Gupta et al., 2020) y dieron
positivo persistentemente en hisopos rectales incluso después de que la prueba nasofaríngea
fuera negativa (Chen et al., 2020; Xing et al., 2020; Xu et al., 2020; Zhang et al., 2020; Cevik
et al., 2021; Miura et al., 2021).

Por todo lo anterior, el material genético del SARS-CoV-2 puede encontrarse en aguas
residuales (Lodder y de Roda Husman, 2020), lo que ha hecho de la monitorización de la
carga viral del ARN en aguas residuales una excelente herramienta para la seguimiento
epidemiológico de la pandemia actual, así como un método eficiente de alerta temprana para
la detección de brotes (Randazzo et al., 2020; Ahmed et al., 2020; Medema et al., 2020;
Peccia et al., 2020; F. Wu et al., 2020; Wurtzer et al., 2020). Asimismo, los métodos de
secuenciación masiva de muestras agregadas recogidas en las estaciones depuradoras de
aguas residuales o en la propia red de saneamiento permiten obtener lecturas que recogen
las mutaciones observadas en el genoma de SARS-CoV-2. Con la ayuda de modelos y
métodos estadísticos adecuados, de los datos de cuantificación de carga viral en las EDAR
se pueden obtener estimaciones del número de casos activos de pacientes con COVID -19
(Vallejo et al. 2022).

Por otra parte, a raíz de la proliferación de variantes de SARS-CoV-2, se han propuesto


algunos métodos estadísticos que permiten analizar las lecturas de frecuencias de
mutaciones en el genoma del virus para obtener estimaciones más precisas de las
proporciones de variantes (Barbeito et al. 2022).

El proyecto COVIDBENS fue una iniciativa llevada a cabo desde abril de 2020 hasta marzo
de 2022 y financiada por la empresa pública EDAR de Bens S.A., responsable de gestionar
la EDAR encargada de sanear las aguas residuales de los municipios de A Coruña, Arteixo,
SECRETARÍA DE ESTADO
DE SANIDAD

DIRECCIÓN GENERAL DE
SALUD PÚBLICA

Cambre, Culleredo y Oleiros, que comprenden una población de cerca de 400.000 habitantes
del área metropolitana de A Coruña. El equipo investigador del proyecto estuvo formado por
tres grupos de investigación, uno de microbiólogos, liderado por la Dra. Margarita Poza
(investigadora principal del proyecto), otro de bioinformáticos, liderado por la Profesora
Susana Ladra y otro de estadísticos, liderado por el Profesor Ricardo Cao, junto con
tecnólogos e investigadores del ámbito de la ingeniería civil y la química. El objetivo principal
del proyecto consistió en realizar un seguimiento de la epidemia de coronavirus SARS-CoV-
2 en el área metropolitana de A Coruña.

COVIDBENS sirvió como alerta temprana ante posibles brotes, ya que demostró ser capaz
de adelantarse entre 2 y 3 semanas en el inicio de las ondas pandémicas con respecto a los
datos de casos activos reportados por el sistema sanitario. Además, a partir de la cantidad de
material genético del virus presente en el agua residual, en COVIDBENS pudo estimarse el
número de personas infectadas en la población (Vallejo et al. 2022). Por otra parte, durante
los últimos meses de la ejecución del proyecto se diseñaron métodos estadísticos específicos
que permitieron analizar las frecuencias de mutaciones en el genoma del virus y obtener
estimaciones muy precisas de las proporciones de variantes de SARS-CoV-2 en el área
metropolitana de A Coruña (Barbeito et al. 2022). En este análisis, se utiliza mucho de este
conocimiento aprendido, extrapolándose al resto del territorio español.

A nivel internacional, los Ministerios de Sanidad del G7 en su reunión de 20 de mayo de 2022


en Berlín mostraron su compromiso de explorar opciones para apoyar a las autoridades
nacionales en el esfuerzo de implementación de métodos no individuales como la vigilancia
sanitaria de las aguas residuales, para la detección de brotes tan pronto como sea posible y
la monitorización de agentes infecciosos en la población.

En junio de 2020, en España se implementó la Estrategia nacional de control de material


genético del SARS-CoV-2 en agua residual a través del llamado proyecto VATar COVID-19
(Vigilancia microbiológica en aguas residuales y aguas de baño como indicador
epidemiológico para un sistema de alerta temprana para la detección de SARS-CoV-2 en
España) por iniciativa del Ministerio para la Transición Ecológica y el Reto Demográfico y el
Ministerio de Sanidad, de cuya financiación se hizo cargo el Ministerio para la Transición
Ecológica y el Reto Demográfico.

En este contexto, a nivel estatal se están diseñando los mecanismos legales para formalizar
esta vigilancia que permitan la vigilancia no solo para SARS-CoV-2, sino para otros agentes
como los virus influenza o los poliovirus. El objetivo de este informe fue evaluar las diferentes
posibilidades y limitaciones que tiene este tipo de vigilancia en la actualidad.
SECRETARÍA DE ESTADO
DE SANIDAD

DIRECCIÓN GENERAL DE
SALUD PÚBLICA

3. Enfoque estadístico basado en el análisis de series


temporales multivariantes.
Los datos de cuantificación de carga viral en las EDAR son variables que evolucionan en el
tiempo, es decir, datos con dependencia temporal. Por un lado, conocer el histórico de carga
viral en una EDAR concreta será importante para poder hacer predicciones en esa misma
estación, utilizando metodología de series temporales univariantes como los modelos ARIMA
(Auto Regressive Integrated Moving Average) introducidos por Box y Jenkins (1976).

Los datos de la evolución de la carga viral en las EDAR en todo el territorio español son un
vector de series de dimensión m, donde m es el número de EDAR que se estudian. En nuestro
caso se incluyeron las 30 EDAR con un número suficiente de mediciones en el período
temporal en estudio. Con este número, quedan representadas todas las Comunidades
Autónomas, a excepción por ahora de Murcia y las Ciudades Autónomas de Ceuta y Melilla.
Es claro que para las EDAR se modelan los datos de carga viral correspondientes a las fechas
para las que se dispone de datos en todas ellas.

En la Figura 1 se muestra la IA14 para la población total, así como la IA14 para los mayores
de 60 años. Esta figura permite justificar la utilización de los datos hasta el final de marzo de
2022 -y no hasta final de junio de 2022- cuando se trate de calcular matrices de correlaciones
cruzadas (ccm por sus siglas en inglés) y funciones de correlaciones cruzadas ( ccf)1 entre la
IA14 total y por ejemplo la media de la carga viral en las EDAR situadas en distintos puntos
de España.

1 La ccf es la extensión al caso multivariante de la idea de función de autocorrelación simple


(acf) que aparece en el contexto de las series temporales univariantes.
Y la acf es la extensión al caso de datos con dependencia temporal de la idea de coeficiente
de correlación. Para ello se considera que la primera variable es la serie temporal en estudio
y la segunda sería esa misma serie retardada k instantes de tiempo.
SECRETARÍA DE ESTADO
DE SANIDAD

DIRECCIÓN GENERAL DE
SALUD PÚBLICA

Figura 1. Evolución conjunta de la IA14 total y la IA14 para el grupo de edad de mayores de 60 años (27 Agosto
2020 al 30 de Junio de 2022).

En la Figura 2 se muestra la evolución temporal para 30 EDAR de la concentración de carga


viral (en log10 cg/l para el gen diana N1). La frecuencia de los datos es semanal, por semanas
epidemiológicas, con dato el jueves. Adicionalmente se muestra el valor medio para todas las
EDAR en estudio. Esta media es un primer resumen del comportamiento común tan claro que
se puede apreciar en la evolución temporal de la carga viral.

Desde el punto de vista estadístico estos datos presentan estructura de dependencia


temporal. Además, se puede apreciar de manera clara un patrón común de comportamiento,
por lo que resultaría muy adecuado aplicar técnicas del contexto de las series temporales
multivariantes, con especial mención al Análisis Factorial Dinámico (Peña y Box, 1987 o
Alonso et al. 2011), dado el número de variables (m=30 EDAR). Desde el punto de vista de
la interpretación resultará muy interesante, pues permitirá estudiar la relación entre la
evolución de la pandemia en las distintas Comunidades Autónomas como alternativa a los
modelos espacio-temporales (Fuentes, 2001). Además, hasta ahora no se ha estudiado la
evolución conjunta de indicadores relacionados con la pandemia en nuestro país, y es claro
que a la vista de los datos que se presentan en la Figura 2, es una tarea que debe realizarse.
SECRETARÍA DE ESTADO
DE SANIDAD

DIRECCIÓN GENERAL DE
SALUD PÚBLICA

Figura 2. Evolución temporal carga viral en 30 EDAR (27 de Agosto de 2020 al 30 de Junio de 2022).

Las 30 EDAR seleccionadas son las que se muestran en la Tabla 1. El criterio para realizar
la selección ha sido el de no reducir el histórico disponible incluyendo EDAR en las que sólo
había medidas relativamente recientes y optimizar la ratio m/T, donde m es el número de
series en estudio y T la longitud (número de instantes de muestreo) de los datos históricos
disponibles.

Pinedo 1 (Valencia) EDAR1


Don Benito (Badajoz) EDAR2
La Golondrina (Córdoba) EDAR3
Granada sur (Granada) EDAR4
Reza (Ourense) EDAR5
Guadalhorce (Málaga) EDAR6
La China (Madrid) EDAR7
La Gavia (Madrid) EDAR8
Torrejón de Ardoz (Madrid) EDAR9
San Jerónimo (Sevilla) EDAR10
Tudela (Navarra) EDAR11
Crispijana (Vitoria-Gasteiz) EDAR12
Galindo (Bilbao) EDAR13
Logroño EDAR14
La Cartuja (Zaragoza) EDAR15
SECRETARÍA DE ESTADO
DE SANIDAD

DIRECCIÓN GENERAL DE
SALUD PÚBLICA

Villapérez (Oviedo) EDAR16


Palma II (Palma de Mallorca) EDAR17
Barranco seco II (Las Palmas de
GC) EDAR18
Adeje - Arona (Tenerife) EDAR19
San Román (Santander) EDAR20
Segovia EDAR21
Soria EDAR22
Valladolid EDAR23
Albacete EDAR24
Guadalajara EDAR25
Besós (Barcelona) EDAR26
Igualada (Barcelona) EDAR27
Lleida EDAR28
Cuenca EDAR29
Arroyo de El Soto (Móstoles,
Madrid) EDAR30

Tabla 1. Localización de las EDAR consideradas y código que se les ha asignado.

En la Figura 3 se representa, en un diagrama de barras, el porcentaje de valores faltantes en


cada una de las series correspondientes a las 30 EDAR en estud io.

Figura 3. Se representa el porcentaje de valores faltantes en las distintas series temporales consideradas, una
para cada EDAR en estudio, detalladas en la Tabla 2.
SECRETARÍA DE ESTADO
DE SANIDAD

DIRECCIÓN GENERAL DE
SALUD PÚBLICA

4. Metodología
Para el cálculo de las incidencias acumuladas de 14 días, se incorporó la información
disponible en SiViEs a día 22 de septiembre de 2022 de aquellos casos confirmados cuya
fecha de inicio de síntomas, o en su ausencia fecha de diagnóstico, fuera en el periodo entre
el 1 de abril de 2020 y el 1 de julio de 2022. Se tomaron los casos que residían en el municipio
donde se localizaba cada EDAR, información disponible en el 98,6% de los casos
confirmados. Para eliminar parcialmente el efecto de la movilidad de los casos, se excluyeron
aquellos casos cuya Comunidad Autónoma de declaración no coincidía ni con el municipio o
con el código postal de residencia.

Se obtuvieron los datos de carga viral en aguas residuales en 53 EDAR gracias a la


colaboración del mencionado proyecto VATar COVID-19. El periodo seleccionado de estudio
va desde el 27 de agosto de 2020 al 30 de junio de 2022. Sin embargo, y dado que a finales
de marzo de 2022 dejaron de contabilizarse los casos en la población general, para el estudio
de las correlaciones entre la incidencia acumulada de 14 días (IA14) y los datos de carga viral
en las EDAR se utilizó el periodo con el mismo inicio (27 de agosto de 2020) pero finalizando
el 31 de marzo de 2022.

Esta sección se ha dividido en tres partes:

1) Datos faltantes en las series de carga viral. Posible tratamiento e imputación.


Esto resulta de interés para poder calcular después las correlaciones cruzadas
dinámicas (ccm y ccf).

Para la imputación de los valores faltantes, y teniendo en cuenta el contexto (datos


con dependencia temporal) se utiliza el procedimiento desarrollado en Moritz y Bartz-
Beielstein (2017) y que se basa en la utilización del filtro y el smoother de Kalman y
los modelos estructurales para series temporales o los ARIMA (Shumway y Stoffer,
2017).

2) Cálculo de correlaciones cruzadas dinámicas en varios casos:


a. Para la carga viral en varias EDAR, así se justifica que existe correlación
cruzada dinámica entre las series.
b. Para la serie de nivel medio de carga viral de las 30 EDAR consideradas y la
IA14 en España para la población total en el periodo desde Agosto 2020 a final
de Marzo de 2022, así como para la IA14 media en los municipios de las EDAR
en estudio, a la vista de la Figura 4 y Figura 5.
SECRETARÍA DE ESTADO
DE SANIDAD

DIRECCIÓN GENERAL DE
SALUD PÚBLICA

Figura 4. Arriba) Concentración de carga viral (n1) en las 30 EDAR consideradas. Abajo) IA14
total en los municipios de las EDAR en estudio.

Figura 5. Misma información que Figura 4 pero presentando el log10 de la IA14.

c. Para la concentración de carga viral en dos EDAR seleccionadas (Torrejón de


Ardoz y Santander) y sus respectivas IA14 en esos municipios/ciudades.

3) Las técnicas de reducción de la dimensión en el contexto de las series


temporales. Componentes principales dinámicos (DFM, Box y Peña, 1976) . Es
una técnica que puede ser muy útil en este contexto, sobre todo en términos de
interpretación de la evolución de la pandemia en las distintas comunidades autónomas
y la relación de la evolución en distintas comunidades, así como la extracción de
conclusiones al respecto que puedan ser útiles a futuro. De momento se dispone de
resultados preliminares.

La idea intuitiva de esta metodología se detalla brevemente a continuación.


SECRETARÍA DE ESTADO
DE SANIDAD

DIRECCIÓN GENERAL DE
SALUD PÚBLICA

Se tienen 30 variables que evolucionan en el tiempo, 30 series temporales (los


datos de carga viral en las 30 EDAR).

Estas series se pueden modelar de forma univariante, por ejemplo para


explicar el futuro de cada una usando sólo su histórico. En los datos se observa
un patrón común. Un posible resumen de los datos es la media (Figura 2). En
ese caso a todas las series de las EDAR se les da el mismo peso: 1/m = 1/30.
Pero se podría mejorar ese resumen si se da más peso a las EDAR con mayor
variabilidad: esa es la idea del DFM (Dynamic Factor Model) y del DFA
(Dynamic Factor Analysis). Además, al hacer esto se extraen características
comunes y específicas de las series, lo que suele ser muy útil en términos de
interpretación, pues permite descomponer cada serie en lo que es debido a la
evolución conjunta de todas ellas y lo que es específico de cada una. Extraer
características comunes y específicas de las series puede ser interesante en
términos de interpretación y de salud pública.

5. Resultados
Se divide esta sección también en tres partes, correspondientes a las mencionadas en la
Sección anterior (Metodología).

5.1 Datos faltantes en las series de carga viral. Posible


tratamiento e imputación.
En la Figura 6 se muestran los resultados de la imputación de los datos faltantes para la
EDAR11 (Tudela, Navarra), por ser ésta la que mayor porcentaje de faltantes presenta
(6.19%), como se muestra en la Figura 3.

En la Figura 7 se muestran los resultados para la EDAR8 (La Gavia, Madrid), donde el
porcentaje de faltantes es el menor de todas las EDAR (2.06%).
SECRETARÍA DE ESTADO
DE SANIDAD

DIRECCIÓN GENERAL DE
SALUD PÚBLICA

Figura 6. EDAR11 (Tudela, Navarra). Valores imputados usando modelos ARIMA y Filtro de Kalman.

Figura 7. EDAR8 (La Gavia, Madrid). Valores imputados usando modelos ARIMA y Smoother de Kalman.
SECRETARÍA DE ESTADO
DE SANIDAD

DIRECCIÓN GENERAL DE
SALUD PÚBLICA

En la Figura 8 se presentan las medias de las concentraciones de carga viral para todas las
EDAR consideradas (30): en el caso de datos faltantes, y para do s imputaciones realizadas
con dos de los procedimientos mencionados.

Figura 8. Comparación para las medias de la carga viral en los tres supuestos considerados: sin imputar valores
faltantes e imputándolos con dos procedimientos considerados.

En la Figura 9 se muestra la información de la Figura 8 junto con las concentraciones de carga


viral en las 30 EDAR en estudio. El resumen obtenido de las series originales (con a lgunos
valores faltantes) al calcular su media resulta prácticamente idéntico a los obtenidos para dos
posibles imputaciones realizadas para esos valores faltantes (A y B, con Smoother y Filtro de
Kalman, respectivamente).
SECRETARÍA DE ESTADO
DE SANIDAD

DIRECCIÓN GENERAL DE
SALUD PÚBLICA

Figura 9. Carga viral en las EDAR consideradas y medias en los tres supuestos considerados.

En la Figura 10 se muestra las gráficas de la concentración de carga viral en las 30 EDAR en


estudio con la IA14 para la población total. Se observa una clara relación entre ambas con
una aparente buena sincronía.

Figura 10. Sincronía entre la concentración de carga viral en as 30 EDAR en estudio y la IA14 total en España.

También resulta interesante ver cómo para cada EDAR se tienen dos datos de concentración
de carga viral de una determinada diana (N1 e IP4), entre las cuales existe un claro patrón
común que se podría usar para imputar datos faltantes de forma bivariante , teniendo en
cuenta para cada EDAR la relación entre ambas series de carga viral. En la Figura 11 se
muestran estos datos para la EDAR5 (Reza, Ourense) y en la Figura 12 los resultados de la
imputación de valores teniendo en cuenta la estructura de dependencia temporal bivariante
SECRETARÍA DE ESTADO
DE SANIDAD

DIRECCIÓN GENERAL DE
SALUD PÚBLICA

de las series de concentración de carga viral (N1 e IP4). El procedimiento aplicado tiene en
cuenta la estructura bivariante, como mejora al propuesto anteriormente, pero el modelo que
asume para estas dos series es demasiado sencillo y habría que mejorarlo, ya que es un
Local Level multivariante como el propuesto en Shumway y Stoffer (2017). Se incluye aquí
simplemente como propuesta alternativa para abordar la existencia de valores faltantes 2.

Figura 11. Existencia de patrón común en la evolución temporal de la concentración de carga viral (n1 e ip4) en
la EDAR5, Reza (Ourense).

Figura 12. Resultado de la imputación de valores faltantes utilizando un modelo bivariante para los datos de
concentración viral (series de N1 e IP4) en la EDAR 5, Reza (Ourense).

2Como salida adicional, este procedimiento proporciona una medida de incertidumbre asociada a la estimación
de la variable de estado (cada serie, en este caso).
SECRETARÍA DE ESTADO
DE SANIDAD

DIRECCIÓN GENERAL DE
SALUD PÚBLICA

5.2 Cálculo de correlaciones cruzadas dinámicas en varios


casos.

5.2.1 Correlaciones cruzadas de los datos de carga viral en las 30


EDAR en estudio, entre sí

Las ccm tienen dimensión 30x30, al estar trabajando con los datos de 30 EDAR. Se muestran
aquí solo submatrices de dimensión 5x5 correspondientes a las EDAR1 hasta EDAR5. En la
Figura 13 se muestran las ccm para retardos 1 y 2, únicamente. En la Figura 14 se muestran
las correlaciones cruzadas dinámicas ya para retardos mayores: 11 y 12. Para esos retardos,
los elementos de la ccm son ya casi todos no significativos estadísticamente. Las ccm van
decayendo al aumentar el retardo, y el número de coeficientes que son estadísticamente
significativos decae también al aumentar el retardo. Las correlaciones son estadísticamente
significativas, y positivas cuando aparece un ‘+’, no significativas cuando aparece un ‘·’ y
significativamente negativas cuando se representa semi-gráficamente con un ‘-‘.

Figura 13. Submatriz de la ccm de las 30 EDAR formada por las correlaciones cruzadas de EDAR1 hasta EDAR5 . Retardos 1
y 2. Los coeficientes son casi todos significativos.
SECRETARÍA DE ESTADO
DE SANIDAD

DIRECCIÓN GENERAL DE
SALUD PÚBLICA

Figura 14. Submatriz de la ccm de las 30 EDAR formada por las correlaciones cruzadas de EDAR1-EDAR5 3. Retardos 11 y
12. Los coeficientes son casi todos no significativos.

5.2.2 Correlaciones cruzadas dinámicas entre la carga viral detectada


en las EDAR y la IA14 total en España.

En la Figura 15 se muestran los resultados correspondientes al cálculo de las ccm para la


media de las concentraciones de carga viral en las 30 EDAR en estudio y la IA14 total en
España. Esta correlación parecía muy evidente a la vista de la Figura 10.

Observando con detalle los valores de las correlaciones cruzadas entre ambas series, se
observa que la correlación cruzada más alta se alcanza cuando la serie de carga viral se
adelanta una semana en relación con la de IA14. Dicha correlación cruzada es de 0,827,
indicando una correlación bastante fuerte entre la media de los logaritmos de la
concentración de carga viral en las 30 EDAR en una semana y el valor de IA14 en la
semana siguiente. En caso de considerar el logaritmo de IA14, dicha correlación cruzada
aumenta hasta el valor 0,85.

3 Solo se muestran los valores para EDAR1 a EDAR5, por simplicidad y para no incluir matrices 30x30.
SECRETARÍA DE ESTADO
DE SANIDAD

DIRECCIÓN GENERAL DE
SALUD PÚBLICA

Figura 15. Correlaciones cruzadas dinámicas: Media de la carga viral en las 30 EDAR consideras e IA14 población total en
España en el periodo que va de agosto de 2020 a final de marzo de 2022.

Adicionalmente, en la Figura 16 se muestran gráficamente la información de la Figura 15, es


decir, los valores de la correlación de la media de la carga viral (N1) en las 30 EDAR en
estudio y la IA14 total en España retardada k instantes de tiempo. Es decir, se representan
gráficamente los elementos de la segunda fila y primera columna de las ccm mostradas en la
Figura 15. La última correlación cruzada significativa es la correspondiente a retardo (lag)
k=6. La correlación cruzada para retardo k=7 ya no resulta estadísticamente significativa 4

Figura 16. Correlaciones cruzadas entre la Serie x: media de la carga viral en las 30 EDAR consideradas y la Serie y: IA14
total en España. El valor mayor (0.827, resaltado en azul) corresponde a la correlación entre la IA14 en t (una semana
concreta) y la carga viral media en t-1 (la semana anterior).

5.2.3 Correlaciones cruzadas dinámicas entre la carga viral detectada


en una EDAR concreta y la IA14 en ese municipio.

4
Está ya dentro de las bandas de confianza.
SECRETARÍA DE ESTADO
DE SANIDAD

DIRECCIÓN GENERAL DE
SALUD PÚBLICA

En este apartado se muestra, en primer lugar, de manera gráfica, la sincronía en la evolución


temporal entre la carga viral (en cg/l) en algunas EDAR concretas y la IA14 para la población
total del correspondiente municipio. Se han seleccionado 4 EDAR (EDAR14, EDAR21,
EDAR28 y EDAR30) correspondientes a municipios urbanos (Segovia, Lleida, Móstoles y
Bilbao) con una población de entre los 50.000 y los 500.000 habitantes cada uno.
En la Figura 17 se muestra esta información para la EDAR30 (Arroyo del Soto, Móstoles).

Figura 17. Carga viral (N1) medida en cg/l en la EDAR30 (Arroyo del Soto, Móstoles) e IA14 total en el municipio de Móstoles.

En la Figura 18 se muestra esta información para la EDAR28 (Lleida).

Figura 18. Carga viral (N1) medida en cg/l en la EDAR28 (Lleida, Cataluña) e IA14 total en el municipio de Ll eida.

En la Figura 19 se muestran esta misma información para la EDAR21 (Segovia).


SECRETARÍA DE ESTADO
DE SANIDAD

DIRECCIÓN GENERAL DE
SALUD PÚBLICA

Figura 19. Carga viral (N1) medida en cg/l en la EDAR21 (Segovia, Castilla y León) e IA14 total en el municipio de Segovia.

En la Figura 20 se muestran esta misma información para la EDAR14 (Bilbao).

Figura 20. Carga viral (N1) medida en cg/l en la EDAR14 (Bilbao, País Vasco) e IA14 total en Bilbao.

Para las cuatro EDAR seleccionadas se aprecia correlación entre la evolución de la carga
viral en cg/l y la IA14 en la población total en el municipio de la EDAR correspondiente.

En la Figura 21 se muestran las ccm para la EDAR21. Se puede observar que la mayor
correlación cruzada es para retardo 1, es decir, la IA14 en el municipio de la EDAR21
(Segovia) presenta la mayor correlación con la carga viral de la semana justamente anterior.
Esto se repite para las cuatro EDAR concretas aquí seleccionadas (EDAR30, EDAR28,
EDAR21 y EDAR14) pero la intensidad de esa correlación es claramente menor (0 ,481, y
subiría a 0,592 si ambas series se consideran en log10) que la obtenida para correlación entre
la IA14 total en España en relación con la carga viral media en las 30 EDAR (0,827, que
subiría a 0,850 si se realiza una transformación logarítmica para ambas series).
SECRETARÍA DE ESTADO
DE SANIDAD

DIRECCIÓN GENERAL DE
SALUD PÚBLICA

Una de las posibles explicaciones de este fenómeno es la relativamente baja frecuencia de


muestreo (una vez a la semana) y el limitado número de réplicas en la cuantificación de la
carga viral en cada EDAR individualmente, lo que provoca series mucho más ruidosas que la
serie promedio correspondiente a toda España (como puede verse en la Figura 2).

Muy posiblemente, la correlación entre la carga viral medida en cada EDAR y la IA14 en
el municipio en el que se encuentra sería mucho mayor si se dispusiese de un mayor
número de datos semanales y mayor número de réplicas para la cuantificación de la
carga viral. Este ha sido el caso del proyecto COVIDBENS, en el que las correlaciones
cruzadas entre la IA14 y la carga viral medida con 8 días de antelación, en el área
metropolitana de A Coruña, fueron del orden de 0,8. En dicho proyecto se disponía de
muestras tomadas 2 ó 3 veces a la semana no solo en la EDAR de Bens, sino también en
otros 5 puntos de muestreo, cuantificándose la carga viral a partir de 6 réplicas. En las
circunstancias actuales, una forma razonable de proceder sería suavizar la carga viral en
cada EDAR y que esto reduciría la magnitud del error experimental en la determinación de la
misma.

Figura 21. ccm para distintos retardos entre la IA14 total en la EDAR21 y la carga viral (N1) en cg/l en la EDAR21.

5.3 Resultados preliminares: DFM

La conclusión extraída del último párrafo de la subsección 5.2.2 parece indicar que la media
de las cargas virales detectadas en las 30 EDAR en estudio está más correlacionada con la
IA14 total en España que la carga viral de cada EDAR con la IA14 del municipio en el que
está ubicada.
SECRETARÍA DE ESTADO
DE SANIDAD

DIRECCIÓN GENERAL DE
SALUD PÚBLICA

Por tanto, si se pudiera calcular un indicador que resuma la evolución temporal de la carga
viral en las 30 EDAR mejor que la media de éstas 5, sería muy interesante. Eso es lo que
permite la aplicación de una técnica como el Análisis Factorial Dinámico (DFM, Peña y Box,
1987), de la que por el momento solo se dispone de resultados preliminares en su aplicación
a estos datos.

El DFM es intuitivamente la extensión al caso dinámico del Análisis de Componentes


Principales. Se pretende resumir las m=30 variables originales (series de carga viral en las
30 EDAR) en un número mucho menor (r) de factores comunes (r<<m). La elección del
número de factores comunes se hace de manera que se explique con ellos un porcentaje
importante de la variabilidad de los datos originales.

En el caso que nos ocupa, un único factor común explica casi el 51% de la variabilidad total
de las series originales. Si se toman 2 factores comunes éstos explican casi un 60% de la
variabilidad. Los pesos del primer factor son todos positivos, es decir, no es más que una
media ponderada de las series originales, pero otorgando mayor peso a las EDAR con mayor
variabilidad (Figura 22).

Figura 22. Pesos de cada EDAR (desde la EDAR1 hasta la EDAR30) en el cómputo del primer factor (en azul) y del segundo
factor común (en naranja).

La interpretación del segundo factor es realmente interesante y se incluye en un mapa en la


Figura 23. Dado que las EDAR con pesos negativos en el segundo factor común se

5
La media de la carga viral de las 30 EDAR en estudio se calcula dando a cada serie un peso de
1/30
SECRETARÍA DE ESTADO
DE SANIDAD

DIRECCIÓN GENERAL DE
SALUD PÚBLICA

concentran mayoritariamente en el norte de España, dicho factor parece estar asociado la


climatología, que puede te ner cierto impacto en la cuantificación de la concentración
de la carga viral en las EDAR.

Figura 23. Signos de los pesos obtenidos para el segundo factor común obtenido de las 30 series de carga viral en las EDAR
en estudio (EDAR1 a EDAR30).

6. Conclusiones
En este informe se utilizó una metodología estadística de correlaciones cruzadas para las
series temporales de carga viral en cada EDAR de un amplio conjunto de ellas de la red
VATar y las series de casos confirmados notificados (IA14) correspondientes a la zona de
influencia de cada EDAR.

En primer lugar, se observaron que las máximas correlaciones cruzadas se producen


midiendo la carga residual en aguas residuales con una semana de anticipación a la
incidencia acumulada obtenida.

De esta forma, el caso del promedio a lo largo de toda España, la correlación cruzada con
una semana de anticipación en la carga viral resulta ser elevada: un 0,827 con respecto a la
incidencia acumulada de 14 días de casos notificados, que puede llegar a 0,85 si se realiza
una transformación logarítmica de este dato. Esto muestra la capacidad de anticipación de la
vigilancia basada en aguas residuales en el caso que nos ocupa, excluyendo incluso aquella
atribuible al retraso en la notificación de los sistemas de vigilancia epidemiológicos.
SECRETARÍA DE ESTADO
DE SANIDAD

DIRECCIÓN GENERAL DE
SALUD PÚBLICA

Si bien en el caso de las correlaciones cruzadas a nivel individual de cada EDAR con las
incidencias acumuladas de su ubicación pueden ser considerablemente menores, ello puede
ser debido a la escasa frecuencia de muestreo (una sola muestra semanal) y al reducido
número de réplicas en la determinación experimental. Además de aumentando la frecuencia
de muestreo y el número de réplicas, una posible forma alternativa de paliar esto es la
suavización, a lo largo del tiempo, de las series de carga viral en las EDAR.

Se han usado técnicas estadísticas de análisis de factores dinámicos para determinar los
factores del conjunto de las series de las 30 EDAR consideradas. De esta forma, con solo los
dos factores dinámicos principales se puede explicar cerca de un 60% de la variabilidad total.
El primer factor dinámico (que explica más de un 50% de la variabilidad) se corresponde con
una media ponderada de las series de todas las EDAR, representando la tendencia de la
pandemia a nivel global en toda España. Los factores de ponderación de dicho promedio no
son iguales para todas las EDAR, siendo algo mayores las de las EDAR con una mayor
variabilidad en su serie de carga viral. El segundo factor obtenido (que explica cerca de un
9% de la variabilidad) está muy asociado con la ubicación geográfica de las EDAR, teniendo
comportamiento relativamente homogéneo para las EDAR del norte de España y también
homogéneo para las del resto del país, siendo bastante diferente el comportamiento de este
segundo factor entre los dos grupos encontrados.

La propuesta metodológica de nuevos procedimientos estadísticos que permitan


conjuntamente la imputación de datos faltantes y la determinación de factores
dinámicos adquiere una gran relevancia en este contexto, pues permitiría abordar los análisis
con una mayor precisión. De esta manera, es relevante la necesidad de evaluar en el
futuro la influencia de otros elementos, como los fenómenos meteorológicos, la carga fecal
y otros factores fisicoquímicos de las aguas en los valores obtenidos de carga viral en aguas
residuales.
SECRETARÍA DE ESTADO
DE SANIDAD

DIRECCIÓN GENERAL DE
SALUD PÚBLICA

Referencias bibliográficas
Ahmed, W., Angel, N., Edson, J., Bibby, K., Bivins, A., O’Brien, J.W., Choi, P.M., Kitajima,
M., Simpson, S.L., Li, J., et al., 2020. First confirmed detection of SARS-CoV-2 in untreated
wastewater in Australia: a proof of concept for the wastewater surveillance of COVID-19 in
the community. Sci. Total Environ. 728, 138764.

Alonso, A. M., Rodríguez, J., García-Martos, C., Sánchez, M. J., 2011. Seasonal dynamic
factor analysis and bootstrap inference: application to electricity market forecasting.
Technometrics, 53(2), 137–151.

Barbeito, I., Cao, R., Ladra, S., López de Ullibarri, I., Posada, D., Poza, M., Tarrío, J.,
Vaamonde, M., Vallejo, J.A., Freire, B., Gallego, P., Iglesias, I., Rumbo, S., Tomás, L., Trigo,
N., Alvariño, P., Beade, E., de Chiara, L., Estévez, N., 2022. Wastewater-based
epidemiological modelling of SARS-CoV-2 viral load and monitorization of genomic variants
in urban metropolitan areas. XL Reunión Anual de la Sociedad Española de Epidemiología.

Bi, Q., Wu, Y., Mei, S., Ye, C., Zou, X., Zhang, Z., Liu, X., Wei, L., Truelove, S.A., Zhang, T.,
et al., 2020. Epidemiology and transmission of COVID-19 in 391 cases and 1286 of their
close contacts in Shenzhen, China: a retrospective cohort study. Lancet Infect. Dis. 20 (8),
911–919.

Box, G.E.P, Jenkins, G.M., 1976. Time series analysis: Forecasting and control. Holden -
Day, San Francisco.

Cevik, M., Tate, M., Lloyd, O., Maraolo, A.E., Schafers, J., Ho, A., 2021. SARS–CoV–2,
SARS–CoV, and MERS–CoV viral load dynamics, duration of viral shedding, and
infectiousness: a systematic review and meta-analysis. Lancet Microbe 2 (1), 13–22.

Chen, Y., Chen, L., Deng, Q., Zhang, G., Wu, K., Ni, L., Yang, Y., Liu, B., Wang, W., Wei,
C., et al., 2020. The presence of SARS-CoV-2 RNA in the feces of COVID-19 patients. J.
Med. Virol. 92 (7), 833–840.

Day, M., 2020. COVID-19: Four Fifths of Cases are Asymptomatic, China Figures Indicate.

EMCDDA, E.B., 2020.Wastewater Analysis and Drugs: A EuropeanMulti-city Study.


European Monitoring Center for Drugs and Drug Addiction, pp. 1–14.

Fuentes, M., 2001. A high frequency kriging approach for non-stationary environmental
processes. Environmetrics, 12(5), 469-483.

Gupta, S., Parker, J., Smits, S., Underwood, J., Dolwani, S., 2020. Persistent viral shedding
of SARS-CoV-2 in faeces–a rapid review. Color. Dis. 22 (6), 611–620.

Medema, G., Heijnen, L., Elsinga, G., Italiaander, R., Brouwer, A., 2020. Presence of
SARSCoronavirus-2 RNA in sewage and correlation with reported COVID-19 prevalence in
SECRETARÍA DE ESTADO
DE SANIDAD

DIRECCIÓN GENERAL DE
SALUD PÚBLICA

the early stage of the epidemic in the Netherlands. Environ. Sci. Technol. Lett. 7 (7), 511–
516.

Miura, F., Kitajima, M., Omori, R., 2021. Duration of SARS–CoV–2 viral shedding in faeces
as a parameter for wastewater-based epidemiology: re-analysis of patient data using a
shedding dynamics model. Sci. Total Environ. 769, 144549.

Moritz, S., Bartz-Beielstein, T., 2017. imputeTS: Time Series Missing Value Imputation in R.
The R Journal, 9(1), 207-218.

Peccia, J., Zulli, A., Brackney, D.E., Grubaugh, N.D., Kaplan, E.H., Casanovas-Massana, A.,
Ko, A.I., Malik, A.A., Wang, D., Wang, M., et al., 2020. Measurement of SARS-CoV-2 RNA
in wastewater tracks community infection dynamics. Nat. Biotechnol. 38 (10), 1164–1167.

Peña, D., Box G.E.P., 1987. Identifying a simplifying structure in time series. Journal of the
American Statistical Association, 82(399), 836–843.

Pollán, M., Pérez-Gómez, B., Pastor-Barriuso, R., Oteo, J., Hernán, M.A., Pérez-Olmeda,
M., Sanmartín, J.L., Fernández-García, A., Cruz, I., de Larrea, N.F., et al., 2020. Prevalence
of SARS–CoV–2 in Spain (ENE–COVID): a nationwide, population–based
seroepidemiological study. Lancet 396 (10250), 535–544.

Randazzo,W., Cuevas-Ferrando, E., Sanjuán, R., Domingo-Calap, P., Sánchez, G., 2020a.
Metropolitan wastewater analysis for COVID-19 epidemiological surveillance. Int. J. Hyg.
Environ. Health 230, 113621.

Shumway. R.H., Stoffer, D., 2017. Time Series Analysis and its Applications: With R
Examples, 4th ed. New York, Springer.

Vallejo, J.A., Trigo-Tasende, N., Rumbo-Feal, S., Conde-Pérez, K., López-Oriona, Á.,
Barbeito, I., Vaamonde, M., Tarrío-Saavedra, J. . Reif, R., Ladra, S. , Rodiño-Janeiro, B.K.,
Nasser-Alia, M., Cid, Á., Veiga, M.C., Acevedo, A., Lamora, C., Bou, G., Cao, R., Poza, M.
2022. Modeling the number of people infected with SARS-COV-2 from wastewater viral load
in Northwest Spain. Science of the Total Environment, 811, 152334.

Wu, F., Zhang, J., Xiao, A., Gu, X., Lee, W.L., Armas, F., Kauffman, K., Hanage, W., Matus,
M., Ghaeli, N., et al., 2020a. SARS-CoV-2 titers in wastewater are higher than expected
from clinically confirmed cases. Msystems 5 (4).

Wurtzer, S., Marechal, V., Mouchel, J.M., Maday, Y., Teyssou, R., Richard, E., Almayrac,
J.L., Moulin, L., 2020. Evaluation of lockdown impact on SARS-CoV-2 dynamics through
viral genome quantification in Paris wastewaters. MedRxiv
https://doi.org/10.1101/2020.04.12. 20062679.

Xing, Y.H., Ni,W.,Wu, Q., Li,W.J., Li, G.J., Wang,W.D., Tong, J.N., Song, X.F.,Wong,
G.W.K., Xing, Q.S., 2020. Prolonged viral shedding in feces of pediatric patients with
coronavirus disease 2019. J. Microbiol. Immunol. Infect. 53 (3), 473–480.
SECRETARÍA DE ESTADO
DE SANIDAD

DIRECCIÓN GENERAL DE
SALUD PÚBLICA

Xu, Y., Li, X., Zhu, B., Liang, H., Fang, C., Gong, Y., Guo, Q., Sun, X., Zhao, D., Shen, J., et
al., 2020. Characteristics of pediatric SARS-CoV-2 infection and potential evidence for
persistent fecal viral shedding. Nat. Med. 26 (4), 502–505.

Zhang, T., Cui, X., Zhao, X., Wang, J., Zheng, J., Zheng, G., Guo, W., Cai, C., He, S., Xu,
Y., 2020. Detectable SARS-CoV-2 viral RNA in feces of three children during recovery
period of COVID-19 pneumonia. J. Med. Virol. 92 (7), 909–914.

También podría gustarte