Documentos de Académico
Documentos de Profesional
Documentos de Cultura
com
www.elsevier.com/locate/jad
Citar este artículo como: Jason Parker, Courtney Cuthbertson, Scott Loveridge, Mark
Skidmore y Will Dyar, Pronóstico de muertes prematuras a nivel estatal por alcohol,
drogas y suicidios utilizando datos de Google Trends, Revista de trastornos
afectivos, http://dx.doi.org/10.1016/j.jad.2016.10.038
Este es un archivo PDF de un manuscrito sin editar que ha sido aceptado para su publicación.
Como servicio a nuestros clientes, proporcionamos esta primera versión del manuscrito. El
manuscrito se someterá a corrección de estilo, composición tipográfica y revisión de la prueba de
galera resultante antes de que se publique en su forma citable final.Tenga en cuenta que durante
el proceso de producción se pueden descubrir errores que podrían afectar el contenido y todas
las exenciones de responsabilidad legales que se aplican a la revista. pertenecer
Pronóstico de muertes prematuras a nivel estatal por alcohol, drogas y suicidios
utilizando datos de Google Trends
Jason Parker, doctoradoa * 1, Courtney Cuthbertson, Doctora en FilosofíaB, Scott Loveridge, PhDa, Mark
Skidmore, PhDa2, Will Dyar, MSC
aInvestigadorpostdoctoral, Economía agrícola, alimentaria y de recursos, Universidad Estatal de
Michigan, 446 W. Circle Dr., Suite 66, Morrill Hall of Agriculture, East Lansing, MI 48824-1039
BEducador de extensión, Michigan State University, 446 W. Circle Dr., Suite 66, Morrill Hall of
Agriculture, East Lansing, MI 48824-1039
CEstudiante de doctorado, Economía agrícola, alimentaria y de los recursos, Universidad Estatal de Michigan, 458 W
parke392@msu.edu
cuthbe16@msu.edu
loverid2@msu.edu
mskidmor@msu.edu
dyarwill@msu.edu
*
Autor correspondiente. Tel .: + (972) 342 4028.
Abstracto
Fondo
Las estadísticas vitales sobre el número de muertes inducidas por alcohol (AICD), muerte inducida por drogas (DICD) y
suicidios a nivel local solo están disponibles después de un retraso sustancial de hasta dos años después de que ocurran los
eventos. (1) investigamos qué tan bien los datos de búsqueda de Google Trends explican la variación en las tasas a nivel
estatal en los EE. UU., Y (2) usamos este método para pronosticar estas tasas de muerte para 2015 ya que los datos oficiales
Métodos
Probamos el grado en que los datos de Tendencias de Google en 27 términos pueden ajustarse a los datos de los CDC
usando L1- regularización en AICD, DICD y suicidio. Utilizando los datos de Google Trends, pronosticamos las tasas de
Resultados
L1-La regularización se ajusta a los datos anteriores a 2015 mucho mejor que el modelo alternativo que utiliza variables de
ingresos y desempleo a nivel estatal. Los datos de Google Trends representan una variación sustancial en
2
crecimiento de las tasas de muerte a nivel estatal: 30,9% para AICD, 23,9% para DICD y 21,8% para tasas de
suicidio. Se prevé que todos los estados, excepto Hawái, aumenten en las tres tasas en 2015.Limitaciones
Conclusiones
El método predice las tasas de suicidio, AICD y DICD a nivel estatal mejor que el modelo alternativo. Los hallazgos del
estudio sugieren que esta metodología se puede desarrollar en un sistema de vigilancia de salud pública para las
causas de muerte relacionadas con la salud del comportamiento. Las predicciones a nivel estatal podrían usarse para
Palabras clave
Salud conductual; previsión; suicidio; abuso de sustancias; Tendencias de Google; análisis regional
Introducción
El suicidio, junto con la muerte provocada por el alcohol y las drogas, es responsable de un número
sustancial de muertes prematuras y evitables en todo el mundo cada año. Anualmente en todo el mundo, casi
3,3 millones de muertes se atribuyen al consumo de alcohol (OMS, 2004), hasta un cuarto de millón de muertes
se atribuyen al abuso de sustancias (Degenhardt y Hall, 2012) y el suicidio representa más de 800.000 muertes
(OMS, 2014). ). En los Estados Unidos, más de 42,000 personas se suicidaron y más de 80,000 sufrieron una
muerte inducida por alcohol o drogas en 2014 (CDC, 2013a). En los EE. UU., Varias organizaciones recopilan
estadísticas vitales sobre estas causas de muerte relacionadas con la salud del comportamiento que son
atribuibles a enfermedades mentales y al consumo de sustancias. Los datos de mortalidad son importantes
para mostrar las posibles conexiones entre las causas o el momento de la muerte y otros factores biológicos,
psicológicos, sociales y económicos, así como para informar las opciones de prevención y tratamiento. Sin
embargo, los datos solo están disponibles después de un retraso sustancial de hasta varios años después de
que ocurran los eventos originales de salud conductual, lo que complica las intervenciones en tiempo real
(McCarthy, 2010). Aunque existen algunos sistemas de monitoreo en áreas geográficas limitadas, no existe un
sistema de monitoreo o vigilancia en tiempo real, geográficamente completo y disponible públicamente en los
Estados Unidos para las causas de muerte relacionadas con la salud del comportamiento.
3
proveedores o agencias de salud de la comunidad para reunir recursos para ayudar a prevenir que ocurran muertes prematuras
adicionales en caso de un aumento. El objetivo de este estudio es utilizar nuevos datos disponibles públicamente de Google Trends
para modelar y pronosticar de manera confiable las causas de muerte relacionadas con la salud del comportamiento a nivel estatal,
y hacerlo mediante la aplicación de una técnica estadística relativamente nueva que puede aprovechar el poder de muchas
variables independientes. .
La gente recurre cada vez más a Internet en busca de información sobre salud, salud
mental y suicidio (Fox, 2011; Recupero et al., 2008). Google Trends es una herramienta de
datos en línea gratuita que muestra volúmenes de búsquedas utilizando Google, de palabras o
frases a lo largo del tiempo y el espacio geográfico. Google Trends comienza a verse como una
fuente de datos para la investigación en salud (Vayena et al., 2012). En Japón, las búsquedas en
Google del término "depresión" se correlacionaron positivamente con la tasa agregada de
suicidios después de un lapso de 1 a 3 meses (Sueki, 2011), mientras que en Taiwán, casi un
tercio de la variación en las tasas agregadas de suicidio se explicaron mediante búsquedas de
“depresión mayor” y “divorcio” (Yang et al., 2011). En los Estados Unidos, los términos
"suicidarse", "cómo suicidarse, ”Y la“ prevención del suicidio ”se correlacionaron positivamente
con la tasa de suicidios a nivel nacional (Gunn III y Lester, 2013). Las redes sociales en sí
mismas pueden influir en el riesgo de suicidio (Luxton et al., 2012; Shah, 2010). Monitorear las
redes sociales y las búsquedas en línea ha demostrado ser fructífero para rastrear
autolesiones no suicidas (Bragazzi, 2014), uso de drogas recreativas (Deluca et al., 2012), uso
de tabaco sin cigarrillos (Cavazos-Rehg et al., 2014), cannabis uso (Steppan et al., 2013), uso no
médico de Adderall (Hanson et al., 2013) y uso de alcohol (Frijters et al., 2013). Un estudio
anterior consideró la vigilancia del suicidio a nivel estatal utilizando Google Trends; el estudio
fue de naturaleza transversal, utilizando un año de datos a nivel estatal (n = 51) y 5 términos
de búsqueda (Ma-Kellams et al., 2016).
Este documento probó el grado en que los datos de Google Trends en 27 términos se pueden ajustar y validar de
forma cruzada con los datos de mortalidad de los CDC utilizando L1-regularización de AICD, DICD y suicidio. Utilizando los
datos de Google Trends, pronosticamos las tasas de suicidio, AICD y DICD de 2015. L1-La regularización se ajusta a los datos
anteriores a 2015 mucho mejor que el modelo alternativo que utiliza variables de ingresos y desempleo a nivel estatal. Los
datos de Google Trends pueden explicar una variación sustancial en el crecimiento de las tasas de mortalidad a nivel
estatal: 30,9% para AICD, 23,9% para DICD y 21,8% para suicidio. Cada estado
4
excepto que se prevé que Hawaii aumente en las tres tasas en 2015. La metodología del estudio predice las tasas
futuras de suicidio, AICD y DICD a nivel estatal mejor que el modelo alternativo. Los hallazgos del estudio sugieren
que esta metodología se puede desarrollar aún más en un sistema de vigilancia de salud pública para las causas de
muerte relacionadas con la salud del comportamiento. Tales predicciones a nivel estatal podrían usarse para
Este estudio se basa en gran medida en las ideas presentadas por Google Flu Trends, que era una herramienta en línea para predecir la influenza (gripe) que operó de
2008 a 2014 a nivel local y semanal (Ginsberg et al., 2009). Google Flu Trends finalmente se cerró porque el modelo predijo de manera persistente la cantidad de muertes por
influenza (Lazer et al., 2014). Lazer y col. (2014) recopiló un resumen de cuatro partes de los problemas con Tendencias de la gripe de Google que trabajamos para evitar en nuestro
modelo. Primero, Google Flu Trends tenía un problema con la transparencia y la replicabilidad porque el código del sistema era propiedad de Google, incluso si los datos de Google
Trends eran públicos. El modelo especificado en este documento se proporciona con el mayor detalle posible, aunque el proceso de generación de los datos de Tendencias de
Google sigue siendo algo apropiado para Google. Segundo, Tendencias de la gripe de Google intentó mejorar un proceso que, en sí mismo, podría predecirse en gran medida
mediante herramientas de pronóstico estadísticas ordinarias. En este artículo, comparamos nuestros pronósticos con un modelo estadístico más tradicional. En tercer lugar, Lazer et
al. (2014) sugirió que los investigadores estudien el algoritmo mediante el cual se generan los datos de Google, lo que está más allá del alcance de este estudio. Finalmente, Lazer et
al. (2014) alentó a los futuros investigadores a utilizar técnicas estadísticas y de aprendizaje automático juntas para estimar y predecir datos. Para abordar este problema, primero
tratamos previamente los datos para asegurarnos de que nuestras suposiciones estadísticas sean válidas antes de usar la L (2014) sugirió que los investigadores estudien el
algoritmo mediante el cual se generan los datos de Google, lo que está más allá del alcance de este estudio. Finalmente, Lazer et al. (2014) alentó a los futuros investigadores a
utilizar técnicas estadísticas y de aprendizaje automático juntas para estimar y predecir datos. Para abordar este problema, primero tratamos previamente los datos para
asegurarnos de que nuestras suposiciones estadísticas sean válidas antes de usar la L (2014) sugirió que los investigadores estudien el algoritmo mediante el cual se generan los
datos de Google, lo que está más allá del alcance de este estudio. Finalmente, Lazer et al. (2014) alentó a los futuros investigadores a utilizar técnicas estadísticas y de aprendizaje
automático juntas para estimar y predecir datos. Para abordar este problema, primero tratamos previamente los datos para asegurarnos de que nuestras suposiciones estadísticas
sean válidas antes de usar la L1-Técnica de regularización: una técnica desarrollada tanto en estadística como en aprendizaje automático, para modelar los datos de salud conductual
mientras se controla el sobreajuste a partir del uso de muchos términos de búsqueda. Si bien abordamos las preocupaciones documentadas sobre el modelo de tendencias de la
gripe de Google, los modelos basados en búsquedas en Internet probablemente requieran una calibración más frecuente que los sistemas de pronóstico que utilizan datos más
tradicionales, debido al entorno de búsqueda que cambia rápidamente (especialmente con respecto a los términos de la jerga común, que pueden evolucionar mucho).
Métodos
Fuentes de datos
Los datos de salud conductual a nivel estatal se descargaron del Centro para el Control y la Prevención de
Enfermedades (CDC) Datos en línea de amplio rango para la investigación epidemiológica (WONDER)
5
(CDC, 2015c). Los datos incluyen variables anuales de 1999 a 2014 sobre las causas de muerte inducidas por el
alcohol (AICD), las causas de muerte inducidas por drogas (DICD) y el suicidio. Estos tres conjuntos de datos a nivel
estatal se transformaron a tasas (por 100.000 cápita) y se modelaron utilizando datos de Google Trends. Para las
variables del modelo alternativo, incluimos el ingreso personal per cápita real disponible (después de impuestos) a
nivel estatal (RDPIpC) y la tasa de desempleo (sin empleo) de la Oficina de Análisis Económico (BEA, 2015). Ambos
Google Trends es una interfaz de programa de aplicación en línea que permite a los usuarios descargar información
sobre el volumen de búsquedas de diferentes términos en varias regiones y a lo largo del tiempo (Google, 2015). Los
usuarios pueden acceder a los datos de Google Trends a nivel global, nacional, subnacional o regional. Tenga en cuenta que
los niveles regionales o subestatales en Google Trends no coinciden con precisión con las divisiones geopolíticas
tradicionales, como los condados. Muchos términos de búsqueda están disponibles a nivel estatal o sub-estatal a partir de
2004, ya sea como volúmenes de búsqueda semanales o mensuales. Este estudio limitó Google Trends a los Estados Unidos
y se centra en los datos a nivel estatal para compararlos con los datos oficiales de mortalidad. La herramienta de volumen
de búsqueda de Google comienza con datos de 2004. Limitamos los datos a los últimos cinco años (2010-2014) porque el
uso de Internet ha aumentado constantemente durante los últimos 15 años (Perrin y Duggan, 2015). Los datos de la serie de
tiempo de Google Trends para cada término y para cada estado se recopilaron utilizando un código Python automatizado
para descargar y agregar la serie de tiempo mensual o semanal para construir un panel de datos anuales para tener la
misma escala de tiempo que los datos oficiales de mortalidad. Los datos utilizados aquí se descargaron de Google Trends
Inicialmente, se recopiló un grupo de más de 370 términos y frases de búsqueda como potencialmente
relacionados con la salud del comportamiento. Del grupo inicial, descartamos 202 términos de varias palabras y 121
términos con "muy poco volumen de búsqueda". Demasiado poco volumen de búsqueda se definió como tener más de un
tercio de ceros en el estado menos poblado (Wyoming) entre 2010 y 2014. Cada término se examinó cuidadosamente para
considerar posibles búsquedas confusas (búsquedas de términos no relacionados con la salud conductual que usan la
misma palabra) que podrían confundir los resultados. Por ejemplo, la búsqueda de "olla", un término del argot común para
la marihuana, también produce volúmenes de búsqueda de frases como "olla de barro", un electrodoméstico de cocina. La
lista final incluye 27 términos de salud conductual agrupados en cinco categorías, como se informa en la Tabla 1 junto con
estadísticas resumidas de 2010-2014. Las estadísticas de resumen incluyen tanto la variación dentro del estado como la
variación entre estados, ya que este es un modelo de datos de panel. Estos datos muestran una variación significativa en
6
Variables de tendencias que se utilizan para pronosticar las tasas de salud conductual. También consideramos si alguno de
los términos de búsqueda de Google fue un predictor particularmente fuerte de los resultados de salud conductual.
Análisis estadístico
Para modelar patrones en suicidios y otras tasas de muerte, los datos fueron tratados previamente aplicando el
logaritmo natural antes de la primera diferenciación. Este procedimiento induce estacionariedad en los datos, condición
necesaria para el modelado lineal (Núñez ‐ Antón y Zimmerman, 2000). Este tratamiento previo transforma las tasas de
En este artículo, consideramos dos modelos para los datos, una alternativa y la L1-regularización en
Google Trends que estamos interesados en probar. La alternativa es modelar los datos utilizando la tasa de
desempleo y el ingreso personal real disponible per cápita de la siguiente manera para el estado
y año :
( ) ( ) ( ) , (1)
dónde es la tasa de mortalidad del estado en el año , dónde es el
tasa de desempleo para el estado en el año, donde es el ingreso personal real disponible
tasa per cápita para el estado en el año , dónde y son el coeficiente de regresiones lineales para
modelo de regresión lineal. La alternativa podría considerarse un modelo débil. Sin embargo, los datos utilizados se publican con
un lapso de tiempo muy corto y, por lo tanto, son bastante útiles para la construcción de modelos actualizados cuando se
La siguiente ecuación resume el segundo modelo (el modelo principal de interés) para
estado y año
( )∑ ( ) , (2)
dónde es la tasa de mortalidad del estado en el año , dónde son las Tendencias de Google
término de búsqueda indexado para el estado en el año, donde está la L1-coeficiente de regularización para el
th término, y donde es un error estocástico. Para controlar el sobreajuste por incluir demasiados
variables, el modelo se estima utilizando un enfoque GLM LASSO (o L1-regularización) de (Friedman et al.,
2001). El término de penalización se seleccionó mediante validación cruzada para minimizar el error de
predicción cuadrático medio de la predicción de la muestra de un año fuera. Este procedimiento se eligió de
modo que el error de predicción cuadrático medio en 2015 se aproxime razonablemente por el
7
error de predicción cuadrática media con validación cruzada utilizado para ajustar el modelo. L1-se eligió la regularización
El modelo (2) es diferente del modelo (1) porque: a) usa datos de Google Trends yb)
usa la L1-Técnica de regularización para controlar el sobreajuste. Es importante señalar
que no estamos argumentando que el Modelo (2) sea un modelo causal como el Modelo
(1). En cambio, estamos diciendo que es posible construir un predictor preciso a partir de
un modelo no causal utilizando los términos de Tendencias de Google. De manera
relacionada, dado que estamos interesados en pronosticar en lugar de interpretar los
tamaños de los coeficientes estimados, no es necesario separar los términos que podrían
interpretarse como términos económicos y relacionados con la salud (por ejemplo, las
búsquedas de 'depresión' podrían buscar información sobre una depresión económica,
así como también se podría buscar información sobre el trastorno mental).
Resultados
Primero, para evaluar la viabilidad de la L1-diseño de regularización, usamos este método de manera
contrafáctica para el período anterior usando 2009-2013 para pronosticar 2014. Luego comparamos el resultado
con los datos reales de 2014. Sin pérdida de generalidad, normalizamos el error de predicción cuadrático medio
(MSPE) por lo que que el MSPE del modelo de caminata aleatoria es 1.000 (utilizando el valor de 2013 como
predicción para 2014). Porque el pronóstico de caminata aleatoria simplemente predice que
() es cero, es un umbral superior conveniente para cualquier pronóstico razonable para este
datos. Intentamos incluir efectos fijos estatales para controlar la heterogeneidad estatal, pero este método
estuvo fuertemente dominado por el modelo agrupado en todos los casos. El MSPE de las regresiones de
mínimos cuadrados utilizando las variables alternativas fue 2.006 para AICD, 3.041 para DICD y 0.912 para
suicidio. El MSPE de la L1-La regularización con los datos de Google Trends fue 0,758 para AICD, 0,840 para
DICD y 0,919 para suicidio. En casi todos los casos, la L de dos etapas1-La técnica de regularización con los
datos de Google Trends funcionó al menos tan bien o mejor que los otros modelos potenciales con la posible
excepción del suicidio donde la L1-La técnica de regularización funciona solo un poco peor que el modelo de
control. Dado que el acceso a Internet se ha generalizado aún más en 2015, esperaríamos que nuestro
pronóstico sea incluso mejor que el contrafactual proporcionado aquí. Todos estos resultados están
8
El modelo representa el 30,9% de la variación total en la tasa de crecimiento de las tasas de AICD a nivel
estatal. El l1-Técnica de regularización seleccionó 14 de los 27 términos potenciales. Los coeficientes son distintos de
cero en las cuatro categorías de términos. Las estimaciones de los coeficientes se pueden encontrar en la Tabla 2.
Muchos términos diferentes parecen jugar un papel en la predicción de las tasas de AICD. Por ejemplo, "deuda"
tiene un coeficiente alto, pero la desviación estándar total del término de la "deuda" es relativamente baja de 2,73.
Esto indica que, si bien un cambio sustancial en el plazo de la "deuda" tendría un gran impacto en nuestra predicción
de la tasa de suicidios, un cambio tan importante es relativamente poco probable. Por tanto, parece razonable decir
que la "deuda" es (estadísticamente) "menos importante" que la "terapia" porque la terapia tiene una desviación
estándar más alta de 5,98. Pensando en términos de la desviación estándar multiplicada por la magnitud del
coeficiente, solo dos términos parecen ser especialmente importantes en la predicción: "hospital" es, con mucho, el
más importante y la "terapia", un lejano segundo lugar. "Hospital" se correlaciona negativamente con las tasas de
Los cambios porcentuales pronosticados en las tasas de AICD en 2015 se informan en la Figura 1 Panel
A. Todos los estados muestran aumentos entre 0.00% y 7.97%. Los cinco estados que se prevé que tendrán los
mayores aumentos son Wyoming (8,0%), Kansas (7,6%), Nebraska (6,9%), Colorado (6,4%) y Minnesota (6,3%).
Las tasas de AICD pronosticadas en 2015 se muestran en la Figura 1 Panel B. Los cinco estados pronosticados
para tener la mayor porción de AICD per cápita son Nuevo México (25.9), Alaska (19.6), Oregon (19.5),
En el caso de las tasas de crecimiento de DICD, el modelo representa el 23,9% de la variación total. El l1-
técnica de regularización seleccionada 5 de los 27 términos potenciales. Como en el caso de las tasas AICD,
consideramos el producto de la desviación estándar y la magnitud del coeficiente para explicar la importancia de una
variable para el modelo. El término más importante es "desempleo", que está relacionado negativamente con DICD.
Los términos segundo y tercero más importantes son "rehabilitación" y "depresión", que están relacionados
Los cambios porcentuales pronosticados en las tasas de DICD en 2015 se informan en la Figura 2 Panel A. La
mayoría de los estados muestran un aumento constante en las tasas de DICD en 2015 de entre 2.23% y 7.14%. Los
cinco estados que se prevé que tendrán los mayores aumentos son Mississippi (7,1%), Delaware (7,1%), Alabama
(6,8%), Virginia (6,8%) y Luisiana (6,7%). Las tasas de DICD pronosticadas en 2015 se muestran en la Figura 2 Panel B.
Los cinco estados que se pronostica que tendrán la mayor porción de DICD per cápita son Virginia Occidental (36,1),
Nuevo México (28,1), New Hampshire (27,5), Kentucky (26,8) y Ohio (25,7).
9
El modelo representa el 21,8% de la variación total en la tasa de crecimiento de las tasas de suicidio a
nivel estatal. El l1-Técnica de regularización seleccionó solo 3 de los 27 términos potenciales. El término más
Los cambios porcentuales pronosticados en las tasas de suicidio en 2015 se informan en la Figura 3 Panel A.
La mayoría de los estados muestran un aumento constante en las tasas de suicidio en 2015 de entre 2.53% y 2.81%.
Los cinco estados que se prevé que tendrán los mayores aumentos son Dakota del Norte (2,8%), Wyoming (2,8%),
Oklahoma (2,8%), Dakota del Sur (2,7%) y Oregon (2,7%). Las tasas de suicidio pronosticadas en 2015 se muestran
en la Figura 3 Panel B. Los cinco estados que se pronostica que tendrán la mayor proporción de suicidios por
100,000 cápita son Montana (25.2), Alaska (23.3), Nuevo México (22.1), Wyoming (21.1), y Colorado (20,8). Los
aumentos pronosticados para el suicidio son más consistentes en los EE. UU. Que los de AICD y DICD, pero las tasas
En general, los modelos predicen que la muerte inducida por alcohol, la muerte inducida por drogas y el suicidio
aumentarán en 2015. Se espera que el suicidio y la muerte inducida por drogas aumenten en los 50 estados, y se espera
que la muerte inducida por alcohol aumente en todos los estados. estado salvo Hawaii.
Discusión
Las estadísticas oficiales de mortalidad muestran que millones de muertes en todo el mundo cada año son atribuibles a causas relacionadas con el alcohol, las causas
relacionadas con las drogas y el suicidio. En los EE. UU., Se estima que esas cifras aumentarán en muchos estados. Nuestro método de análisis utilizó los datos de Google Trends
para generar predicciones sobre el futuro cercano de AICD, DICD y tasas de suicidio en cada uno de los 50 estados. En los EE. UU., Los datos de Google Trends pudieron explicar
entre el 21,8% y el 30,9% de la variación total en la tasa de crecimiento de AICD, DICD y tasas de suicidio a nivel estatal después de incluir controles para las tasas de desempleo y el
ingreso real disponible per cápita. En total, este modelo predijo que se espera que más de 129,000 personas hayan sucumbido a la muerte por suicidio, causas relacionadas con el
alcohol o causas relacionadas con las drogas en los Estados Unidos en 2015. Esto incluye más de 52, 000 muertes por causas inducidas por drogas, más de 44,000 muertes por
suicidio y más de 32,000 muertes por causas inducidas por alcohol, y estas cifras no incluyen muertes en el Distrito de Columbia, los territorios de EE. UU., Las áreas periféricas o de
EE. UU. ciudadanos en el extranjero. Algunos términos de búsqueda de Google fueron más útiles para predecir estas tasas de muerte que otros. En un sentido general, los
coeficientes significativos relacionados con los términos de búsqueda indican que los eventos y circunstancias estresantes de la vida, las condiciones de salud física y las conductas
de riesgo afectan las tasas de AICD, DICD y suicidio. Algunos términos de búsqueda de Google fueron más útiles para predecir estas tasas de muerte que otros. En un sentido
general, los coeficientes significativos relacionados con los términos de búsqueda indican que los eventos y circunstancias estresantes de la vida, las condiciones de salud física y las
conductas de riesgo afectan las tasas de AICD, DICD y suicidio. Algunos términos de búsqueda de Google fueron más útiles para predecir estas tasas de muerte que otros. En un
sentido general, los coeficientes significativos relacionados con los términos de búsqueda indican que los eventos y circunstancias estresantes de la vida, las condiciones de salud
física y las conductas de riesgo afectan las tasas de AICD, DICD y suicidio.
10
Más específicamente, encontramos que "hospital" juega un papel clave en la predicción de AICD donde el término se relaciona negativamente con las muertes inducidas por el alcohol. Si
bien el modelo no intenta capturar la causalidad, podría ser que el acceso a la atención médica después de buscar "hospital" esté mitigando las consecuencias de la intoxicación por alcohol. Por otro
lado, la "terapia" se relacionó positivamente con la AICD. Esto podría indicar que las personas necesitan terapia para un trastorno por uso de sustancias o que están buscando terapeutas para lidiar
con el trastorno por consumo de alcohol de otra persona. La terapia cognitivo-conductual es una práctica bien establecida para el tratamiento del abuso de alcohol, y se han realizado algunos
estudios que muestran los efectos negativos del alcoholismo en la salud mental del cónyuge (Moos et al., 1982; Newman, 2001; Steinglass, 1981). Tanto para DICD como para suicidio, "desempleo"
fue el término de búsqueda clave. Para DICD, la búsqueda de desempleo se asoció negativamente con las tasas de mortalidad, mientras que investigaciones anteriores encontraron que las tasas de
desempleo están relacionadas positivamente con las tasas de mortalidad (Compton et al., 2014). Sin embargo, para el suicidio, el "desempleo" se asoció positivamente con las tasas de mortalidad.
Para DICD, la "rehabilitación" y la "depresión" se asociaron positivamente con las muertes. Las búsquedas de rehabilitación podrían estar asociadas positivamente con las tasas de DICD porque los
miembros de la familia podrían buscar rehabilitación más cuando el comportamiento de consumo de drogas se acerca a su punto máximo. Muchos estudios han demostrado una relación positiva
entre la depresión y el abuso de drogas (Regier et al., 1990; Weiss et al., 1992). la búsqueda de desempleo se asoció negativamente con las tasas de mortalidad, mientras que investigaciones
anteriores encontraron que las tasas de desempleo están relacionadas positivamente con las tasas de mortalidad (Compton et al., 2014). Sin embargo, para el suicidio, el "desempleo" se asoció
positivamente con las tasas de mortalidad. Para DICD, la "rehabilitación" y la "depresión" se asociaron positivamente con las muertes. Las búsquedas de rehabilitación podrían estar asociadas
positivamente con las tasas de DICD porque los miembros de la familia podrían buscar rehabilitación más cuando el comportamiento de consumo de drogas se acerca a su punto máximo. Muchos
estudios han demostrado una relación positiva entre la depresión y el abuso de drogas (Regier et al., 1990; Weiss et al., 1992). la búsqueda de desempleo se asoció negativamente con las tasas de
mortalidad, mientras que investigaciones anteriores encontraron que las tasas de desempleo están relacionadas positivamente con las tasas de mortalidad (Compton et al., 2014). Sin embargo, para
el suicidio, el "desempleo" se asoció positivamente con las tasas de mortalidad. Para DICD, la "rehabilitación" y la "depresión" se asociaron positivamente con las muertes. Las búsquedas de
rehabilitación podrían estar asociadas positivamente con las tasas de DICD porque los miembros de la familia podrían buscar rehabilitación más cuando el comportamiento de consumo de drogas se acerca a su punto máximo. Muc
Las recetas y las ventas de opioides aumentaron sustancialmente desde finales de la década de 1990 hasta la de 2000,
incluidas la oxicodona y la metadona, que pueden influir en las muertes por consumo de sustancias. Aunque las causas de muerte
inducidas por drogas han aumentado en los Estados Unidos desde la década de 1980, la presencia de instalaciones de tratamiento
disminuye la mortalidad a nivel de condado por el uso de drogas (Swensen, 2015). Cuando los recursos puedan ser limitados, los
funcionarios de salud pública podrían vincular los términos de búsqueda críticos a una crisis o ayudar al número de la línea directa a
los resultados de la búsqueda asociados con los términos clave identificados en el análisis, de modo que los usuarios de Internet que
buscan una serie de términos relacionados con la salud del comportamiento reciban la información necesaria. anuncio de línea
directa.
Limitaciones
Si bien los datos de Google Trends se pueden usar para predecir las tasas de mortalidad por salud
conductual a nivel estatal, existen algunas limitaciones clave que deben discutirse. El análisis utilizado en este
documento no puede realizar predicciones a nivel individual. En nuestros datos, es importante reconocer que
las personas que realizan búsquedas en línea no son necesariamente las mismas que fallecen por AICD, DICD
o suicidio. Además, no podemos utilizar este análisis a un nivel más local que estatal.
11
porque Google no publica sus datos en una geografía local que se corresponda con las delimitaciones del condado o la
ciudad. Esto limita especialmente nuestra capacidad para predecir cambios en las zonas rurales.
Otra limitación es que estas predicciones dependen actualmente de la disponibilidad de datos de Google.
Actualmente, Google ofrece datos de Google Trends de forma gratuita, aunque existe un límite en la cantidad de datos que
un solo usuario puede descargar en un solo día. El ajuste del modelo también depende de que los datos de muerte de los
CDC estén disponibles de manera oportuna. En los últimos dos años, los CDC han publicado los datos del año pasado el 31
de diciembre a la medianoche (es decir, el 31 de diciembre de 2016, es posible que se publiquen los datos de 2015).
Este modelo no tiene en cuenta explícitamente el aumento actual de la heroína en muchos estados (CDC,
2015b), pero, sin embargo, predice parte del cambio desde el aumento de las búsquedas de "rehabilitación" y
"deuda" en 2015. Quizás sería posible mejorar estas predicciones de incorporar otras fuentes de datos en el modelo,
como la Encuesta Nacional sobre el Uso de Drogas y la Salud (NSDUH), aunque muchas otras fuentes de datos están
limitadas por el retraso de años entre la recopilación de datos y la divulgación pública de los conjuntos de datos.
Además, nuestros indicadores pueden ser difíciles de analizar, ya que el consumo de alcohol puede
ser contemporáneo de los intentos de suicidio o el medio por el cual uno intenta suicidarse (Conner et al.,
2014). Aún así, el método que usamos nos permite generar pronósticos, lo que nos motiva a continuar
aprovechando las Tendencias de Google para predecir una variedad de otros problemas de salud pública
Conclusión
El estudio actual hace contribuciones importantes en la intersección de la salud mental, la
epidemiología y los macrodatos al demostrar cómo los términos de búsqueda en línea no solo están
significativamente relacionados con las causas de muerte relacionadas con la salud del comportamiento, sino
también cómo el volumen y la ubicación geográfica de esos términos de búsqueda se puede utilizar para
predecir las tasas futuras de muerte por alcohol, drogas y suicidio. Estos tres tipos de muertes son
prematuras y evitables con una intervención oportuna; el análisis en el estudio actual podría ser importante
para los departamentos de salud pública y otros funcionarios que podrían usar los datos para informar la
asignación de recursos, así como los esfuerzos de intervención para reducir las muertes por alcohol, drogas y
suicidio. Con información actualizada sobre problemas de salud conductual, las oficinas de salud estatales
12
En los últimos años ha habido un impulso en la salud pública hacia prácticas basadas en la evidencia para resolver
las enfermedades mentales y los problemas de uso de sustancias dentro de las poblaciones. Con este movimiento hacia
programas de intervención ya respaldados por pruebas empíricas de eficacia, ha habido un deseo simultáneo de estrategias
de selección informadas por la evidencia, o la capacidad de datos sobre un problema de salud conductual en particular para
guiar el proceso de selección de la intervención. Dado que los datos oficiales se retrasan durante varios años, la selección de
estrategias de intervención oportunas se vuelve difícil. Los datos de Google Trends están disponibles instantáneamente, y el
uso del método desarrollado aquí ayudaría a proporcionar una estrategia de selección de intervenciones basada en
evidencia.
Para futuras vías de investigación, podría ser útil desglosar los datos por mes. Tanto los datos de los CDC
como los de Google Trends están disponibles mensualmente. Es bien sabido que el suicidio muestra signos de
estacionalidad y la incorporación de estos datos en el modelo podría hacer que las predicciones sean más precisas
(Woo et al., 2012). Otros conjuntos de datos también pueden ser útiles para modelar los datos. Para una prueba de
los datos, aumentamos el modelo con las medidas de desempleo e ingresos del modelo alternativo, pero el ajuste
Otra posible vía para la investigación futura es desagregar las tasas de mortalidad por género u otros factores. Es
más probable que las mujeres busquen en línea información relacionada con la salud que los hombres, y es más probable
que las mujeres busquen en línea información sobre los problemas de salud de un miembro de la familia (Ybarra y Suman,
2006). Sin embargo, los tipos de muerte explorados en este estudio son más comunes entre los hombres que entre las
mujeres (CDC, 2015a). Si bien es más probable que los hombres experimenten una sobredosis de opioides, las tasas de
sobredosis de opioides han aumentado más en las mujeres entre 1999 y 2010 (CDC, 2013b). En el futuro, planeamos
explorar las diferencias entre las muertes relacionadas con la salud del comportamiento de hombres y mujeres utilizando
métodos similares.
Conflicto de intereses
Apoyo parcial para este trabajo de la Administración de Servicios de Salud Mental y Abuso de Sustancias de los
Estados Unidos y el Instituto Nacional de Alimentos y Agricultura del Departamento de Agricultura de los Estados
Unidos. Los patrocinadores no tuvieron ningún papel en el diseño del estudio, la implementación, la redacción del
informe, la decisión de enviar el artículo para su publicación o la elección de la revista. El autor correspondiente tenía
pleno acceso a todos los datos y tenía la responsabilidad final de la decisión de enviar para su publicación.
13
Referencias
[2] Bragazzi, NL, 2014. Un enfoque basado en Google Trends para monitorear NSSI. Investigación en
[3] Cavazos-Rehg, PA, Krauss, MJ, Spitznagel, EL, Lowery, A., Grucza, RA, Chaloupka,
FJ, Bierut, LJ, 2014. Seguimiento del consumo de tabaco no relacionado con cigarrillos mediante Google
[4] CDC, 2013a. Archivo de datos de múltiples causas de muerte. Sistema Nacional de Estadísticas Vitales.
[5] CDC, 2013b. Signos vitales: sobredosis de analgésicos opioides recetados y otras drogas en mujeres -
Estados Unidos, 1999-2010. MMWR. Informe semanal de morbilidad y mortalidad 62, 537.
[6] CDC, 2015a. Defunciones: datos finales de 2011. Informes nacionales de estadísticas vitales 63, 1-12.
[7] CDC, 2015b. Signos vitales: tendencias demográficas y de consumo de sustancias entre los consumidores de heroína ¬
[9] Compton, WM, Gfroerer, J., Conway, KP, Finger, MS, 2014. Desempleo y resultados de
350-353.
[10] Conner, KR, Huguet, N., Caetano, R., Giesbrecht, N., McFarland, BH, Nolte, KB, Kaplan, MS, 2014.
Uso agudo de alcohol y métodos de suicidio en una muestra nacional de EE. UU. Revista
[11] Degenhardt, L., Hall, W., 2012. Alcance del uso y dependencia de drogas ilícitas y su
[12] Deluca, P., Davey, Z., Corazza, O., Di Furia, L., Farre, M., Flesland, LH, Mannonen, M., Majava, A.,
Peltoniemi, T., Pasinetti, M., 2012. Identificación de tendencias emergentes en el uso de drogas
[13] Fox, S., 2011. La vida social de la información sobre la salud 2011. Proyecto Pew Internet & American
[14] Friedman, J., Hastie, T., Tibshirani, R., 2001. Los elementos del aprendizaje estadístico. Springer
14
[15] Frijters, P., Johnston, DW, Lordan, G., Shields, MA, 2013. Explorando la relación entre las condiciones
macroeconómicas y los problemas con la bebida según lo capturado por las búsquedas de Google en
[16] Ginsberg, J., Mohebbi, MH, Patel, RS, Brammer, L., Smolinski, MS, Brilliant, L., 2009. Detección de
1012-1014.
[18] Gunn III, JF, Lester, D., 2013. Uso de búsquedas de Google en Internet para monitorear el
[19] Hanson, CL, Burton, SH, Giraud-Carrier, C., West, JH, Barnes, MD, Hansen, B., 2013. Ajustar y
tuitear: explorar Twitter para el uso no médico de una droga psicoestimulante (Adderall) entre
[20] Lazer, D., Kennedy, R., King, G., Vespignani, A., 2014. La parábola de la gripe de Google: trampas en el
[21] Luxton, DD, junio, JD, Fairall, JM, 2012. Las redes sociales y el suicidio: una perspectiva de salud
[22] Ma-Kellams, C., Or, F., Baek, JH, Kawachi, I., 2016. Repensar la vigilancia del suicidio Los datos de
[23] McCarthy, MJ, 2010. Monitoreo en Internet del riesgo de suicidio en la población. Revista de
[24] Moos, RH, Finney, JW, Gamble, W., 1982. El proceso de recuperación del alcoholismo. II. Comparación de
[25] Newman, CF, 2001. Terapia cognitiva del abuso de sustancias. Prensa de Guilford.
[26] Núñez ‐ Antón, V., Zimmerman, DL, 2000. Modelado de datos longitudinales no estacionarios.
[27] Perrin, A., Duggan, M., 2015. Acceso a Internet de los estadounidenses: 2000-2015. Centro de Investigación Pew
26.
[28] Recupero, PR, Harms, SE, Noble, JM, 2008. Búsqueda de suicidios en Google: navegación en busca de
15
[29] Regier, DA, Farmer, ME, Rae, DS, Locke, BZ, Keith, SJ, Judd, LL, Goodwin, FK, 1990. Comorbilidad
de los trastornos mentales con el abuso de alcohol y otras drogas: resultados del área de
[30] Shah, A., 2010. La relación entre las tasas de suicidio de la población general e Internet: un
[31] Steinglass, P., 1981. El impacto del alcoholismo en la familia. Relación entre grado de
[32] Steppan, M., Kraus, L., Piontek, D., Siciliano, V., 2013. ¿Son las estimaciones de prevalencia de cannabis
comparables entre países y regiones? Una validación intercultural utilizando datos de consultas de motores
[33] Sueki, H., 2011. ¿Influye el volumen de búsquedas en Internet que utilizan términos de búsqueda relacionados
con el suicidio en la tasa de muerte por suicidio: datos de 2004 a 2009 en Japón? Psiquiatría y neurociencias
[34] Swensen, ID, 2015. Tratamiento por abuso de sustancias y mortalidad. Revista de Economía
[35] Vayena, E., Mastroianni, A., Kahn, J., 2012. Cuestiones éticas en la investigación de la salud con fuentes
[36] Weiss, RD, Griffin, ML, Mirin, SM, 1992. El abuso de drogas como automedicación para la depresión: un
estudio empírico. La revista estadounidense sobre el abuso de drogas y alcohol 18, 121-129.
[37] OMS, 2004. Informe sobre la situación mundial del alcohol de la Organización Mundial de la Salud. Departamento
[39] Woo, J.-M., Okusaga, O., Postolache, TT, 2012. Estacionalidad de la conducta suicida.
[40] Yang, AC, Tsai, S.-J., Huang, NE, Peng, C.-K., 2011. Asociación de tendencias de búsqueda en Internet
con muerte por suicidio en la ciudad de Taipei, Taiwán, 2004-2009. Revista de trastornos afectivos
132, 179-184.
[41] Ybarra, ML, Suman, M., 2006. Comportamiento de búsqueda de ayuda e Internet: una encuesta nacional.
dieciséis
Leyendas de figuras
17
Mesas
Tabla 1: Términos de búsqueda de Google Trends agrupados en categorías con estadísticas de muestra.
Vida matón 2,9 3,6 3,9 3,5 3,2 3,4 1,01 0,37 0,96
Factores estresantes
muerte 61,3 61,8 59,4 55,2 55,2 58,9 12,5 3,96 12.31
9
deuda 11,0 11,9 10,0 8,6 7,6 8,4 2,73 1,65 2,25
funeral 33,9 33,5 35,3 33,6 34,3 37,1 18,6 2,59 18.58
5
abogado 8.4 9.4 8.2 7.8 8.1 8.4 1,90 0,72 1,83
Jubilación 12,1 11,1 10,8 10,8 11,1 11,7 3,13 1,06 3.10
estrés 9,9 9,2 9,3 8,9 8,9 9,6 1,79 0,65 1,75
desempleo 39,6 31,3 28,3 22,7 19,3 15,1 13,1 8,33 9.42
Nuevo Testamento 1
Físico SIDA 7.0 6.3 6.0 5.2 5.3 5.3 1,32 0,70 1,15
Comportamiento cigarrillos 4,7 4,4 4,4 4,8 4,3 3,8 0,92 0,41 0,86
Alabama
Salud diabetes 12,7 11,4 11,6 11,1 11,1 11,8 2,50 0,80 2,45
herpes 7,0 7,4 7,4 6,8 6,7 6,6 1,70 0,51 1,67
VIH 5,8 5,2 5,2 5,3 5,1 5,6 1,39 0,39 1,37
hospital 95,5 87,8 83,9 78,1 75,6 77,8 11,4 7,89 9.11
8
marijuana 13,8 12,5 12,4 11,2 13,7 13,3 5.46 1,51 5.35
rehabilitación 9,0 9,3 8,0 7,9 8,2 8,4 1,97 0,73 1,90
Emocional abuso 10,6 10,1 9,7 8,7 9,0 8,9 2,40 0,94 2,29
Salud asesoramiento 8,9 8,3 8,3 7,9 7,7 8,0 2,57 0,72 2,54
depresión 12,5 11,9 11,7 11,2 12,0 13,2 2,68 1,00 2,59
recuperación 20,0 16,7 15,5 14,6 14,5 15,0 4.23 2.14 3,77
suicidio 11,8 11,1 12,0 11,5 11,9 14,6 3,23 1,39 2,99
terapia 25,0 24,6 25,2 24,4 24,1 25,4 5,98 1,69 5,94
Sustancia adiccion 5,7 5,5 5,3 5,0 5,4 5,6 1,39 0,42 1,37
Relacionado Bebiendo 12,8 12,8 14,1 14,0 15,2 15,2 3.12 1.23 2,94
borracho 8,7 8,2 9,6 9,6 12,0 9,6 2,26 1,34 1,90
DUI 3,9 3,9 4,1 3,9 3,7 3,5 1,67 0,35 1,66
metanfetamina 3,5 3,3 3,6 4,2 4,1 4,4 1,72 0,54 1,66
Los términos de búsqueda se escalan de 0 a 100, los términos de búsqueda se descargaron en pares para preservar los datos sobre los
volúmenes relativos
18
Categoría Término Modelo alternativo L1-Modelo de regularización
(Subcategoría)
Suicidio AICD DICD Suicidio AICD DICD
Variables independientes alternativas
Desempeño 0,91 - 0,47 0,06
RDPIpC 0,32 0,41 - 0,21
Variables de tendencias de
Google(Vida matón 0 - 0.088 0
Factores estresantes)
muerte 0 - 0.034 0
deuda 0 0,189 0,063
funeral 0 0 - 0.016
abogado 0 0 0
Jubilación 0 0,019 0
estrés 0 0 - 0,113
desempleo 0.013 0 - 0.076
(Físico SIDA 0 0,075 0
Conductual
Salud)
cigarrillos 0 - 0.054 0
diabetes 0 0 - 0.036
herpes 0 0 0
VIH 0 0 - 0.066
hospital 0 - 0,249 0
marijuana 0 0 0
rehabilitación 0 0 0,199
(Emocional abuso 0 0 - 0.099
Salud)
asesoramiento 0 0 0
depresión 0 0 0,144
recuperación 0,009 0,007 0
suicidio 0,003 0.103 0
terapia 0 0,141 0
(Sustancia adiccion 0 - 0,229 0.028053
Relacionado)
Bebiendo 0 0 0
borracho 0 0 0
DUI 0 0 0
metanfetamina 0 0,166 0
Estadísticas de ajuste del modelo
19
Reflejos
- Los datos subnacionales sobre 27 términos de salud conductual se descargan de Google Trends.
- Los datos de Google Trends se utilizan para modelar las tasas de mortalidad por alcohol, drogas y suicidio.
- El modelo de pronóstico a nivel estatal utiliza datos de 2010 a 2014 para predecir 2015.
- El sur lidera el aumento de las drogas y las Grandes Llanuras del alcohol y el suicidio.
- Los términos clave elegidos son "hospital" para el alcohol y "desempleo" para las drogas y el suicidio.
20