Está en la página 1de 25

Análisis y automatización de resultados de cuestionarios de

tamizaje en el área de consejería psicológica

Andrés Eduardo Morales Cortina Carlos Andrés Sanchez Agudelo Lourdes Karina Barreto Gomez
Departamento de Ingeniería de Departamento de Ingeniería de Departamento de Ingeniería de
Sistemas y Computación Sistemas y Computación Sistemas y Computación
Universidad del Norte Universidad del Norte Universidad del Norte
Barranquilla, Colombia Barranquilla, Colombia Barranquilla, Colombia
moralesea@uninorte.edu.co cagudeloa@uninorte.edu.co lkbarreto@uninorte.edu.co

Profesor asesor del proyecto: Iván Saavedra Antolinez.


Tutor del curso: Wilson Nieto Bernal Phd

Resumen​— ​Las tecnologías de la información se I. Introducción


han vuelto una herramienta esencial en todos los
ámbitos de la sociedad. En este caso se hace uso
de estas, para brindar apoyo a los profesionales Los trastornos mentales como la
encargados de nuestra salud mental, los cuales depresión, ansiedad, esquizofrenia, etc.,
usualmente recurren a tareas repetitivas y que constituyen a uno de los retos más
les toman tiempo en completar. Se propone la desafiantes que enfrenta la ciencia médica
automatización de cuestionarios de tamizaje y su
en la actualidad. Para esto es necesario
posterior análisis para brindar resultados de
forma eficiente. Para lograr esto, se hace uso de desarrollar formas de evaluación precisa y
la Minería de Datos, la cual permitirá crear objetiva para estos trastornos. Los
modelos para una subsiguiente aplicación e métodos actuales de detección y
implementación en los cuestionarios. seguimiento de estos trastornos implican
Palabras Clave​— ​Técnicasestadísticas, largas sesiones de entrevistas con médicos
minería de datos, autoreportes, árbol de
especialistas y en completar una serie de
decisión, cuidado de la salud mental,
cuestionarios. Tales métodos de
modelos predictivos, psicología.
evaluación no solo son subjetivos y
Abstract​— ​Information technologies have costosos, sino que también consumen
become an essential tool in all areas of society. mucho tiempo. Además, los pacientes
In this case, these are used to provide support to pueden cansarse de responder las mismas
professionals in charge of our mental health,
preguntas de los cuestionarios estándar. Es
who usually resort to repetitive tasks that take
time to complete. The automation of screening por eso que se han desarrollado otras
questionnaires and their subsequent analysis is alternativas de evaluación que son
proposed to provide results efficiently. To asequibles, repetibles, requieren menos
achieve this, data mining techniques are used, esfuerzo humano y, no se ven afectadas
which will allow creating models for a following
por ningún sesgo presente en la toma de
application and implementation in the
questionnaires.
decisiones humanas (Jaiswal et al., 2019).
Keywords​— ​Statistical Techniques, data
mining, self report, decision tree, mental health Estos métodos de evaluación se conocen
care, prediction models, psychology. como los cuestionarios de autoinforme
(Self-report questionnaires) tal como el encuestas son realizadas personalmente y
SRQ-20, que son usados a menudo en el por tanto, son revisadas y evaluadas de la
campo de la psicología para detectar misma forma, luego de los análisis
problemas de salud mental y medir su repetitivos hechos por profesionales. La
severidad. Su validez ha sido bien propuesta de este proyecto es automatizar
establecida por una serie de estudios la aplicación de estas encuestas y su
previos (Jaiswal et al., 2019). posterior análisis, con ayuda de la minería
de datos y de expertos en el tema. Algunas
Por otro lado, se ha reconocido de las fases para la realización de este
popularmente el rápido desarrollo de las proyecto puede apreciarse en el siguiente
las tecnologías de la información. Durante gráfico.
los últimos veinte años ha cambiado
fundamentalmente casi todos los campos
de la ciencia y la ingeniería, transformando
muchas disciplinas de los “datos pobres” a
cada vez más ricos en datos, y exigiendo el
desarrollo de nuevos métodos de uso
intensivo de datos para realizar
investigaciones en ciencia e ingeniería
(Sehgal, V., & Chauhan, D., 2011). El
campo de la minería de datos le da el
reconocimiento e importancia que tiene la
información y su uso, es por eso que se
plantea la utilización de estas herramientas
para atribuir al desarrollo estas alternativas
de evaluación mencionadas anteriormente.

El proyecto se enfoca en la aplicación de


Figura 1 . Descripción del problema.
técnicas de minería de datos utilizando la
información proveniente de los
Algunas de las fases más importantes se
cuestionarios de tamizaje, para construir
dan antes del análisis de los datos, las
un análisis que brinde soporte adicional al
cuales consisten en diseñar la
consejero psicológico y de esta manera implementación de la solución basada
contribuir al tratamiento de trastornos
completamente en las tecnologías de la
mentales. información, ya que hasta el momento
todo está en papel. Otra de las fases más
interesantes es la creación del modelo que
II. Descripción del problema
nos permita predecir o clasificar el estado
mental del paciente, esto con la ayuda de
En el departamento de psicología de la
los profesionales, ya que son ellos quienes
Universidad del Norte, se realizan
tienen la experiencia y saben qué
encuestas de tamizaje a todos los elementos tener en cuenta al momento de
estudiantes que solicitan algún tipo de
evaluar las encuestas de los pacientes, los
acompañamiento psicológico. Estas
cuales han incrementado de forma
considerable en tiempos de pandemia IV. Objetivos generales
comparado con otros años, una muestra de
esto es que en el 2015 solo se necesitaba Diseñar, desarrollar y desplegar una
un profesional para atender estos aplicación web que permita a los
pacientes, hoy en día se tienen 7 estudiantes universitarios realizar la
profesionales de tiempo completo y 3 de encuesta de tamizaje, enviar resultados,
medio tiempo, y con más de 1500 análisis y estadísticas sobre esta a los
pacientes atendidos el año pasado. profesores encargados.

III. Justificación V. Objetivos específicos

La salud mental para cualquier persona es 1. Revisión sistemática de la literatura


igual de importante que la salud física. En relacionada con las encuestas de
el ambiente universitario los alumnos autoestudio y técnicas relacionadas
muchas veces se ven afectados por con la minería de datos para ser
situaciones de estrés, ansiedad, o implementadas en el proyecto.
problemas externos como en su hogar o 2. Diseñar una arquitectura lógica de
vida social. Es por eso que existen la solución que nos permita
espacios de consejería psicológica dentro gestionar el proyecto y nos ayude a
del campus, para guiar a estos estudiantes comprender cómo este avanzará.
a una estabilidad mental, y así esta 3. Desarrollo del prototipo para la
problemática que lo está afectando en el automatización de cuestionarios de
momento no interfiera dentro su proceso tamizaje.
académico. 4. Validar y desplegar el prototipo
Debido a la importancia que tiene este basado en la arquitectura lógica
campo, se propuso el desarrollo de una para la automatización de
aplicación web para automatizar los cuestionarios de tamizaje,
cuestionarios de tamizaje realizados por profesores ya podrán realizar esta
los estudiantes en su primera cita encuesta usando este servicio y
psicológica y de esta manera brindar un luego ingresar al mismo para ver
apoyo al psicólogo sobre el resultados y estadísticas de la
reconocimiento del estado mental del encuesta.
paciente. De esta manera se puede agilizar
este proceso consejería, facilitar el análisis
realizado por el profesional, y aplicar
técnicas de minería de datos para predecir VI. Metodología
o clasificar el padecimiento de nuevos
estudiantes que asisten a estos espacios. El procedimiento que se plantea para
llevar a cabo la realización de este
proyecto será un metodología por fases
planeada por el grupo de trabajo:
clasificados por el modelo versus los
Recolección de datos clasificados originalmente por el dataset.
Esto se logrará gracias a los profesores del
departamento de Psicología, los cuales De​sarrollo de la página web
tienen almacenados historiales de Esta fase se irá desarrollando al mismo
encuestas realizadas anteriormente. Todos tiempo que las fases anteriores, ya que no
los datos recolectados han sido entregados es necesario aún tener el modelo para
sin datos personales, para así garantizar la poder iniciar a trabajar en el front-end. En
privacidad y seguridad de los pacientes la pantalla principal los pacientes se
encuestados. encontrarán con el cuestionario, el cual
podrán enviar luego de llenar los datos
Comprensión y organización de los personales y haber respondido todas las
datos preguntas. La otra parte de la página web
Luego de obtener los datos, debemos estará dedicada a los profesionales, los
entender cómo están compuestos, para cuales podrán tener un seguimiento de sus
proceder con un análisis más detallado. En pacientes y tendrán acceso a sus encuestas
primera instancia debemos conocer el y sus resultados.
criterio de clasificación de los trastornos
realizado por Bienestar Universitario y Más adelante, nos encargaremos de aplicar
saber cómo evalúan ellos los cuestionarios, el modelo desarrollado en nuestro sitio
relación entre preguntas, preguntas de web, de manera que quede integrado para
mayor peso, preguntas críticas, etc. De esta ofrecer el servicio objetivo a los
manera estructuramos el dataset y profesionales.
reconocemos que tipo de información
vamos a clasificar. Scrum
Para el desarrollo del proyecto hicimos uso
Implementación del modelo de la metodología ágil de SCRUM. Lo
Entendiendo ya la forma en que los primero fue recopilar los requerimientos
profesionales evalúan los cuestionarios, por parte de Bienestar Universitario para el
tendremos todas las herramientas para desarrollo web del prototipo y con el
empezar a desarrollar un modelo basado equipo idealizar otro componente
en árboles de decisiones que será adicional para el proyecto lo cual fue la
entrenado con las respuestas de los parte de minería de datos, luego
cuestionarios de tamizaje. procedimos a dividirnos el trabajo y
empezar un desarrollo constante que duró
Evaluación del modelo por semanas, dentro de la fase de
Haremos uso de las distintas métricas que desarrollo se hicieron reuniones con
provee la librería Scikit Learn para evaluar Bienestar Universitario para recibir un
nuestro modelo de clasificación, entre ellas feedback y ajustar requerimientos, así
está el uso de la precisión y exactitud, la como también comprender su criterio de
matriz de confusión, la curva ROC y su clasificación a la hora de evaluar un
respectiva área bajo la curva para cada paciente. También el desarrollo y diseño
clase y por último un graficado de datos de la página web estuvo divido por
entregas o commits, en paralelo se iba
trabajando con el modelo de árboles
decisiones y el marco del trabajo para este
proyecto. Despliegue del prototipo
Una vez se tenga un modelo funcional
(funciones básicas, enviar encuestas y que
los profesionales puedan verla y ver los
resultados obtenidos de nuestro modelo),
este será desplegado en un servidor
remoto, gracias al cual los beneficiados
podrán tener acceso a él y a los datos, cada
que sea necesario.

Figura 2 . Diagrama SCRUM

​SÍNTESIS DE LA REVISIÓN SISTEMÁTICA DE LA LITERATURA

Artículo Autores Año Palabras clave Fuente

The Benefit Mark Rice, Shue 2011 User assistance, ACM digital
Analysis of User Ching Chia, Hong help, guides, libraries
Assistance Huei Tay, Marcus manuals, messages.
Improvements Wan, Liyuan Li,
Jamie Ng, and Joo
Hwee Lim

Predictive analysis Ehsan Sheyban, 2014 Decision-making, ACM SIGKDD


of engine health for Giti Javidi, Aparna Estimation, Explorations
decision support. S. Varde, Statistical Newsletter
Shubhabrata Techniques.
Mukherjee.

Identifying user's of Maksim V. 2017 Social engineering IEEE


social networks Abramov ; Artur A. attacks; information
psychological Azarov. security; user’s
features on the protect; information
basis of their protect; user’s
musical preferences vulnerability
profile; profile of
psychological
characteristics.

A Survey on Dalal, M. A. and 2011 data mining, ACM


Clustering in Data Harale, N. D. clustering,
Mining unsupervised
learning, k- means,
hierarchical
clustering}

Self-Report Constantina 2015 Beck Depression WOS


Questionnaires Demetriou, Bilge Inventory (BDI);
Uzun Özer, Cecilia Construct Validity;
A Essau Cross-Cultural
Issues in
Assessment;
Reliability

Virtual Human Jaiswal, Shashank 2019 anxiety, gad-7, ACM


Questionnaire for and Valstar, Michel depression, phq-9,
Analysis of and Kusumam, intelligent virtual
Depression, Keerthy and agent, bfi-10,
Anxiety and Greenhalgh, Chris personality
Personality

Automatización Ángel González 2016 gráficas, encuestas. WOS


Web de encuestas, Santillán, Margarita
configura y no Limón Mendoza
programes

Process Mining for Partington, Andrew 2015 health care ACM


Clinical Processes: and Wynn, Moe delivery, patient
A Comparative and Suriadi, Suriadi pathways,
Analysis of Four and Ouyang, Chun comparative
Australian and Karnon, analysis, Process
Hospitals Jonathan mining, data
preparation

A Survey on Himani Sharma, 2016 Decision Tree ACM


Decision Tree Sunil Kumar Learning,
Algorithms of classification, C4.5,
Classification in CART, ID3
Data Mining

Psychological Yanbo Wang, 2020 health psychology, WOS


assistance during Xudong Zhao, mental health care,
the coronavirus Qiang Feng. prevention,
disease 2019 psychological
outbreak in China assistance, public
health.

Software Mariusz 2018 Software ACM


architecture Chmielewski, architecture, mobile
optimization of Paweł Pieczonka, tools, clinical trials
mobile biomedical Marcin Kukiełka, assessment,
sensor-based tools Tomasz Gutowski biomedical tools;
providing analytical biomedical sensors,
services for disease quantitative
diagnostics and analysis,
assistance. optimization of
architecture,
software
assessment
measures

Self-reports: How Schwarz, Norbert 2019 ACM


the questions shape
the answers.

A Survey of Pedro Strecht 2018 prediction models, IEEE


Merging Decision decision tree
Trees Data Mining merging, survey
Approaches

Knowledge Pardeep Kumar 2011 KDD, Data WOS


Discovery in ,Vivek Kumar Mining, Image
Databases (KDD) Sehgal, Durg Singh Processing,
with Images: A Chauhan Compression
Novel Approach Ratio, Information
toward Image Gain.
Mining and
Processing

A Data Mining Dey, Pabitra & 2012 cluster analysis, International


Approach on Chakraborty, fuzzy set theory, Journal of Machine
Cluster Analysis of Gangotri & Ruj, machine learning, Learning and
IPL Purnendu & Sarkar, data mining. Computing, Vol. 2.
Suvobrata.

The Cluster Yuriy P. 2020 WOS


Analysis in Big Zaychenko ,
Data Mining Michael Z.
Zgurovsky

People, sensors, Jesse Hoey, Craig 2013 Assistive ACM


decisions: Boutilier ,Pascal technology,
Customizable and Poupart,Patrick dementia, POMDP,
adaptive Olivier, Andrew F stroke, interactive
technologies for Monk , Alex systems,
assistance in Mihailidis prompting, artificial
healthcare intelligence

PARAS: a Xika Lin, Abhishek 2013 ACM


parameter space Mukherji, Elke A.
framework for Rundensteiner,Caro
online association lina Ruiz, Matthew
mining O Ward

A personalized Sebastian Klenk, 2011 Personalized ACM


medical Jürgen Dippon, Medicine, Medical
information system Gunther Information
Heidemann, Peter System, Decision
Fritz Support

Fotossenti: An app Carvalho, Darlinton 2015 picture oriented ACM


to support on Barbosa Feres and psychological
psychological Araujo, Samuel treatment, e-health,
treatments Moreira Abreu m-health,
information system
to support
psychological
treatment

Design for Petra Boström and 2015 User-centred ACM digital


Self-Reporting Eva Eriksson. design, libraries.
Psychological questionnaire,
Health in intellectual
Children with disabilities,
Intellectual children,
Disabilities psychological
health, special
education.

VII. Marco teórico


Encuestas de autoinforme ejecutado, podría afectar el estado de salud de
En el área práctica de la psicología existen un individuo.
herramientas de gran importancia que permiten Ahora bien, la confiabilidad en este campo es
identificar síntomas y trastornos, los cuales son entendida como la evaluación “...mediante el
conocidos como ​Self-report questionnaires. método test-retest, en el que se pide a los
Estas encuestas, como suelen ser llamadas participantes que respondan a los elementos del
usualmente, se desarrollan interactuando con el instrumento dos veces en diferentes momentos.
individuo a través de una serie que preguntas La confiabilidad test-retest aborda la
respecto a las experiencias subjetivas de cada consistencia a lo largo del tiempo, que se
uno a quien es aplicada, con el fin de mostrar obtiene calculando un coeficiente de
de una forma sencilla un número de tendencias correlación para los dos períodos de
y formas de proceder por parte de cada uno de evaluación.” (Demetriou, C., Özer, B. & Essau,
los encuestados. lo interesante de todo el C., 2015). De lo anterior se puede deducir que
proceso enunciado anteriormente, es la ventana solo si las respuestas continúan siendo
de posibilidades que ofrece a quien lo aplica en similares en diferentes intervalos de tiempo,
el diagnóstico, como ya se mencionó, ya sea podemos tener un mayor grado de confianza en
previa o posteriormente a la aplicación de estos procesos.
ciertos tratamientos, además de proporcionar Otro aspecto que se debe tener en cuenta a la
una hoja de ruta frente a las posibles hora de diseñar estas encuestas es qué tan fácil
complicaciones que se hacen evidentes tras la pueden llegar a ser para el encuestado, evitando
aplicación del cuestionario. cargar los niveles de estrés y que se encuentre
motivado a la hora de realizar y completar la
El uso de estas encuestas estándar ayuda a prueba tranquilamente sin sentirse prejuzgado.
mantener una atención estructurada, debido a
que se define un número de respuestas y Proceso de aplicación de la encuesta
preguntas, lo cual implica que el psicólogo se Históricamente estas encuestas han sido
configura para manejar solo una cantidad de aplicadas a los encuestados de forma física y
posibles respuestas, y lo puede hacer de una presencial, el inconveniente principal de esta
manera accesible como lo es el uso de la aproximación es que siempre ha sido necesario
tecnología. Otra ventaja de estas encuestas es tener a profesionales en disposición, para
que las puntuaciones son ampliamente válidas revisar, analizar, y extraer información para
para muchos estudios y pueden usarse como luego poder hacer las conclusiones pertinentes
una medida de gravedad para la afección del sobre cada caso y así proseguir con un
paciente. Las puntuaciones de los cuestionarios tratamiento con el paciente más especializado.
se pueden combinar con el análisis del Esto puede verse como algo positivo hasta
comportamiento para realizar predicciones cierto punto, ya que estamos recibiendo ayuda
(Jaiswal et al., 2019). de personas profesionales con la experiencia
para diagnosticar y dictaminar el estado de un
Confiabilidad de las encuestas paciente y qué hacer con él posteriormente. El
Un aspecto de vital importancia a la hora de problema de tener que contar con profesionales
abordar este tipo de cuestionarios es qué tan para revisar las encuestas y sus respuestas es
confiables pueden llegar a ser, pues es a partir una por una, es la disponibilidad de
de esto que un diagnóstico inadecuado o mal profesionales en todas las regiones donde se
aplican este tipo de cuestionario. “Se estima
que al menos 500 millones de personas en todo descubrir conocimientos, patrones, y estándares
el mundo sufren de desórdenes mentales”. en grandes bases de datos. Este proceso es
(Beusenberg, M., Orley, John H., 1994). Esto clave en el Knowledge Discovery in Databases
es una gran muestra de que no hay suficientes (KDD) que se define como el proceso no trivial
profesionales para poder dar un diagnóstico de identificar patrones válidos, novedosos y
temprano sobre los pacientes y qué ayuda finalmente comprensibles en grandes bases de
adicional deben recibir estos. datos. Esta técnica de análisis de datos se
centra en el modelado y el descubrimiento de
Para lidiar un poco con este problema, en este conocimientos con fines predictivos en lugar de
trabajo se propone una solución web en la cual solamente descriptivos. En los últimos años la
la encuesta puede ser enviada, analizada, y minería de datos ha atraído una gran atención
luego se puede entregar a los profesionales un en la industria de la información. Esto es
reporte sobre la encuesta realizada por los debido a la gran disponibilidad de enormes
pacientes, ahorrando de esta forma tiempo a los cantidades de datos y a la necesidad de
profesionales a la hora de revisar las encuestas convertir dichos datos en información y
y sus preguntas una por una. conocimiento útiles (Sehgal, V., & Chauhan,
D., 2011).
Aplicación de minería de datos
La exploración de datos nos ayuda a
comprender mejor la información y a Clasificación y predicción.
prepararla de tal manera que se haga un posible Más que brindarle un soporte al psicólogo,
análisis, esto nos facilita a la hora obtener podríamos juntar todos estos datos para darle
información de los datos de una manera más una mejor utilidad a esa información, es por
rápida de lo que harían técnicas de análisis eso que se plantea técnicas de minería de datos
avanzadas. También llamado análisis para darle un uso clasificatorio y predictivo a
exploratorio de datos, esto nos proporciona un los datos. Encontramos el modelo de árbol de
conjunto de herramientas para obtener una decisión para obtener clasificadores, este no
comprensión fundamental de un conjunto de requiere un conocimiento previo del dominio o
datos. En el análisis exploratorio, la un gran ajuste de parámetros, lo que los hace
preparación de los datos se toma gran cantidad apropiados no sólo para la predicción sino
de tiempo, se estima como el 80% del trabajo también para el análisis de datos exploratorios
es preparando datos para análisis e informes (Strecht, P., 2015). Esta técnica de clasificación
básicos y otro el 20% es en la entrega de de árboles de decisión es una de las técnicas de
resultados. En nuestro caso el conjunto de minería de datos más populares. En el árbol de
datos será proporcionado por las respuestas de decisión, la técnica de divide y vencerás se
los cuestionario de tamizaje, para emplear utiliza como estrategia básica de aprendizaje.
técnicas de minería de datos debemos tener un Un árbol de decisión es una estructura que
cantidad considerable de datos por cual tomará incluye un nodo raíz, ramas y nodos hoja. Cada
tiempo reunir y recopilar estos datos. nodo interno denota una prueba sobre un
atributo, cada rama denota el resultado de una
Se define la minería de datos como la prueba y cada nodo hoja tiene una etiqueta de
extracción de información desconocida y clase. El nodo superior del árbol es el nodo raíz
potencialmente útil de los datos (Badulescu, (Sharma, H., & Kumar, S., 2016). Una vez
A., & Nicula, A., 2007). Esta nos permite elaborado el data se puede implementar este
modelo para cuando llegue un nuevo estudiante aplicación de cuestionario para Tablets y
a solicitar un asesoramiento psicológico en consiste en medir la salud psicológica de los
base a sus respuesta en el tamizaje se pueda niños con discapacidad intelectual, el objetivo
predecir el estado de su salud mental, o qué es que los alumnos puedan completar el
variables están asociadas a determinado cuestionario de manera independiente, los
padecimiento. Por otro lado, está la resultados son exportados a un software
clusterización de los datos, esta técnica nos estadístico SPSS y contribuyen principalmente
permite clasificar los datos dividiéndolos en al análisis para que los investigadores
varios clusters. Esta agrupación es importante comprendan la variabilidad de respuestas en
en el análisis e interpretación de datos, se ha material visual para ilustrar palabras y
usado ampliamente en varios campos de conceptos dentro de este grupo de alumnos con
investigación como la estadística, el discapacidad intelectual (Boström, P., &
reconocimiento de patrones y el machine Eriksson. E., 2015). Y de esta manera va
learning (Dey, P., Chakraborty, G., Ruj, P., & encaminada el objetivo de nuestro proyecto.
Sarkar, S., 2011). La clusterización se aplica en Aplicar el uso de las tecnologías de la
las áreas más diversas. Por ejemplo, en el información para apoyar apoyar la asistencia
campo de la medicina, la agrupación de psicológica por medio de un análisis
enfermedades, tratamientos de enfermedades o computacional como lo es la aplicación de
síntomas de enfermedades conduce a una herramientas de minería de datos, que le va
taxonomía ampliamente utilizada. En el campo servir al profesional psicológico a reconocer el
de la psiquiatría, el diagnóstico correcto de padecimiento de su paciente.
grupos de síntomas, como paranoia,
esquizofrenia, etc., es decisivo para una terapia VIII. Arquitectura de la solución
exitosa (Zgurovsky, M., & Zaychenko, Y.,
2020). En nuestro caso esto podría ser útil para
agrupar nuestros datos en padecimientos como
la depresión o la ansiedad y en base a una
nueva entrada, es decir un estudiante que
realiza el cuestionario, podemos asociar en
base a sus respuesta a qué cluster de
padecimientos podría estar relacionado.

Uso de las tecnologías de la información.


Un grupo de suecos desarrollaron una
herramienta interactiva que tiene como
objetivo apoyar el ​Self-report questionnaires
de la salud psicológica entre los niños de 12 a
15 años con discapacidades intelectuales, esto Figura 2. Arquitectura de la solución.
permite entender los factores que contribuyen
a la variación de la salud mental y permite En el diagrama anterior vemos la arquitectura
obtener la información base para diseños que lógica del prototipo. Como tecnologías
puedan cambiar la vida cotidiana de los niños y principales para el desarrollo se usó el
jóvenes con una discapacidad intelectual framework Django (Back-end), y Vue.js para
crónica. El prototipo del proyecto es una toda la parte visual de la página (front-end).
Cuenta también con un módulo en donde pide sus datos personales e indicar el profesor
funciona todo el procesamiento de los datos, al que fue asignado (​ver figura 18)​.
usando varias librerías de Python para el
análisis de datos. Posteriormente a esto el estudiante deberá
La aplicación web consiste básicamente en que llenar una serie de preguntas correspondientes
los pacientes pueden realizar la encuesta de al SRQ-20 (​ver figura 19) las cuales tiene como
auto-estudio, en la cual además de las respuesta afirmación o negación.
respuestas pueden ingresar sus datos personales
y elegir el profesional encargado de esa En última instancia para enviar una encuesta el
encuesta. solicitante debe responder 7 preguntas las
Por parte de los profesionales que evalúan las cuales tienen como objetivo conocer la relación
encuestas, estos podrán ingresar con sus del estudiante con su familia y sus amigos (​ver
credenciales y allí tendrán acceso a las figura 20),​ una vez presiona el botón de enviar
encuestas que sus respectivos pacientes los datos son guardados en la base de datos
realizaron. Podrán visualizar allí los resultados listos para ser analizados.
de las encuestas siguiendo las normas y
La opción de ingresar como profesor (​ver figura
procesos estipulados por los profesionales para
21) permite a estos usuarios loguearse y
brindar resultados acertados.
consultar los resultados de los estudiantes que
También habrá un usuario administrador el
tiene asignado y los datos de los mismos.
cual tendrá ciertos beneficios como acceso a
En la dashboard del profesor (​ver figura 22)
todas las encuestas, podrán también registrar
podemos encontrar un listado de todas las
nuevos profesores en el sistema o actualizar su
respuestas de los estudiantes asignados a dicho
respectiva información..
docente, en esta sección se detalla todas las
preguntas de la encuesta de cada estudiante, en
IX. Prototipo
las últimas 6 columnas de la tabla se ve
El prototipo acude al nombre de ​Mental Quest reflejado los resultados del análisis de dichas
para la implementación del mismo primero se ​ dicionalmente a
respuestas (​ver figura 23).​ A
establecieron las clases que la estructuran, esto el usuario profesor también tiene acceso a
como se puede apreciar en la (​ver figura 3)​ las todos los datos de sus estudiantes ( ​ver figura
clases con las que cuenta el prototipo son: 24).​
Por otro lado el usuario administrador cuenta
Profesor , estudiante (el cual tiene asignado un
profesor), preguntas y respuesta (la cual está con las mismas opciones del profesor pero
relacionada a una pregunta y a un estudiante). adicional a esto este usuario puede ver la
Adicionalmente a estos existe un superusuario información de todos los estudiantes, los
el cual tiene acceso total a la base de datos. En resultados de estos, añadir (​ver figura 26​) y
el index de la página web (​ver figura 17),​ un gestionar los profesores registrados ( ​ver figura
estudiante puede ingresar una nueva encuesta o 25)​ .​
los profesores y administradores pueden
ingresar. Cuando un estudiante se dispone a
llenar una encuesta para solicitar
acompañamiento psicológico primero se le
Figura 3. UML del prototipo.

X. Resultados

Con el prototipo terminado y desplegado En la ​figura 4 se visualiza el conteo de ‘Si’ y


de manera funcional se procede a recopilar ‘No’ para preguntas específicas relacionadas a
los resultados de las encuestas realizadas depresión y ansiedad, de esta manera se
por cada uno de los estudiantes para un pueden analizar síntomas puntuales que están
posterior análisis y aplicación. presentes en la población estudiantil y que
Inicialmente se nos fue facilitado por pueden ser indicios a padecimientos o
medio del área de consejería psicológica trastornos mentales. Pero la mayor relevancia
el acceso a las respuestas de los se la lleva la pregunta relacionada al suicidio,
cuestionarios de tamizaje de 171 aqui se pudo visualizar que de los encuestados
estudiantes conservando su respectiva la mayoria no han tenido la idea de acabar con
anonimidad. su vida durante los ultimos 30 días, pero aún
así da la imagén de las personas que si han
El dataset está compuesto del valor tenido la idea y lo cual deben ser atendidas.
afirmativo o negativo de cada una de las
20 preguntas que hacen parte del
formulario. Antes de la aplicación de
técnicas de minería de datos, el primer
paso es realizar un análisis exploratorio de
los datos para conocer el panorama que
estamos abordando.
Figura 4. Frecuencia de respuestas a preguntas puntuales

Figura 5. Histograma de respuestas afirmativas para cada pregunta.


Del histograma de la ​figura 5 podemos
decir la columna ‘Q17’ la cual hace
referencia a la pregunta ‘¿Has tenido la
idea de acabar con tu vida?’ es la que tiene
una menor cantidad de respuesta
afirmativa y la columna ‘Q6’ que hace
referencia a la pregunta ‘¿Te sientes
nervioso, tenso o aburrido?’es la que tiene
mayor número afirmaciones dentro de los
encuestados, esto nos puede ayudar a
comprender síntomas comunes para un Figura 6. Histograma de los labels.
padecimiento y a la misma vez para
identificarlo. Todas estas preguntas nos Esto son los labels o clases que recibirá
llevan a la clasificación de trastornos nuestro modelo así de esta manera podrá
mentales que podría padecer un estudiante. predecir una clasificación, del histograma
de la ​figura 6 podemos decir que la
El formato del cuestionario (Self-report mayoría de estudiantes que acuden a
SRQ 20) nos permite analizar episodios consejería psicológica se le pronostica la
depresivos, desórdenes de ansiedad, probabilidad de padecer tanto ansiedad
trastornos somatomorfos y otros como depresión. Sin embargo también hay
desórdenes neuróticos, pero es cuestión de un grupo significativo de estudiantes que
los evaluadores o analistas el elegir qué no se les diagnosticó ningún tipo de
trastornos analizará el cuestionario es por trastorno lo cual puede ser indicio de otros
eso que en nuestro caso el área de desórdenes neuróticos que están fuera de
consejería psicológica por parte Bienestar las variables de estudio o que simplemente
Universitario nada más se enfoca de la persona tiene otro tipo inconformidades
manera simultánea en la probabilidad de que lo acompleja.
dos trastornos que son la ansiedad y
depresión. El resultado del cuestionario Por último, para finalizar la parte del
nos da como salida 4 posibles resultados: análisis exploratorio, se procedió a realizar
● DP-AP : Depresión probable y una matriz de correlación entre las
ansiedad probable. preguntas para determinar una posible
● DP-NA : Depresión probable y no relación entre un par de ellas o el síntoma
aplica ansiedad. que representa. Las áreas más sombreadas
● NA-AP : Ansiedad probable y no de la matriz nos indica mayor relación, así
aplica depresión. que podríamos decir que la pregunta ‘Q19’
● NA-NA: No aplica depresión ni la cual hace referencia a ‘sensaciones
ansiedad. desagradables en el estómago’ tiene
relación con la pregunta ‘Q10’ la cual hace
referencia a ‘llorar con mucha frecuencia’,
a su vez la pregunta ‘Q14’ (‘¿Te sientes
incapaz de desempeñar un papel útil en tu
vida?’) está ligada con la pregunta ‘Q16’
(‘Sientes que eres una persona inútil?’) y Esto nos quiere decir que los pacientes
tiene sentido debido a que son preguntas responden de manera afirmativa a este par
muy parecidas, al igual que la relación que de preguntas en su mayoría de veces y nos
recalca en la pregunta ‘Q20’ (‘¿Te cansas ayuda a relacionar síntomas que conllevan
con facilidad?’) y ‘Q18’ (‘¿Te sientes a la clasificación de un trastorno.
cansado todo el tiempo?).

Figura 7. Matriz de correlación.

Se utilizó como clasificador el modelo de Scikit-learn. Este algoritmo consiste en


Decision Tree que consiste en crear un reducir la incertidumbre utilizando
árbol que por cada nivel o profundidad nos distintas métricas, el criterio elegido para
va indicar una respuesta haciendo así un este algoritmo fue el de la Entropía que se
camino de decisión basados los valores de describe de la siguiente fórmula:
los atributos que estamos evaluando.

Existen variantes en cuanto a la


construcción de árboles de decisiones, el
es el número de clases de nuestro
que fue usado para el desarrollo de este
dataset, representa el target de cada una
proyecto es el algoritmo de CART
de las clases y es una proporción de
(Classification and regression trees)
muestras que pertenecen a la clase . Esta
implementado por la librería de
entropía es una medida para el desorden de
nuestro dataset, entonces la idea del resultado fue un 0.7 así que con esto
algoritmo es minimizar este desorden para podemos decir que tenemos un buen
obtener información o como es modelo de clasificación.
denominado ‘Information Gain’ lo cual
brinda pureza al sistema. A partir de la En la siguiente gráfica podemos observar
minimización de Entropía o la la clasificación original dada por nuestro
maximización del Information Gain se va dataset lo cual hace parte de los datos de
construir el árbol de decisión. Test y la clasificación realizada por
nuestro modelo de Decision Tree. Vemos
Para entrenar nuestro modelo primero se que tiene mejor exactitud en la
dividieron los datos en un 20% para Test y clasificación para las clases ‘DP-AP’ y
un 80% para entrenamiento. Una vez ‘NA-NA’ debido a que son las clases con
entrenado el modelo con los respuestas de mayor frecuencia y el modelo pudo
los cuestionarios y su previa clasificación entrenarse mejor.
utilizamos las métricas de ‘Accuracy’ y
‘Precision’ para hacer una evaluación
previa del modelo antes de utilizarlo.

Figura 8. Precision y Accuracy Score

Se calcula el Accuracy para saber si un


conjunto de la muestras o los datos de Test
coinciden exactamente con los datos
predecidos por el modelo, este puntaje es
bueno y no se busca que sea un 100% ya Figura 9. Gráfica de comparación (Predicted vs
que causaría el problema de Overfitting, Test)
por otro lado la Precisión nos calcula la
capacidad que tiene el clasificador de no
etiquetar como positiva una muestra que es
negativa, el mejor puntaje es de 1, nuestro
Figura 10. Visualización del árbol de decisiones
Enlace para visualizarlo mejor: https://i.ibb.co/47ymtFR/descarga.png

El tamaño del árbol es comprensible


debido a que tenemos 20 variables que
corresponden a las 20 preguntas y en el
nodo raíz, la entropía es muy alta por lo
cual el algoritmo realiza varias divisiones
de los datos hasta que en sus hojas la
entropía sea muy baja como lo veremos en
la siguiente figura. La modificación de los
parámetros para que el árbol tuviera un
tamaño más reducido causaba que las
métricas de precisión y ​accuracy
disminuyeran, ya que de esa manera el
modelo tenía más probabilidades de errar Figura 12. Matriz de confusión.
la clasificación.

Figura 11. Visualización de la entropía en las


hojas. Figura 13. Matriz de confusión normalizada.
Para evaluar el modelo hicimos uso de la Por último, la última forma de evaluación
matriz de confusión la cual nos permite para nuestro modelo es una gráfica ROC
visualizar el desempeño del modelo con el (Receiver Operating Characteristic) que
uso de los datos para Test, las filas nos está basada en las métricas de True
indican la clasificación dada por los datos Positive Rate y False Positive Rate, es
originales, y la columna, la clasificación decir lo que clasifica el modelo como
predecida por el modelo. Con esto bueno y es correcto versus lo que clasifica
podemos ver que para las muestras se hizo el modelo como bueno y es incorrecto. El
una buena predicción en la mayoría de las objetivo es que nuestro True Positive Rate
clases. sea alto, la línea intermedia nos indica una
50/50 de clasificación, y por debajo es una
De esta matriz se derivan otras métricas clasificación incorrecta, entonces el
que nos sirven para evaluar nuestro objetivo es que todas nuestras clases este
modelo como las que brinda el reporte por arriba de esa línea intermedia, el área
mostrado en la siguiente figura. Para cada bajo la curva o AUC el cual es una métrica
clase se realiza una evaluación, la para medir el performance del modelo de
precesión en este caso nos indica el clasificación. Su valor oscila entre 0 y 1,
porcentaje de los que fueron identificados siendo 1 un modelo cuya predicciones son
como positivos y que realmente son 100% correctas, el resultado que nos arrojó
positivos, lo cual para las clases con mayor fueron valores altos de 0.7 en promedio lo
frecuencia tienen una precisión alta, el cual nos indica una buena predicción para
‘Recall’ nos indica el porcentaje de los que esas clases.
el modelo clasificó correctamente y
coinciden con los datos de prueba, por
último, el ‘F1-Score’ es el promedio
ponderado de las dos métricas
anteriormente mencionadas, entre más
cercano sea el puntaje a 1 va ser mejor la
clasificación para esta clase.

Figura 15. Gráfica de curva ROC-AUC.

Figura 14. Reporte de clasificación.


XI. Conclusiones compresión y otros aspectos de nuestro
proyecto.
Para el desarrollo de este trabajo, se
desarrolló la revisión sistemática de la
literatura relacionada con los cuestionarios
de autoinforme. Esto permitió entender
más a fondo su uso e importancia en los
pacientes con problemas psicológicos, así
como también conocer y adentrarnos en
las técnicas de minería de datos.
Posteriormente se continuó con el diseño y
desarrollo del sitio web el cual permitiría
la aplicación de estas encuestas de forma
automatizada por parte de los
profesionales a sus pacientes y por último
el respectivo análisis de los datos con base
Figura 16. Gráfica de promedio de evaluación de
en las respuestas obtenidas.
pares.

Para el análisis contamos con las


respuestas de 171 estudiantes y su previa
Se cumplieron los objetivos planteados y
clasificación según los criterios de
demostrando de esta manera lo beneficioso
Bienestar Universitario, de esta manera
que puede ser el uso las tecnologías de la
dividimos el dataset en un 20% para Test y
información, análisis exploratorio y
un 80% para entrenar nuestro modelo de minería de datos, para abordar y describir
árbol decisión implementado con el
problemas para su posterior solución. De
algoritmo de CART y tomando como
esta manera se puede beneficiar la área
criterio la entropía. El análisis exploratorio
psicológica al analizar un paciente o una
nos ayudó a comprender el panorama de la
población ya que se pueden conocer
población y también a deducir
síntomas, una tasa de riesgo de suicidio,
conclusiones ya expuestas por medio de
darle prioridad de atención a determinado
los resultados. Con el modelo de grupo y mucho más, haciendo de esto un
clasificación entrenado obtuvimos una
apoyo para el cuidado de la salud mental
buena evaluación gracias al uso de las
de los estudiantes universitarios que son
distintas métricas de precisión y exactitud,
los más vulnerables por su entorno y edad.
el uso de la matriz de confusión y la curva
de ROC, el puntaje nos indica un buen
modelo que puede ser usado para clasificar
el trastorno de un paciente de manera
automatizada.

En el siguiente gráfico se aprecia el


resultado de la evaluación hecha por pares
para medir la calidad, fiabilidad,
BIBLIOGRAFÍA ❖ Shashank Jaiswal, Michel Valstar,
Keerthy Kusumam, and Chris
❖ Badulescu, Laviniu Aurelian & Greenhalgh. 2019. Virtual Human
Nicula, Adrian. (2007). Data Questionnaire for Analysis of
Mining Decision Trees in Depression, Anxiety and
Economy. University Library of Personality. In Proceedings of the
Munich, Germany, MPRA Paper. 19th ACM International
❖ Sehgal, Vivek & Chauhan, Durg. Conference on Intelligent Virtual
(2011). Knowledge Discovery in Agents (IVA '19). Association for
Databases (KDD) with Images: A Computing Machinery, New York,
Novel Approach toward Image NY, USA, 81–87.
Mining and Processing. ❖ Beusenberg, M, Orley, John H &
International Journal of Computer World Health Organization.
Applications. Division of Mental Health. (​1994)​.
❖ Strecht, Pedro. (2015). A Survey of A User's guide to the self reporting
Merging Decision Trees Data questionnaire ​SRQ / compiled by
Mining Approaches. M. Beusenberg and J. Orley. World
❖ Pandurangan, P. Rajesh. (2017). Health Organization
Decision Tree Approach in Data ❖ Demetriou, Constantina & Özer,
Mining. Bilge & Essau, Cecilia. (2015).
❖ Sharma, Himani & Kumar, Sunil. Self-Report Questionnaires.
(2016). A Survey on Decision Tree 10.1002/9781118625392.wbecp50
Algorithms of Classification in 7.
Data Mining. International Journal ❖ Petra Boström and Eva Eriksson.
of Science and Research (IJSR). 5. 2015. Design for self-reporting
❖ Zgurovsky, Michael & Zaychenko, psychological health in children
Yuriy. (2020). The Cluster with intellectual disabilities. In
Analysis in Big Data Mining. Proceedings of the 14th
❖ Dey, Pabitra & Chakraborty, International Conference on
Gangotri & Ruj, Purnendu & Interaction Design and Children
Sarkar, Suvobrata. (2011). A Data (IDC '15). Association for
Mining Approach on Cluster Computing Machinery, New York,
Analysis of IPL. International NY, USA, 279–282.
Journal of Machine Learning and
Computing.
A​NEXOS

​ Figura 17. Landing page mental quest

Figura 18. Sección para ingresar datos personales del estudiante.


Figura 19. Top 9 preguntas SRQ-20.
figura 20. Preguntas relacionadas al acompañamiento familiar y amistades.

Figura 21. Ingresar como profesor.


Figura 22. Dashboard profesor.

Figura 23. últimas 6 columnas de tabla resultados

Figura 24. listado de estudiantes asociados a un profesor.


Figura 25. Dashboard administrador, sección gestión de profesores.

Figura 26. Formulario para añadir nuevo docente.2019

También podría gustarte