Propuesta Proyecto

UNIVERSIDAD MILITAR NUEVA GRANADA
FACULTAD DE INGENIERÍA
PROGRAMA DE INGENIERÍA EN MECATRÓNICA
FORMATO PROPUESTA TIPO 3
PROPUESTA DE OPCIÓN DE GRADO: Trabajo de Grado
N
Código Nombre
o
1 1803180 Jorge Steban Moreno Lozano
1. TÍTULO
Clasificación de la voz entre voces sanas y voces hiperfuncionales no fono

traumáticas mediante el uso de algoritmos de inteligencia artificial basado en
parámetros ambulatorios de la función vocal
2. ANTECEDENTES
La inteligencia artificial ayuda los profesionales de la salud, a utilizar su experiencia

de manera más efectiva, permitiendo resolver problemas de manera más rápida y
sencilla. La inteligencia artificial puede identificar vínculos entre datos sin procesar
y se puede usar en varias áreas de la medicina, como apoyo diagnostico en la toma
de decisiones para el tratamiento y manejo del paciente, el desarrollo de
medicamentos e incluso la atención médica misma [9].
La implementación de la inteligencia artificial en la medicina tiene el potencial de

transformar el diagnóstico y control de enfermedades, procesando en cuestión de
segundos la revisión de grandes cantidades de información [1]. El análisis de
imágenes es una herramienta aplicada en cardiología y radiología, por su facilidad
de uso y la capacidad de analizar un volumen considerable de imágenes que puede
ser complejo para un profesional de la salud [2].
Por ejemplo, el análisis histórico patológico de imágenes no se limita únicamente al

análisis visual, es necesario incluir varias otras fuentes de datos provenientes de
registros clínicos e información demográfica del paciente. La Inteligencia Artificial
será esencial para filtrar estas fuentes dispares de información y ayudar a los
profesionales de la salud a tomar las mejores decisiones clínicas para los pacientes.
[2].
Por su parte la detección automática de desórdenes de la voz ayuda a simplificar

los procesos de diagnóstico, reduciendo el tiempo requerido y sus costos [15]. El
uso de técnicas de aprendizaje de máquina con aprendizaje profundo para realizar
la detección automática han sido el objetivo de las recientes investigaciones
[16][17].
Para poder realizar la detección automática de desórdenes de la voz, es necesario

saber cuáles parámetros son usados para describir la función vocal y las diferencias
con la función vocal en pacientes con trastornos. Se ha encontrado que parámetros
como la presión subglótica tienes relación con patologías de la voz de tipo
hiperfuncional[35].Otro parámetro usado para describir la función vocal es el
coeficiente de contacto (CQ),el cual mide el estrés de los pliegues vocales en su
colisión[36]. Además de estos parámetros y muchos otros usados para identificar
comportamiento aerodinámico y mecánico de la voz, también es necesario emplear
la acústica para mejor identificación de deficiencias vocales en los pacientes. A
través de señales sonoras grabadas mediante micrófonos, y un software de análisis
se puede asociar la fisiología con la acústica de la voz [37]. En estos parámetros
acústicos se pueden encontrar la frecuencia fundamental, la intensidad, las medidas
de perturbación, la relación de la señal con el ruido, entre muchas otras [38].
En base a estas características aerodinámicas y acústicas es posible caracterizar

el comportamiento de la voz. Como Colmillo [5] habla sobre el análisis de la vocal
/a/ usando MEEI. Sus experimentos demuestran las ventajas de los métodos de
aprendizaje profundo sobre los métodos clásicos, como GMM, SVM, en otros [5].
Además, el uso de arquitecturas de redes neuronales convolucionales (CNN)
utilizando el conjunto de datos SVD, permite solucionar estos problemas por su
manera innovadora de mecanismo de atención [6]. El mecanismo de atención puede
extraer información clave de manera efectiva mientras ignora información
irrelevante [7], [8]. Los mecanismos de atención han sido ampliamente utilizados en
tareas de clasificación y han logrado resultados satisfactorios en estas tareas.
Para poder aplicar técnicas de inteligencia artificial, es necesario entender

características en los trastornos funcionales de la voz, los cuales generalmente se
relacionan con su mal uso, que resulta en una alteración de la calidad de la voz.
Estos trastornos se pueden clasificar en trastornos orgánicos, estructurales y
neurogénicos. Los trastornos orgánicos de la voz ocurren cuando los órganos de
producción de la voz se ven afectados y se dividen en estructurales y neurogénicos
[19]. Las anomalías estructurales se deben a la deformación física de los órganos
de producción de la voz, como las lesiones de las cuerdas vocales. Las anomalías
neurogénicas se deben a problemas con el sistema nervioso, alterando la
producción de la voz [20] [19].
Dentro de los trastornos de la voz se encuentra la patología denominada
hiperfunción de la voz (HV), la cual se refiere a la "hiperactividad musculo
esquelética de la laringe" durante la vocalización, se considera un componente
causal del tipo más común de trastorno de la voz [11], [12]. Estos incluyen lesiones
benignas de las cuerdas vocales y disfonía sin patología [13]. Sin embargo, los
trastornos hiperfuncionales de la voz se pueden definir por exclusión. Esta definición
describe los trastornos de la voz que no están relacionados con condiciones
inmunológicas, endocrinas, psiquiátricas, malignas, displásicas, inflamatorias o
neurológicas, además excluye traumatismos o lesiones laríngeas. Se dice que las
anteriores disfunciones persisten sin ningún cambio de comportamiento o
intervención, estos trastornos de la voz varían en gravedad y presentación entre
pacientes a lo largo del tiempo [14].
Dentro de la hiperfunción de la voz, se pueden clasificar los pacientes en dos grupos

de voces hiperfuncionales, fono traumático (VHP) y no fono traumático (NPVH) [22].
Según [23] se puede definir tres factores que pueden determinar el desarrollo de
estas patologías. La predisposición psicológica del paciente puede definir su uso de
voz y tiene posibilidad de desarrollar Voz hiperfuncional fono traumática (VHP) si es
extrovertido e impulsivo. En cambio, NPVH se puede desarrollar en introvertidos y
ansiosos [23]. El segundo factor relacionado en estudios es la función biomecánica
del habla, la cual varía según el tipo de VH como se explica a profundidad en
[24][29]. Finalmente, el último factor referido como déficit de sensomotor, se refiere
a producción de sonidos atípicos en respuesta a estímulos [25][30].
Estudios realizados sobre PVH encontró diferencias entre sujetos de control sanos
y pacientes enfermos, utilizando características estadísticas de distribución como
curtosis y sesgo, en características de cierre glótico basado en las diferencias entre
el primer y segundo armónico con un clasificador multidimensional [27][28]. En [22]
se plantea realizar la misma estrategia para NPVH debido a que otras técnicas para
identificar NPVH han fallado por su parecido a la voz normal en pruebas
ambulatorias a corto plazo [29] [22].
3. PLANTEAMIENTO DEL PROBLEMA
3.1 IDENTIFICACIÓN
La detección de patologías de la voz de forma temprana puede evitar que se

agraven varios problemas de salud como ronquera, aspereza, debilidad y perdida
de voz. La patología de la voz causa inconvenientes en la vida diaria, lo que resulta
en graves problemas sociales. Se estima que 17,9 millones de adultos
estadounidenses mayores de 18 años (7,6 % de la población) han tenido problemas
de voz en los últimos 12 meses [4].
Con el fin de detectar patologías, se realiza la evaluación clínica de la voz, mediante
la valoración personal del paciente llevado a cabo por profesionales de la salud
especialistas en voz, de manera visual y auditiva-perceptual. Así mismo, la
obtención de datos para el análisis por parte de los profesionales de la voz requiere
equipamientos como el laringoscopio para la evaluación visual, el cual resulta ser
invasivo para el paciente y causan incomodidad. A su vez estos tipos de evaluación
resultan con variaciones en su diagnóstico dependiendo del profesional [4].
Para que soporte o ayude a los profesionales de la salud a tomar las decisiones de diagnostico…..
Sin embargo, es posible realizar otro tipo de análisis, la cual permite encontrar
indicadores cuantitativos para que los profesionales de la salud tomen una decisión
en el diagnostico de manera más acertada y confiable. El desarrollo de este tipo de
análisis de la voz se hace de manera asistida por computadora, utilizando algoritmos
de IA, que permite analizar rápidamente grandes cantidades de datos para el
diagnóstico, al mismo tiempo reduce la carga de trabajo de los profesionales de la
salud y al no ser invasiva para el cuerpo, resulta cómoda para los pacientes [4].
3.2 DESCRIPCIÓN
Para la detección de enfermedades que afectan la voz se requieren equipos de alto

costo e invasivos para el paciente, con el fin de evaluar características que permiten
detectar enfermedades de forma temprana [4]. Además, la detección de NPVH es
muy compleja mediante evaluación personal [27] [23], por lo que el desarrollo de
nuevos algoritmos de inteligencia artificial, que permitan la detección de NPVH, con
base a las características presentes en la voz de manera ambulatoria es una
alternativa para este tipo de enfermedad.
El uso de algoritmos de IA, como Machine Learning y Deep Learning, han sido
desarrollados para análisis de voz con el fin de clasificar ciertas patologías de la
voz, obteniendo buenos resultados y definiendo una nueva manera de diagnosticar
estas patologías [2][3][4]. Sin embargo, NPVH es una patología que no ha sido
utilizada mayormente en estos estudios y análisis por sus características parecidas
a la voz normal en sesiones cortas de muestro de la voz. En cambio, al usar
sesiones largas de muestreo, es posible aplicar estos algoritmos para su
clasificación, teniendo en cuenta características de la voz ambulatorias [5].
Aunque la comprensión de los mecanismos detrás de los trastornos de la voz

obstaculizados por VH es limitada, su aplicación en la práctica clínica es
ampliamente aceptada [11], [12]. La prevención y el tratamiento eficaz de los
trastornos de la voz relacionados con la VH siguen siendo un desafío [10]. En [22]
plantean análisis de detección de NVPH en base al estudio [29]. Sin embargo, este
análisis y clasificación fue realizado con técnicas estadísticas como clasificador
multidimensional análisis discriminatorio cuadrado (QDA). Estos clasificadores solo
son posibles usarlos si se asume la distribución multivariable de los datos como una
distribución normal, lo cual no es común en datos reales, por lo que es necesario
buscar un algoritmo el cual se ajuste mejor al este tipo de problema.
3.3 PLANTEAMIENTO
¿Cómo clasificar entre voces sanas y patológicas con NPVH, mediante un algoritmo
de Inteligencia Artificial, cuyas entradas sean parámetros ambulatorios de la función
vocal?
4. JUSTIFICACIÓN
Este trabajo busca brindar una alternativa de apoyo diagnóstico para la detección
de voces hiperfuncionales no fono traumáticas en etapa temprana de la patología,
con el objetivo de brindar a los profesionales de la voz una herramienta cuantitativa
al momento de tomar una decisión. El uso de IA permite analizar fácilmente los
parámetros aerodinámicos y acústicos, que caracterizan la función vocal con
respecto a métodos tradicionales no invasivos, por su parecido con la voz normal
[27].
Debido al problema a resolver, es necesario considerar el tamaño del conjunto de

datos, ya que esta cantidad puede dictar la evaluación de modelos más complejos.
Para realizar este trabajo de investigación se tiene una base de datos suministrada
del Instituto Técnico de Massachusetts (MIT), la cual toma datos de un acelerómetro
ubicado en la garganta de los pacientes, y un micrófono para la señal acústica. Los
datos fueron tomados por semana en diferentes sesiones y duración. Con el fin de
evidenciar patrones y diferencias con pacientes sanos, se tomó muestras de sujetos
sanos llamados control. Esta base de datos presenta características aerodinámicas
y acústicas que indican la función vocal [35]. Estos tipos de datos ya se ha usado
para la clasificación de pacientes entre sano y enfermo con NPVH con algoritmos
de clasificación supervisados como LDA Y QDA [29]. Sin embargo, estos algoritmos
presentan algunas limitaciones para ampliar su implementación. Se pretende que
con el desarrollo de otros tipos de algoritmo se obtengan mejores resultados, debido
a la característica anteriormente descrita de los LDA y QDA.
Se espera que el algoritmo clasifique los pacientes en dos grupos, sanos y
patológicos, para comparar resultados obtenidos con otros métodos de detección,
para que los profesionales de la salud puedan realizar diagnósticos con base a esta
información de manera más sencilla, evitando malestar en el paciente con métodos
invasivos.
5. OBJETIVOS
5.1 OBJETIVO GENERAL
Diseñar un sistema de clasificación de voces hiperfuncionales no fono traumáticas

(NPVH) y voces sanas a partir de parámetros ambulatorios de la función vocal a
través de algoritmos de inteligencia artificial.
5.2 OBJETIVOS ESPECÍFICOS

mediante tales tecnicas los datos…?
● Analizar datos de señales ambulatorias aerodinámicas y acústicas de la voz
para su clasificación. la voz tal que se posibilite una clasificación..?
● Definir el algoritmo de IA para diseñar e implementar un clasificador capaz

de distinguir entre voces sanas y NPVH con base en las características de
flujo y presión subglótica.
Esta parte debe ser resultado del obj 1, vale la pena complementar el obj 1?
● Validar el sistema de clasificación de voz, a través de la matriz de confusión

y la revisión de un experto. Si será una buena herramienta? o será solo la del experto? o que otra técnica?
6. ALCANCE O DELIMITACIÓN DE LA PROPUESTA
Esta investigación tiene como objetivo desarrollar un sistema de clasificación de

voces entre voces sanas y voces con NPVH. Con base en los datos obtenidos
de la base de datos del MIT que será explicada posteriormente, solo se plantea
hasta el desarrollo y pruebas del sistema. No se realizará pruebas en personas,
se usará únicamente los datos obtenidos de la base de datos descrita. Donde
se usará el 70% de los datos como entrenamiento y el 30% como validación. Se
busca realizar un algoritmo no supervisado para buscar una mayor precisión y
exactitud que los algoritmos desarrollados previamente para este tipo de
enfermedad.
7. MARCO REFERENCIAL
7.1 MARCO CONCEPTUAL
En esta sección se revisarán fundamentos teóricos de la inteligencia artificial y su

avance hasta las técnicas encontradas para este tipo de problema, las cuales son
CNN redes neuronales convolucionales y aprendizaje de máquina.
1. Inteligencia Artificial
La inteligencia artificial se refiere a la capacidad de una máquina para realizar

una tarea de manera similar al comportamiento humano. Al crear programas
de IA, los desarrolladores combinan muchas estrategias diferentes centradas
en la neurociencia, la lógica, el comportamiento y las funciones cognitivas.
Este enfoque permite la creación de programas que pueden resolver muchos
problemas diferentes [21].
2. Redes neuronales convolucionales

La teoría de las Redes Neuronales Convolucionales cuenta con dos
características principales, reconocimiento a través de perceptrones
multicapa y signos visuales extraídos con capas convolucionales. Este es un
concepto creciente que ha llevado al desarrollo de muchos métodos
prácticos, también condujo a una mayor complejidad computacional debido
al aumento de las capas de CNN. El crecimiento de la teoría se debe a los
recientes avances tecnológicos y su aplicación se atribuye a la tecnología
informática [31].
3. Aprendizaje de máquina
Los datos y la experiencia pueden ayudar a un programa a aprender de
manera más efectiva. Esto se debe a que las técnicas de aprendizaje,
también llamadas aprendizaje automático, permiten que un programa infiera
o aprenda comportamientos [21]. Tener más datos o experiencia para
trabajar puede mejorar el aprendizaje [22].
4. Análisis linear discriminativo (LDA)

LDA es un método estadístico el cual encuentra la combinación linear de los
datos que caracteriza o separa en dos o mas clases o eventos. Es usado por
sus aplicaciones en clasificación. Está basado en el análisis de varianza
asumiendo varianzas iguales entre los datos, junto al análisis de regresión.
Este método solo puede ser aplicado cuando las variables independientes
estén normalmente distribuidas [22].
5. Análisis cuadrático discriminativo (QDA)

QDA es método relacionado con el LDA, al asumir la distribución normal de
los datos, sin embargo, define la covarianza de los datos a diferencia del
LDA. Para este método se realiza el modelado y clasificación de los datos en
base a una combinación no lineal de la variable [22].
Para el desarrollo de este proyecto se debe tener ciertos conceptos clínicos, serán
explicado a continuación con el fin aclarar conceptos para la lectura del documento.
• Función vocal: características aerodinámicas, mecánicas y acústicas que

permiten definir el comportamiento de la voz [39].
● SPL: El indicador más comúnmente utilizado de la fuerza de la onda acústica
es el nivel de presión del sonido, que se correlaciona bien con la percepción
humana del volumen. Esto es fácil de medir con instrumentación económica.
La transformación logarítmica de la relación entre la presión RMS de una
señal de audio y la presión del aire da como resultado el nivel de presión
sonora o SPL [32].
● Presión subglótica (Psub): es una de las características fisiológicas más
relevantes para el control de la calidad vocal. Su función principal es el control
del volumen vocal, en una presión alta, produce una voz fuerte. La presión
subglótica es controlada por la elasticidad de tórax-pulmón y los músculos
[33][34].
● Desorden Voz Hiperfuncional (VH): se presenta cuando se realiza una
contracción involuntaria excesiva en los músculos fonatorios por culpa de un
uso inadecuado de estos. Provocando síntomas como voz ronca y forzada,
necesidad de carraspear y fatiga fonatoria en el esfuerzo [34]. Puede
presentarse en dos formas. Voz hiperfuncional fono traumática (VPH) y no
fono traumático (NPVH). En la imagen 1. Tomada del hospital general de
Massachusetts, presenta un esquema sobre la diferencia entra los diferentes
desórdenes de voz hiperfuncional y la voz normal de un paciente sano [35].
Figura 1. Esquema desorden VH del hospital general de Massachusetts
Cada item de la metodología vale la pena concluirlo? es decir a donde se llegará?

pues son punto de partida de los obj específicos o la manera de lograrlos. Al final se puede
8. METODOLOGÍA dejar como lo que logra cada ítem
● Análisis de la Base de datos y características de la voz.
Inicialmente se realizará un análisis de la base de datos que contiene
diferentes tipos de parámetros de pacientes sanos y con NPVH. Se usará
una base de datos del MIT suministrada por el proyecto de investigación: INV
ING 3482 “construcción de un modelo biomecánico para la simulación de
producción de voz y parametrización de la carga vocal” de GIDAM, esta base
de datos contiene información tomada a cada paciente de manera semanal,
estos datos son medidas de características aerodinámicas y acústicas
adquiridos con acelerómetros colocados en las gargantas de los pacientes y
micrófonos respectivamente. Los datos son tomados tanto a paciente sanos
y enfermos. Cada paciente enfermo se compara con un paciente sano. La
base de datos maneja datos de flujo y presión subglótica, es necesario tener
en cuenta diferentes tipos de información que sea posible relacionar de
manera más rápida mediante inteligencia artificial. Para poder entender y
calificar las diferentes variables se realizará en las siguientes tareas.
a. Implementación de la base datos en MYSQL debido a su gran
cantidad de datos, aproximadamente 500.000 por paciente, por lo
que su manejo es más sencillo con herramientas de base de datos
como MYSQL.
b. Comparación y análisis estadístico: desviación estándar,
percentiles, rango, sesgo y curtosis. Para encontrar posibles
relaciones a utilizar en el algoritmo clasificador.
c. Identificación de distribución o correlación de las variables con
base al análisis estadístico. Implementando varios tipos de
distribución y correlaciones, se plantea encontrar la relación que
pueda explicar el comportamiento de los datos mediante el
software Originlab y python.
● Selección del algoritmo de inteligencia artificial.
Para esta etapa, se realizará inicialmente una investigación de algoritmos de
clasificación para aplicar en este trabajo. Con base a lo investigado y el
análisis de los datos se seleccionará el tipo de algoritmo de inteligencia
artificial a trabajar teniendo en cuenta la mayor cantidad de datos posibles
tomados de la base de datos.
a. Investigación algoritmos inteligencia artificial, buscando las diferentes

áreas en las que se aplican con sus ventajas.
b. Comparación de características de los algoritmos para encontrar cual
puede ser el mejor para esta aplicación. Teniendo en cuenta el
porcentaje de precisión dependiendo de la cantidad de datos a utilizar.
c. Selección de algoritmo según la investigación junto a la comparación
y análisis de datos.
● Diseño, desarrollo y definición del lenguaje de trabajo.

En esta etapa inicialmente se plantea el lenguaje de trabajo a utilizar para el
desarrollo, el cual será Python este es lenguaje que permite trabajar los
algoritmos de una manera sencilla, junto a Spyder, el cual es usado para
desarrollo investigativo por su facilidad de mostrar información y guardarla
[4]. El algoritmo se implementará con los datos de entrada escogidos de la
base de datos (70% de los datos totales) y tendrá como resultado al que
grupo pertenece el sujeto.
a. Definición de la arquitectura a implementar.
b. Desarrollo de la arquitectura.
c. Implementación del algoritmo clasificador.
● Entrenamiento y pruebas funcionales del algoritmo.

En esta etapa se plantea el entrenamiento del algoritmo, junto a sus pruebas
de funcionamiento. Teniendo en cuenta la clasificación explicada
anteriormente, El algoritmo deberá clasificar con un grado bajo de error los
pacientes, de lo contrario se reentrenará o ajustará parámetros de esta, para
realizar la validación del algoritmo con el 30% de los datos de la base de
datos.
a. Entrenamiento del algoritmo.
b. Pruebas funcionales.
c. Validación de algoritmo.
9. CRONOGRAMA DE ACTIVIDADES
Meses/días
Tareas Realizada
Septiembre Octubre Noviembre Diciembre Enero
Evaluación base de
datos
Análisis estadístico
Identificaciones
variables
Selección algoritmo
Definición de la
arquitectura
Desarrollo del
algoritmo en Python
Entrenamiento y
pruebas
comparación de
resultados
Producción escrita
10. PRESUPUESTO
Elemento tipo de recurso unidades precio por unidad (pesos) costo(pesos)

Personal sueldo por hora 120 $ 120,000 $ 14,400,000
Personal asesoría tutores por hora 14 $ 150,000 $ 2,100,000
bases de datos Datos MIT NPVH 1 $0 $0
MYSQL Plataforma base de datos 1 $0 $0
Originlab software análisis de datos 1 $0 $0
Python lenguaje de programación 1 $0 $0
Spyder IDE 1 $0 $0
Computador Alquiler equipo por hora 120 $ 2,500 $ 300,000
Servicios Servicios Públicos 1 $ 200,000 $ 200,000
Total $ 17,000,000
11. RESULTADOS ESPERADOS
1. Cuadro con la clasificación de las características de flujo extraídas de la base

de datos.
2. Algoritmo clasificador desarrollado, con respecto al segundo y tercer objetivo.
3. Resumen con el resultado de las pruebas y el porcentaje de validación.
4. Documento de trabajo de grado, para obtener el título ingeniero en
mecatrónica.
12. BIBLIOGRAFÍA
[1] Daniel S. Kermany, Michael Goldbaum, Wenjia Cai, ..., M. Anthony Lewis, Huimin
Xia, Kang Zhang(2018). Identifying Medical Diagnoses and Treatable Diseases by
Image-Based Deep Learning(1-5)
[2] Muhammad Khalid Khan Niazi PhD, Anil V Parwani MD Metin N Gurcan PhD
(2019). Digital pathology and artificial intelligence.(1-6)
[3] Ghulam Muhammada,∗, Mansour Alsulaimana, Zulfiqar Ali a,b, Tamer A.

Mesallamc,d,e, Mohamed Farahat c,d, Khalid H. Malki c,d, Ahmed Al-nasheri a,
Mohamed A. Bencherif a.(2019). Voice pathology detection using interlaced
derivative pattern on glottal source excitation.(1-4)
[4] Huijun Ding a, Zixiong Gu a, Peng Dai b, Zhou Zhou c, Lu Wang d, Xiaoxiao Wu
e (2021). Deep connected attention (DCA) ResNet for robust voice pathology
detection and classification.(1-6).
[5] Fang S.-H., Tsao Y., Hsiao M.-J., Chen J.-Y., Lai Y.-H., Lin F.-C., Wang C.-
T.(2019). Detection of pathological voice using cepstrum vectors: A deep learning
approach(634-641).
[6] Alhussein M., Muhammad G(2018) Voice pathology detection using deep
learning on mobile healthcare framework.
[7] Jonas Gehring, Michael Auli, David Grangier, Denis Yarats, and Yann N.
Dauphin. Convolutional sequence to sequence learning. arXiv preprint
arXiv:1705.03122v2, 2017.
[8] Denny Britz, Anna Goldie, Minh-Thang Luong, and Quoc V. Le. Massive
exploration of neural
machine translation architectures. CoRR, abs/1703.03906, 2017.

[9] Szolovits, P. (Ed.). (2019). Artificial Intelligence in Medicine (1st ed.).
[10] Robert E. Hillman, Cara E. Stepp, Jarrad H. Van Stan, Matías Zañartu and
Daryush D. Mehta.(2020).
[11] Hillman, R. E., Stepp, C. E., Van Stan J. H., Zañartu, M., & Mehta, D. D. (2020).
An Updated Theoretical Framework for Vocal Hyperfunction. American Journal of
Speech-Language Pathology.
[12] Stepp, C. E., Lester-Smith, R. A., Abur, D., Daliri, A., Pieter N., J., & Lupiani, A.
A. (2017). Evidence for Auditory-Motor Impairment in Individuals With
Hyperfunctional Voice Disorders. Journal of Speech, Language, and Hearing
Research: JSLHR.
[13] Lee, S. H., Yu, J. F., Fang, T. J., & Lee, G. S. (2019). Vocal fold nodules: A
disorder of phonation organs or auditory feedback? Clinical otolaryngology: official
journal of ENT-UK; official journal of Netherlands Society for Oto-Rhino-Laryngology
& Cervico-Facial Surgery.
[14]Jennifer Oates, Alison Winkworth. (2008) Characterising hyperfunctional voice

disorders: Etiology, assessment, treatment and prevention. International Journal of
Speech-Language Pathology.
[15] Haydar Ankışhana, Sıtkı Çağdaş, İnamb(2021) Voice pathology detection by

using the deep network architecture.
[16] Cesari U., De Pietro G., Marciano E., Niri C., Sannino G., Verde L. (2018)Voice
disorder detection via an m-Health system: Design and results of a clinical study to
evaluate Vox4Health.
[17] M. Kim, B. Cao, K. An, J. Wang,(2018) Dysarthric speech recognition using
convolutional LSTM neural network.
[18]Verde L., De Pietro G., Sannino G.(2019)Voice disorder identification by using

machine learning techniques.
[19] Janet Baker.(2009) The role of psychogenic and psychosocial factors in the
development of functional voice disorders.
[20] Martins RHG, do Amaral HA, Tavares ELM, Martins MG, Gonc ̧alves TM, Dias
NH,(2016) Voice disorders: etiology and diagnosis, Journal of voice 30.
[21] S. Russell, P. Norvig and M. Chang, Artificial intelligence, 3rd ed. Harlow,
England: Pearson Education Limited, 2016, pp. 10-20.
[22] Jarrad H. Van Stan,a,b,c Andrew J. Ortiz,a Juan P. Cortes,a,b Katherine L.

Marks,a,c Laura E.(2021) Differences in Daily Voice Use Measures Between Female
Patients With Nonphonotraumatic Vocal Hyperfunction and Matched Controls.
[23] Robert E. Hillman, Cara E. Stepp, Jarrad H. Van Stan. (2020). An Updated
Theoretical Framework for Vocal Hyperfunction.
[24] Espinoza, V. M., Mehta, D. D., Van Stan, J. H., Hillman, R. E.,& Zañartu, M.
(2017). Uncertainty of glottal airflow estimation during continuous speech using
impedance-based inverse filtering of the neck-surface acceleration signal. The
Journal of the Acoustical Society of America.
[25] Ziethe, A., Petermann, S., Hoppe, U., Greiner, N., Bruning, M.,Bohr, C., &
Dollinger, M. (2019). Control of fundamental frequency in dysphonic patients during
phonation and speech. Journal of Voice.
[26] Cortés, J. P., Espinoza, V. M., Ghassemi, M., Mehta, D. D., Van Stan, J. H.,
Hillman, R. E., Guttag, J. V., & Zañartu, M. (2018). Ambulatory assessment of
phonotraumatic vocal hyperfunction using glottal airflow measures estimated from
neck-surface acceleration.
[27] Marks, K. L., Lin, J. Z., Burns, J. A., Hron, T. A., Hillman, R. E., & Mehta, D. D.
(2020). Estimation of subglottal pressure from neck surface vibration in patients with
voice disorders. Journal of Speech, Language, and Hearing Research.
[28] Van Stan, J. H., Mehta, D. D., Ortiz, A. J., Burns, J. A., Toles, L. E., Marks, K.
L., Vangel, M., Hron, T., Zeitels, S., & Hillman, R. E. (2020b). Differences in
weeklong ambulatory vocal behavior between female patients with phonotraumatic
lesions and matched controls. Journal of Speech. Language, and Hearing Research.
[29] Stepp, C. E., Lester-Smith, R. A., Abur, D., Daliri, A., Pieter Noordzij, J., &
Lupiani, A. A. (2017). Evidence for auditory-motor impairment in individuals with
hyperfunctional voice disorders. Journal of Speech, Language, and Hearing
Research.
[30] Jock A. Blackard , Denis J. Dean.(2000) Comparative Accuracies of Artificial

Neural Networks and Discriminant Analysis in Predicting Forest Cover Types from
Cartographic Variables.
[31] M.V. Valueva, N.N. Nagornov, P.A. Lyakhov, G.V. Valuev, N.I.
Chervyakov,(2020). Application of the residue number system to reduce hardware
costs of the convolutional neural network implementation,Mathematics and
Computers in Simulation.
[32] Marshall Long. Architectural Acoustics. Second Edition • 2014.
[33] Titze, I. R. (2021). Simulation of Vocal Loudness Regulation with Lung Pressure,
Vocal Fold Adduction, and Source-Airway Interaction.
[34] Sundberg, J. (2018). Flow Glottogram and Subglottal Pressure Relationship in

Singers and Untrained Voices.
[35] Chang A, Karnell MP. (2004). Perceived phonatory effort and phonation
threshold pressure across a prolonged voice loading task: A study of vocal fatigue.
J Voice.
[36] Guzman M, Calvache C, Romero L, Muñoz D, Olavarria C, Madrid S, et al. Do
(2015) Different Semi-Occluded Voice Exercises Affect Vocal Fold Adduction
Differently in Subjects Diagnosed with Hyperfunctional Dysphonia.
[37] Colton RH, Casper JK, Leonard RJ. (2015). Understanding voice problem: A
physiological perspective for diagnosis and treatment: Fourth edition.
[38] Titze IR, Švec JG, Popolo PS.( 2003) Vocal dose measures: Quantifying
accumulated vibration exposure in vocal fold tissues. J Speech, Lang Hear Res
[39] Calvache-Mora CA. (2020) Parámetros vocales para definir la severidad de una
disfonía. Revista
de Investigación e Innovación en Ciencias
de la Salud
13. FIRMA EVALUADOR PROPUESTA (CONCEPTO)

0B
ACEPTADA ( ) NO ACEPTADA ( ) ACEPTADA CON AJUSTES( )
COMENTARIOS:

Propuesta Proyecto

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Propuesta Proyecto

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD MILITAR NUEVA GRANADA

PROPUESTA DE OPCIÓN DE GRADO: Trabajo de Grado

Clasificación de la voz entre voces sanas y voces hiperfuncionales no fono

La inteligencia artificial ayuda los profesionales de la salud, a utilizar su experiencia

La implementación de la inteligencia artificial en la medicina tiene el potencial de

Por ejemplo, el análisis histórico patológico de imágenes no se limita únicamente al

Por su parte la detección automática de desórdenes de la voz ayuda a simplificar

Para poder realizar la detección automática de desórdenes de la voz, es necesario

En base a estas características aerodinámicas y acústicas es posible caracterizar

Para poder aplicar técnicas de inteligencia artificial, es necesario entender

Dentro de la hiperfunción de la voz, se pueden clasificar los pacientes en dos grupos

3. PLANTEAMIENTO DEL PROBLEMA

La detección de patologías de la voz de forma temprana puede evitar que se

Para la detección de enfermedades que afectan la voz se requieren equipos de alto

Aunque la comprensión de los mecanismos detrás de los trastornos de la voz

Debido al problema a resolver, es necesario considerar el tamaño del conjunto de

5.1 OBJETIVO GENERAL

Diseñar un sistema de clasificación de voces hiperfuncionales no fono traumáticas

5.2 OBJETIVOS ESPECÍFICOS

● Definir el algoritmo de IA para diseñar e implementar un clasificador capaz

● Validar el sistema de clasificación de voz, a través de la matriz de confusión

6. ALCANCE O DELIMITACIÓN DE LA PROPUESTA

Esta investigación tiene como objetivo desarrollar un sistema de clasificación de

En esta sección se revisarán fundamentos teóricos de la inteligencia artificial y su

La inteligencia artificial se refiere a la capacidad de una máquina para realizar

2. Redes neuronales convolucionales

4. Análisis linear discriminativo (LDA)

5. Análisis cuadrático discriminativo (QDA)

• Función vocal: características aerodinámicas, mecánicas y acústicas que

Cada item de la metodología vale la pena concluirlo? es decir a donde se llegará?

a. Investigación algoritmos inteligencia artificial, buscando las diferentes

● Diseño, desarrollo y definición del lenguaje de trabajo.

● Entrenamiento y pruebas funcionales del algoritmo.

Elemento tipo de recurso unidades precio por unidad (pesos) costo(pesos)

11. RESULTADOS ESPERADOS

1. Cuadro con la clasificación de las características de flujo extraídas de la base

[3] Ghulam Muhammada,∗, Mansour Alsulaimana, Zulfiqar Ali a,b, Tamer A.

machine translation architectures. CoRR, abs/1703.03906, 2017.

[14]Jennifer Oates, Alison Winkworth. (2008) Characterising hyperfunctional voice

[15] Haydar Ankışhana, Sıtkı Çağdaş, İnamb(2021) Voice pathology detection by

[18]Verde L., De Pietro G., Sannino G.(2019)Voice disorder identification by using

[22] Jarrad H. Van Stan,a,b,c Andrew J. Ortiz,a Juan P. Cortes,a,b Katherine L.

[30] Jock A. Blackard , Denis J. Dean.(2000) Comparative Accuracies of Artificial

[32] Marshall Long. Architectural Acoustics. Second Edition • 2014.

[34] Sundberg, J. (2018). Flow Glottogram and Subglottal Pressure Relationship in

13. FIRMA EVALUADOR PROPUESTA (CONCEPTO)

ACEPTADA ( ) NO ACEPTADA ( ) ACEPTADA CON AJUSTES( )

También podría gustarte