Está en la página 1de 9

CLASIFICACIÓN DE PACIENTES CON

ENFERMEDAD DE PARKINSON BASADA


EN LAS SEÑALES DEL HABLA
Modelado:
La finalidad del presente documento es examinar qué tipos de señales de voz conducen a una mayor precisión a la hora de clasificar
pacientes con Párkinson. Las variables ID y UPDRS no serán tomadas en cuenta a la hora de realizar el modelado. El conjunto de datos del
presente estudio se encuentra disponible en el UCI Machine Learning Repository, la data se dividirá en 5 conjuntos de datos el cual constará
de lo siguiente:
*Permanente A: Registro de pronunciación de la vocal A.
*Permanente U: Registro de pronunciación de la vocal U.
*Permanente A: Registro de pronunciación de la vocal O.
*Word: Este conjunto de datos se forma al tomar en conjunto las variables Minimum pitch, Maximum pitch, Number of pulses, Number of
periods, Mean period, Standard deviation of period, features, Fraction of locally unvoiced frames, Number of voice breaks, Degree of voice
breaks.
*Number: Este conjunto de datos se forma al tomar en conjunto las variables Jitter (ppq5), Jitter (ddp), Shimmer (local), Shimmer (local, dB),
Shimmer (apq3), Shimmer (apq5), Shimmer (apq11), Shimmer (dda), AC, NTH.
*Sentences: Este conjunto de datos se forma al tomar en conjunto las variables HTN, Median pitch, Mean pitch, Standard deviation.

Variables en estudio:
*ID: identificador del sujeto
*26 atributos generados a partir de las señales de voz de los pacientes: Jitter (local), Jitter (local, absoluto),Jitter (rap),
Jitter (ppq5), Jitter (ddp), Shimmer (local),Shimmer (local, dB), Shimmer (apq3), Shimmer (apq5), Shimmer (apq11), Shimmer (dda), AC, NTH
y HTN (Dos medidas de relación de ruido a componente total en la voz), Tono de medios, Tono medio, Desviaciónestándar, Tono mínimo,
Tono máximo, Número de pulsos, Número de períodos, Período medio Desviación estándar del período, Fracción de sordos locales,
fotogramas, número de pausas de voz, grado de pausas de voz).
*UPDRS (Escala Unificada de Evaluación de la Enfermedad de Parkinson) – medida diseñada para monitorear la discapacidad
y el deterioro de la enfermedad, evaluados por el médico; El rango de los valores de este atributo es de -0 a 108
*Clase – atributo binario (1 – individuo con enfermedad de Parkinson, 0 – individuo sano).
Validación cruzada con 4 repeticiones para el conjunto de datos SENTENCE

CART

RANDOM
FOREST
Validación cruzada con 4 repeticiones para el conjunto de datos A

CART

RANDOM
FOREST
Validación cruzada con 4 repeticiones para el conjunto de datos O

CART

RANDOM FOREST
Validación cruzada con 4 repeticiones para el conjunto de datos U

CART

RANDOM FOREST
Validación cruzada con 4 repeticiones para el conjunto de datos WORDS

CART

RANDOM FOREST
Validación cruzada con 4 repeticiones para el conjunto de datos NUMBERS

CART

RANDOM FOREST
Validación cruzada con 4 repeticiones Validación cruzada con 5 repeticiones
Conjunto de datos Conjunto de datos
C4.5 C5.0 Random Forest Cart Media C4.5 C5.0 Random Forest Cart Media
A 62.50% 60.00% 53.41% 56.66% 58.14% A 60.00% 57.50% 53.52% 56.77% 56.95%
O 62.50% 60.00% 51.08% 57.33% 57.73% O 60.00% 62.50% 51.15% 56.54% 57.55%
U 50.00% 60.00% 53.46% 57.73% 55.23% U 50.00% 55.00% 53.65 57.73% 54.10%
Words 63.05% 61.10% 65.48% 60.14% 62.44% Words 62.78% 61.11% 65.50% 60.60% 62.50%
Numbers 65.50% 65.75% 61.92% 58.58% 62.94% Numbers 65.50% 63.50% 61.92% 59.02% 62.49%
Sentences 63.13% 65.00% 61.13% 61.51% 62.69% Sentences 65.00% 58.75% 61.33% 61.48% 61.64%

Resultados:
*De acuerdo con los resultados obtenidos, se puede apreciar que el accuracy promedio más alto con una validación cruzada con 4 repeticiones
fue de 62.94% y con 5 repeticiones una media del 62.5%.
*De acuerdo con la validación cruzada con 4 repeticiones, el mayor accuracy fue de 65.50%, el cual se obtuvo con el algoritmo C4.5, mientras que
para la validación cruzada con 5 repeticiones el accuracy más alto fue de 65.50%, el cual fue obtenido con el algoritmo Random Forest.
*La menor precisión en la pronunciación de las vocales podría deberse a la menor disponibilidad de las muestras de datos (solo 40 registros).

Conclusión:
El artículo se centró en examinar el tipo de registro de box procesados en señales para poder crear modelos de mayor precisión al momento de
realizar la clasificación para pacientes con párkinson. Sin embargo de acuerdo a los resultados obtenidos, parece poco práctico el uso de algún
algoritmo debido a que presentan Accuracys muy bajos, especialmente el modelo generado con el conjunto de datos U, pues estos presentan
Accuracys alrededor de 50-57%. Al procesar los datos, los algoritmos que mayor Accuracys presentaron fueron el C4.5 y el RANDOM FOREST.

También podría gustarte