Está en la página 1de 8

Machine Translated by Google

IAES  Revista  Internacional  de  Inteligencia  Artificial  (IJ­AI)
vol.  12,  núm.  1,  marzo  de  2023,  págs.  107­1  
79~86  ISSN:  2252­8938,  DOI:  10.11591/ijai.v12.i1.pp79­86 79

Detección  y  clasificación  de  emociones  humanas  utilizando
Viola­Jones  y  red  neuronal  de  convolución

Komala  Karilingappa1 ,  Devappa  Jayadevappa2 ,  Shivaprakash  Ganganna3  1  Departamento  
de  Ingeniería  Electrónica  y  de  Comunicaciones,  Instituto  de  Tecnología  Sri  Siddhartha,  Tumakuru,  India  2  
Departamento  de  Ingeniería  Electrónica  y  de  Instrumentación,  Academia  de  Educación  Técnica  Jagadguru  Sri  

Shivarathreeshwara,  Bangalore,  India  3  Departamento  de  Ingeniería  Electrónica  y  de  Instrumentación,  MS  Instituto  de  Tecnología  Ramaiah,  Bang

Información  del  artículo ABSTRACTO

Historial  del  artículo: La  expresión  facial  es  un  tipo  de  comunicación  no  verbal  que  transmite  información  
sobre  el  estado  emocional  de  una  persona.  La  detección  y  el  reconocimiento  de  
Recibido  el  20  de  octubre  de  2020 las  emociones  humanas  sigue  siendo  una  tarea  importante  en  la  visión  artificial  
Revisado  el  26  de  mayo  de  2022 (CV)  y  la  inteligencia  artificial  (IA).  Para  reconocer  e  identificar  los  muchos  tipos  
Aceptado  el  24  de  junio  de  2022 de  emociones,  se  proponen  varios  algoritmos  en  la  literatura.  En  este  artículo,  se  
presenta  el  método  Viola­Jones  modificado  para  proporcionar  un  enfoque  sólido  
capaz  de  detectar  e  identificar  sentimientos  humanos  como  ira,  tristeza,  deseo,  
Palabras  clave: sorpresa,  ansiedad,  asco  y  neutralidad  en  tiempo  real.  Esta  técnica  captura  
imágenes  en  tiempo  real  y  luego  extrae  las  características  de  la  imagen  facial  para  
Red  neuronal  de  convolución
identificar  emociones  con  mucha  precisión.  En  este  método,  se  aplican  muchas  
Reconocimiento  de  emociones  faciales técnicas  de  extracción  de  características,  como  la  matriz  de  coocurrencia  de  nivel  
Matriz  de  coocurrencia  de   de  gris  (GLCM),  el  patrón  binario  lineal  (LBP)  y  el  análisis  robusto  de  componentes  
nivel  de  gris principales  (RPCA),  para  identificar  los  distintos  estados  de  ánimo  y  se  clasifican  
Patrón  binario  lineal mediante  una  convolución  neuronal.  clasificador  de  red  (CNN).  El  resultado  
Análisis  robusto  de  componentes   obtenido  demuestra  que  el  método  propuesto  supera  en  términos  de  determinación  
de  la  tasa  de  reconocimiento  de  emociones  en  comparación  con  las  técnicas  
principales
Viola­Jones   actuales  de  reconocimiento  de  emociones  humanas.

Este  es  un  artículo  de  acceso  abierto  bajo  CC  BY­SA  licencia.

Autor  correspondiente:

Komala  Karilingappa  
Departamento  de  Ingeniería  Electrónica  y  de  Comunicaciones,  Instituto  de  Tecnología  Sri  Siddhartha  Tumakuru,  
Karnataka,  India  Correo  
electrónico:  komalak@ssit.edu.in

1.  INTRODUCCIÓN
La  expresión  facial  humana  es  uno  de  los  componentes  más  esenciales  y  efectivos  del  comunicado  entre  personas.  Las  
expresiones  faciales  son  bastante  costosas.  Sólo  hay  un  7%  del  significado  total  en  una  parte  verbalizada  del  mensaje,  un  38%  de  
la  señal  total  en  el  tono  y  un  55%  en  la  representación  [1]–[3].  Las  características  extraídas  se  utilizan  ampliamente  en  vigilancia,  
biometría,  psiquiatría,  militar  e  interacción  humano­computadora  (HCI)  [4].
Las  imágenes  faciales  se  aprovechan  para  reconocer  el  tipo  de  emoción  en  los  humanos.  La  ira,  la  tristeza,  la  felicidad,  la  sorpresa,  
el  miedo,  el  disgusto  y  la  neutralidad  son  las  siete  emociones  primarias.  Las  expresiones  faciales  humanas  [5]–[8]  pueden  utilizarse  
para  identificar  los  estados  emocionales  antes  mencionados.  Reconocer  los  sentimientos  humanos  es  la  tarea  importante.  Varios  
investigadores  han  trabajado  en  la  detección  de  la  edad,  el  sexo  y  los  sentimientos  a  partir  de  los  rasgos  faciales  [9].  La  detección  
de  diferentes  emociones  humanas  usando  expresiones  faciales  es  una  tarea  difícil.  La  capacidad  del  sistema  para  diferenciar  entre  
varias  caras  es  un  requisito  frecuente  en  la  interacción  humano­computadora.  Hasta  hace  poco,  los  problemas  de  visión  por  
computadora  eran  extremadamente  difíciles.  Con  el  advenimiento  de  la  tecnología,  los  desafíos  en  la  visión  por  computadora  (CV)  
debido  a  los  cambios  en  la  iluminación,  el  envejecimiento,  el  cabello  y  otros  accesorios  [10]  se  han  vuelto  sencillos.  El  software  de  
reconocimiento  facial,  por  otro  lado,  se  utiliza  para  mejorar  la  facilidad  de  acceso  al  identificar  y  verificar  a  las  personas  en  función  de  su  rostro.

Página  de  inicio  de  la  revista:  http://ijai.iaescore.com
Machine Translated by Google

80 ISSN:  2252­8938

atributos.  Por  lo  tanto,  comprender  los  atributos  faciales  es  vital  para  las  aplicaciones  basadas  en  CV.  Estos  atributos  y  
expresiones  ayudan  a  clasificar  las  emociones  faciales.  Los  sistemas  de  inteligencia  artificial  (IA)  se  emplean  sobre  la  base  de  
las  innovaciones  tecnológicas  actuales,  ya  que  estos  sistemas  son  capaces  de  identificar  emociones  a  través  de  características  
faciales  [11].  La  detección  de  emociones  humanas  sigue  siendo  un  área  de  investigación  activa  debido  a  las  innovaciones  
tecnológicas  actuales  para  HCI  en  aprendizaje  profundo  o  prototipos  de  redes  neuronales  de  convolución  (CNN)  [12]–[14].
Se  necesitan  varias  técnicas  para  detectar  y  categorizar  rostros  humanos,  pero  la  metodología  de  aprendizaje  profundo  es  mejor  
que  otros  métodos  debido  a  sus  enormes  capacidades  de  conjuntos  de  datos  variados  y  capacidades  informáticas  rápidas  [15].
Por  lo  general,  el  reconocimiento  y  la  clasificación  de  rostros  implica  varias  fases,  como  el  preprocesamiento,  la  detección,  la  
extracción  de  características  y  la  clasificación.  Se  utiliza  una  técnica  de  voila­jones  (VJ)  para  extraer  las  características  
clasificando  imágenes  con  emoción.  Esto  suele  ir  seguido  de  una  clasificación  de  emociones  utilizando  Haar  y  CNN  [16]–[18].  La  
representación  de  imágenes  faciales  extraídas  con  bases  de  datos  es  la  principal  deficiencia  para  el  análisis  de  las  características  
de  los  labios  y  los  ojos  y  la  imagen  2D.  Para  superar  esta  deficiencia,  las  imágenes  extraídas  se  pueden  investigar  con  la  región  
de  interés  (ROI)  [19].  El  reconocimiento  de  expresiones  faciales  (FER)  se  puede  realizar  utilizando  técnicas  estadísticas  no  
supervisadas  como  el  análisis  de  componentes  independientes  (ICA)  y  el  algoritmo  genético.  El  algoritmo  genético  es  una  
técnica  de  mejora  de  características  que  se  lleva  a  cabo  para  predecir  las  emociones  faciales  [20].  Se  verifica  que  alrededor  del  
55%  de  las  emociones  faciales  totales  contribuyen  a  las  conexiones  sociales.  Algunas  de  las  limitaciones  del  algoritmo  VJ  
incluyen  la  falta  de  reconocimiento  preciso  de  rostros  y  partes  faciales  debido  a  problemas  de  iluminación  y  variación.  También  
sufre  de  una  incapacidad  para  reconocer  una  cara  y  partes  faciales  debido  a  un  cambio  rápido  en  la  iluminación  de  la  escena  y  
a  ser  demasiado  sensible  a  las  características  rígidas  en  las  imágenes.  Con  imágenes  de  baja  resolución  y  variaciones  de  
iluminación  desiguales  de  las  imágenes,  el  algoritmo  actualizado  VJ  reconoce  la  cara  y  la  parte  facetaria  de  cerca  [21].  Con  una  
tasa  de  ficción  extremadamente  baja  y  una  alta  tasa  de  detección  de  video  en  tiempo  real,  es  bastante  resistente.  Se  sugirió  que  
las  características  de  los  ojos  y  la  boca  son  características  faciales  muy  importantes  que  el  algoritmo  extrae  de  manera  muy  
efectiva.  Cuando  se  trata  de  detectar  diferentes  emociones  humanas,  es  bastante  preciso.

2.  METODOLOGÍA  PROPUESTA
En  el  trabajo  propuesto  se  utiliza  una  técnica  distintiva  para  el  sistema  FER  utilizando  CNN.  Consta  de  3  fases  
importantes;  reconocimiento  facial,  extracción  de  características  seguida  de  clasificación  de  emociones.  Se  toma  un  video  como  
entrada  donde  las  imágenes  se  pueden  extraer  del  video  de  entrada  y  luego  preprocesar  cada  una  de  las  imágenes.
El  filtro  Gabor  se  utiliza  para  eliminar  el  ruido,  el  desenfoque  y  la  sombra  no  deseados  de  las  imágenes  originales.  Después  del  
preprocesamiento,  la  detección  de  rostros  se  lleva  a  cabo  utilizando  el  algoritmo  VJ  modificado.  Hay  cuatro  etapas  presentes  en  
el  algoritmo  VJ  modificado,  a  saber,  selección  de  características  de  Haar,  creación  de  imágenes  integrales,  entrenamiento  de  
AdaBoost  y  clasificador  en  cascada.  La  función  Haar  es  útil  para  aplicar  en  imágenes  de  caras  de  entrada  para  verificar  si  las  
caras  están  presentes  o  no  en  una  imagen.  Puede  calcularse  como  resultado  de  la  suma  de  todos  los  píxeles  de  la  imagen  y  
luego  restarse  para  obtener  un  valor  único.  Si  el  valor  único  es  mayor  que  el  rango,  implica  que  se  reconoce  el  rostro  humano.  
La  creación  de  imagen  integral  se  utiliza  para  evaluar  la  suma  de  píxeles  en  un  área  particular  de  interés  de  una  imagen.  
Adaboost  se  utiliza  para  generar  clasificadores  robustos  a  partir  de  clasificadores  factibles.  No  solo  se  utiliza  para  reducir  la  tasa  
de  detección  de  falsos  positivos,  sino  que  también  disminuye  la  dificultad  debido  a  la  presencia  de  características  redundantes.  
La  estructura  en  cascada  no  solo  se  utiliza  para  eliminar  las  imágenes  falsas  positivas,  sino  que  también  se  utiliza  para  
inspeccionar  la  aparición  de  un  rostro  en  una  parte  específica  de  una  imagen.  A  esto  le  sigue  la  extracción  de  características  de  
la  imagen  mediante  la  matriz  de  co­ocurrencia  de  nivel  de  gris  (GLCM)  y  el  patrón  binario  lineal  (LBP).  Posteriormente,  la  
característica  requerida  se  selecciona  utilizando  el  análisis  de  componentes  principales  (PCA).  Las  características  particulares  
se  alimentan  al  clasificador  CNN  para  su  clasificación.  La  salida  del  clasificador  CNN  es  el  tipo  de  emoción  en  la  imagen  en  
cuestión.
La  fase  más  importante  en  FER  es  la  detección  de  rostros  para  identificar  todas  las  emociones  de  manera  eficiente  
utilizando  el  algoritmo  VJ  modificado.  El  rostro  y  la  emoción  se  pueden  detectar  usando  el  algoritmo  propuesto.  La  extracción  de  
características  juega  un  papel  importante  en  el  sistema  FER  como  resultado  de  mejorar  la  precisión  de  las  técnicas  de  detección  
de  sentimientos.  Existen  muchas  técnicas  de  extracción,  como  LBP,  GLCM,  matriz  de  peso  de  nivel  de  gris  (GLWM),  filtro  gabor  
tradicional  (TGF)  y  características  de  paquetes  de  ondas  daubechies  (DBWP).  En  la  metodología  propuesta,  se  utilizan  técnicas  
de  extracción  de  características  como  GLCM  y  LBP  para  clasificar  la  textura.
Usando  GLCM  se  extraen  características  de  disimilitud,  correlación,  media,  entropía,  varianza,  segundo  momento  angular  
promedio,  homogeneidad,  contraste,  energía,  desviación  estándar  y  máxima  probabilidad.  LBP  se  utiliza  como  operador  de  
textura  que  simboliza  los  píxeles  de  la  imagen  mediante  la  adopción  del  proceso  de  establecer  un  umbral  en  la  vecindad  de  cada  
píxel.  La  salida  de  LBP  se  obtiene  en  forma  de  binario.  Debido  al  discernimiento  del  poder  y  la  simplicidad  computacional  [22],  
LBP  es  un  método  ampliamente  utilizado  en  aplicaciones  en  tiempo  real.  La  popularidad  de  LBP  se  debe  a  su  solidez  hacia  las  
variaciones  monótonas  en  la  escala  de  grises  debido  al  cambio  de  iluminación  de  la  luz.  En  LBP,  cada  valor  de  píxel  p  se  
compara  con  la  distancia  radial  r  de  sus  N  vecinos.  Hay  N  comparaciones  para  cada  píxel  p  y  el  resultado  de  cada  uno  se  puede  
expresar  como:

Int  J  Artif  Intell,  vol.  12,  núm.  1,  marzo  de  2023:  79­86
Machine Translated by Google

Int  J  Artif  Intel ISSN:  2252­8938 81

( , )  =  ∑ 7  =0 (gc­gp)2 (1)

donde,  'gc'  corresponde  al  valor  de  escala  de  grises  en  el  píxel  central  (xc,  yc)  y  'gp'  a  los  valores  de  escala  de  grises  de  
los  ocho

1,  ≥  0
( )  =  { (2)
0,  <0

píxeles  vecinos.  p  es  el  número  de  píxeles  vecinos,  s(z)  es  una  función  de  umbral.  Después  de  la  extracción  de  
características,  la  selección  de  características  se  utiliza  para  mejorar  el  rendimiento  del  clasificador.  La  técnica  robusta  de  análisis  de  
componentes  principales  (RPCA)  se  emplea  para  extraer  las  características  de  las  imágenes  faciales  y  también  se  utiliza  para  reducir  
la  dimensionalidad  de  las  imágenes  faciales.  Es  un  método  numérico  que  transforma  un  conjunto  de  N  imágenes  de  caras  
correlacionadas  en  un  conjunto  de  imágenes  de  caras  propias.
El  RPCA  se  formuló  como  un  problema  de  optimización  no  convexo  definido  como,

min ( )+  ||  ||0  punto  D=L+S (3)


,

Se  está  entrenando  un  conjunto  de  imágenes  de  caras,  luego  se  denota  con  valores  propios  grandes  a  través  de  las  caras  propias  
más  grandes  para  una  estimación  precisa  de  la  cara.  Después  de  este  paso,  el  resultado  de  las  caras  propias,  cada  imagen  de  la  cara  se  
puede  indicar  mediante  la  permutación  de  las  caras  propias,  seguida  de  la  simbolización  en  forma  de  vectores.  Las  características  de  entrada  
se  comparan  con  las  características  estándar  del  conjunto  de  datos  para  FER.  Las  características  se  clasifican  utilizando  el  clasificador  CNN.
CNN  comprende  secuencias  de  capas  convolucionales,  la  salida  que  se  correlaciona  solo  con  áreas  nativas  en  la  
entrada.  Esto  se  lleva  a  cabo  a  través  de  un  filtro  deslizante  o  matriz  ponderada  con  respecto  a  la  entrada.  Para  cada  
punto,  CNN  calcula  el  producto  de  convolución  entre  la  entrada  y  el  filtro  [23],  [24].
La  figura  1  muestra  el  diagrama  de  bloques  del  sistema  FER  propuesto.  Inicialmente,  desde  el  video  en  tiempo  real,  la  
imagen  facial  se  capturará  y  luego  se  alimentará  al  preprocesamiento.  En  la  siguiente  etapa,  la  detección  de  rostros  se  realiza  
mediante  el  método  VJ  modificado.  La  extracción  de  características  faciales  se  realiza  mediante  GLCM  y  LBP.  Estos  métodos  
también  se  utilizaron  para  distinguir  la  información  de  textura  de  las  imágenes  y,  por  lo  tanto,  mejoran  el  rendimiento  de  la  
clasificación.  Se  realiza  la  selección  de  características  utilizando  el  método  RPCA.  La  RPCA  es  una  técnica  de  selección  de  
características  que  se  utiliza  para  facilitar  la  dimensionalidad  de  los  datos  faciales.  A  este  paso  le  sigue  la  alimentación  de  la  
imagen  al  clasificador  CNN,  donde  la  imagen  en  tiempo  real  se  comparará  con  la  base  de  datos  para  detectar  la  expresión  facial  
con  mayor  eficacia.  La  Figura  2  muestra  el  diagrama  de  flujo  de  la  metodología  propuesta,  la  cual  se  explica  por  sí  misma.

Figura  1.  Diagrama  de  bloques  del  sistema  FER  propuesto

3.  RESULTADOS  Y  DISCUSIÓN  El  trabajo  
propuesto  se  implementa  utilizando  el  entorno  de  computación  técnica  MATLAB.  Los  conjuntos  de  datos  se  
recopilaron  de  las  bases  de  datos  de  caras  emocionales  dirigidas  por  Kaggle  y  karolinska  (KDEF)  [25].  Este  conjunto  de  
datos  consta  de  215  imágenes  con  7  emociones  faciales  como  felicidad,  tristeza,  sorpresa,  disgusto,  enojo,  miedo  y  neutral.  
Las  imágenes  en  tiempo  real  se  utilizan  como  imágenes  de  entrada.  Al  principio,  el  paso  de  preprocesamiento  se  utiliza  para  
eliminar  las  imágenes  no  deseadas  y  también  suaviza  las  imágenes  de  los  conjuntos  de  datos  de  entrada  mediante  el  filtro  
Gabor.  Para  FER,  el  algoritmo  VJ  modificado  se  usa  para  variar  la  intensidad  de  la  imagen  y  el  tamaño  de  la  ventana.  El  
AdaBoost  no  solo  se  usa  para  reducir  la  detección  de  la  tasa  de  falsos  positivos,  sino  que  también  disminuye  la  dificultad  debido  a  la  presencia  de

Detección  y  clasificación  de  emociones  humanas  usando  Viola­Jones  modificada  y...  (Komala  Karilingappa)
Machine Translated by Google

82 ISSN:  2252­8938

características  redundantes.  Los  clasificadores  CNN  se  utilizan  para  clasificar  de  manera  efectiva  los  diferentes  estados  emocionales  
de  las  imágenes  de  entrada.  La  técnica  propuesta  arrojó  una  validación  de  precisión  del  95,6%.
Las  bases  de  datos  Kaggle  y  KDEF  se  utilizan  como  se  muestra  en  la  Figura  3,  los  conjuntos  de  entrenamiento  y  prueba  
se  pueden  dividir  mediante  validación  cruzada.  En  esta  validación,  toda  la  base  de  datos  se  segrega  en  tres  conjuntos  idénticos  de  
imágenes.  La  segregación  es  de  naturaleza  aleatoria.  Luego,  se  combinan  dos  conjuntos  para  usarlos  como  un  conjunto  de  datos  de  
entrenamiento.  La  sección  restante  del  conjunto  de  datos  se  utiliza  para  la  fase  de  prueba.  La  figura  4  muestra  la  precisión  y  el  gráfico  
de  pérdida  de  registro  de  CNN  durante  el  entrenamiento.  En  la  figura  uno  puede  notar  la  calidad  del  rendimiento  de  un  modelo  a  
medida  que  avanza  el  número  de  iteraciones  de  optimización.  La  métrica  de  precisión  se  utiliza  para  medir  el  rendimiento  de  una  
manera  interpretable.  Es  un  grado  de  cuán  precisa  se  compara  la  probabilidad  del  modelo  con  los  datos  correctos.  La  Figura  5  
muestra  el  diagrama  de  Adaboost,  que  proporciona  la  relación  entre  la  tasa  de  falsos  positivos  y  la  tasa  de  verdaderos  positivos.  
Adaboost  se  utiliza  para  ajustar  los  pesos  de  los  clasificadores  durante  el  entrenamiento.  El  proceso  se  repite  a  medida  que  se  itera  
el  proceso  de  entrenamiento.  Este  paso  asegura  que  la  precisión  de  las  predicciones  de  observación  inusual.  También  se  utiliza  para  
aumentar  el  rendimiento  de  cualquier  algoritmo  de  aprendizaje  automático.  La  figura  6  muestra  el  gráfico  de  barras  del  rendimiento  
de  diferentes  clasificadores  para  el  conjunto  de  datos  seleccionado.  Podemos  ver  que  CNN  tiene  un  valor  de  rendimiento  más  alto  
entre  los  clasificadores  comparados  para  la  matriz  de  comparación  elegida.

Figura  2.  Diagrama  de  flujo  de  la  metodología  propuesta

3.1.  Análisis  de  rendimiento
El  desempeño  del  trabajo  propuesto  se  evalúa  cuantitativamente  utilizando  parámetros  como  precisión,  sensibilidad,  
especificidad,  exactitud  y  recuerdo.  La  matriz  de  confusión  de  la  detección  de  emociones  faciales  se  construye  como  se  muestra  en  
la  Tabla  1  para  la  imagen  fusionada.  Los  resultados  experimentales  muestran  que  la  técnica  propuesta  detecta  eficientemente  las  
expresiones  faciales  con  alta  precisión  en  comparación  con  las  técnicas  actuales.  La  Tabla  2  muestra  la  región  de  interés  y  su  
correspondiente  imagen  en  tiempo  real.  La  clasificación  de  la  emoción  se  muestra  encima  de  la  imagen  de  entrada.  La  Tabla  3  
muestra  que  el  resultado  de  precisión  de  los  clasificadores  CNN  es  más  efectivo  para  detectar  emociones  en  comparación  con  los  
clasificadores  de  k­vecino  más  cercano  (KNN)  y  de  red  neuronal  artificial  (ANN).

Int  J  Artif  Intell,  vol.  12,  núm.  1,  marzo  de  2023:  79­86
Machine Translated by Google

Int  J  Artif  Intel ISSN:  2252­8938 83

Figura  3.  Conjunto  de  datos  de  muestra  utilizado  para  el  trabajo  propuesto

Figura  4.  Gráfico  de  precisión  y  pérdida  logarítmica  de  CNN  durante  el  entrenamiento

Figura  5.  Gráfico  de  Adaboost

Detección  y  clasificación  de  emociones  humanas  usando  Viola­Jones  modificada  y...  (Komala  Karilingappa)
Machine Translated by Google

84 ISSN:  2252­8938

Figura  6.  Resultado  comparativo  de  diferentes  clasificadores

Tabla  1.  Matriz  de  confusión  de  CNN  Target  
class  3  4  1  0  
0.3%  0.0%  
1 1   0  0  0.0%   97,8%  
45   2  0   0.0%  47  0  13.7%   5  0   6  0   7  0   2,2%  
2 0.0%  0  46   95,9%  
13,1%   0,0%   0.0%  13.4%  0  0   0,0%   0,0%   0,0%   4,1%  
3 0.0%  0.0%  1   1   94,0%  
1   47   3  0.3%  0.9%  0  0   0   0   0,3%   6,0%  
0.0  %  0,0%  
Clase  
salida
de  

4 97,9%  
0,3%   13,7%   95,9%  93,9%   0,0%   0,0%   0   2,1%  
5 1   4,1%  6,1% 1   96,0%  
0,3%   1   0,3%  0   0   0,0%   4,0%  
6 0,0%  1  0,3%  0  0,0%  4892,3%  
0   0,3%   0,0%   14,0%   0   7,7%  
7 95,9%  
0,0%   0   48   0   0,0%  1   4,1%  
0  0,0%   0,0%  1   14,0%   0,0%   0,3%  0   95,6%  
0  0,0%  2  0,6%  
0,3%  
91,8%  
0  0,0%  
8,2%
0  0,0%  95,9%  4,1% 0  0,0%  0  0,0%  
98,0%  
98,0%  
2,0%
2,0%
0,0%  47  13,7%  
4,4%
95,9%  4,1%

Tabla  2.  Resultados  de  salida  en  tiempo  real  de  diferentes  clasificadores  
clasificador Salida  en  tiempo  real  1 Salida  en  tiempo  real2 Salida  en  tiempo  real3
ANA

KNN

CNN

Tabla  3.  Análisis  de  rendimiento  de  diferentes  clasificadores  
Métricas  de  rendimiento  (%)  KNN  ANN  CNN  
Exactitud  16,39  42,6  94,46  Sensibilidad  
36,36  68,18  97,96  Especificidad  37  
Precisión  Recuperación   12  Medida   93,8  
F  Media   8.33 19,23  72,73
G 36,36  68,18  97,96  13,56  30  
83,48
20,89  50,21 95,9

Int  J  Artif  Intell,  vol.  12,  núm.  1,  marzo  de  2023:  79­86
Machine Translated by Google

Int  J  Artif  Intel ISSN:  2252­8938 85

4.  CONCLUSIÓN
La  evaluación  del  rendimiento  del  algoritmo  VJ  modificado  propuesto  se  lleva  a  cabo  con  conjuntos  de  datos  
adecuados  para  encontrar  las  emociones  faciales  a  partir  de  la  imagen  de  datos  en  tiempo  real  y  también  para  categorizar  
diferentes  emociones.  Para  FER,  se  aplican  técnicas  de  extracción  de  características  basadas  en  LPB,  GLCM  y  RPCA  para  
extraer  detalles  de  imágenes  faciales  para  reconocer  cada  emoción  facial.  Todo  el  sistema  está  entrenado  y  clasificado  utilizando  
clasificadores  CNN  para  FER.  El  rendimiento  del  enfoque  propuesto  se  estima  a  través  de  parámetros  como  especificidad,  
sensibilidad,  precisión,  recuperación  y  exactitud.  Los  resultados  obtenidos  muestran  que  el  método  propuesto  detecta  de  manera  
eficiente  las  emociones  en  las  imágenes  de  la  cara  utilizando  CNN  con  una  precisión  del  95,33%  para  diferentes  imágenes  de  entrada.

REFERENCIAS  [1]
T.  Chernigovskaya,  P.  Eismont  y  T.  Petrova,  Lenguaje,  música  y  gesto:  encrucijada  informativa.  Springer  Singapur,  2021.

[2] S.  Mekruksavanich  y  A.  Jitpattanakul,  “Identificación  biométrica  de  usuarios  basada  en  el  reconocimiento  de  la  actividad  humana  mediante  sensores  
portátiles:  un  experimento  con  modelos  de  aprendizaje  profundo”,  Electronics,  vol.  10,  núm.  3,  pág.  308,  enero  de  2021,  doi:  10.3390/electronics10030308.

[3]  A.  Swaminathan,  A.  Vadivel  y  M.  Arock,  "FERCE:  reconocimiento  de  expresiones  faciales  para  emociones  combinadas  usando  el  algoritmo  FERCE",  IETE  
Journal  of  Research,  págs.  1  a  16,  mayo  de  2020,  doi:  10.1080/03772063.2020.  1756471.
[4]  KS  Yadav  y  J.  Singha,  "Reconocimiento  de  expresiones  faciales  usando  el  algoritmo  modificado  de  viola­john  y  el  clasificador  KNN",  Herramientas  y  aplicaciones  
multimedia,  vol.  79,  núm.  19–20,  págs.  13089–13107,  mayo  de  2020,  doi:  10.1007/s11042­019­08443­x.
[5]  A.  Jaiswal,  AK  Raju  y  S.  Deb,  "Detección  de  emociones  faciales  mediante  el  aprendizaje  profundo",  en  la  Conferencia  Internacional  de  2020  para
Emerging  Technology  (INCET),  junio  de  2020,  págs.  1  a  5,  doi:  10.1109/incet49848.2020.9154121.
[6] SK  Mondal,  I.  Mukhopadhyay  y  S.  Dutta,  "Revisión  y  comparación  de  técnicas  de  detección  de  rostros",  en  Actas  de  la  Conferencia  Internacional  de  Hacking  
Ético  2019,  Springer  Singapur,  2019,  págs.  3–14.
[7]  R.  Goel,  I.  Mehmood  y  H.  Ugail,  "Un  estudio  de  modelos  de  reconocimiento  facial  basados  en  aprendizaje  profundo  para  la  identificación  de  hermanos",  Sensors,
vol.  21,  núm.  15,  pág.  5068,  julio  de  2021,  doi:  10.3390/s21155068.
[8]  V.  Sreenivas,  V.  Namdeo  y  EV  Kumar,  "Reconocimiento  de  emociones  basado  en  grupos  a  partir  de  secuencias  de  video  con  red  neuronal  difusa  recurrente  
basada  en  optimización  híbrida",  Journal  of  Big  Data,  vol.  7,  núm.  56,  agosto  de  2020,  doi:  10.1186/s40537­020­00326­5.
[9] LB  Krithika  y  GGL  Priya,  "Extracción  de  características  basada  en  gráficos  y  enfoque  de  clasificación  híbrida  para  el  reconocimiento  de  expresiones  faciales",  
Journal  of  Ambient  Intelligence  and  Humanized  Computing,  vol.  12,  núm.  2,  págs.  2131–2147,  julio  de  2020,  doi:  10.1007/s12652­020­02311­5.

[10]  KD  Ismael  y  S.  Irina,  "Reconocimiento  de  rostros  usando  viola­jones  dependiendo  de  python",  Indonesian  Journal  of  Electrical  Engineering  and  Computer  
Science,  vol.  20,  núm.  3,  págs.  1513–1521,  diciembre  de  2020,  doi:  10.11591/ijeecs.v20.i3.pp1513­1521.
[11]  B.  Taha  y  D.  Hatzinakos,  "Reconocimiento  de  emociones  a  partir  de  expresiones  faciales  2D",  en  2019  IEEE  Canadian  Conference  of  Electrical
e  Ingeniería  Informática  (CCECE),  mayo  de  2019,  pp.  1–4,  doi:  10.1109/ccece.2019.8861751.
[12]  M.  Li,  X.  Yu,  KH  Ryu,  S.  Lee  y  N.  Theera­Umpon,  "Desarrollo  de  tecnología  de  reconocimiento  facial  con  metodología  Gabor,  PCA  y  SVM  en  condiciones  de  
normalización  de  iluminación",  Cluster  Computing,  vol .  21,  núm.  1,  págs.  1117–1126,  marzo  de  2017,  doi:  10.1007/s10586­017­0806­7.

[13]  M.  Nehru  y  S.  Padmavathi,  "Detección  de  rostros  invariantes  de  iluminación  usando  el  algoritmo  de  viola  jones",  en  2017  4th  International  Conference  on  
Advanced  Computing  and  Communication  Systems  (ICACCS),  enero  de  2017,  pp.  1–4,  doi:  10.1109 /icaccs.2017.8014571.

[14]  K.  Dang  y  S.  Sharma,  "Revisión  y  comparación  de  algoritmos  de  detección  de  rostros",  en  2017  7th  International  Conference  on  Cloud
Informática,  ciencia  e  ingeniería  de  datos  ­  Confluence,  enero  de  2017,  págs.  629–633,  doi:  10.1109/confluence.2017.7943228.
[15]  L.  Shen,  H.  Wang,  L.  Da  Xu,  X.  Ma,  S.  Chaudhry  y  W.  He,  "Gestión  de  identidad  basada  en  PCA  y  SVM",  Información
Fronteras  de  sistemas,  vol.  18,  núm.  4,  págs.  711–716,  abril  de  2015,  doi:  10.1007/s10796­015­9551­8.
[16]  A.  Borovykh,  S.  Bohte  y  CW  Oosterlee,  "Pronóstico  de  series  temporales  condicionales  con  redes  neuronales  convolucionales",  arXiv
preimpresión,  2017,  doi:  10.48550/arXiv.1703.04691.
[17]  VK  Gudipati,  OR  Barman,  M.  Gaffoor,  Harshagandha  y  A.  Abuzneid,  "Reconocimiento  eficiente  de  expresiones  faciales  mediante  clasificadores  en  cascada  
adaboost  y  haar",  en  la  Conferencia  anual  de  Connecticut  sobre  electrónica  industrial,  tecnología  y  automatización  (CT­IETA)  de  2016 ,  octubre  de  2016,  
págs.  1  a  4,  doi:  10.1109/ct­ieta.2016.7868250.
[18]  D.  Dagar,  A.  Hudait,  HK  Tripathy  y  MN  Das,  "Modelo  automático  de  detección  de  emociones  a  partir  de  la  expresión  facial",  en  la  Conferencia  internacional  
sobre  tecnologías  informáticas  y  de  control  de  comunicaciones  avanzadas  (ICACCCT)  de  2016,  mayo  de  2016,  págs.  77–  85,  doi:  10.1109/
icaccct.2016.7831605.
[19]  A.  Garg  y  R.  Bajaj,  "Reconocimiento  y  clasificación  de  expresiones  faciales  mediante  la  hibridación  de  ICA,  GA  y  redes  neuronales  para  la  interacción  humano­
computadora",  Journal  of  Network  Communications  and  Emerging  Technologies  (JNCET),  vol.  2,  núm.  1,  págs.  49–57,  2015.

[20]  N.  Mahajan  y  H.  Mahajan,  "Algoritmo  de  detección  de  emociones",  Revista  internacional  de  investigación  eléctrica  y  electrónica,  vol.  2,
No.  2,  págs.  56  a  60,  2014.
[21]  P.  Yaffe,  “La  regla  del  7  %:  realidad,  ficción  o  malentendidos”,  Ubiquity,  vol.  2011,  núm.  Octubre,  págs.  1  a  5,  octubre  de  2011,
doi:  10.1145/2043155.2043156.
[22]  K.  Nozaki,  H.  Ishibuchi  y  H.  Tanaka,  "Sistemas  de  clasificación  basados  en  reglas  difusas  adaptables",  IEEE  Transactions  on  Fuzzy
Sistemas,  vol.  4,  núm.  3,  págs.  238–250,  1996,  doi:  10.1109/91.531768.
[23]  I.  Paliy,  "Detección  de  rostros  usando  cascada  de  características  similares  a  Haar  y  red  neuronal  convolucional",  en  conferencia  internacional  sobre  "problemas  
modernos  de  ingeniería  de  radio,  telecomunicaciones  e  informática" (TCSET),  2008,  págs.  375–377.
[24]  G.  UKharat  y  SVD  Ul,  "Reconocimiento  de  emociones  de  la  expresión  facial  usando  redes  neuronales",  en  2008  Conference  on  Human
System  Interactions,  mayo  de  2008,  págs.  422–427,  doi:  10.1109/hsi.2008.4581476.
[25]  T.  Abidin  y  W.  Perrizo,  "SMART­TV:  un  clasificador  rápido  y  escalable  basado  en  el  vecino  más  cercano  para  la  minería  de  datos",  en  Actas  del  simposio  de  
ACM  de  2006  sobre  computación  aplicada  ­  SAC  '06,  2006,  págs.  536–  540,  doi:  10.1145/1141277.1141403.

Detección  y  clasificación  de  emociones  humanas  usando  Viola­Jones  modificada  y...  (Komala  Karilingappa)
Machine Translated by Google

86 ISSN:  2252­8938

BIOGRAFÍAS  DE  AUTORES

La  Sra.  Komala  Karilingappa  obtuvo  BE  en  Ingeniería  Electrónica  y  de  Comunicaciones  y  
M.Tech.  en  Electrónica  Digital  y  Comunicación  de  la  Universidad  Tecnológica  de  Visvesvaraya,  
Belagavi  en  el  año  2000  y  2010  respectivamente.  Actualmente  trabaja  como  Profesora  
Asistente,  Departamento  de  Ingeniería  Electrónica  y  de  Comunicaciones,  Instituto  de  
Tecnología  Sri  Siddhartha,  Tumakuru,  Karnataka,  India.  Tiene  más  de  17  años  de  experiencia  
docente  y  ha  publicado  8  artículos  en  revistas  y  congresos  nacionales  e  internacionales,  su  
área  de  interés  de  investigación  es  el  procesamiento  de  imágenes.  Se  puede  contactar  con  
ella  en  el  correo  electrónico:  komalak@ssit.edu.in.

Devappa  Jayadevappa  recibió  el  título  de  BE  en  tecnología  de  instrumentación  del  Instituto  de  
Tecnología  de  Siddaganga,  Tumkur,  M.Tech.  Título  de  SJCE,  Mysore  especialización  en  
Instrumentación  Biomédica  y  Ph.D.  de  la  Universidad  Tecnológica  Jawaharlal  Nehru,  Andrapradesh.  
Actualmente  trabaja  como  profesor,  Departamento  de  Ingeniería  Electrónica  e  Instrumentación,  
Academia  de  Educación  Técnica  Jagadguru  Sri  Shivarathreeshwara,  Bangalore.  Tiene  más  de  22  
años  de  experiencia  docente  e  industrial.  Ha  publicado  más  de  100  artículos  en  revistas  y  congresos  
nacionales  e  internacionales.
Es  revisor  de  varias  revistas  nacionales  e  internacionales  publicadas  en  todo  el  mundo.
Sus  áreas  de  interés  son  el  procesamiento  de  imágenes  digitales,  imágenes  médicas,  procesamiento  
de  señales  biomédicas  y  automatización  industrial.  Se  le  puede  contactar  en  el  correo  electrónico:  
djayadevappa@jssateb.ac.in.

Shivaprakash  Ganganna  recibió  el  título  de  BE  en  Tecnología  de  Instrumentación  de  SIT,  Tumakuru,  
Karnataka,  India,  en  1991.  Ha  recibido  un  M.Tech.  en  instrumentación  biomédica  de  SJCE,  Mysuru,  
India  en  1995.  Ha  recibido  un  Ph.D.  de  la  Universidad  Tecnológica  de  Visveswaraya,  Belagaum.  
Actualmente  trabaja  como  profesor  asociado  en  el  Departamento  de  Ingeniería  Electrónica  e  
Instrumentación,  Instituto  de  Tecnología  Ramaiah,  Bangalore,  Karnataka,  India.  Su  área  de  
investigación  incluye  diseño  VLSI,  procesamiento  de  imágenes,  procesamiento  de  señales  y  
automatización  industrial.  Se  le  puede  contactar  por  correo  electrónico:  shivaprakash@msrit.edu.

Int  J  Artif  Intell,  vol.  12,  núm.  1,  marzo  de  2023:  79­86

También podría gustarte