Capitulo I

CAPITULO I
MARCO TERICO
1.1.ORIGEN Y EVOLUCIN DEL OBJETO DE INVESTIGACIN La indagacin y estudio detallado que se realiz a los estudiantes que tienen dificultades en la pronunciacin del idioma Quichua de la casa de la Juventud de la ciudad de Otavalo, se tom en cuenta la enseanza y aprendizaje, formando as un nico proceso que tiene como fin la formacin del estudiante y capacidad para pronunciar dicho lenguaje, se opt por un sistema que se propuso de la verificacin de la pronunciacin del Idioma quichua basado en tecnologas de Reconocimiento de voz para ayudar a los estudiantes a prepararse eficazmente y eficientemente. Tambin nace la idea de hacerlo diferente a otros idiomas que en este caso es el lenguaje Quichua fomentado para la enseanza-aprendizaje de los alumnos que deseen aplicar y promover el idioma dentro y fuera del pas considerando las principales caractersticas bsica sobre en que se basa el reconocimiento del habla y que tcnicas son utilizadas para llevarlo a cabo. 1.2. ANLISIS DE LAS DISTINTAS POSICIONES TERICAS El habla es la interfaz ideal. Es como deberamos poder interactuar con las computadoras. (Bruce Armstrong, Mgr. del Gpo. Speech Technologies, The Novell Applications Group, 1994). Surge la esperanza de que el reconocimiento de voz sea simple y directo, utilizaba un vocabulario pequeo, dependiente del locutor, y reconoca palabras discretas. (AT&T Bell Laboratories). Las Tecnologas del Habla se han ido consolidando, dando lugar a una nueva forma de interaccin con el ordenador mucho ms natural y cmoda para ser utilizada en un ambiente de aprendizaje del idioma quichua asistida por computadora donde los estudiantes pueden prcticas sus habilidades con la pronunciacin utilizando un vocabulario y gramtica sencilla. Este mtodo usa una red neuronal artificial con una gramtica especfica para cada pronunciacin, la cual se utiliza al comparar el texto de la pronunciacin efectuada con la secuencia de fonemas obtenidas de la entrada de voz y de sta forma detectar los errores de pronunciacin.
1.3.PROCESOS DE RECONOCIMIENTO DE VOZ 1.3.1 Introduccin Es el proceso de convertir por medio de hardware (computadora o hardware dedicado) una seal acstica a una secuencia palabras representadas en forma de texto. Las palabras reconocidas pueden servir como entrada para otro sistema que emplee estos datos para realizar una accin en especfico. En la actualidad cada vez ms empresas se enfocan en el desarrollo de tecnologa que facilite y la comunicacin entre las computadoras y los usuarios. El reconocimiento de voz es un rea con un gran futuro y con un auge en las organizaciones, con los usuarios finales y en las casas. Los investigadores han centrado sus esfuerzos con la finalidad de obtener una mquina que sea capaz de reconocer voz, de manera continua, espontnea, independiente del locutor y sin restricciones de vocabulario. Por esta razn esta rea de investigacin posee cinco dcadas de trabajos y avances. 1 El reconocimiento de voz en los ltimos aos se basa principalmente en tres tcnicas: 1. DTW(Dynamic Time Warping), (Tiempo dinmico Distorsin). 2. HMM(Hidden Markov Models), (Modelos Ocultos de Markov). 3. Redes Neuronales. 1.3.2 Tecnologa del Habla Las tecnologas del habla tienen por objeto el tratamiento informtico de la lengua oral. Permiten que un ordenador ofrezca informacin hablada -sntesis del habla-, reconozca los enunciados emitidos por un locutor -reconocimiento automtico del habla- o combine ambas tecnologas para entablar una interaccin con el fin de recabar informacin o realizar transacciones -sistemas de dilogo- en una o varias lenguas Se denomina tecnologas del habla a aquellas que utilizan al lenguaje oral para la comunicacin hombre-mquina. Gracias a los avances de las ltimas dcadas, han dejado de pertenecer exclusivamente a la ciencia ficcin, para comenzar a incorporarse gradualmente a nuestra vida cotidiana. Ejemplos de ello son los sistemas de dictado automtico, los sistemas de dilogo y las interfaces multimodales. Lamentablemente, estas tecnologas presentan un desarrollo casi nulo en nuestro pas y en buena parte de
1
SAN-SEGUNDO, R. (2010) RECONOCIMIENTO DE VOZ , Espaa, RA-MA
Latinoamrica; en ese sentido, esta materia intentar fomentar el desarrollo y la investigacin de tecnologas locales. Asimismo, dado que esta rama de la Inteligencia Artificial posee fuerte interaccin con disciplinas como la Lingstica, la Fontica y la Fsica, esta materia presentar a los alumnos nuevos enfoques en la resolucin de problemas, fomentando la interdisciplinariedad y la apertura hacia otras concepciones de la Ciencia.2 1.3.3 Tecnologa Educativa La tecnologa educativa, por su naturaleza y finalidad, difiere mucho de las tecnologas de otras reas laborales. Ella por proceder e incidir en el hombre debe ser humanista y humanizante. Concebirla como una tecnologa mecnica y rgida es un grave error. A partir de la criticidad, creatividad y cooperacin de los agentes educativos debe apuntar a flexibilizar la tecnologa y adecuarla a las exigencias, necesidades e intereses de cada realidad social. La tecnologa educativa como ayuda de aprendizaje. En un segundo momento se concepta a la Tecnologa Educativa como la aplicacin de principios cientficos a la instruccin. La aplicacin de los principios del aprendizaje ala instruccin ha llevado a la creacin de la tcnica de la Instruccin Programada, tcnica que histricamente fue creada por Skinner para solucionar el problema del control del aprendizaje del alumno en el aula. El instrumento fundamental de la Instruccin Programada o del Aprendizaje Programado, es el Programa, que se elabora como un producto de la aplicacin de los principios y procedimientos propios de dicha tcnica. Los programas pueden ser usados por el profesor como ayudas en las distintas situaciones de aprendizaje en que se encuentra el alumno, y pueden ser presentados a travs de mquinas y bajo la forma de textos programados. Esta concepcin de la tecnologa educativa sigue pues interesada en el material y los recursos didcticos, pero slo en cuanto son expresin de unos mtodos y tcnicas precisos. Ello explica la importancia prioritaria que se dan a los programas con respecto a las mquinas y material de equipo. 3
SAN-SEGUNDO, R. (2010) RECONOCIMIENTO DE VOZ , Espaa, RA-MA HERRERA CRISTHIAN. (2010) FUNDAMENTOS BSICOS DEL RECONOCIMIENTO DE VOZ, Espaa, RA-MA
1.3.4 Reconocimiento Automtico de Voz El proceso de reconocimiento automtico del habla (RAH) dota a las mquinas de la capacidad de recibir mensajes orales. Tomando con entrada la seal acstica recogida por un micrfono, el proceso de reconocimiento automtico del habla tiene como objetivo final descodificar el mensaje contenido en la onda acstica para realizar las acciones pertinentes. Para lograr este fin, un sistema de RAH necesitara conjugar una gran cantidad de conocimientos acerca del sistema auditivo humano, sobre la estructura del lenguaje, la representacin del significado de los mensajes y sobre todo el auto aprendizaje de la experiencia diaria. Actualmente estamos lejos de lograr un sistema completo que pueda comprender cualquier mensaje oral en cualquier contexto tal y como lo podra hacer un ser humano. Sin embargo, la tecnologa actual s que permite realizar sistemas de RAH que pueden trabajar, con un error aceptable, en entornos semnticos restringidos. Bsicamente, el reconocimiento del habla es un proceso de clasificacin de patrones, cuyo objetivo es clasificar la seal de entrada (onda acstica) en una secuencia de patrones previamente aprendidos y almacenados en unos diccionarios de modelos acsticos y de lenguaje. Este proceso de clasificacin supone, en primer lugar que la seal de voz puede ser analizada en segmentos de corta duracin y representar cada uno de los segmentos mediante su contenido frecuencial, de forma anloga al funcionamiento del odo, en segundo lugar que mediante un proceso de clasificacin podemos asignar a cada segmento o conjuntos consecutivos de segmentos una unidad con significado lingstico y finalmente , en tercer lugar, que mediante un procesador lingstico podemos dar significado a las secuencias de unidades. Este ltimo paso del sistema supone incorporar al sistema de RAH conocimiento acerca de la estructura sintctica, semntica y pragmtica del lenguaje. Sin embargo, los sistemas actuales de RAH solo incorporan estas fuentes de conocimiento sobre tareas muy restringidas y controladas, estando la mayora de ellos en experimentacin en condiciones de laboratorio.4 1.3.5 Arquitectura de un sistema de reconocimiento de voz Para entender el funcionamiento de un sistema de reconocimiento de voz es necesario conocer sus principales componentes: el extracto de caractersticas y el clasificador. Cuando se recibe la seal de voz, sta pasa por un reconocedor el cual da como resultado la
4
SAN-SEGUNDO, R. (2010) RECONOCIMIENTO DE VOZ , Espaa, RA-MA
palabra que reconoce. Despus hay un procesamiento del lenguaje natural, una representacin semntica y finalmente se realiza una accin. La arquitectura para los sistemas de reconocimiento de voz se muestra a continuacin.5
Figura 1. Arquitectura Reconocimiento de Voz. Fuente: Autores
Como se mencion anteriormente, en la arquitectura de un sistema de reconocimiento de voz se cuenta con dos procesos importantes en la fase de reconocimiento, estos son los siguientes: Extraccin de caractersticas: Los pasos a realizar en este mdulo son los siguientes: 1. La seal se divide en una coleccin de segmentos 2. Se aplica alguna tcnica de procesamiento de seales para obtener una representacin de las caractersticas acsticas ms distintivas de segmento. 3. Con base en las caractersticas obtenidas, se construye un conjunto de vectores que constituyen la entrada al siguiente mdulo. Clasificador probabilstico: En este mdulo se realizan los siguientes pasos: 1. Se crea un modelo probabilstico basado en redes neuronales como modelos ocultos de Markov, etc. 2. Con las probabilidades obtenidas se realizan una bsqueda para encontrar la secuencia de segmentos con mayor probabilidad de ser reconocidos.6
BERNAL BERMUDEZ JESU. (2010) RECONOCIMIENTO DE VOZ Y FONTICA ACSTICA, Espaa, RA-MA
1.3.6 Proceso automtico del reconocimiento de voz El reconocimiento de voz es el proceso automtico de conversin de palabras habladas a palabras escritas. El objetivo del reconocimiento de voz es que las computadoras tengan la capacidad para aprender el lenguaje hablado y una vez entendido puedan ejecutar funciones especficas o almacenar datos. El campo de aplicacin de los reconocedores de voz son: sistema de seguridad, telefona, interacciones hombre-mquina, programaciones de robots. El reconocimiento de voz generalmente es utilizado como un interfaz entre humano y computadora por algn software, en nuestro caso Sphinx CMU. Realiza tres procesos: 1. Preprocesamiento: Convierte la entrada de voz a una forma que el reconocedor pueda procesar, es decir, convertir la seal anloga a digital. 2. Reconocimiento: Identifica lo que se dijo traduciendo la seal a texto. 3. Comunicacin: enva la seal digital al nuestro software de aplicacin. Los sistemas de reconocimiento de voz se enfocan en las palabras y los sonidos que distinguen una palabra de la otra en un idioma. Estas son los fonemas.7
Figura 2. Proceso automticos del reconocimiento de voz. Fuente: Autores
1.3.7 Enseanza del lenguaje asistida por computadora La Enseanza de Lenguas Asistida por Computador o C.A.L.L. por sus siglas en ingls (Computer-AssistedLanguageLearning) es una rama de la lingstica aplicada que consiste
6 7
BERNAL BERMUDEZ JESU. (2010) RECONOCIMIENTO DE VOZ Y FONTICA ACSTICA, Espaa, RA-MA SAN-SEGUNDO, R. (2010) RECONOCIMIENTO DE VOZ , Espaa, RA-MA
en la aplicacin de distintos enfoques de enseanza de lenguas utilizando como soporte una aplicacin computacional. En la disciplina CALL es posible distinguir tres etapas fundamentales:
CALL conductista: (dcada de los 50 a dcada de los 70): en ella el computador se utiliza como un tutor que entrega ejercicios y determina si la respuesta es correcta o incorrecta. Se basa en la premisa de que la exposicin reiterada al estmulo permite el aprendizaje en la persona, lo cual se relaciona directamente con las ideas del conductismo en educaciones propias de la poca.
CALL comunicativo: (dcada de los 80): en esta etapa el trabajo con el computador se centra en los aportes del enfoque comunicativo, el cual pone nfasis en las necesidades y usos reales de comunicacin de la persona.
CALL integrativo:(dcada de los 90 hasta hoy): busca enfatizar la interaccin persona y computador al utilizar todas las posibilidades de la tecnologa multimedia.8
1.3.8 Introduccin a la IA en un ambiente de aprendizaje Las tecnologas informticas y en especial la aparicin y expansin de la red Internet han cambiado la forma de percibir, apreciar y aprender la realidad, dado que se sobrepasan los lmites antes impuestos por la distancia, el tiempo y la cultura; y es as como asistimos a una revolucin que solo encuentra un smil en la aparicin de la imprenta y en la democratizacin de los flujos de informacin que ella origin. Estas tecnologas conllevan, adems, un cambio de esquemas en las formas y mtodos de presentar, almacenar y comunicar la informacin y los conocimientos, ya que adems de proveer un sustento para los mtodos tradicionales de enseanza se configuran en verdaderos laboratorios de experimentacin e interaccin entre productores y usuarios del conocimiento.
La informtica como herramienta de apoyo en la educacin, requiere por tanto un proceso proactivo y simultneo de adquisicin, anlisis, reflexin e interpretacin de la informacin, de tal forma que esta se convierta en conocimiento; y si bien, la educacin mediada por computadores (educacin virtual) ofrece una variada gama de herramientas que superan la concepcin de la informacin apoyada en el texto y busca el equilibrio entre
8
BERNAL, JESS; BOBADILLA, JESS; GMEZ, PEDRO, (2010) RECONOCIMIENTO DE VOZ Y FONTICA ACSTICA, Espaa, RA-MA
la estimulacin sensorial y la capacidad de lograr el pensamiento abstracto. Es necesario abordar en forma rigurosa la transformacin del alumno en receptor pasivo de la informacin a participante activo en el proceso de aprendizaje y autoformacin.
De lo anterior, se deriva la necesidad de romper y/o sobrepasar esquemas propios de las primeras aplicaciones de apoyo a la educacin, como por ejemplo, los sistemas virtuales y la multimedia los cuales no garantizan la excelencia en la formacin; de donde se deduce que estos sistemas proveen posibilidades ms amplias que las de un simple libro animado y no eliminan la necesidad de profesores o tutores que orienten y apoyen el proceso de aprendizaje.
La Inteligencia Artificial (AI) ha permitido un cambio radical de paradigma. El propsito de integrarla con la educacin radica fundamentalmente en aplicar sus tcnicas al desarrollo de sistemas de enseanza-aprendizaje asistidos por computador, con el objetivo de construir sistemas "ms inteligentes". El trmino "inteligente" utilizado en estos sistemas queda determinado fundamentalmente por su capacidad de adaptacin continua de la instruccin a las caractersticas del aprendizaje y del conocimiento de los diferentes usuarios. Tambin queda establecido por la autonoma del sistema para tomar decisiones pedaggicas y por la flexibilidad que ofrece al conjunto de aprendices para utilizar una o varias metodologas de enseanza. Algunas de las tcnicas de la AI son: Planificacin Instruccional (IP), Razonamiento Basado en Casos (CBR), Sistemas Tutoriales Inteligentes (ITS), Ambientes Colaborativos de Aprendizaje (CSCL) y Sistemas Multi-Agente (MAS), entre otros.9
1.3.8 Tcnicas de AI en educacin Esta seccin se divide en dos partes. En la primera, se presentan la planificacin instruccional y en la segunda, el razonamiento basado en casos.
1.3.8.1 Planificacin instruccional Los problemas de planificacin son tpicos en un gran nmero de reas cientficas, como la robtica, la modelizacin del razonamiento y la comprensin del lenguaje natural, entre
9
JIMNEZ BUILES JOVANI ALBERTO& OVALLE CARRANZA DEMETRIO ARTURO, (2008 ) USO DE TECNICAS DE INTELIGENCIA ARTIFICIAL EN AMBIENTES DISTRIBUIDOS DE ENSEANZA/APRENDIZAJE, Colombia, Acofi
otras. La resolucin de estos problemas constituye una tarea de gran complejidad que ha sido abordada utilizando tcnicas de AI desde la dcada de los 60s (Fikes & Nilsson, 1971). La planificacin desde la perspectiva de la AI consiste en un estado inicial, un conjunto de objetivos y un conjunto de acciones posibles (Woo et al., 2008). La planificacin instruccional (instructional Planning, IP) constituye una de las tareas ms importantes en los sistemas educativos para lograr la adaptacin de la instruccin al aprendiz. Es el componente encargado de determinar la secuencia de las acciones (Plan) de tutorizacin de manera consistente, coherente y continua las cuales maximizan las actividades de aprendizaje de cada alumno para alcanzar los Objetivos Instruccionales durante una sesin de aprendizaje (Matsuda & VanLehn, 2000).
1.3.8.2 Razonamiento basado en casos El Razonamiento Basado en Casos (Case-Based Reasonig, CBR) es una tcnica de la AI que intenta llegar a la solucin de nuevos problemas de forma similar como lo hacen los seres humanos utilizando la experiencia acumulada hasta el momento en acontecimientos similares (Rossillea et al., 2005). Un nuevo problema se compara con los casos almacenados previamente en la base de casos (Memoria de Casos) y se recuperan uno o varios casos. Posteriormente, se utiliza y evala una solucin sugerida, por los casos que han sido seleccionados con anterioridad, para tratar de aplicarlos al problema actual (Delgado, 2003). Un caso se compone de tres elementos: la descripcin del problema, la solucin que se aplic y el resultado de la solucin. El conjunto de casos se organiza en una estructura llamada Memoria de Casos. El ciclo de funcionamiento del CBR est formado por cuatro procesos: Recuperacin, Adaptacin, Revisin y Almacenamiento.10
1.3.9 Mente e Inteligencia Artificial Las relaciones entre la inteligencia humana y su sustrato fsico, el cerebro, constituyen un enigma que sigue suscitando sus preguntas con fuerza y con renovado inters. La pregunta fundamental es la misma de hace siglos: muestra el conocimiento humano, en s mismo, la existencia de un elemento en el hombre que est ms all de la materia? Esta pregunta se
10
DELGADO, M. (2008) DEFINICIN DEL MODELO DE NEGOCIO Y DEL DOMINIO UTILIZANDO RAZONAMIENTO BASADO EN CASOS, Cuba, Acofi
plantea con nueva precisin dados los considerables avances de las neurociencias. Planteada en este contexto, la pregunta podra formularse as: pueden las neurociencias dar va libre a la explicacin materialista, que reduce la mente al cerebro, o es ms bien lo contrario? La cuestin interesa a todos y de un modo especia al telogo. Diego Martnez Caro, Profesor Honorario de la Facultad de Medicina de la Universidad de Navarra, estudia el tema desde una visin integral que armoniza los actuales planteamientos realizados desde las neurociencias y la informtica hasta los argumentos filosficos a favor de un plus del elemento cognitivo humano, presentando un sobrio, pero suficiente--y valioso--, status quaestionis, muy til para el telogo y el filsofo.11
1.3.10 Introduccin Neuronas Artificiales Este trabajo aborda el reconocimiento de voz, teniendo en cuenta como algo muy importante, el pre procesamiento de la seal de audio para la obtencin de caractersticas que se repiten a partir de los patrones de voz a identificar. Se hacen estudios comparativos entre varios mtodos de pre procesamiento, teniendo en cuenta la bsqueda de algn tipo de vector que caracterice la seal de voz a identificar. Se analizan las seales de audio en el dominio temporal, se hacen anlisis a estas seales usando la transformada de Fourier y usando la tcnica de los coeficientes lineales predictivos (LPC) demostrando su eficacia en este tipo de aplicaciones, se prueba el algoritmo generado en la identificacin de las vocales a, e, i, o, u a partir de realizarle todo el procesamiento descrito en el artculo a las seales generadas por estas vocales. Una vez obtenido los vectores resultantes de este proceso se pasa a la identificacin de los patrones usando redes neuronales; se describe todo el proceso de entrenamiento; se discute acerca de la generalizacin y los resultados obtenidos. Palabras claves: reconocimiento de patrones, redes neuronales, inteligencia artificial.12
11
MATEO-SECO, LUCAS F. "DIEGO MARTINEZ CARO,(2013) EL YO Y LA MAQUINA. CEREBRO, MENTE E INTELIGENCIA ARTIFICIAL. Madrid, Scripta Theologica 45.1 (2013): 260+. Academic OneFile. Web. 12 MORENO, VALERY, (2011) "CONFERENCIAS DE REDES NEURONALES", Ciudad de La Habana, Cuba, Acofi.

Capitulo I

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Capitulo I

Cargado por

Copyright:

Formatos disponibles

CAPITULO I

SAN-SEGUNDO, R. (2010) RECONOCIMIENTO DE VOZ , Espaa, RA-MA

SAN-SEGUNDO, R. (2010) RECONOCIMIENTO DE VOZ , Espaa, RA-MA

Figura 1. Arquitectura Reconocimiento de Voz. Fuente: Autores

Figura 2. Proceso automticos del reconocimiento de voz. Fuente: Autores

También podría gustarte