In Vein Icial

03/10/2015 Sab 14:30
Idea
Software, a.c
Pgina 0 de 21
Solo ideas creativas
Direccin: Prolongacin de la 1 Sur 1101,

Col. San Pablo Tepetzingo, 75859 Tehuacn, Pu.
Telfono: 01 238 380 3100
Investigacin Previa
/18:30
idea software, a.c

Direccin: Prolongacin de la 1 Sur
1101, Col. San Pablo Tepetzingo, 75859
Tehuacn, Pu.
Telfono: 01 238 380 3100
Protocolo de investigacin
Aplicacin:
QueDice?
Propuesta de proyecto
MPI-05
06/11/Vie 2015
CLAVE: MPI-008
03/10/2015 Sab 14:30
Idea
Software, a.c
Pgina 1 de 21

Telfono: 01 238 380 3100
I.
ANTECEDENTES
Todo comienza con la capacidad de un dispositivo de computacin para ayudar

a entender lo que se est diciendo mediante reconocimiento de voz. Cualquier
persona mayor de 30 aos, sin duda, recordar los das de reconocimiento
frustrantemente imperfecto del habla. Sin embargo, existe un registro real de
una conversacin entre un ser humano y un ayudante computarizado llamado
"Annie" que era un software al cual se le hacan preguntas y si entenda te
responda lo cual era an un gran fracaso con muchos errores.
A principios del ao 1940, los laboratorios de AT&T y Bell desarrollaron un
aparato primitivo que poda reconocer la voz. Estos cientficos saban que el
xito y la globalizacin de esta tecnologa iban a depender de su habilidad de
percibir informacin verbal compleja, con alta precisin y constancia.
En 1960 los cientficos se empezaron a enfocar, en desarrollar un sistema de
reconocimiento de voz ms complejo. Como primer paso, desarrollaron un
aparato que poda usar la conversacin discreta, un estmulo verbal puntuado
por pausas. Sin embargo en 1970, es cuando realmente se desarroll la
tecnologa de reconocimiento de voz que no requera que el usuario haga
pausas entre palabras. Esta tecnologa se volvi practica en los aos 80 y
sigue siendo desarrollada y afinada hasta hoy en da.
Todo esto comenz a cambiar en 2006, con el trabajo llevado a cabo por el
profesor Geoffrey Hinton en la Universidad de Toronto. l y sus colegas
tomaron un enfoque diferente para el aprendizaje de mquina, usando
profundas redes neuronales (DNNS), en la que el "cerebro" informatizado
consta de muchos, capas ocultas interconectadas.
Los primeros xitos en gran escala, se reportaron reconocedores basados en
DNN en 2010, al publicar sus investigaciones sobre DNNS dependientes del
contexto, la participacin de las redes con cientos de unidades de salida, y en
el 2011, cuando Seide, Microsoft Research Asia informaron sobre su trabajo
con un gran nmero de productos y la mejora de los modelos de formacin. El
impacto de estos avances en el reconocimiento de voz fue drstica, lo que
reduce la tasa de palabra sin errores en un tercio en comparacin con el
estado anterior de la tcnica de MMG. En 2013, los modelos basados en DNN
haban estado a punto de reducir a la mitad la tasa de error en comparacin
con los MMG.
CLAVE: MPI-008
03/10/2015 Sab 14:30
Idea
Software, a.c
Pgina 2 de 21

Telfono: 01 238 380 3100
Estos sistemas de reconocimiento de voz realizan varias funciones desde ser

utilizados para proveer soporte tcnico telefnico, hasta ser utilizados para
escribir reportes mdicos. Los avances tecnolgicos han hecho que el software
de reconocimiento de voz y sus aparatos, sean mucho ms prcticos y fciles
de usar. Estos avances tecnolgicos han permitido que productos
contemporneos se despeen con una precisin superior al 90 por ciento,
segn indican los nmeros de la industria.
Segn las cifras proporcionadas por la industria. La tecnologa de
reconocimiento de voz satisface las necesidades de negocios y consumidores
al simplificar la interaccin del cliente; esto incrementa la eficiencia y reduce los
costos operativos. Adems, Allied Business Intellignece (ABI) proyect que el
incremento en la popularidad de sistemas de reconocimiento de voz creo un
aumento de ventas de $677 millones en el 2002 a ventas de $5.3 billones en el
2008. Ciertamente, los avances tecnolgicos recientes en el software de
reconocimiento de voz estn creando un ambiente dinmico, debido a que esta
tecnologa resulta muy atractiva para cualquier individuo que necesite o quiera
realizar tareas de computacin manos libres. Conforme el reconocimiento
continuo y la fusin de vocabularios extensos contine, ms y ms compaas
empezaran a usar sistemas de reconocimiento de voz y la industria tomara el
liderazgo en el sector de tecnologa convirtindola en una solucin precisa e
independiente del interlocutor la cual maneja varios idiomas e incrementa la
precisin de envos completados con un 98% de precisin.
EL PROYECTO AUDIO LIBROS
Proyecto Gutenberg hace eBooks de audio disponible para algunos de la
misma gran literatura disponible en texto plano. Nuestros listados se dividen en
dos categoras: los libros de audio-Humanos leer y generados por ordenador.
Estos archivos pueden ser muy grandes, por lo que no son adecuados para las
personas que utilizan un mdem u otra conexin de baja velocidad.
AUDIO LIBROS LEER HUMANO
Gracias a AudioBooksForFree.com para nuestra serie Arthur Conan Doyle de
lecturas humanos, y para LiteralSystems.org para trabajar en nuevas lecturas
por voluntarios. Tambin estamos trabajando con Librivox, un esfuerzo similar
para que la gente de voluntariado para leer. Por favor, considere unirse a ellos!
CLAVE: MPI-008
03/10/2015 Sab 14:30
Idea
Software, a.c
Pgina 3 de 21

Telfono: 01 238 380 3100
Todava estamos aadiendo nuevos libros electrnicos de audio ledos por la

gente, sobre todo a travs del trabajo por LiteralSystems.org y Librivox.
Examinar nuestra lista de libros de audio humanos de leer.
LECTURAS POR COMPUTADORAS
Las voces generadas por ordenador utilizados en estos libros son similares a
los de los sistemas automatizados utilizados por los ciegos, as como algunos
sistemas de automatizacin de telfono.
La mayora de estos ttulos se generaron por Mike Eschman, pero algunas

fueron hechas por otras personas. Con el tiempo, los procedimientos utilizados
para generar los libros electrnicos de audio cambiado, por lo que no todos los
libros electrnicos de audio tiene el mismo sonido o estimulacin por la voz de
ordenador.
Hemos dejado de aadir libros electrnicos generados por ordenador. En lugar

de ello, estamos trabajando en mtodos para hacer automticamente libros
electrnicos generados por ordenador en la demanda (es decir, por la eleccin
de opciones, a continuacin, obtener el archivo dentro de un corto perodo de
tiempo).
Somos conscientes de las numerosas anomalas en los libros electrnicos

generados por ordenador, y trabajar para resolverlos (lentamente!). Result
que muchos archivos estaban rotos y perdidos: la mayor parte de las obras de
Jack London estn desaparecidos, y nuestra Charles Dickens Cuento de
Navidad slo tiene la licencia "letra pequea", pero ningn libro electrnico
real. Nos estn regenerando algunos, la eliminacin de los dems, y la fijacin
de lo que podemos. Si encuentra algn problema con uno de los libros
electrnicos de audio, lo ms probable es que ya est en la lista de fijar, con el
tiempo.
Carl Gutenberg. (2007). Proyecto Gutenberg. 2009, de Grupo Gutenberg Sitio
web: http://www.gutenberg.org/wiki/Gutenberg:The_Audio_Books_Project
CLAVE: MPI-008
03/10/2015 Sab 14:30
Idea
Software, a.c
Pgina 4 de 21

Telfono: 01 238 380 3100
CONVERSOR TEXTO-VOZ
La conversin texto-voz es la generacin de redes inalmbricas por medios
automticos de una voz artificial que genera el sonido producido por una
persona al leer un texto cualquiera en voz alta o una voz artificial. Es decir, son
sistemas que permiten la conversin de textos en voz sinttica. Los
conversores de texto-voz son conocidos tambin con las siglas CTV o por las
siglas en ingls TTS (Text To Speech).
REQUISITOS DE LOS CONVERSORES CTV/TTS
Debe producir una voz sinttica (artificial) que resulte natural y sea inteligible.
La sntesis del habla ha de ser completamente automtica, sin que se tenga
que introducir ningn tipo de reajuste manual en ninguna parte del proceso.
El texto introducido en el sistema ha de ser un texto arbitrario cualquiera, no
puede estar amaado en ningn sentido.
FASES DE LA CONVERSIN TEXTO-VOZ

En la primera fase se realiza una representacin lingstica simblica, para ello
se siguen tres procesos consecutivos:
Normalizacin del texto.

Se convierte la totalidad del texto a una forma textual convencional. Esto
afecta principalmente a las cifras, abreviaturas, etc. A la normalizacin
del texto tambin se la denomina pre-procesado o tokenizacin.
Conversin fontica.
Una vez normalizado el texto se asignan transcripciones fonticas a
cada palabra. El proceso de convertir las transcripciones fonticas en
palabras se denomina conversin texto-fonema (TTP en sus siglas en
ingls de text-to-phoneme) o conversin grafema-fonema (GTP en
sus siglas en ingls de grapheme-to-phoneme).
CLAVE: MPI-008
03/10/2015 Sab 14:30
Idea
Software, a.c
Pgina 5 de 21

Telfono: 01 238 380 3100
Divisin prosdica.
Se divide el texto en unidades prosdicas, tales como unidades
sintagmticas, proposiciones y frases.
En la segunda fase, la que forma el sintetizador propiamente dicho,
toma como entrada la representacin lingstica simblica y la
transforma en voz sinttica.
Educacin con Tic. (2014). Convertir texto a voz para "leer" mientras
hacemos otras cosas. 2015, de Educacin con Tic Sitio web:
http://www.educacontic.es/blog/convertir-texto-voz-para-leer-mientrashacemos-otras-cosas#comment-20570
SNTESIS DE HABLA
La sntesis de habla es la produccin artificial del habla. El sistema computarizado
que es usado con este propsito es llamado computadora de habla o sintetizador
de voz y puede ser implementado en productos software o hardware. Un sistema
text-to-speech (TTS) convierte el lenguaje de texto normal en habla; otros
sistemas recrean la representacin simblica lingstica como transcripciones
fonticas en habla.
El habla sintetizada puede ser creada a travs de la concatenacin de fragmentos
de habla grabados que son almacenados en una base de datos. Los sistemas
difieren en el tamao de las unidades de habla almacenadas; un sistema que
almacena fonosy difonos permite un mayor rango de sonidos pero carece de
claridad. Para usos especficos, el tamao del almacenamiento de palabras
completas u oraciones permite un mayor calidad de audio. De manera alternativa,
un sintetizador puede incorporar un modelo de tracto vocal u otras caractersticas
de la voz humana para recrear completamente una voz "sinttica".
La calidad del sintetizador de voz es evaluado por la similaridad que tenga con la
voz humana y su habilidad para ser entendido de manera clara. Un programa
inteligible convierte el texto al habla permite que las personas con discapacidades
visuales o dificultades para leer pueden escuchar textos en una computadora.
Varios sistemas operativos de computadora tienen sintetizadores de voz
integrados desde principios de los noventas.
CLAVE: MPI-008
03/10/2015 Sab 14:30
Idea
Software, a.c
Pgina 6 de 21

Telfono: 01 238 380 3100
Un sistema o "motor" de texto a habla (TTS) est compuesto de dos partes: un

front-end y back-end. El front-end tiene dos tareas principales. Primero, convertir
el texto con caracteres, nmeros, smbolos y abreviaciones en su equivalente en
palabras escritas. Este proceso es llamado como "normalizacin del texto", "preprocesamiento" o tokenizacin, Posteriormente el front-end asigna una
transcripcin fontica a cada palabra, marca y divide el texto en unidades
prosdicas, como frases, clusulas yoraciones. El proceso de asignar
transcripciones fonticas a las palabras es llamado conversion "texto a fonema" o
"grafema a fonema". La informacin de transcripciones fonticas o prosdicas
preparan la informacin de la representacin simblica lingstica que es el
resultado del front-end. El back-end, comnmente referido como el "sintetizador",
convierte la representacin simblica lingstica en sonido. En algunos sistemas,
esta parte incluye el computo de "intencin prosdica" (tono del perfil, duracin de
los fonemas), el cual es implementado en la voz de salida.
Allen, Jonathan; Hunnicutt, M. Sharon; Klatt, Dennis (1987). From Text to
Speech: The MITalk system. Cambridge University Press
II.
JUSTIFICACIN
Debido a que este servicio, llamado "Discurso a voz" (STS) Speech to Speech,
ofrece asistentes de comunicacin de fcil acceso en el telfono, se han vuelto
tan avanzado hasta el punto que hoy en da, su uso es fundamental en
negocios y centros de atencin.
La sntesis de voz (TTS) y reconocimiento del habla (ASR) son piezas clave
en servicios de atencin al cliente, procesos industriales, logsticos, entornos
domticos y en productos para discapacitados.
Se puede usar esta tecnologa para explotarla al mximo dentro de una
aplicacin que reconozca la voz del usuario para luego traducirla
inmediatamente en un lenguaje diferente y la trasmita a otro usuario.
CLAVE: MPI-008
03/10/2015 Sab 14:30
Idea
Software, a.c
Pgina 7 de 21

Telfono: 01 238 380 3100
El objetivo del software es generar un excelente funcionamiento que eficienten

los servicios de soporte y atencin a clientes, mejorar la implantacin de sus
sistemas de telefona automtica y mejora de sus centros de llamadas.
III.
PLANTEAMIENTO DEL PROBLEMA
Actualmente los clientes de las empresas que brindan servicios de software

demandan soporte tcnico as como servicio al cliente, pero esto no lo
pueden recibir de forma presencial para lo cual a lo largo de la historia se
ha hecho va telefnica. Pero las empresas han pasado de ser nacionales a
trasnacionales, es decir ya no solo venden dentro del pas de origen si no
ahora ya exportan sus productos o servicios a otros pases, esto ha trado
un gran dilema, pues no se puede atender con eficacia y rapidez a los
clientes de pases que hablan un idioma diferente al nativo del que brinda el
soporte o servicio al cliente.
HIPTESIS
H1
"Es viable desarrollar una aplicacin en la que una conversacin
o frase habladas son inmediatamente traducidas y pronunciadas
en voz alta en un segundo idioma".
IV.
OBJETIVO GENERAL
Desarrollar una aplicacin en la que una conversacin o frase habladas

sean inmediatamente traducidas y pronunciadas en voz alta en un segundo
idioma.
V.
OBJETIVO ESPECFICOS
Generar:
Una aplicacin que sirva como herramienta para las personas que
brindan soporte tcnico o servicio al cliente.
CLAVE: MPI-008
03/10/2015 Sab 14:30
Idea
Software, a.c
Pgina 8 de 21

Telfono: 01 238 380 3100
Un software de alta precisin capaz de recabar informacin verbal,

compleja.
Una base de datos con todos los lenguajes formalizados que se

hablen el mundo.
Un software de alta disponibilidad.
VI.
FUNDAMENTOS TEORICOS
MICROSOFT SPEECH API

La interfaz de programacin de aplicaciones de voz o SAPI (abreviatura en ingls
de Microsoft Speech API) es una API desarrollada por Microsoft para permitir el
uso de aplicaciones de reconocimiento de voz y sntesis de voz dentro de
Windows aplicaciones.
Hasta la fecha, se han lanzado una serie de versiones de la API, que se han
distribuido ya sea como parte de un Speech SDK , o como parte de Windows en
s. Las aplicaciones que utilizan SAPI incluyen Microsoft Office, Microsoft Agent y
Microsoft Speech Server.
En general, todas las versiones de la API se han diseado de tal manera que un
desarrollador de software puede escribir una aplicacin, para llevar a cabo el
reconocimiento de voz y sntesis, mediante el uso de un conjunto estndar de
interfaces, accesibles desde una variedad de lenguajes de programacin.
Adems, es posible que una tercera empresa tercera producir sus propios motores
de reconocimiento de voz y de texto o adaptar los motores existentes para trabajar
con SAPI. En principio, siempre y cuando estos motores se ajustan a las interfaces
definidas, pueden ser utilizados en lugar de los motores suministrados por
Microsoft.
En general, la API de voz es un componente de libre distribucin que se puede
enviar en cualquier aplicacin de Windows que desea utilizar la tecnologa de voz.
Muchas versiones (aunque no todos) de los motores de reconocimiento de voz y
sntesis tambin son de libre distribucin.
Ha habido dos "familias" principales de la API de Microsoft Speech. Las Versiones
SAPI 1 a 4 son todos similares entre s, con caractersticas adicionales en cada
CLAVE: MPI-008
03/10/2015 Sab 14:30
Idea
Software, a.c
Pgina 9 de 21

Telfono: 01 238 380 3100
nueva versin. Sin embargo, SAPI 5 era una interfaz completamente nueva,
lanzada en 2000. Desde entonces, se han lanzado varias sub-versiones de esta
API.
(Microsoft, 2015)
ANDROID STUDIO
Android Studio es un entorno de desarrollo integrado para la plataforma Android.
Fue anunciado el 16 de mayo de 2013 en la conferencia Google I/O, y reemplaz
a Eclipse como el IDE oficial para el desarrollo de aplicaciones para Android. La
primera versin estable fue publicada en diciembre de 2014.
Est basado en el software IntelliJ IDEA de JetBrains, y es publicado de forma
gratuita a travs de la Licencia Apache 2.0. Est disponible para las plataformas
Microsoft Windows, Mac OS X y GNU/Linux.
CARACTERSTICAS
Renderizacin en tiempo real

Consola de desarrollador: consejos de optimizacin, ayuda para la
traduccin, estadsticas de uso.
Soporte para construccin basada en Gradle.
Refactorizacin especifica de Android y arreglos rpidos.
Herramientas Lint para detectar problemas de rendimiento, usabilidad,
compatibilidad de versiones, y otros problemas.
Plantillas para crear diseos comunes de Android y otros componentes.
Soporte para programar aplicaciones para Android Wear.
PLATAFORMAS SOPORTADAS.
Android Studio est disponible para Windows 2003, Vista, 7, 8 y GNU/Linux, tanto
plataformas de 32 como de 64 bits, y Mac OS X, desde 10.8.5 en adelante.
ECLIPSE
Eclipse es un programa informtico compuesto por un conjunto de herramientas
de programacin de cdigo abierto multiplataforma para desarrollar lo que el
proyecto llama "Aplicaciones de Cliente Enriquecido", opuesto a las aplicaciones
CLAVE: MPI-008
03/10/2015 Sab 14:30
Idea
Software, a.c
Pgina 10 de 21

Telfono: 01 238 380 3100
"Cliente-liviano" basadas en navegadores. Esta plataforma, tpicamente ha sido

usada para desarrollar entornos de desarrollo integrados (del ingls IDE), como el
IDE de Java llamado Java Development Toolkit (JDT) y el compilador (ECJ) que
se entrega como parte de Eclipse (y que son usados tambin para desarrollar el
mismo Eclipse). Sin embargo, tambin se puede usar para otros tipos de
aplicaciones cliente, como BitTorrent o Azureus.
Eclipse es tambin una comunidad de usuarios, extendiendo constantemente las
reas de aplicacin cubiertas. Un ejemplo es el recientemente creado Eclipse
Modeling Project, cubriendo casi todas las reas de Model Driven Engineering.
Eclipse fue desarrollado originalmente por IBM como el sucesor de su familia de
herramientas para VisualAge. Eclipse es ahora desarrollado por la Fundacin
Eclipse, una organizacin independiente sin nimo de lucro que fomenta una
comunidad de cdigo abierto y un conjunto de productos complementarios,
capacidades y servicios.
HTML5
HTML5 (HyperText Markup Language, versin 5) es la quinta revisin importante
del lenguaje bsico de la World Wide Web,HTML. HTML5 especifica dos variantes
de sintaxis para HTML: una clsica, HTML (text/html), conocida como HTML5, y
una variante XHTML conocida como sintaxis XHTML5 que deber servirse con
sintaxis XML (application/xhtml+xml).1 2 Esta es la primera vez que HTML y
XHTML se han desarrollado en paralelo. La versin definitiva de la quinta revisin
del estndar se public en octubre de 2014.3
Al no ser reconocido en viejas versiones de navegadores por sus nuevas
etiquetas, se recomienda al usuario comn actualizar su navegador a la versin
ms nueva, para poder disfrutar de todo el potencial que provee HTML5.
El desarrollo de este lenguaje de marcado es regulado por el Consorcio W3C.
CLAVE: MPI-008
03/10/2015 Sab 14:30
Idea
Software, a.c
Pgina 11 de 21

Telfono: 01 238 380 3100
LISP
El lisp(o LISP) es una familia de lenguaje de programacin de computadora de tipo
multiparadigma con una larga historia y una sintaxis completamente entre
parentesis
Especificado originalmente en 1958 por John McCarthy y sus colaboradores en
el Instituto Tecnolgico de Massachusetts, el Lisp es el segundo ms
viejo lenguaje de programacin de alto nivel de extenso uso hoy en da; solamente
el FORTRAN es ms viejo.
Al igual que el FORTRAN, el Lisp ha cambiado mucho desde sus comienzos, y
han existido un gran nmero de dialectos en su historia. Hoy, los dialectos Lisp de
propsito general ms ampliamente conocidos son el Common Lisp y el Scheme.
El Lisp fue creado originalmente como una notacin matemtica prctica para los
programas de computadora, basada en el clculo lambda de Alonzo Church. Se
convirti rpidamente en el lenguaje de programacin favorito en la investigacin
de la inteligencia artificial (AI). Como uno de los primeros lenguajes de
programacin, el Lisp fue pionero en muchas ideas en ciencias de la computacin,
incluyendo las estructuras de datos de rbol, el manejo de almacenamiento
automtico, tipos dinmicos, y el compilador auto contenido.
El nombre LISP deriva del "LISt Processing" (Proceso de LIStas). Las listas
encadenadas son una de las estructuras de datos importantes del Lisp, y el cdigo
fuente del Lisp en s mismo est compuesto de listas. Como resultado, los
programas de Lisp pueden manipular el cdigo fuente como una estructura de
datos, dando lugar a los macro sistemas que permiten a los programadores crear
una
nueva
sintaxis
de lenguajes
de
programacin
de
dominio
especfico empotrados en el Lisp.
ESPEAK
eSpeak es una fuente abierta de software sintetizador de voz compacta para
Ingls y otros idiomas, para Linux y Windows. http://espeak.sourceforge.net
eSpeak utiliza un mtodo de "sntesis de formantes". Esto permite a muchos
idiomas que se deben proporcionar en un tamao pequeo. El discurso es claro, y
se puede utilizar a altas velocidades, pero no es tan natural o suave como
sintetizadores ms grandes que se basan en grabaciones de voz humanos.
CLAVE: MPI-008
03/10/2015 Sab 14:30
Idea
Software, a.c
Pgina 12 de 21

Telfono: 01 238 380 3100
eSpeak est disponible como:
Un programa de lnea de comandos (Linux y Windows) para hablar de texto

desde un archivo o de la entrada estndar.
Una versin de la biblioteca compartida para su uso por otros programas.
(En Windows este es un archivo DLL).
Una versin SAPI5 para Windows, por lo que se puede utilizar con los
lectores de pantalla y otros programas que apoyan la interfaz de Windows
SAPI5.
eSpeak ha sido portado a otras plataformas, incluyendo Android, Mac OSX
y Solaris.
Caractersticas.
Incluye diferentes voces, cuyas caractersticas se pueden alterar.

Puede producir salida de voz como un archivo WAV.
SSML (Speech Synthesis Markup Language) es compatible (no completa),
y tambin en HTML.
Tamao compacto. El programa y sus datos, incluyendo muchos idiomas,
asciende a cerca de 2 Mbytes.
Puede ser utilizado como un front-end para voces difonos Mbrola, consulte
mbrola.html. eSpeak convierte el texto en fonemas con el tono y la
informacin de longitud.
Puede traducir texto a cdigos de fonemas, por lo que podra ser adaptado
como un front-end para otro motor de sntesis de voz.
Potencial para otros idiomas. Varios estn incluidos en distintas etapas de
progreso. Ayuda de hablantes nativos para estos u otros idiomas es
bienvenida.
Las herramientas de desarrollo estn disponibles para la produccin y
puesta a punto de datos de fonemas.
Escrito en C.
Idiomas: El sintetizador de voz eSpeak soporta varios idiomas, sin embargo en

muchos casos se trata de proyectos iniciales y necesitan ms trabajo para
mejorarlos. La ayuda de hablantes nativos es bienvenido para stos u otros
nuevos lenguajes. Por favor, pngase en contacto conmigo si quieres ayudar.
CLAVE: MPI-008
03/10/2015 Sab 14:30
Idea
Software, a.c
Pgina 13 de 21

Telfono: 01 238 380 3100
eSpeak hace texto para la sntesis de voz para los siguientes idiomas, algunos
mejores que otros.
Afrikaans, albans, el aragons, el armenio, blgaro, cantons, cataln, croata,
checo, dans, holands, ingls, esperanto, estonio, farsi, finlands, francs,
georgiano, alemn, griego, hindi, hngaro, islands, indonesio, irlands, italiano,
kannada, kurdo, letn, lituano, lojban, macedonio, malayo, malayalam, mandarn,
nepal, noruego, polaco, portugus, punjabi, rumano, ruso, serbio, eslovaco,
espaol, swahili, sueco, tamil, turco, vietnamita, Gals.
VERBIO
Verbio es un conjunto de libreras y utilidades destinadas a conseguir una rpida y
sencilla incorporacin de herramientas del habla (reconocimiento y sntesis del
habla, verificacin de locutor y soluciones relacionadas) en aquellas aplicaciones
en las que pueda resultar interesante disponer de una interfaz vocal.
Verbio incorpora, por lo tanto, funcionalidades de reconocimiento del habla y de
sntesis del habla, cuyas caractersticas principales se detallan en los captulos
Captulo 4. Reconocimiento del habla y Captulo 5. Conversin de texto en habla
respectivamente. Cualquier entorno que disponga de un dispositivo que permita
obtener y/o reproducir muestras de audio ser susceptible de incorporar las
herramientas contenidas en Verbio. Es decir, el sistema de reconocimiento
requerir la obtencin de las muestras de audio dictadas por el locutor para
procesarlas y obtener el resultado de reconocimiento. Por otro lado, el sistema de
snte.
VII.
TIPO DE INVESTIGACIN
Diseo de la Investigacin Cuantitativa, ya que se contaran los
usuarios que acepten la aplicacin as como los que la usen.
VIII.
POBLACIN Y MUESTRA
POBLACIN: Toda las empresas dedicadas a dar soporte tcnico o

servicio al cliente a usuarios que hablen un idioma diferente al del prestador
de servicio. Dicha poblacin tiene Homogeneidad, es decir todos tienen la
misma necesidad de comunicarse y no lo pueden hacer.
CLAVE: MPI-008
03/10/2015 Sab 14:30
Idea
Software, a.c
Pgina 14 de 21

Telfono: 01 238 380 3100
MUESTRA: La muestra es sistematica es decir solo se tomaran en cuenta

para las pruebas a 100 usuarios de dichas empresas.
IX.
INSTRUMENTO DE EVALUACIN.
UNIVERSIDAD TECNOLGICA DE TEHUACN
ING. EN TECNOLOGIAS DE LA INFORMACIN Y LA COMUNICACIN
INTEGRADORA III
SEPTIEMBRE-DICIEMBRE 2015
PROTOCOLO DE PROYECTO DE INVESTIGACIN

INSTRUMENTO EVALUATIVO DE LA APLICACIN QUEDICE
INSTRUCCIONES: por favor conteste el presente cuestionario segn tu criterio.

1. Su gnero
Masculino
Femenino
2. Hablas un segundo idioma?
SI
NO
Ninguno
3. Has usado el servicio de bsqueda por voz de google?
SI
NO
4. Te parece til?
SI
NO
5. Qu opinas de una aplicacin en la que una conversacin o frase que t le
digas sean inmediatamente traducidas y pronunciadas en voz alta en un
segundo idioma?
__________________________________________________________________
__________________________________________________________________
__________________________________________________________________
__________________________________________________________________
6. Si llegara a existir, la usaras?
SI
NO
7. Estaras dispuesto a pagar por ella?
SI
CLAVE: MPI-008
03/10/2015 Sab 14:30
Idea
Software, a.c
Pgina 15 de 21

Telfono: 01 238 380 3100
NO
8. Qu usos le daras?
__________________________________________________________________
__________________________________________________________________
__________________________________________________________________
X.
COMPROBACIN
Para poder comprobar la viabilidad de este proyecto se elabor una

hiptesis alternativa.
H1
"Es viable desarrollar una aplicacin en la que una conversacin o frase
habladas son inmediatamente traducidas y pronunciadas en voz alta en
un segundo idioma".
Para poder comprobar la viabilidad de este proyecto se elabor una

hiptesis nula.
H0
"No es viable desarrollar aplicacin en la que una conversacin o frase
habladas son inmediatamente traducidas y pronunciadas en voz alta en
un segundo idioma".
Para lo cual se realizarn pruebas de campo donde se pedir a 100

usuarios que por medio de la aplicacin e intenten dar soporte tcnico,
atencin a clientes o simplemente comunicarse con otras personas que
hablen otro idioma.
Una vez acabada la prueba se aplicara una entrevista personal a cada
usuario, donde se le harn preguntas del nivel de dificultad que tuvieron
para comunicarse.
Una vez tenida la informacin recabada de todos los usuarios se agruparn
las respuestas y se aplicaran diferentes mtodos matemticos como las
frecuencias relativas y absolutas para determinar el nivel de aceptacin de
los usuarios para con la aplicacin.
CLAVE: MPI-008
03/10/2015 Sab 14:30
Idea
Software, a.c
Pgina 16 de 21

Telfono: 01 238 380 3100
XI.
ALCANCE
Este proyecto se centra en generar una aplicacin capaz de comunicar a

empresas que brindan soporte tcnico o servicio al cliente a travs de voz y
que hablen un idioma diferente al de los usuarios o clientes a los que les
dan servicio. Siendo la aplicacin el medio que hace posible la
comunicacin pues tendr una base de datos de todos los idiomas ms
populares o ms usados del mundo.
Al finalizar el proyecto se entregara una aplicacin compatible con cualquier
dispositivo conectado a internet y que tenga un perifrico de entrada
(micrfono) y un perifrico de salida (altavoz, auricular).
XII.
DURACIN DEL PROYECTO
Semanas como mnimo se puede realizar el proyecto: 24 SEMANAS
XIII.
MEDICIN DEL RETORNO DE LA INVERSIN

(ROI)
El retorno de la inversin es la herramienta que usaremos para saber

cunto esperamos obtener de ganancia de lo se invertir en la aplicacin
Quedice?, as como el tiempo que se llevara la recuperacin del capital.
INVERSIN APLICACON DE VOZ A VOZ
EGRESOS
TOTAL EGRESO
EQUIPOS DE COMPUTO
3,000.00
PANTALLAS EXTERNAS
4,000.00
ALTAVOCES
1,000.00
MICROFONOS
1,300.00
EQUIPOS DE COMPUTO PORTATILES
3,000.00
SOFTWARE DE RECONOCIMIENTO DE VOZ
35,000.00
SOFTWARE DE TEXTO A VOZ
6,000.00
SOFTWARE DE VOZ A VOZ
897.00
SOFWARE DE COMUNICACIN PEER TO PEER
3,400.00
SOFTWARE DE CONTROL DE CAMBIOS DE FICHEROS.
1,300.00
CLAVE: MPI-008
03/10/2015 Sab 14:30
Idea
Software, a.c
Pgina 17 de 21

Telfono: 01 238 380 3100
SOFTWARE PARA EL CONTROL DE PROYECTOS.
500.00
DISEADOR DE APLICACIONES MOBILES
3,000.00
DISEADOR DE APLICACIONES WEB
24,000.00
ADMINISTRADOR DE BASE DE DATOS
14,000.00
GERENTE DE PROYECTO
5,000.00
EXPERTO EN IDIOMAS
8,000.00
TOTAL INVERSIN
113,397.00
EJEMPLO GASTOS MENSUALES DE UNA EMPRESA DE SOPORTE TECNICO CON 10 EMPLEADOS

EGRESOS
TOTAL EGRESO
EQUIPOS DE COMPUTO
10,000.00
HONORARIO EXPERTO EN IDIOMAS
12,000.00
LICENCIAS TRADUCTORES TECNICOS
3,000.00
PERDIDAS DE CLIENTES POR EVACIN DE SOPORTE
2,500.00
GASTOS DE TRASLADOS
13,000.00
VIATICOS DE TRASLADOS
40,000.00
HONORARIOS DE PERSONAL DE SOPORTE TECNICO BILINGUES
55,000.00
TOTAL EGRESOS
299,897.00
COSTO LICENCIA "QUE DICE"

1 LICENCIA SOFTWARE VOZ A VOZ
TOTAL EGRESO
$22,000
EJEMPLO GASTOS MENSUALES DE UNA EMPRESA DE SOPORTE TECNICO CON 10 EMPLEADOS

EGRESOS
TOTAL EGRESO
EQUIPOS DE COMPUTO
10,000.00
HONORARIO EXPERTO EN IDIOMAS
12,000.00
LICENCIAS TRADUCTORES TECNICOS
3,000.00
PERDIDAS DE CLIENTES POR EVACIN DE SOPORTE
2,500.00
GASTOS DE TRASLADOS
13,000.00
VIATICOS DE TRASLADOS
40,000.00
HONORARIOS DE PERSONAL DE SOPORTE TECNICO BILINGUES
55,000.00
TOTAL EGRESOS
65,000.00
CLAVE: MPI-008
03/10/2015 Sab 14:30
Idea
Software, a.c
Pgina 18 de 21

Telfono: 01 238 380 3100
TOTAL
GASTO MENSUAL SIN "QUEDICE?"
299,897.00
GASTO MENSUAL CON "QUEDICE?"
65,000.00
TOTAL DE AHORRO PARA LA EMPRESA
$ 234,897.00
PARA PODER RECUPERAR LA INVERSION HECHA EN EL DESARROLLO DE LA APLICACIN

QUEDICE? SE NECESITAN VENDER 5 LICENCIAS DE LA APLICACIN.
UN CLIENTE QUE HAYA COMPRANDO UNA LICENCIA SOLO NECESITA UN MES PARA
RECUPERAR LO INVERTIDO.
CLAVE: MPI-008
03/10/2015 Sab 14:30
Pgina 0 de 21
Idea
Software, a.c

Telfono: 01 238 380 3100
XIV.
RECURSOS HUMANOS Y MATERIALES
RECURSOS ORGANIZACIONALES
La organizacin actual de la empresa idea

software
Software de control de recursos financieros y

materiales.
Software de control de cambios de ficheros.
Software para el control de proyectos.
RECURSOS HUMANOS
RECURSOS
FINANCIEROS
Diseador de
aplicaciones
mviles
Diseador de
aplicaciones web
Administrador de
base de datos
Se necesitan
Gerente de
$400,000 mil
proyecto
pesos para el
desarrollo de
la aplicacin.
RECURSOS MATERIALES
Equipos de computo
Pantallas externas
Altavoces
Micrfonos
Equipos de cmputo
porttiles
Software de
reconocimiento de voz
Software de texto a voz
Software de voz a voz
Software de
comunicacin peer to
peer
03/10/2015 Sab 14:30
Idea
Software, a.c
Telfono: 01 238 380 3100
XV.
WBS
Speech to Speech
Que dice?
XVI.
CRONOGRAMA
Pgina 0 de 21
CLAVE: MPI-008
03/10/2015 Sab 14:30
Idea
Software, a.c
Pgina 1 de 21

Telfono: 01 238 380 3100
XVII.
CONCLUSIONES
Con la informacin recopilada en este protocolo podemos afirmas que es viable

desarrollar QueDice?, la aplicacin en donde una conversacin o frase hablada,
es inmediatamente traducidas y pronunciadas en voz alta en un segundo idioma,
ya que la sntesis de voz (TTS) y reconocimiento del habla (ASR) son piezas clave
en servicios de atencin al cliente, procesos industriales tambin determinamos
que es factible econmicamente, ya que con solo la venta de 5 licencias de la
aplicacin se absorbe el costo de produccin. Y para el caso del cliente este
desde el primer mes del uso de la aplicacin recupera lo pagado por la licencia del
producto.
Con la aplicacin Quedice? se cumple el reto de dar respuesta a las necesidades
de un mercado de rpida evolucin que requiere gran flexibilidad e innvacion.

In Vein Icial

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

In Vein Icial

Cargado por

Copyright:

Formatos disponibles

03/10/2015 Sab 14:30

Direccin: Prolongacin de la 1 Sur 1101,

idea software, a.c

03/10/2015 Sab 14:30

Direccin: Prolongacin de la 1 Sur 1101,

Todo comienza con la capacidad de un dispositivo de computacin para ayudar

03/10/2015 Sab 14:30

Direccin: Prolongacin de la 1 Sur 1101,

Estos sistemas de reconocimiento de voz realizan varias funciones desde ser

03/10/2015 Sab 14:30

Direccin: Prolongacin de la 1 Sur 1101,

Todava estamos aadiendo nuevos libros electrnicos de audio ledos por la

La mayora de estos ttulos se generaron por Mike Eschman, pero algunas

Hemos dejado de aadir libros electrnicos generados por ordenador. En lugar

Somos conscientes de las numerosas anomalas en los libros electrnicos

03/10/2015 Sab 14:30

Direccin: Prolongacin de la 1 Sur 1101,

FASES DE LA CONVERSIN TEXTO-VOZ

Normalizacin del texto.

03/10/2015 Sab 14:30

Direccin: Prolongacin de la 1 Sur 1101,

03/10/2015 Sab 14:30

Direccin: Prolongacin de la 1 Sur 1101,

Un sistema o "motor" de texto a habla (TTS) est compuesto de dos partes: un

03/10/2015 Sab 14:30

Direccin: Prolongacin de la 1 Sur 1101,

El objetivo del software es generar un excelente funcionamiento que eficienten

PLANTEAMIENTO DEL PROBLEMA

Actualmente los clientes de las empresas que brindan servicios de software

Desarrollar una aplicacin en la que una conversacin o frase habladas

03/10/2015 Sab 14:30

Direccin: Prolongacin de la 1 Sur 1101,

Un software de alta precisin capaz de recabar informacin verbal,

Una base de datos con todos los lenguajes formalizados que se

Un software de alta disponibilidad.

MICROSOFT SPEECH API

03/10/2015 Sab 14:30

Direccin: Prolongacin de la 1 Sur 1101,

Renderizacin en tiempo real

03/10/2015 Sab 14:30

Direccin: Prolongacin de la 1 Sur 1101,

"Cliente-liviano" basadas en navegadores. Esta plataforma, tpicamente ha sido

03/10/2015 Sab 14:30

Direccin: Prolongacin de la 1 Sur 1101,

03/10/2015 Sab 14:30

Direccin: Prolongacin de la 1 Sur 1101,

eSpeak est disponible como:

Un programa de lnea de comandos (Linux y Windows) para hablar de texto

Incluye diferentes voces, cuyas caractersticas se pueden alterar.

Idiomas: El sintetizador de voz eSpeak soporta varios idiomas, sin embargo en

03/10/2015 Sab 14:30

Direccin: Prolongacin de la 1 Sur 1101,

POBLACIN: Toda las empresas dedicadas a dar soporte tcnico o

03/10/2015 Sab 14:30

Direccin: Prolongacin de la 1 Sur 1101,

MUESTRA: La muestra es sistematica es decir solo se tomaran en cuenta

PROTOCOLO DE PROYECTO DE INVESTIGACIN

INSTRUCCIONES: por favor conteste el presente cuestionario segn tu criterio.

03/10/2015 Sab 14:30

Direccin: Prolongacin de la 1 Sur 1101,

Para poder comprobar la viabilidad de este proyecto se elabor una

Para poder comprobar la viabilidad de este proyecto se elabor una

Para lo cual se realizarn pruebas de campo donde se pedir a 100

03/10/2015 Sab 14:30