Está en la página 1de 5

Bloque 2: Actividad evaluable

Esta actividad consiste en la realización de un análisis crítico sobre la adecuación de cada


uno de los paradigmas (simbólico, estadístico y conexionista) que hemos visto en este
segundo bloque a diferentes casos prácticos propuestos.

A continuación, se muestran tres ejemplos de problemas que podrían ser abordados por
medio de la aplicación de Tecnologías del Lenguaje. Se pide realizar un informe en el
que se justifique razonadamente por medio de qué paradigma sería más adecuado
abordar cada problema, indicando cómo podría hacerse a partir de las técnicas
correspondientes a cada paradigma que se han visto a lo largo del bloque.

En particular, para cada caso hay que responder a las siguientes cuestiones:

• ¿Cuál sería el paradigma más recomendable en el que situar el sistema que


queremos implementar?

• ¿Qué problemas podrían presentar aquí el uso de los otros paradigmas?

• ¿Qué técnicas, de las descritas en el texto base del curso, se aplicarían en


este caso?

• Indique algunas de las limitaciones que habrá que asumir en nuestra


aplicación.
CASO 1

En la web de un determinado Ministerio se quiere implementar un sistema que sea capaz


de redirigir mensajes de consulta de los ciudadanos a las diferentes Secretarías de Estado,
Secretarías Generales, Direcciones Generales, Subdirecciones, etc. del Ministerio. La
idea es que un ciudadano entre en la web del Ministerio y tenga un campo de texto en el
que pueda expresar su duda, consulta o necesidad, y que el sistema le redirija
al departamento más adecuado dependiendo del tema al que se refiera la consulta.

En definitiva, queremos aplicar Tecnologías de la Lengua para clasificar consultas de los


ciudadanos expresadas en lenguaje natural (formato no estructurado) dentro del conjunto
total de departamentos que forman el Ministerio en cuestión.

Hay ciertos aspectos previos que se deben tener en cuenta antes de decidir bajo qué
paradigma desarrollaríamos (y cómo) nuestro sistema:

• Para cada departamento se dispone de documentos digitalizados en los que se


puede encontrar la terminología asociada al mismo. De este modo, palabras y n-
gramas como “factura proforma”, “compra centralizada” o “presupuesto”
aparecen en más documentos del Departamento de Compras que en el de
Personal, por poner un ejemplo.

• La redirección a los diferentes departamentos queremos hacerla


fundamentalmente en función de las palabras que contenga la consulta del
ciudadano.

Asumimos, por tanto, que tenemos una base de datos con miles de mensajes ya
clasificados por departamento y que cada clase tendrá una distribución de palabras más o
menos característica.
CASO 2

La comunicación a través de redes sociales tiene cada vez más impacto en nuestra
sociedad. En el caso de Twitter, dada una institución como, por ejemplo, el Ministerio
de Ciencia e Innovación, es muy habitual que cada día se publiquen miles de tweets
hablando de ella.

Los departamentos de comunicación de estas instituciones necesitan monitorizar toda


esta información; sin embargo, es necesario identificar cuáles de entre todos los tweets
recuperados que hablan de ella se refieren realmente a la institución. Una forma sencilla
de hacerlo consiste en capturar tweets que incluyan el nombre de la administración que
se está monitorizando, pero en muchos casos, o bien el tweet no contiene el nombre de
manera explícita, o bien lo contiene pero no es el foco del mensaje (por ejemplo, un
tweet que expresara “mi casa está junto al Ministerio de Ciencia” no sería de interés).

El problema es que, dado el alto número de tweets que se publican a diario en las redes
sociales, realizar este proceso de filtrado de tweets relevantes de forma manual es muy
laborioso, de manera que desde el Departamento de Comunicación de dicho ministerio
nos han pedido una solución usando Tecnologías de la Lengua.

Concretamente hay que tener en cuenta lo siguiente para resolver el problema:

• Disponemos de una colección de cientos de miles de tweets recopilados a lo


largo de los últimos años en base a palabras clave que podrían relacionarlos con
el ministerio. Esta colección se h a recopilado mediante un proceso de búsqueda
manual realizado por los expertos en comunicación del ministerio.

• Los contenidos de los tweets que mencionan al ministerio son absolutamente


diversos, tanto en el contenido como en el estilo. Esto quiere decir que NO
podemos decir que haya un conjunto de palabras clave que caractericen estos
tweets.

• Además, en un estudio previo se ha visto que se trata de un problema muy


complejo donde es necesario considerar no solo qué palabras contienen los
tweets, sino también cómo se estructuran.

• Han puesto a nuestra disposición una gran capacidad de cómputo.


CASO 3

Se quiere implementar un reconocedor de voz que interprete órdenes de un aparato de


cocina. El aparato puede realizar sólo dos operaciones, batir y calentar, que pueden
realizarse a diferentes velocidades, temperatura y durante un cierto tiempo. Además, el
aparato responde a órdenes para detenerse o reanudar y hay diez programas
predefinidos.

Téngase en cuenta que hoy en día el reconocimiento de voz y su transcripción a texto es


un problema moderadamente resuelto, por lo que obviamos esa parte. Suponemos que
hay un proceso previo para el tratamiento de voz, y se parte de una transcripción textual
de las órdenes.

A continuación, ponemos varios ejemplos de frases que el sistema debería convertir en


órdenes. A la máquina sólo le interesa la velocidad, temperatura y durante cuanto
tiempo tiene que estar activa. Si el usuario dice "batir", por defecto tendremos velocidad
3. Si no dice nada, la velocidad será 0. Si no dice nada sobre temperatura, no se activará
el calentador ("-"). Si no dice nada sobre el tiempo, se activará hasta nueva orden ("-").

Frase VELOCIDAD TEMPERATURA TIEMPO


“calienta a cincuenta grados dos 0 50 2:00
minutos”
“bate a velocidad cinco noventa 5 90 3:20
grados durante tres minutos y
veinte segundos”
“bate a temperatura noventa diez 3 90 10:30
minutos y medio”
“calienta a noventa grados 0 90 2:00
durante dos minutos”
“batir dos minutos a temperatura 3 20 2:00
veinte”
“revolver a temperatura máxima” 3 100 -
“girar a velocidad mínima” 10 - -
“tres minutos a cien de 3 100 3:00
temperatura y tres de velocidad”
“calentar a cincuenta grados a 0 50 -
velocidad tres”
“para” 0 - -
“anular” 0 - -
“activa el programa tres” 5 100 20:00
“inicia el programa cuatro” 3 50 10:00

En definitiva, queremos aplicar Tecnologías de la Lengua para convertir las órdenes en


formato no estructurado (frases) a formato estructurado consistente en tres variables.

Hay ciertos aspectos de nuestro contexto a tener en cuenta.

• No se dispone por lo pronto de una base de datos con ejemplos de frases y su


traducción a formato estructurado. Si se necesitara esta base de datos, sería
necesario desarrollarla a mano.
• Se asume la posibilidad de que la máquina no entienda y pida que se repita la
orden. Lo que no podemos permitir es que la máquina de pronto haga algo
distinto de lo que se le ordena. Además, el aparato se vende a domicilio
mediante un comercial, por lo que interesa especialmente que la máquina no
cometa errores cuando se hace una demostración.

• Tras hacer una pequeña estadística con usuarios de verdad, se comprueba que
hay un conjunto limitado de frases que se dan en la mayoría de los casos (90%)
y un conjunto muy extenso de excepciones que cubren un 10% de los casos.

También podría gustarte