Está en la página 1de 4

PROCESAMIENTO DE LENGUAJE NATURAL

Diego Saá, M.Sc.


Facultad de Ingeniería de Sistemas – Escuela Politécnica Nacional

While the first industrial revolution was fuelled by natural


resources, the second is being fuelled by information and
knowledge — which justifies the fourth century slogan:
‘Knowledge is power’.
Georgeff & Azarmi [5]

En todas las universidades, pero particularmente en una universidad técnica como la


Politécnica, debemos sondear la posibilidad de contribuir a resolver problemas sociales,
administrativos, legales, etc., con el uso de nuestros conocimientos técnicos.

El enfoque de interés de la Politécnica está, naturalmente, en el estudio de todos los


aspectos discernibles del mundo natural. En principio, los técnicos modernos debemos ser
más versátiles, para lo que debemos procurar tener acceso al manejo no de una sino de un
millón de nuevas tecnologías o metodologías, así como de nuevos diseños, productos,
inventos, software, etc., que están cada vez más accesibles y disponibles en línea.

Para lograr su desarrollo las sociedades deben pensar e innovar y más. Sólo así pueden
mantener alguna ventaja competitiva. Las sociedades que no investigan y experimentan con
conceptos radicalmente nuevos o diferentes están condenadas a ser segundonas y pobres.

Para llevar a cabo los estudios en un dominio se necesitan procedimientos sistemáticos.


Empezando con las observaciones experimentales, se desarrollan modelos científicos, que
deben estar de acuerdo con los hechos y efectos observados que, posiblemente, ayudarán a
predecir otros. Luego se adaptan y desarrollan tecnologías, que son aplicadas para resolver
los problemas humanos y de la sociedad.

Los modelos teóricos o científicos son simplemente representaciones simbólicas abstractas,


que pueden asumir una o varias formas, tales como matemáticas, gráficos, palabras, etc.

Precisamente uno de los mecanismos más importantes para simbolizar o representar el


mundo es el lenguaje natural. La mayor parte, en realidad casi todo el conocimiento
humano, se representa en lenguaje natural.
El origen de las palabras o documentos no es natural. Son productos artificiales de nuestra
cultura. Sin embargo, el procesamiento lingüístico tiene implicaciones tanto tácticas como
estratégicas.

El objetivo de este artículo es sugerir la importancia teórica y práctica del estudio y


procesamiento de los lenguajes naturales, aunque podría parecer que no es un tópico
relevante para una universidad técnica, sino más bien para estudios puramente semióticos,
lingüísticos, literarios o sociales.

El conocimiento ha sido y continúa siendo un componente fundamental, además de haber


llegado a ser característica definitoria de los procesos y actividades económicos.

La economía del conocimiento se refiere a activos específicos que consisten en el


conocimiento de "qué", "para qué", "cómo", "con quién" y "cuándo" implementar para
crear valor. Es una práctica económica activa que depende de un espacio de información
pasivo.

La economía del conocimiento no se basa únicamente, para el crecimiento y producción de


riqueza, en la producción de materias primas o de tecnologías para manufacturar o
industrializar productos. Más bien todos los sectores de la economía pueden ser no solo
usuarios intensivos sino productores de conocimiento. Las economías del conocimiento se
caracterizan cada vez más por la explotación de los conocimientos con el fin de innovar.

El crecimiento de la economía del conocimiento crea grandes oportunidades pero, al mismo


tiempo, impone grandes retos, particularmente a aquellas regiones periféricas, remotas o
relativamente retrasadas.

El procesamiento del conocimiento se inicia con su digitalización. Esto significa su


transformación de sus formas analógicas, en el mundo real, tal como voz, imágenes o textos
impresos, a archivos digitales. El resultado del proceso de digitalización es la producción
de contenido.

Luego de su almacenamiento en un sistema en línea, en bases de datos o páginas web,


puede entonces ser accedido por los usuarios interesados. La Internet puede ahorrar parte de
las labores de digitalización y puesta en línea, pues es actualmente una enorme fuente de
documentos que están disponibles y pueden ser accedidos directamente.

Su transformación en otro producto continúa la cadena de creación de valor. Por ejemplo,


se puede crear un reporte de noticias, un curso para entrenamiento en línea, un programa de
entretenimiento para televisión, un documental, un producto cultural o de mercadeo, etc. Se
trata de usar y combinar los materiales archivados en formas imaginativas y creativas, para
su uso en Internet o como contenidos fuera de línea.

El rango de potenciales usuarios es amplio, desde su uso en instituciones educativas


pasando por la investigación industrial y comercial hasta usuarios de la comunidad que
buscan entretenimiento o investigan sus intereses particulares. Hay una demanda masiva de
imágenes digitales por parte de sectores como publicidad y televisión (no necesariamente
local) o para fomentar el turismo.

El contenido puede ser valioso incluso, o principalmente, cuando es imaginario. La


literatura de ficción y los juegos de computadora tienen un muy amplio mercado.

Los dominios legal, médico, comunicaciones, administración y otros están encontrando que
las tecnologías de información (TI), incluidas la inteligencia artificial (IA), son
herramientas que pueden contribuir a resolver sus problemas.

Enfocándonos en el dominio de la legislación y su aplicación, es bastante conocido que los


juzgados, comisarías, fiscalías y dependencias policiales están sobrecargados de trámites
legales y judiciales, los cuales no siempre son tramitados éticamente, con suficiente
agilidad e imparcialidad. Esto causa que los ciudadanos se sientan frustrados, pierdan la
confianza en tales instancias y que, en casos extremos, busquen justicia por su propia mano.
Pueden no recibir una aplicación consistente de la ley inclusive por parte de una misma
dependencia.

Otro factor es la necesidad de que todos los involucrados estén enterados de las últimas
regulaciones y leyes vigentes, lo cual es prácticamente imposible debido a que miles de
tales regulaciones son emitidas cada año por los organismos Legislativos, IESS,
Municipios, Ministerios, etc.
Lo anterior evidencia que, si no se aplica adecuadamente la tecnología, entonces ni la
administración de justicia, y mucho menos los ciudadanos, están en capacidad de copar u
obviar la complejidad de promulgar leyes consistentes, tramitar grandes volúmenes de
legajos, aplicar las leyes que estaban vigentes al momento de los eventos del caso, o
simplemente conocer sus derechos y obligaciones.

Aunque los textos legales son escritos generalmente en un lenguaje algo más preciso que el
lenguaje natural común, tales textos adolecen de muchos de los problemas que tiene un
lenguaje natural en términos de ambigüedad o posibles malas interpretaciones.

A pesar de que la administración de justicia tiene evidentemente muchas deficiencias, ni los


funcionarios judiciales ni los políticos tienen los conocimientos y la voluntad para mejorar
varios de tales aspectos con el uso de medios tecnológicos.

Las tecnologías de información tienen un gran potencial para aliviar o incluso superar
algunos de los problemas en las áreas de especificar las normas, funciones de búsqueda de
hechos, aplicar las normas a un caso dado y dictar sentencias.

La sola posibilidad de recolectar e integrar todo el conjunto de normas para que sea
accedida o cuestionada con un sistema de búsqueda tipo Google, por parte de los actores
del sistema, tiene ya una ventaja evidente.

Debido a que el lenguaje natural tiene muchas deficiencias, el siguiente paso podría ser
tratar de representar las normas en un lenguaje formal, más preciso, lo cual resulta en una
enorme reducción de la complejidad.

Esto requiere que se construya una terminología que describa los actos y actores, así como
que describa los actos ilegales con uso de esa terminología. Esto es lo que se llama una
ontología.
Una ontología se define como la identificación de los conceptos correctos que modelan un
dominio del mundo. Se define e identifica un conjunto de términos del vocabulario, junto
con sus significados y sus relaciones explícitas con otros términos. En este sentido las
ontologías son útiles porque estandarizan el uso de los términos usados para representar los
conocimientos acerca de ese dominio.
Las ontologías proveen el marco para efectuar operaciones de administración de
conocimientos tales como anotar o etiquetar datos, conectar o compatibilizar con otras
bases de datos, refinar las capacidades de búsqueda, interpretar datos e inferir
conocimientos.

Se debe asociar identificadores con los textos, lo cual reduce su ámbito de aplicabilidad. El
lenguaje natural no tiene esas etiquetas, identificadores o "tags" asociados. Con ellos surge
la posibilidad de usar herramientas de búsqueda semántica, más afinada, que ayuden a
jueces y abogados a superar el problema de tener que filtrar manualmente la sobre
abundancia de datos, o de evitar datos irrelevantes, típicamente recuperados por
herramientas de búsqueda puramente sintácticas.

Otra perspectiva tiene que ver con la sistematización de los hechos correspondientes a los
casos; esto es, la función de encontrar los hechos. Esta función tiene como entrada las
descripciones de varias fuentes (evidencias, los argumentos del quejoso y del defensor,
casos precedentes, conocimiento contextual y de sentido común, principios éticos, valores,
etc.) y construye, sobre la base de estos hechos, un modelo de los hechos del caso.

Sería muy ambicioso tratar de construir un sistema que abarque todos los aspectos legales.
Para comenzar es recomendable construir un sistema que se enfoque en una sola área, tal
como leyes impositivas, leyes de tránsito o de seguridad social, que permita a los
ciudadanos ejercer sus derechos, acelerar los trámites administrativos y mejorar la calidad
de interacción en varias otras formas, teniendo en cuenta que siempre se ahorre más dinero
de lo que cueste el sistema.

Aunque se han hecho muchos avances en tecnologías de información e inteligencia


artificial, todavía existen muchos problemas de investigación pendientes y detalles no
resueltos. En particular, el número de investigaciones en lenguaje español es muy reducido;
además se requiere desarrollar formalismos para representar cada uno de los dominios del
conocimiento así como trabajar más con ontologías generales.

REFERENCIAS

[1] Carla De Laurentis. Digital Knowledge Exploitation: ICT, Memory Institutions and
Innovation from Cultural Assets. Journal of Technology Transfer, 31: 77–89, 2006.
Springer Science+Business Media, Inc.

[2] Igor Jurisica, John Mylopoulos, Eric Yu. Ontologies for Knowledge Management:
An Information Systems Perspective. Knowledge and Information Systems (2004) 6: 380–
401. Springer-Verlag London Ltd.

[3] L. Wolfgang Bibel. AI and the conquest of complexity in law. Artificial Intelligence and
Law (2004) 12:159–180. Springer.

[4] Shoubo Xu. Introduction: advances in intelligent information processing. Ann Oper
Res (2009) 168: 1–4. Springer Science+Business Media.

[5] M. Georgeff and N. Azarmi. What has AI done for us? BT Technology Journal. Vol 21
No 4. October 2003.