Está en la página 1de 10

UNIVERSIDAD NACIONAL DE SAN

ANTONIO ABAD DEL CUSCO


FACULTAD DE INGENIERIA ELECTRICA, ELECTRONICA, INFORMTICA Y MECANICA

INGENIERA INFORMTICA Y DE SISTEMAS

PROCESAMIENTO DE LENGUAJES
NATURALES
TEMA: PROCESAMIENTO DE CADENAS DE
CARACTERES
Docente:
Mg. Julio Cesar Carbajal Luna
Alumna:
Machaca Quispe, Lucero Betzabe

Semestre: 2016-I

CUSCO PER
2016

101662

PROCESAMIENTO DE CADENAS DE CARACTERES

TABLA DE CONTENIDO
1

RESUMEN

INTRODUCCIN

MARCO TEORICO

3.1

Smbolos

3.2

Alfabeto

3.3

Cadena

3.3.1
3.4

Lenguaje

3.4.1
4

Operaciones sobre Cadenas


Tipos de Lenguajes

Desarrollo

5
5
6
7

4.1

Autmata finito

4.2

Autmatas Finitos y los Lenguajes

4.3

Representacin Grfica de los autmatas Finitos

4.4

Procesamiento de una cadena por parte de un autmata.

CONCLUSIONES

REFERENCIAS

PROCESAMIENTO DE CADENAS DE CARACTERES

1 RESUMEN

En la dcada de 60s surge una nueva disciplina que es el Procesamiento del Lenguaje
Natural, con el objeto de estudiar los problemas derivados de la generacin y
comprensin automtica del lenguaje natural.
En la actualidad existen numerosos editores de texto y otras utilidades que nos ayudan
La correccin de textos permite la deteccin y correccin de errores ortogrficos y
gramaticales, Para detectar este tipo de errores, la computadora necesita entender en
cierto grado el sentido del texto. Los correctores de gramtica detectan las estructuras
incorrectas en las oraciones, aunque todas las palabras en la oracin estn bien escritas
en el lenguaje en cuestin.

PROCESAMIENTO DE CADENAS DE CARACTERES

2 INTRODUCCIN

En este trabajo nos centraremos en el procesamiento de las cadenas de caracteres


mediante los autmatas finitos se abarcarn conceptos bsicos como alfabetos,
cadenas y lenguajes.
El objetivo de este trabajo es fortalecer conceptos fundamentales que se trataran con
frecuencia durante el desarrollo del curso de Procesamiento de Lenguajes Naturales.

PROCESAMIENTO DE CADENAS DE CARACTERES

3 MARCO TEORICO
3.1 SMBOLOS
Es una entidad abstracta que no se puede definir, ya que se dejara como un axioma.
Igual que se define un punto en la geometra. La cual normalmente los smbolos son:

Letras: a, b, c, , z

Dgitos: 0,1,2, 3, 4, 5, 6, 7, 8, 9

Caracteres: +, -, *, /, >, <, ...

Los smbolos pueden estar formados por varias letras o caracteres.

3.2 ALFABETO
Un alfabeto es un conjunto finito no vaco cuyos elementos se llaman smbolos.
Denotamos un alfabeto arbitrario con la letra .
El alfabeto o abecedario es un conjunto de letras, con un determinado orden.
podramos precisamente decir que el alfabeto es un conjunto de letras (caracteres o
grafemas) de un sistema de escritura, cada una representa aproximadamente un
fonema (consonante o vocal).

3.3 CADENA
En matemticas, una cadena de caracteres, palabra o frase es una secuencia
ordenada de longitud arbitraria (aunque finita) de elementos que pertenecen a un
cierto alfabeto.
Habitualmente se usan las letras w, x, y, ... para referirnos a cadenas. Por ejemplo, si
tenemos un alfabeto = {a, b, c}, una cadena podra ser: x = aacbbcba.
En general, una cadena de caracteres es una sucesin de caracteres (letras, nmeros
y/o determinados signos).
Existe una palabra especial que representa una secuencia vaca de smbolos, se
llama la palabra vaca, y se representa con la letra griega .
4

PROCESAMIENTO DE CADENAS DE CARACTERES

3.3.1

Operaciones sobre Cadenas

Concatenacin.
Construir una palabra nueva aadindole los smbolos de la segunda tras los smbolos
de la primera.
Ejemplo:
Sea u = aab y v = bb. Entonces: uv = aabbb
Longitud de cadena.
La longitud de cadena es el nmero de smbolos que contiene. La notacin
empleada es la que es la que se indica en el ejemplo:
Ejemplos:
I abcb I = 4
I a + 2*b I = 5
I 000111 I = 6

Inversa de una palabra


Consiste en escribir al revs una palabra dada, y denota su inversa. Ejemplo:
() =
Cuando una palabra es igual a su inversa se dice es un palndromo.

3.4 LENGUAJE
Es un conjunto de cadenas, de todas las seleccionadas de un *. donde
determinado el alfabeto se denomina lenguaje. Si es un alfabeto y L *, entonces L
es un lenguaje de . Observe que un lenguaje de no necesita incluir cadenas con
todos los smbolos de , ya que una vez que hemos esta que L es un lenguaje de ,
tambin sabemos que es un lenguaje de cualquier alfabeto que sea un sper
conjunto de .
5

PROCESAMIENTO DE CADENAS DE CARACTERES

La eleccin del trmino "lenguaje" puede parecer extraa. Sin embargo, los lenguajes
habituales pueden interpretarse como conjuntos de cadenas. Un ejemplo seria el
ingls, donde la coleccin de las palabras correctas inglesas es un conjunto de
cadenas del alfabeto que consta de todas las letras. Otro ejemplo es el lenguaje C.

3.4.1 Tipos de Lenguajes


Lenguaje natural (castellano)
Nosotros estamos relacionados con el concepto tradicional de gramtica que, de
esta forma intuitiva, podemos considerar un conjunto de reglas el cual nos indican
que es correcto y que no lo es del, lenguaje natural. Con este fin podemos acrcanos
a la definicin ms clara y formal de la lengua castellana.
Lenguaje artificial.
En este lenguaje aplicamos el mismo mtodo en el cual definimos un fragmento del
lenguaje de programacin. Donde pretendemos describir las instrucciones el cual nos
permite asignar un valor a una expresin a una variable en un lenguaje C.
Lenguaje regular.
Llamamos as a los lenguajes porque sus palabras contienen "regularidades" o
repeticiones de los mismos componentes, por ejemplo, en este lenguaje:
L1 = { ab, abab, ababab, abababab,...}
Este ejemplo podemos apreciar las palabras de L1 son solo repeticiones de "ab"
donde se repiten varias veces. Su regularidad consiste en las palabras que contienen
"ab" varias veces.

PROCESAMIENTO DE CADENAS DE CARACTERES

4 DESARROLLO
4.1 AUTMATA FINITO
Es un modelo matemtico de los sistemas que posee las siguientes caractersticas:
I.

En cada momento el sistema se encuentra en un estado y el conjunto total de


estados en los que se puede encontrar un sistema es finito.

II.

Pueden responder a un nmero finito de acontecimientos diferentes.

III.

El estado en el que se encuentra el sistema resume toda la informacin


referente a todos los acontecimientos pasados.

IV.

La respuesta a un acontecimiento solo se determina en funcin del


acontecimiento y del estado en que se encuentra el sistema.

Por ejemplo: Un interruptor mecnico biestable, un ascensor, etc.

4.2 AUTMATAS FINITOS Y LOS LENGUAJES


Aunque existen muchos usos para los autmatas finitos, en nuestro caso particular,
consideraremos los autmatas finitos como: maquinas conceptuales reconocedoras
de lenguajes.
Y por lo tanto la tarea realizada por los mismos ser: responder a la pregunta de si una
cadena pertenece a un lenguaje o no.

4.3 REPRESENTACIN GRFICA DE LOS AUTMATAS FINITOS


a. Los estados son crculos que llevan dentro el nombre que los identifica.
b. El estado Inicial tendr una pequea flecha sobre este.
c. Los estados aceptadores se indicarn con una pequea cruz que sale de ellos.
d. Las posibles transiciones, en funcin de los smbolos ledos, se indicarn con
flechas que van de un estado al otro (o a s mismo). Las mismas estarn
etiquetadas con el smbolo que produce el cambio de estado.
Algunas otras cosas importantes a tener en cuenta son:

PROCESAMIENTO DE CADENAS DE CARACTERES

Los estados del autmata estn divididos en dos categoras, los estados llamados
aceptadores o finales y los estados llamados no aceptadores.

Cuando el estado en que se encuentra la maquina es aceptador, significa que


la palabra que va desde el inicio de la cinta hasta el smbolo actual se reconoce
como perteneciente al lenguaje.

Por el contrario, si al llegar al final de la palabra (y la cinta) la mquina queda en


un estado que no sea aceptador, la palabra no pertenece al lenguaje.

4.4 PROCESAMIENTO DE UNA CADENA POR PARTE DE UN AUTMATA.


Supongamos que en el autmata anterior se procesa la palabra w=aabab:
a.

Inicialmente se est en el estado A.

b.

Cuando se lee el smbolo a ser evoluciona hacia el estado B.

c.

Cuando se lee el segundo smbolo a, se evoluciona de B hasta B.

d.

Cuando se lee el smbolo b, se evoluciona de B hacia D.

e.

Cuando se lee el smbolo a, se evoluciona desde D hasta B.

f.

Finalmente, el autmata lee el ltimo smbolo a, y evoluciona desde B hacia D y


debido a que ya se proces completamente la palabra y el autmata que,
ubicado en un estado aceptador, se puede decir que la palabra aabab ha sido
reconocida como perteneciente al lenguaje L.

Importante: No basta con que una palabra pase por un estado aceptador para decir
que el lenguaje la acepto, ya que es necesario que el ltimo estado sea aceptador.

PROCESAMIENTO DE CADENAS DE CARACTERES

5 CONCLUSIONES
Una aplicacin de comprensin automtica del lenguaje natural es la correccin de
errores ortogrficos y gramaticales, lograda atreves del procesamiento del lenguaje
natural.
El procesamiento de cadena de caracteres es la base de procesamiento de lenguajes
natural, los autmatas finitos realizan el procesamiento de dichas cadenas para
determinar si esta existe en un lenguaje o no.
El tema abarcado en el informe es muy extenso; debido a ello el presente informe
describe conceptos bsicos sobre el procesamiento de cadenas.

6 REFERENCIAS
Jacobo, I. M. (2014). Introduccin a los Lenguajes formales.
Limn, J. C. (2010). Introduccin a la Teora de Lenguajes y Autmatas. Obtenido de
galeon.com: http://10380054.galeon.com/index.htm
Ochoa, L. (2013). Alfabetos-Lenguajes y Automatas. Obtenido de
http://es.slideshare.net/OsirisTheKroos/alfabetos-26058575

También podría gustarte