Documentos de Académico
Documentos de Profesional
Documentos de Cultura
PROCESAMIENTO DE LENGUAJES
NATURALES
TEMA: PROCESAMIENTO DE CADENAS DE
CARACTERES
Docente:
Mg. Julio Cesar Carbajal Luna
Alumna:
Machaca Quispe, Lucero Betzabe
Semestre: 2016-I
CUSCO PER
2016
101662
TABLA DE CONTENIDO
1
RESUMEN
INTRODUCCIN
MARCO TEORICO
3.1
Smbolos
3.2
Alfabeto
3.3
Cadena
3.3.1
3.4
Lenguaje
3.4.1
4
Desarrollo
5
5
6
7
4.1
Autmata finito
4.2
4.3
4.4
CONCLUSIONES
REFERENCIAS
1 RESUMEN
En la dcada de 60s surge una nueva disciplina que es el Procesamiento del Lenguaje
Natural, con el objeto de estudiar los problemas derivados de la generacin y
comprensin automtica del lenguaje natural.
En la actualidad existen numerosos editores de texto y otras utilidades que nos ayudan
La correccin de textos permite la deteccin y correccin de errores ortogrficos y
gramaticales, Para detectar este tipo de errores, la computadora necesita entender en
cierto grado el sentido del texto. Los correctores de gramtica detectan las estructuras
incorrectas en las oraciones, aunque todas las palabras en la oracin estn bien escritas
en el lenguaje en cuestin.
2 INTRODUCCIN
3 MARCO TEORICO
3.1 SMBOLOS
Es una entidad abstracta que no se puede definir, ya que se dejara como un axioma.
Igual que se define un punto en la geometra. La cual normalmente los smbolos son:
Letras: a, b, c, , z
Dgitos: 0,1,2, 3, 4, 5, 6, 7, 8, 9
3.2 ALFABETO
Un alfabeto es un conjunto finito no vaco cuyos elementos se llaman smbolos.
Denotamos un alfabeto arbitrario con la letra .
El alfabeto o abecedario es un conjunto de letras, con un determinado orden.
podramos precisamente decir que el alfabeto es un conjunto de letras (caracteres o
grafemas) de un sistema de escritura, cada una representa aproximadamente un
fonema (consonante o vocal).
3.3 CADENA
En matemticas, una cadena de caracteres, palabra o frase es una secuencia
ordenada de longitud arbitraria (aunque finita) de elementos que pertenecen a un
cierto alfabeto.
Habitualmente se usan las letras w, x, y, ... para referirnos a cadenas. Por ejemplo, si
tenemos un alfabeto = {a, b, c}, una cadena podra ser: x = aacbbcba.
En general, una cadena de caracteres es una sucesin de caracteres (letras, nmeros
y/o determinados signos).
Existe una palabra especial que representa una secuencia vaca de smbolos, se
llama la palabra vaca, y se representa con la letra griega .
4
3.3.1
Concatenacin.
Construir una palabra nueva aadindole los smbolos de la segunda tras los smbolos
de la primera.
Ejemplo:
Sea u = aab y v = bb. Entonces: uv = aabbb
Longitud de cadena.
La longitud de cadena es el nmero de smbolos que contiene. La notacin
empleada es la que es la que se indica en el ejemplo:
Ejemplos:
I abcb I = 4
I a + 2*b I = 5
I 000111 I = 6
3.4 LENGUAJE
Es un conjunto de cadenas, de todas las seleccionadas de un *. donde
determinado el alfabeto se denomina lenguaje. Si es un alfabeto y L *, entonces L
es un lenguaje de . Observe que un lenguaje de no necesita incluir cadenas con
todos los smbolos de , ya que una vez que hemos esta que L es un lenguaje de ,
tambin sabemos que es un lenguaje de cualquier alfabeto que sea un sper
conjunto de .
5
La eleccin del trmino "lenguaje" puede parecer extraa. Sin embargo, los lenguajes
habituales pueden interpretarse como conjuntos de cadenas. Un ejemplo seria el
ingls, donde la coleccin de las palabras correctas inglesas es un conjunto de
cadenas del alfabeto que consta de todas las letras. Otro ejemplo es el lenguaje C.
4 DESARROLLO
4.1 AUTMATA FINITO
Es un modelo matemtico de los sistemas que posee las siguientes caractersticas:
I.
II.
III.
IV.
Los estados del autmata estn divididos en dos categoras, los estados llamados
aceptadores o finales y los estados llamados no aceptadores.
b.
c.
d.
e.
f.
Importante: No basta con que una palabra pase por un estado aceptador para decir
que el lenguaje la acepto, ya que es necesario que el ltimo estado sea aceptador.
5 CONCLUSIONES
Una aplicacin de comprensin automtica del lenguaje natural es la correccin de
errores ortogrficos y gramaticales, lograda atreves del procesamiento del lenguaje
natural.
El procesamiento de cadena de caracteres es la base de procesamiento de lenguajes
natural, los autmatas finitos realizan el procesamiento de dichas cadenas para
determinar si esta existe en un lenguaje o no.
El tema abarcado en el informe es muy extenso; debido a ello el presente informe
describe conceptos bsicos sobre el procesamiento de cadenas.
6 REFERENCIAS
Jacobo, I. M. (2014). Introduccin a los Lenguajes formales.
Limn, J. C. (2010). Introduccin a la Teora de Lenguajes y Autmatas. Obtenido de
galeon.com: http://10380054.galeon.com/index.htm
Ochoa, L. (2013). Alfabetos-Lenguajes y Automatas. Obtenido de
http://es.slideshare.net/OsirisTheKroos/alfabetos-26058575