Está en la página 1de 7

Procesamiento de

Lenguaje Natural
Objetivos de Aprendizaje

• Estudiar cómo se modela y procesa el lenguaje natural.


• Utilizar herramientas para obtener bases de datos de texto que nos
permitan utilizar algoritmos que procesan lenguaje natural.
• Aprender cómo conectarse al API de Twitter.
• Estudiar un modelo supervisado para análisis de sentimiento.
Procesamiento de Lenguaje Natural

• Es el modelado e interpretación del lenguaje natural (usado por


humanos) a través del uso de algoritmos computacionales.
• Dificultades:
• Ambigüedad
• Detección de separación entre las palabras
• Recepción imperfecta de datos
Bag of Words

• Es un algoritmo supervisado de aprendizaje.


• Se basa en la selección de features/características obtenidas de textos
que han sido categorizados.
• Una vez que se tienen las características seleccionadas se evalúa cada
nuevo texto que quiera ser categorizado en función de estas
características y se utiliza un algoritmo de clasificación.
• El método es independiente del clasificador, sin embargo, se suelen
utilizar clasificadores lineales como SVM.
Bag of Words – Selección de Características

• La selección de características empieza por la eliminación de caracteres


o palabras que no ofrezcan información:
• URLs
• Números
• Símbolos de puntuación
• Símbolos matemáticos
• Preposiciones, artículos, algunos verbos comunes, etc.

• En otras palabras, eliminar los stop-words.


Bag of Words

Begin:
Gather Text Messages
For each message:
remove stopwords
Create array of all words by category
Perform feature selection
For each message:
evaluate features
Train classifier based on features and tags of each message
Save classfier
End
Ejercicio de Práctico

También podría gustarte