Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Preprocesamiento de Textos
Preprocesamiento de Textos
de textos
Preprocesamiento
• Tokenización
• Normalización
• Lematización
• Eliminación de stopwords
“El gato caza al ratón.”
Tokenización
• Es el proceso de dividir un texto en unidades Tokenizando
más pequeñas y manejables, llamadas "tokens".
Estos tokens pueden ser palabras, puntuación,
símbolos o cualquier otra unidad significativa
del lenguaje.
Lematizando
Eliminación de
stopwords Eliminando
stopwords
• Este enfoque es ineficiente. Un vector es escaso (lo que significa que la mayoría de los índices son cero).
Imagina que tienes 10.000 palabras en el vocabulario. Para codificar en caliente cada palabra, crearía un
vector donde el 99,99% de los elementos son cero.
Ejemplo
gato cazar raton escapar perro dormir hoy
Teniendo las siguientes oraciones:
1 1 1 0 0 0 0
• El gato caza al ratón.
1 0 1 1 0 0 0
• El ratón escapa del gato.
0 0 0 0 1 1 1
• El perro duerme hoy.
Vectorización basada en n-gramas
• Este método crea un vector para cada secuencia de n palabras (n-gramas) en el texto. Al considerar el orden
de las palabras, los n-gramas pueden capturar información sintáctica y semántica más compleja que la BOW.