Está en la página 1de 12

Preprocesamiento

de textos
Preprocesamiento
• Tokenización
• Normalización
• Lematización
• Eliminación de stopwords
“El gato caza al ratón.”
Tokenización
• Es el proceso de dividir un texto en unidades Tokenizando
más pequeñas y manejables, llamadas "tokens".
Estos tokens pueden ser palabras, puntuación,
símbolos o cualquier otra unidad significativa
del lenguaje.

[El] [gato] [caza] [al] [ratón]


[El] [gato] [caza] [al] [ratón]
Normalización
• Tiene como objetivo homogenizar el texto para Normalizando
facilitar su procesamiento y análisis.
• Normalización de mayúsculas y minúsculas: se
convierte todo el teto a minúsculas o
mayúsculas.
• Eliminación de puntuación: se eliminan los
signos de puntuación que no sean relevantes. [el] [gato] [caza] [al] [raton]
• Normalización de acentos: Eliminación de
acentos diacríticos (´).
Lematización
• Busca agrupar las palabras que tienen la misma raíz o significado base.

Palabra Forma flexiva Lema


Correr Corro, corrí, correría Correr
Comer Como, comí, comería Comer
Hablar Hablo, hablé, hablaría Hablar
[el] [gato] [caza] [al] [ratón]

Lematizando

[el] [gato] [cazar] [al] [raton]


[el] [gato] [cazar] [al] [raton]

Eliminación de
stopwords Eliminando
stopwords

Consiste en la eliminación de palabras comunes que


no aporta un significado importante al texto.
Comúnmente son artículos, preposiciones,
pronombres o conjunciones.
[gato] [cazar] [raton]
Vectorización
• Este proceso implica convertir las palabras y frases en vectores numéricos, conocidos como embeddings, que
representan su significado semántico.
Vectorización basada en bolsa de palabras (Bag
Of Words)
• Este método crea un vector para cada palabra en el vocabulario, donde cada elemento del vector representa la
frecuencia de aparición de esa palabra en el texto. La principal ventaja de BOW es su simplicidad; sin
embargo, no tiene en cuenta el orden de las palabras ni la sintaxis.

• Este enfoque es ineficiente. Un vector es escaso (lo que significa que la mayoría de los índices son cero).
Imagina que tienes 10.000 palabras en el vocabulario. Para codificar en caliente cada palabra, crearía un
vector donde el 99,99% de los elementos son cero.
Ejemplo
gato cazar raton escapar perro dormir hoy
Teniendo las siguientes oraciones:
1 1 1 0 0 0 0
• El gato caza al ratón.
1 0 1 1 0 0 0
• El ratón escapa del gato.
0 0 0 0 1 1 1
• El perro duerme hoy.
Vectorización basada en n-gramas
• Este método crea un vector para cada secuencia de n palabras (n-gramas) en el texto. Al considerar el orden
de las palabras, los n-gramas pueden capturar información sintáctica y semántica más compleja que la BOW.

También podría gustarte