¡Te damos la bienvenida a Scribd!

Preprocesamiento de Textos

Cargado por

0% encontró este documento útil (0 votos)

5 vistas12 páginas

El documento describe los pasos del preprocesamiento de textos, incluyendo la tokenización, normalización, lematización y eliminación de stopwords. La tokenización divide el texto en unidades más pequeñas como palabras o símbolos. La normalización homogeniza el texto para facilitar su análisis mediante la conversión a minúsculas y eliminación de puntuación. La lematización agrupa palabras con la misma raíz. La eliminación de stopwords remueve palabras comunes sin significado como artículos o preposiciones.

Descripción original:

Derechos de autor

Formatos disponibles

PPTX, PDF, TXT o lea en línea desde Scribd

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Denunciar este documento

Copyright:

Formatos disponibles

Descargue como PPTX, PDF, TXT o lea en línea desde Scribd

Marcar por contenido inapropiado

0% encontró este documento útil (0 votos)

5 vistas12 páginas

Preprocesamiento de Textos

Cargado por

Miguel Ángel Munguía Valadez

Copyright:

Formatos disponibles

Descargue como PPTX, PDF, TXT o lea en línea desde Scribd

Marcar por contenido inapropiado

Saltar a página

Está en la página 1de 12

Buscar dentro del documento

Preprocesamiento

de textos
Preprocesamiento
• Tokenización
• Normalización
• Lematización
• Eliminación de stopwords
“El gato caza al ratón.”
Tokenización
• Es el proceso de dividir un texto en unidades Tokenizando
más pequeñas y manejables, llamadas "tokens".
Estos tokens pueden ser palabras, puntuación,
símbolos o cualquier otra unidad significativa
del lenguaje.

[El] [gato] [caza] [al] [ratón]

[El] [gato] [caza] [al] [ratón]
Normalización
• Tiene como objetivo homogenizar el texto para Normalizando
facilitar su procesamiento y análisis.
• Normalización de mayúsculas y minúsculas: se
convierte todo el teto a minúsculas o
mayúsculas.
• Eliminación de puntuación: se eliminan los
signos de puntuación que no sean relevantes. [el] [gato] [caza] [al] [raton]
• Normalización de acentos: Eliminación de
acentos diacríticos (´).
Lematización
• Busca agrupar las palabras que tienen la misma raíz o significado base.

Palabra Forma flexiva Lema

Correr Corro, corrí, correría Correr
Comer Como, comí, comería Comer
Hablar Hablo, hablé, hablaría Hablar
[el] [gato] [caza] [al] [ratón]

Lematizando

[el] [gato] [cazar] [al] [raton]

Eliminación de
stopwords Eliminando
stopwords

Consiste en la eliminación de palabras comunes que

no aporta un significado importante al texto.
Comúnmente son artículos, preposiciones,
pronombres o conjunciones.
[gato] [cazar] [raton]
Vectorización
• Este proceso implica convertir las palabras y frases en vectores numéricos, conocidos como embeddings, que
representan su significado semántico.
Vectorización basada en bolsa de palabras (Bag
Of Words)
• Este método crea un vector para cada palabra en el vocabulario, donde cada elemento del vector representa la
frecuencia de aparición de esa palabra en el texto. La principal ventaja de BOW es su simplicidad; sin
embargo, no tiene en cuenta el orden de las palabras ni la sintaxis.

• Este enfoque es ineficiente. Un vector es escaso (lo que significa que la mayoría de los índices son cero).
Imagina que tienes 10.000 palabras en el vocabulario. Para codificar en caliente cada palabra, crearía un
vector donde el 99,99% de los elementos son cero.
Ejemplo
gato cazar raton escapar perro dormir hoy
Teniendo las siguientes oraciones:
1 1 1 0 0 0 0
• El gato caza al ratón.
1 0 1 1 0 0 0
• El ratón escapa del gato.
0 0 0 0 1 1 1
• El perro duerme hoy.
Vectorización basada en n-gramas
• Este método crea un vector para cada secuencia de n palabras (n-gramas) en el texto. Al considerar el orden
de las palabras, los n-gramas pueden capturar información sintáctica y semántica más compleja que la BOW.

También podría gustarte

Batería para El Análisis de Los Déficits Afásicos
Documento6 páginas
Batería para El Análisis de Los Déficits Afásicos
Tamara Sacco
100% (1)
Clase 2 - Diccionarios
Documento31 páginas
Clase 2 - Diccionarios
Andrea Sinche
Aún no hay calificaciones
NLTK
Documento56 páginas
NLTK
aula
Aún no hay calificaciones
Clase 28 - Introducción Al Procesamiento de Lenguaje Natural II + Datathon
Documento102 páginas
Clase 28 - Introducción Al Procesamiento de Lenguaje Natural II + Datathon
Paul Vásquez
Aún no hay calificaciones
Mineria de Texto
Documento20 páginas
Mineria de Texto
juanpablo2bg
Aún no hay calificaciones
S8 Clase 4. Set y Diccionarios.
Documento27 páginas
S8 Clase 4. Set y Diccionarios.
Pablo Omar Luz Pedemonte
Aún no hay calificaciones
Signos de Puntuación 6
Documento8 páginas
Signos de Puntuación 6
Maria Velasco
Aún no hay calificaciones
Word Embeddings
Documento26 páginas
Word Embeddings
Sebastian Chacón
Aún no hay calificaciones
Charla Basica NLP V2.0
Documento85 páginas
Charla Basica NLP V2.0
paola
Aún no hay calificaciones
Unidad 5-Analisis Sintactico
Documento20 páginas
Unidad 5-Analisis Sintactico
GUILLERMO DIDIER REYES REYES
Aún no hay calificaciones
Tema 4 - Expresiones Regulares - AN - 2023 PDF
Documento32 páginas
Tema 4 - Expresiones Regulares - AN - 2023 PDF
KM Navarro
Aún no hay calificaciones
Actividad Teclado
Documento3 páginas
Actividad Teclado
marisol
100% (1)
Clase 2 - 2021 - Lenguajes
Documento18 páginas
Clase 2 - 2021 - Lenguajes
Guie Gonzalez
Aún no hay calificaciones
Uni 3-Analizadores Lexicos
Documento38 páginas
Uni 3-Analizadores Lexicos
Benur Escobedo Valdez
Aún no hay calificaciones
CDAQFEwnQ2qwEBRMJwNqOw DAC7M2L2R2 ATTACHMENT SPA
Documento7 páginas
CDAQFEwnQ2qwEBRMJwNqOw DAC7M2L2R2 ATTACHMENT SPA
Alexandra 5TA
Aún no hay calificaciones
Sentenicas 1
Documento24 páginas
Sentenicas 1
Jorge Gallardo
Aún no hay calificaciones
Actividad Aprendizaje-LyA Tema 2
Documento13 páginas
Actividad Aprendizaje-LyA Tema 2
Tom Bahena
Aún no hay calificaciones
Rúbrica Detallada Del Trabajo Final (2023-2)
Documento3 páginas
Rúbrica Detallada Del Trabajo Final (2023-2)
Valeria Limas De la Cruz
Aún no hay calificaciones
Ambigüedad y Generación de Matriz Predictiva
Documento66 páginas
Ambigüedad y Generación de Matriz Predictiva
Daniel Ramos Meléndez
Aún no hay calificaciones
Clase 02
Documento17 páginas
Clase 02
Jonatan Sierra
Aún no hay calificaciones
Herramientas Digitales S4
Documento22 páginas
Herramientas Digitales S4
Ian Vázquez
Aún no hay calificaciones
Presentacion Python
Documento56 páginas
Presentacion Python
Rebenge Benjamin Zamudio Olguin
Aún no hay calificaciones
Uva05 Strings
Documento18 páginas
Uva05 Strings
Sebastian Barraza
Aún no hay calificaciones
Guia #4 Comunicación
Documento8 páginas
Guia #4 Comunicación
Samuel David Marulanda Hurtado
Aún no hay calificaciones
Listas de Cotejo
Documento9 páginas
Listas de Cotejo
osmer
100% (1)
Word 2010 Monografía
Documento31 páginas
Word 2010 Monografía
Mordecai Sommer
Aún no hay calificaciones
FP U02 Clase03
Documento41 páginas
FP U02 Clase03
Katheryn Garzon Martinez
Aún no hay calificaciones
Protocolos de Subtitulación - unidad1SUB - Sept2021
Documento36 páginas
Protocolos de Subtitulación - unidad1SUB - Sept2021
Juan Angel Ciarlo
Aún no hay calificaciones
Material de Estudio Unidad 2 PDF
Documento20 páginas
Material de Estudio Unidad 2 PDF
Darlingonzalez777
Aún no hay calificaciones
Tarjetas de Los Signos de Puntuación-My Homeschool Project
Documento9 páginas
Tarjetas de Los Signos de Puntuación-My Homeschool Project
nekonaruchii chococat
Aún no hay calificaciones
Introduccio A R y R Studio
Documento31 páginas
Introduccio A R y R Studio
Fernando Ayala
Aún no hay calificaciones
Presentación de Librerias
Documento46 páginas
Presentación de Librerias
Jared Piña Vásquez
Aún no hay calificaciones
Python para PLN
Documento9 páginas
Python para PLN
Claudia Denicia
Aún no hay calificaciones
Documento 8
Documento7 páginas
Documento 8
Leomaris Ferreras
Aún no hay calificaciones
Documento 8
Documento7 páginas
Documento 8
Leomaris Ferreras
Aún no hay calificaciones
Resumen - Primeros Sistemas de La Psicologìa
Documento3 páginas
Resumen - Primeros Sistemas de La Psicologìa
Arellys
Aún no hay calificaciones
NLP-HMM - En.es
Documento39 páginas
NLP-HMM - En.es
194527
Aún no hay calificaciones
(Presentacion) Etiquetas de Texto
Documento14 páginas
(Presentacion) Etiquetas de Texto
Sebas Ayala
Aún no hay calificaciones
Investigacion
Documento36 páginas
Investigacion
Jose Vilca
Aún no hay calificaciones
Devjoker PL SQL
Documento87 páginas
Devjoker PL SQL
Juan Pablo Ynfantes
Aún no hay calificaciones
Reducir El Número de Palabras de Un Texto - Lematización y Radicalización (Stemming) Con Python
Documento7 páginas
Reducir El Número de Palabras de Un Texto - Lematización y Radicalización (Stemming) Con Python
Luciano
Aún no hay calificaciones
Plantilla Funciones de Texto
Documento10 páginas
Plantilla Funciones de Texto
Angel Hurtado
Aún no hay calificaciones
Guia de Usuario Dragon
Documento2 páginas
Guia de Usuario Dragon
Diego Duque
Aún no hay calificaciones
Funcion Hallar - Encontrar - Largo - Concatenar
Documento8 páginas
Funcion Hallar - Encontrar - Largo - Concatenar
Edwin Bolaños
Aún no hay calificaciones
Protocolos de Subtitulación.d19
Documento4 páginas
Protocolos de Subtitulación.d19
Nadia Burchardt
Aún no hay calificaciones
Protocolos de Subtitulación.d19
Documento4 páginas
Protocolos de Subtitulación.d19
Juan Angel Ciarlo
Aún no hay calificaciones
Introduccion Al Curso de Kali Linux
Documento74 páginas
Introduccion Al Curso de Kali Linux
Armando Casallas
100% (1)
Rúbrica. Control de Lectura
Documento1 página
Rúbrica. Control de Lectura
Diego Soto
Aún no hay calificaciones
Redes de Petri Case 2 Lenguaje Regular
Documento102 páginas
Redes de Petri Case 2 Lenguaje Regular
Juan Argayo
Aún no hay calificaciones
Curso Java Core y POO - 1
Documento17 páginas
Curso Java Core y POO - 1
Vanessa Quintana
Aún no hay calificaciones
Diario de Lectura
Documento8 páginas
Diario de Lectura
Tt Gonzalez
Aún no hay calificaciones
Los Comodines de Word A Fondo
Documento8 páginas
Los Comodines de Word A Fondo
gemeces
Aún no hay calificaciones
Erlang
Documento41 páginas
Erlang
fkm
Aún no hay calificaciones
STATA2 Var Xid-995142 1
Documento29 páginas
STATA2 Var Xid-995142 1
Naomi CRT
Aún no hay calificaciones
Ideas Principales y Secundarias de Un Texto
Documento15 páginas
Ideas Principales y Secundarias de Un Texto
neiser
67% (3)
Regex
Documento3 páginas
Regex
Jaja si
Aún no hay calificaciones
2 00 Analisis Lexico - Scanner
Documento36 páginas
2 00 Analisis Lexico - Scanner
Sebastian Rivaldi
Aún no hay calificaciones
Dokumen - Tips - Programacion en Python 3 3pdf Programacion en Python 3 Clara Higuera Laboratorio PDF
Documento25 páginas
Dokumen - Tips - Programacion en Python 3 3pdf Programacion en Python 3 Clara Higuera Laboratorio PDF
Justo Justíssimo
Aún no hay calificaciones
S8 - Funciones de Texto
Documento1 página
S8 - Funciones de Texto
Jorge Saona
Aún no hay calificaciones
El Momento Crucial
Documento1 página
El Momento Crucial
Miguel Ángel Munguía Valadez
Aún no hay calificaciones
El Comentario
Documento1 página
El Comentario
Miguel Ángel Munguía Valadez
Aún no hay calificaciones
Natural Language Basics Spanish
Documento27 páginas
Natural Language Basics Spanish
Miguel Ángel Munguía Valadez
Aún no hay calificaciones
Ejercicio Gramatical
Documento3 páginas
Ejercicio Gramatical
Miguel Ángel Munguía Valadez
Aún no hay calificaciones
Documento 9
Documento9 páginas
Documento 9
Laura Daniela Medina Correa
Aún no hay calificaciones
Tutorial CRUD Estudiantes Con ADO y Dialogo
Documento10 páginas
Tutorial CRUD Estudiantes Con ADO y Dialogo
Magestix
Aún no hay calificaciones
Fenomenología Del Sí Mismo Studia Heideggeriana
Documento323 páginas
Fenomenología Del Sí Mismo Studia Heideggeriana
Fernando Barboza
Aún no hay calificaciones
Plan de Aula INGLÉS 11° II Periodo Vacaciones
Documento42 páginas
Plan de Aula INGLÉS 11° II Periodo Vacaciones
jonny leudo
Aún no hay calificaciones
Lista de Ejercicios 1 - Logica Conjuntos
Documento4 páginas
Lista de Ejercicios 1 - Logica Conjuntos
andres edson
Aún no hay calificaciones
La Comprensión de Textos Desde Un Enfoque Multicomponencial. El Test Leer para Comprender
Documento8 páginas
La Comprensión de Textos Desde Un Enfoque Multicomponencial. El Test Leer para Comprender
Matías Baldoni
Aún no hay calificaciones
El Dictado
Documento32 páginas
El Dictado
Donaldo Ramírez
Aún no hay calificaciones
Reflexión Lingüística
Documento4 páginas
Reflexión Lingüística
fran
Aún no hay calificaciones
Artículo 120 CPE
Documento13 páginas
Artículo 120 CPE
Herme
Aún no hay calificaciones
Ejemplo Nielsen
Documento44 páginas
Ejemplo Nielsen
BRYAN CAMILO ZUNIGA BOLANOS
Aún no hay calificaciones
Material de Apoyo Lógica 2do Parcial
Documento14 páginas
Material de Apoyo Lógica 2do Parcial
Aron Padilla
Aún no hay calificaciones
Glosario RollerCoaster
Documento2 páginas
Glosario RollerCoaster
andres
Aún no hay calificaciones
A2 Presente Irregular
Documento28 páginas
A2 Presente Irregular
svegajabares
100% (1)
Diferencias Esbozo Ngle
Documento40 páginas
Diferencias Esbozo Ngle
José Antonio Franquelo Rodríguez
Aún no hay calificaciones
Examen 1
Documento1 página
Examen 1
Carla Moreno
Aún no hay calificaciones
El Acento y La Tilde
Documento6 páginas
El Acento y La Tilde
Abraham Alexis Rodríguez Echavarría
Aún no hay calificaciones
Ilíada XVI
Documento16 páginas
Ilíada XVI
Gonzalo
Aún no hay calificaciones
Ensayo - Jose Maria Arguedas
Documento3 páginas
Ensayo - Jose Maria Arguedas
emilse arpasi flores
Aún no hay calificaciones
(Gabriel Alayza) Mario Montalbetti - Cajas (Boxes) - Pontificia Universidad Católica Del Perú (PUCP) (2012) (1) Booklet
Documento56 páginas
(Gabriel Alayza) Mario Montalbetti - Cajas (Boxes) - Pontificia Universidad Católica Del Perú (PUCP) (2012) (1) Booklet
Renata Molina
Aún no hay calificaciones
Guía Taller # 2 Artística 7°
Documento4 páginas
Guía Taller # 2 Artística 7°
emerson romero ricardo
Aún no hay calificaciones
Dokumen - Tips - Principales Conectores Logicos y Formalizacion
Documento3 páginas
Dokumen - Tips - Principales Conectores Logicos y Formalizacion
Katherin Del Aguila
Aún no hay calificaciones
Periodo Especial, Programa Lit. Esp. II
Documento5 páginas
Periodo Especial, Programa Lit. Esp. II
Anthony Rondón
Aún no hay calificaciones
??1° Cuadernillo San Valentin
Documento24 páginas
??1° Cuadernillo San Valentin
marcela serrato
Aún no hay calificaciones
17 Reglas Ortográficas de Las Letras
Documento4 páginas
17 Reglas Ortográficas de Las Letras
mildred flores
Aún no hay calificaciones
Semana 0 - Sílabo Idioma Aplicativo Secretarial I
Documento8 páginas
Semana 0 - Sílabo Idioma Aplicativo Secretarial I
BETTY
Aún no hay calificaciones
Asterísmos y Constelaciones
Documento37 páginas
Asterísmos y Constelaciones
osmarsierra
Aún no hay calificaciones
5 Cartas de William S. Burroughs
Documento7 páginas
5 Cartas de William S. Burroughs
William Wilson
Aún no hay calificaciones
Angulo A. Audiología. Teoría y Práctica
Documento498 páginas
Angulo A. Audiología. Teoría y Práctica
Gloriana Gutiérrez
Aún no hay calificaciones
6B. Tipos de Verbos PDF
Documento4 páginas
6B. Tipos de Verbos PDF
marcia ibarra
Aún no hay calificaciones