Está en la página 1de 11

Estudios cualitativos text anaytics

TEXT ANALYTICS

·
creciente disponibilidad de catos de texto - Revisiones / reseñas , , comentarios
Blogs
·
Generadores y receptores de datos de texto

ganaba anorma na a

importancia semántica entre párrafos


-

Alto Costo

a Semantic Parting
·
Las serencias de , el co de palabras
palabras como sustantivos o verdos, la jeraracia de la estructura de palabra importa de momento de separar .
el texto

·
Facilit interpretada x sistemas informáticos

"
Representay de la "Bolsa de Palabras

· Adecompetidaviatoenicatione palabras
, s

·
Representad de texto como "bolsa de palabras" :
Trata documentos como si desen construidos tomando muestras aleatorias con reemplazo de una

bolsa ale contiene vocabulario fijo


.

y corpus :
Grupodedocumentos Comentarios y Documento :
El comentario Droten :
palabras a componentos comentarios

D Pre-procesa de Datos

·
Adalsio de Datos :
conjunto de documentos (mail , tweets ,
etc) .

·
Limpieza :
El texto se pasa a minusila , se cuminarios stopwords .,

·
Tokenizad : Proceso de descomponer texto en unidades (palabras) , se eliminan documentos a contienen tokens =
2

"Stemming" :
Proceso de reducir una Palabra adura , eliminando avijos para agrupar palabras derivadas pajo una forma común (correr ecor)

D Estadísticas descriptiva de los datos

Frecencia al Palabra X actor Bagof words


·
·

Longitramedia del texto x ulario ·


Eliminamos los stopuoras (palabras aceno DTinvo)
·
Palabras utilizadas X cuario (top no

D TD-IDF :
cacio estadístico para medir acé términos con + relevantes para un asunto
.

TF "frecencia del Término" muetras + frecencia del término en el documento mayor importancia
·
e :
,

·
IDF -
"freencia inversa de los documentos" :
Michrae+ sea la IDF en los documentos, menor será la importancia del femino

(munras -

Comun , mayor IPF)

También podría gustarte