¡Te damos la bienvenida a Scribd!

Tutoriales Sencillos

Cargado por

0% encontró este documento útil (0 votos)

0 vistas2 páginas

es una teoria completa dsbada asd a sd as d sa d as d a d as d as d asd as d as d a sd a sd as d as d as d as d as d as d as d as d as d as d a sd a sdasd

Título original

Tutoriales sencillos

Derechos de autor

Formatos disponibles

PDF, TXT o lea en línea desde Scribd

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Denunciar este documento

es una teoria completa dsbada asd a sd as d sa d as d a d as d as d asd as d as d a sd a sd as d as d as d as d as d as d as d as d as d as d a sd a sdasd

Copyright:

Formatos disponibles

Descargue como PDF, TXT o lea en línea desde Scribd

Marcar por contenido inapropiado

0% encontró este documento útil (0 votos)

0 vistas2 páginas

Tutoriales Sencillos

Cargado por

aaron

es una teoria completa dsbada asd a sd as d sa d as d a d as d as d asd as d as d a sd a sd as d as d as d as d as d as d as d as d as d as d a sd a sdasd

Copyright:

Formatos disponibles

Descargue como PDF, TXT o lea en línea desde Scribd

Marcar por contenido inapropiado

Saltar a página

Está en la página 1de 2

Buscar dentro del documento

TUTORIAL

: Minera de datos textuales utilizando Treetagger y Weka.

Presentado por : Juan Antonio Lossio Ventura y Hugo Alatrista Salas
juan.lossio@lirmm.fr , hugo.alatristasalas@lirmm.fr
Descargar el software de acuerdo al sistema operativo que se tiene:
TreeTagger: http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/
Weka: http://www.cs.waikato.ac.nz/ml/weka/downloading.html
La minera de textos o la extraccin de conocimientos a partir de datos textuales es una
especializacin de la minera de datos. Ella permite, a partir de un conjunto de
documentos textuales denominado corpus, extraer conocimientos segn un criterio de
novedad o de similaridad. Este tutorial se inscribe justamente en este marco. Para esto,
utilizaremos el mtodo denominado bag of words, as como diferentes algoritmos de
clasificacin sobre un corpus otorgado por los expositores.
El proyecto se desarrollar en 4 etapas :
Etapa 1: Estudio del corpus.
Los participantes debern conocer el corpus que utilizarn para realizar las
experimentaciones. As mismo, los participantes deben identificar las clases de
documentos y en numero de documentos por clases.
Etapa 2: Utilizacin del software TreeTagger.
TreeTagger es una herramienta para la anotacin de texto. Con esto podremos realizar
el anlisis morfo sintctico de datos textuales.
Etapa 3: Utilizacin del software Weka.
Weka nos ofrece una gran variedad de algoritmos y herramientas. En vista que
utilizaremos el mtodo saco de palabras (bag of words), necesitamos representar
nuestro corpus segn tres modelos : Booleano, de Frecuencias y TD-IDF. Los
participantes representarn el corpus en uno de los tres modelos antes citados
utilizando las herramientas propuestas por Weka.
Etapa 4: Utilizacin de mtodos de clasificacin.
En esta etapa, los participantes utilizaran un protocolo experimental a fin de ponen en
marcha tres algoritmos de clasificacin propuestos por Weka: K-means, Bayes nativo y
Arboles de decisin. En esta etapa, los participantes utilizarn su capacidad de anlisis
para evaluar e interpretar los resultados.
Etapa 5: Extraccin de reglas de asociacin.
Utilizando el corpus completo, los participantes estn invitados a extraer las 20
primeras reglas de asociacin (clasificados en funcin a la confianza). Existen algunos
algoritmos propuestos por Weka, sin embargo, utilizaremos en esta etapa el algoritmo

A priori. Posteriormente, los participantes estn invitados a realizar el mismo proceso

(independientemente), pero para cada una de las clases identificada en la Etapa 1.
Finalmente, los participantes compararn a la mano los dos conjuntos de reglas de
asociacin extrados en la etapa anterior (por cada clase). Nuevamente, la capacidad de
anlisis de los participantes ser decisiva para analizar y comparar los resultados.

También podría gustarte

Ambiente Salud Unidad 2 Texto 4 Avanzado
Documento170 páginas
Ambiente Salud Unidad 2 Texto 4 Avanzado
gerccantom1365
88% (8)
Ambiente Salud Unidad 2 Texto 2
Documento172 páginas
Ambiente Salud Unidad 2 Texto 2
gerccantom1365
100% (2)
Pedagogia Del Comprendimiento
Documento78 páginas
Pedagogia Del Comprendimiento
gerccantom1365
100% (1)
Optimizacion Instalaciones Taller PDF
Documento152 páginas
Optimizacion Instalaciones Taller PDF
gerccantom1365
Aún no hay calificaciones
Fasciculo 1
Documento7 páginas
Fasciculo 1
gerccantom1365
Aún no hay calificaciones
Optimizacion Instalaciones Taller PDF
Documento152 páginas
Optimizacion Instalaciones Taller PDF
gerccantom1365
Aún no hay calificaciones
Método de Planificación Zopp
Documento5 páginas
Método de Planificación Zopp
gerccantom1365
Aún no hay calificaciones
Planificacion
Documento8 páginas
Planificacion
gerccantom1365
Aún no hay calificaciones
Taller Desarrollo Habilidades Docentes PDF
Documento39 páginas
Taller Desarrollo Habilidades Docentes PDF
gerccantom1365
100% (1)
Planeacion
Documento5 páginas
Planeacion
gerccantom1365
Aún no hay calificaciones
Compromiso 3
Documento1 página
Compromiso 3
gerccantom1365
Aún no hay calificaciones
Diagnostico Del Pei
Documento14 páginas
Diagnostico Del Pei
gerccantom1365
0% (1)
Introduccion A La Mineria de Datos
Documento15 páginas
Introduccion A La Mineria de Datos
gerccantom1365
Aún no hay calificaciones
Ejercicios de Comprensión de Lectura #6
Documento9 páginas
Ejercicios de Comprensión de Lectura #6
gerccantom1365
Aún no hay calificaciones
Tribu Lectora Episodio 2 Cuentos para Leer Con La Luz Encendida
Documento15 páginas
Tribu Lectora Episodio 2 Cuentos para Leer Con La Luz Encendida
Vanesa Escoda
Aún no hay calificaciones
3.3 Niñez Temprana
Documento2 páginas
3.3 Niñez Temprana
MARIA FERNANDA ZAVALA LARA
Aún no hay calificaciones
Como Crear Materiales Audiovisuales Accesibles
Documento6 páginas
Como Crear Materiales Audiovisuales Accesibles
Noelia Ocampo
100% (1)
Programa Que Simula El Clic Derecho e Izquierdo de Los
Documento7 páginas
Programa Que Simula El Clic Derecho e Izquierdo de Los
marcotulio9272
Aún no hay calificaciones
Elementos Del Servicio
Documento4 páginas
Elementos Del Servicio
Victoria clavijo
Aún no hay calificaciones
Papisa y Papa (La Iglesia)
Documento30 páginas
Papisa y Papa (La Iglesia)
Dyehuty-Thot
Aún no hay calificaciones
NKNKN Kjnokm
Documento134 páginas
NKNKN Kjnokm
Juan Esteban Buitrago Restrepo
Aún no hay calificaciones
Revision Bibliografica de Sacha Inchi
Documento4 páginas
Revision Bibliografica de Sacha Inchi
Mari Iuqnut
Aún no hay calificaciones
Lengua
Documento7 páginas
Lengua
azkarbeltza
Aún no hay calificaciones
El Periodismo Oo Herramienta
Documento6 páginas
El Periodismo Oo Herramienta
roblesmar951
Aún no hay calificaciones
Portafolio - Lenguje Falta Terminar
Documento15 páginas
Portafolio - Lenguje Falta Terminar
DIANA LIZBETH CRUZADO VASQUEZ
Aún no hay calificaciones
3 - Estilos de Aprendizaje
Documento20 páginas
3 - Estilos de Aprendizaje
Saul Cohen
Aún no hay calificaciones
Problema Cinemático Diseño de Mecanismos
Documento12 páginas
Problema Cinemático Diseño de Mecanismos
Kevin Olazabal
Aún no hay calificaciones
El Libro de Sabiduría Práctica
Documento2 páginas
El Libro de Sabiduría Práctica
Nestor Avancini
Aún no hay calificaciones
Geoffrey Homes - El Hombre Que No Existia
Documento143 páginas
Geoffrey Homes - El Hombre Que No Existia
Ivan Martinez
Aún no hay calificaciones
Ensayo - El Poder de La Imagen - MaldonadoGómez - JoséAdrián
Documento5 páginas
Ensayo - El Poder de La Imagen - MaldonadoGómez - JoséAdrián
Adrián Maldonado
Aún no hay calificaciones
Las Configuraciones Didacticas Edith Litwin Cap 5 Paidos
Documento22 páginas
Las Configuraciones Didacticas Edith Litwin Cap 5 Paidos
Humberto Numpaque López
50% (2)
Reseña de Isabelino Siede
Documento3 páginas
Reseña de Isabelino Siede
Joa Cardamone
77% (26)
Procesamiento de Archivos y Diseño de Guis
Documento2 páginas
Procesamiento de Archivos y Diseño de Guis
De Paz Silva Frida Soledad
Aún no hay calificaciones
Qué Es El Verdadero Evangelio
Documento4 páginas
Qué Es El Verdadero Evangelio
Wanda Guzman
Aún no hay calificaciones
GRAFOS
Documento16 páginas
GRAFOS
Ricardo intriago
Aún no hay calificaciones
Afasias y Disartrias - Artículo Científico
Documento7 páginas
Afasias y Disartrias - Artículo Científico
Alejandro Luna Peralta
Aún no hay calificaciones
Informe SIP PDF
Documento47 páginas
Informe SIP PDF
guillermo220
Aún no hay calificaciones
Memorias Olivera
Documento2 páginas
Memorias Olivera
Horacio Bernades
Aún no hay calificaciones
Actividad Sobre Los Géneros Periodísticos
Documento2 páginas
Actividad Sobre Los Géneros Periodísticos
pumanzor77
Aún no hay calificaciones
Ejercicio de La Unidad 1
Documento2 páginas
Ejercicio de La Unidad 1
rocio bogaert mesa
Aún no hay calificaciones
El Signo Lingüístico para Primer Grado de Secundaria
Documento4 páginas
El Signo Lingüístico para Primer Grado de Secundaria
jose luis Mittani Yauri
50% (2)
10.4.4 Packet Tracer - Taller Sem4 CRAF 6to A
Documento4 páginas
10.4.4 Packet Tracer - Taller Sem4 CRAF 6to A
Christian Román
0% (1)
La Intengibilidad Mutua
Documento1 página
La Intengibilidad Mutua
Balmiro Arteta
Aún no hay calificaciones
Algebra Booleana & Mapas de Karnaugh
Documento10 páginas
Algebra Booleana & Mapas de Karnaugh
Duende Roblero
Aún no hay calificaciones