P. 1
Minería de textos

Minería de textos

|Views: 30|Likes:
Publicado porkataro25

More info:

Published by: kataro25 on Jul 04, 2013
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

06/09/2014

pdf

text

original

Universidad Técnica Nacional ­ Minería de Datos ­ Resumen de exposición

:

Minería de Textos
Facilitador: Rudy Barboza <rudy.barboza@gmail.com> Integrantes: Misael Matamoros <mismatso@gmail.com> Erick Meneses <edmene84@gmail.com> Jorge Solís <jorgesolislo91@gmail.com> Marzo 2013

Indice Introducción Historia Definición Lingüística computacional La minería textual como herramienta para el análisis Aplicaciones académicas Las técnicas de la minería textual Pre­procesamiento de los documentos: Identificación de nombres propios Representación de documentos mediante el modelo vectorial Análisis de clusters Categorización automática Relaciones entre términos y concepto Ejemplo Conclusiones Bibliografía .

  Si   bien  este  impacto  nunca  ha  alcanzado  el  nivel  de  generalización  de  la  minería  de datos.  la  diferencia  entre  estas  dos  aplicaciones  está  en  que  con  esta  última  se pretende  extraer  conocimiento  a  partir  de  los  patrones  observables  en grandes  colecciones  de .  y  poder  llegar  a  tomar  diferentes  conclusiones basado  a  lo  que  se  ha encontrado.  a  partir  de  esa  fecha  podemos  encontrar  un mayor número de referencias al uso de la minería textual y de datos con este propósito.  Así.  debido  a  esto  se  emplean  diferentes  técnicas  y   algoritmos  para  que  esos  datos puedan  ser  analizados. una gran cantidad de la información que se  encuentra para diferentes fines esta  almacenada en archivos.  Relacionada  con  la  minería  de  datos  (desde una  perspectiva comercial podríamos decir que la minería textual es “la hermana pequeña” de la minería  de  datos). Definición La  minería  textual  es  una  aplicación  de  la  lingüística   computacional  y  del  procesamiento  de textos  que  pretende  facilitar  la  identificación  y  extracción  de  nuevo  conocimiento  a  partir  de colecciones  de  documentos  o  corpus  textuales.  pero  los  avances  tecnológicos  han permitido que esta área progrese de manera rápida en la última década.Introducción La  minería  de  texto  es  una  técnica  que  se  utiliza  para  la ayuda en el análisis de la información. Historia A  comienzos  de  los  años  ochenta  surgieron  los  primeros  esfuerzos de  minería  de  textos  que necesitaban  una  gran  cantidad  de  esfuerzo  humano.  los  desafortunados  acontecimientos  del  11  de  septiembre  de 2001 hicieron que distintos medios  prestasen  atención  a  las  tecnologías  empleadas  por  las  organizaciones  policiales encargadas  de  luchar  contra  el  terrorismo. La minería textual ha tenido un mayor impacto en las actividades relacionadas con la inteligencia militar.

 sino que una mezcla de análisis humano y automatizado puede dar  excelentes  resultados. y que no aparecía en ninguno de los documentos analizados.  Dicho  modelado  no se centra  en  ninguna  de  las  áreas  de  la   lingüística  en  particular. psicólogos cognoscitivos y expertos en lógica.  se  tomará  como punto  de  partida para la extracción de nuevo conocimiento repositorios documentales o texto. En el caso de  la minería textual. entre otros.  Así.   un  investigador  podrá  analizar  esos  datos.datos estructurados que se almacenan en  bases  de datos relacionales.  al  indicar  que  para  hacer  progresos  no  es  necesario  un  análisis  del  texto propio de la inteligencia artificial. La minería textual como herramienta para el análisis ¿Se   exige  a  una  herramienta  de  minería  textual  que  extraiga  las  conclusiones  o  el  nuevo conocimiento. o simplemente que facilite el análisis a un investigador humano? Inicialmente. Marti A.  sino  que  es  un  campo interdisciplinar. Hearst: La  minería de textos tiene como objetivo  descubrir información  y conocimiento que previamente se desconocía. Es decir.  en  el  que  participan  lingüistas.  Hearst  deja  claro el  alcance de la  minería  textual. .  la  minería  textual  debe  facilitar  el  análisis  de  corpus  textuales  que  a  priori  nos resultarían  inmanejables  debido  a  su  tamaño. información no estructurada. Lingüística computacional La  lingüística  computacional  es  un  campo  multidisciplinar  de  la  lingüística  y la  informática  que utiliza  la  informática  para  estudiar  y  tratar  el  lenguaje  humano. Para lograrlo. identificar  relaciones entre  documentos  y  extraer  conclusiones.  La  autora  llega  incluso  a  definir  minería  textual  como  el descubrimiento semi­automatizado de patrones y tendencias en grandes conjuntos de datos. intenta modelar de forma  lógica  el  lenguaje  natural  desde  un  punto  de vista  computacional.  informáticos  especializados  en  inteligencia artificial. Dan Sullivan: Cualquier  operación  realizada  para  extraer  y  analizar  textos  procedentes  de  distintas  fuentes externas con el objetivo de obtener inteligencia.

  que  contendría  la  extracción  de  términos. Las técnicas de la minería textual Para  lograr  los  resultados  citados  en  el  apartado  anterior  la  minería  textual  adopta una serie de técnicas  procedentes de la recuperación de información y de la lingüística computacional.  Es por  ello que se han presentado iniciativas como  el Open Text Mining Interface (OTMI) y  el common Journal Publishing Document Type Definition (DTD) de la  NIH. Representación  de  los  documentos  mediante  el  modelo  vectorial. ● ● Categorización automática. Análisis sintáctico y gramatical de los textos. ● ● ● Identificación de nombres propios. .  que  a  su  vez también  toma  como punto   de  partida  la  representación  de  los  documentos  según  el  modelo  vectorial  y  el cálculo de similitudes. Relaciones entre términos y conceptos. Clustering   o  agrupación  automática  de  documentos.  Fórmulas  para  el cálculo de la similitud entre pares de documentos. Estas técnicas incluyen: ● Pre­procesamiento  de  los  documentos.  Esto  es  el  caso  en  particular  para  disciplinas científicas  en  las  que  hay  una  gran  cantidad  de  información  muy  específica  en  forma  de  texto escrito. eliminación  de  las  palabras  vacías  y  normalización  de  los  términos  restantes  mediante stemming.Aplicaciones académicas El  tema  de  la  minería  de  textos  es  de  importancia  para  publicadores  que  tengan  grandes bancos  de  data  que  requieran  de  indexación.  que ofrecerán datos semánticos para responder a preguntas muy específicas sin quitar las barreras del publicador al acceso público.

  comprendida  entre  dos  caracteres  delimitadores (espacios o signos de puntuación).  tanto  en  los  sistemas  de indexación como en las aplicaciones de minería textual.   carentes  de  significado.  etc.  Por  ejemplo. no binario.Pre­procesamiento de los documentos: Esta  técnica  consiste en  extraer  las  palabras  utilizadas  en  un documento. no todos los autores coinciden en la conveniencia de eliminar las palabras vacías.  Sin embargo.  como  parte  del  pre­procesamiento  se  suele  realizar  la  normalización  de  las palabras  extraídas del documento. Una   tarea  habitual  en  el  pre­procesamiento  de  los   documentos  es  la  eliminación  de  palabras vacías. alumna. Esta normalización también llamada lematización— consiste en  dividir  cada  palabra  en  los  lemas  que  la  forman.  conjunciones.  artículos.  Además. . organizaciones.. Representación de documentos mediante el modelo vectorial Una  premisa  en cualquier  aplicación  de  recuperación  y tratamiento documental es la necesidad de  representar  el  contenido  de  los  documentos  mediante  un  modelo.  Para  completar  esta  tarea. o segmentar el texto en  distintas  formas gráficas.  así como  cantidades  monetarias  y  fechas  es  una  de  las  principales funciones  que  debe satisfacer la  minería  textual.  comparten  una  misma  raíz  léxima  (alumn­)   que   les  da  el  mismo significado semántico.  las  palabras alumno.  alumnos. eventos. Finalmente. El  pre­procesamiento  incluye  la  eliminación  de  los  signos  de  puntuación  y la  extracción  de  las palabras  separadas entre  sí  por  espacios  en blanco o signos de puntuación (si éstos no se han eliminado  en  el paso  previo).  como  son  preposiciones.  etc. el programa informático debe convertir el documento que se va a procesar a un formato texto plano. Una forma gráfica se define como  una  secuencia de caracteres no delimitadores  (en  general. Identificación de nombres propios La  extracción  de  nombres  propios relativos a personas. funciones. alumnado.  la  minería  textual  también  debería  permitirnos  identificar  las relaciones  que  existen  entre  estos  nombres  propios   y  constatar  así  “hechos”  descritos  en  los documentos.  El  modelo generalizado a día  de  hoy. es el vectorial.  letras).

Debemos señalar que en las aproximaciones clásicas para identificar relaciones entre términos. En  relación  al  clustering.  cada  documento se  considera  un  vector. Ranking  categorization:  El  sistema  responderá  con  un  valor  que  indicará  la  conveniencia  o probabilidad estimada de que un documento pertenezca a una o más categorías.  sería  también  posible  agrupar  términos  a  partir  de  los documentos en los que aparecen de forma conjunta. Análisis de clusters Se  trata  de  una  técnica que  permite  identificar  grupos  o  clases de  objetos  similares  a  partir  de un  espacio  multidimensional. Hard  categorization:  el  sistema  tomará  una  decisión  sobre  si se va a clasificar un documento en cada categoría. La decisión será “verdadero” o “falso”. la ocurrencia conjunta de dos palabras en los mismos documentos o fragmentos). . en la cual   la  posición  de  cada  uno  de  ellos  es  significativa. Relaciones entre términos y concepto Entre  las  técnicas  utilizadas  por  la  minería  de  textos  se  encuentra  la  extracción  de  términos  o conceptos y la identificación de relaciones entre estos términos.  El análisis  de  cluster  consiste  en una clasificación desatendida o no supervisada. éstas  se  deducen  a partir  de su co­ocurrencia (es decir.  de  la  misma  forma  que  podemos   agrupar  documentos  a  partir  del número  de   términos  que  comparten. Categorización automática Esta  técnica   se  utiliza  en  la  minería  textual  para  clasificar  documentos  en  una  serie  de categorías preestablecidas.  En  el modelo  vectorial.  y  cada  término  que  aparece  en   al  menos  un  documento.  será  un componente del vector.Un  vector  es  una  estructura consistente  en  un  número  fijo  de elementos  o  componentes.

Ejemplo Un ejemplo claro de la utilización de las técnicas de minería de textos lo realizó Hearst en 1999 y es incluido como ejemplo en el artículo en “Data mining: torturando a los datos hasta que confiesen” de Luis Carlos Molina Félix.   el  análisis  de  esta  puede  ser  de   gran importancia   ya  que  puede  determinar  diferentes  teorías. El estrés puede conducir a la pérdida de magnesio.  conclusiones  de  los  datos  que  se obtuvieron a la hora de aplicar las dichas técnicas. El magnesio puede suprimir la agregación plaquetaria. En el describe como Don Swanson trato de extraer información a partir de colecciones de texto y demostró cómo cadenas de implicaciones causales dentro de la literatura médica pueden conducir a hipótesis para enfermedades poco frecuentes. como por ejemplo ocurrió con la migraña. demuestra que la información es de  gran  ayuda  diferentes  campos  de  investigación. Senso  (http://www.elprofesionaldelainformacion. Los pacientes con migraña tienen una alta agregación plaquetaria. Los bloqueadores de canales de calcio previenen algunas migrañas.com/contenidos/2004/enero/2. Los niveles altos de magnesio inhiben la DCD. Conclusiones La  utilización de  las  diferentes  técnicas  de  la minería de texto. Minería textual. Bibliografía Artículo. La depresión cortical diseminada (DCD) está implicada en algunas migrañas.pdf) . El magnesio es un bloqueador natural del canal de calcio. Se pudieron extraer evidencias a partir de varios artículos de literatura biomédica y algunas de las claves fueron: ● ● ● ● ● ● ● ● El estrés está asociado con la migraña. Por Ricardo Eíto Brun y Jose A.

You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->