Universidad Técnica Nacional ­ Minería de Datos ­ Resumen de exposición

:

Minería de Textos
Facilitador: Rudy Barboza <rudy.barboza@gmail.com> Integrantes: Misael Matamoros <mismatso@gmail.com> Erick Meneses <edmene84@gmail.com> Jorge Solís <jorgesolislo91@gmail.com> Marzo 2013

Indice Introducción Historia Definición Lingüística computacional La minería textual como herramienta para el análisis Aplicaciones académicas Las técnicas de la minería textual Pre­procesamiento de los documentos: Identificación de nombres propios Representación de documentos mediante el modelo vectorial Análisis de clusters Categorización automática Relaciones entre términos y concepto Ejemplo Conclusiones Bibliografía .

Historia A  comienzos  de  los  años  ochenta  surgieron  los  primeros  esfuerzos de  minería  de  textos  que necesitaban  una  gran  cantidad  de  esfuerzo  humano. Definición La  minería  textual  es  una  aplicación  de  la  lingüística   computacional  y  del  procesamiento  de textos  que  pretende  facilitar  la  identificación  y  extracción  de  nuevo  conocimiento  a  partir  de colecciones  de  documentos  o  corpus  textuales.  Si   bien  este  impacto  nunca  ha  alcanzado  el  nivel  de  generalización  de  la  minería  de datos.  pero  los  avances  tecnológicos  han permitido que esta área progrese de manera rápida en la última década.  Así.  y  poder  llegar  a  tomar  diferentes  conclusiones basado  a  lo  que  se  ha encontrado.  la  diferencia  entre  estas  dos  aplicaciones  está  en  que  con  esta  última  se pretende  extraer  conocimiento  a  partir  de  los  patrones  observables  en grandes  colecciones  de .Introducción La  minería  de  texto  es  una  técnica  que  se  utiliza  para  la ayuda en el análisis de la información. una gran cantidad de la información que se  encuentra para diferentes fines esta  almacenada en archivos.  debido  a  esto  se  emplean  diferentes  técnicas  y   algoritmos  para  que  esos  datos puedan  ser  analizados. La minería textual ha tenido un mayor impacto en las actividades relacionadas con la inteligencia militar.  los  desafortunados  acontecimientos  del  11  de  septiembre  de 2001 hicieron que distintos medios  prestasen  atención  a  las  tecnologías  empleadas  por  las  organizaciones  policiales encargadas  de  luchar  contra  el  terrorismo.  a  partir  de  esa  fecha  podemos  encontrar  un mayor número de referencias al uso de la minería textual y de datos con este propósito.  Relacionada  con  la  minería  de  datos  (desde una  perspectiva comercial podríamos decir que la minería textual es “la hermana pequeña” de la minería  de  datos).

  al  indicar  que  para  hacer  progresos  no  es  necesario  un  análisis  del  texto propio de la inteligencia artificial. entre otros. Para lograrlo. En el caso de  la minería textual. Es decir. La minería textual como herramienta para el análisis ¿Se   exige  a  una  herramienta  de  minería  textual  que  extraiga  las  conclusiones  o  el  nuevo conocimiento.  La  autora  llega  incluso  a  definir  minería  textual  como  el descubrimiento semi­automatizado de patrones y tendencias en grandes conjuntos de datos.datos estructurados que se almacenan en  bases  de datos relacionales. psicólogos cognoscitivos y expertos en lógica. . Lingüística computacional La  lingüística  computacional  es  un  campo  multidisciplinar  de  la  lingüística  y la  informática  que utiliza  la  informática  para  estudiar  y  tratar  el  lenguaje  humano. sino que una mezcla de análisis humano y automatizado puede dar  excelentes  resultados.  se  tomará  como punto  de  partida para la extracción de nuevo conocimiento repositorios documentales o texto.  Hearst  deja  claro el  alcance de la  minería  textual.  la  minería  textual  debe  facilitar  el  análisis  de  corpus  textuales  que  a  priori  nos resultarían  inmanejables  debido  a  su  tamaño. información no estructurada.  en  el  que  participan  lingüistas. y que no aparecía en ninguno de los documentos analizados. Hearst: La  minería de textos tiene como objetivo  descubrir información  y conocimiento que previamente se desconocía. intenta modelar de forma  lógica  el  lenguaje  natural  desde  un  punto  de vista  computacional. o simplemente que facilite el análisis a un investigador humano? Inicialmente.  informáticos  especializados  en  inteligencia artificial.  sino  que  es  un  campo interdisciplinar.  Dicho  modelado  no se centra  en  ninguna  de  las  áreas  de  la   lingüística  en  particular. Dan Sullivan: Cualquier  operación  realizada  para  extraer  y  analizar  textos  procedentes  de  distintas  fuentes externas con el objetivo de obtener inteligencia.  Así.   un  investigador  podrá  analizar  esos  datos. Marti A. identificar  relaciones entre  documentos  y  extraer  conclusiones.

  que  contendría  la  extracción  de  términos. Clustering   o  agrupación  automática  de  documentos.  Fórmulas  para  el cálculo de la similitud entre pares de documentos. Análisis sintáctico y gramatical de los textos.  Esto  es  el  caso  en  particular  para  disciplinas científicas  en  las  que  hay  una  gran  cantidad  de  información  muy  específica  en  forma  de  texto escrito. ● ● Categorización automática.  que  a  su  vez también  toma  como punto   de  partida  la  representación  de  los  documentos  según  el  modelo  vectorial  y  el cálculo de similitudes.  Es por  ello que se han presentado iniciativas como  el Open Text Mining Interface (OTMI) y  el common Journal Publishing Document Type Definition (DTD) de la  NIH. eliminación  de  las  palabras  vacías  y  normalización  de  los  términos  restantes  mediante stemming. Estas técnicas incluyen: ● Pre­procesamiento  de  los  documentos. Relaciones entre términos y conceptos.Aplicaciones académicas El  tema  de  la  minería  de  textos  es  de  importancia  para  publicadores  que  tengan  grandes bancos  de  data  que  requieran  de  indexación. Representación  de  los  documentos  mediante  el  modelo  vectorial. Las técnicas de la minería textual Para  lograr  los  resultados  citados  en  el  apartado  anterior  la  minería  textual  adopta una serie de técnicas  procedentes de la recuperación de información y de la lingüística computacional. .  que ofrecerán datos semánticos para responder a preguntas muy específicas sin quitar las barreras del publicador al acceso público. ● ● ● Identificación de nombres propios.

  El  modelo generalizado a día  de  hoy. .  alumnos.  Sin embargo.  tanto  en  los  sistemas  de indexación como en las aplicaciones de minería textual. eventos. no binario. alumnado.Pre­procesamiento de los documentos: Esta  técnica  consiste en  extraer  las  palabras  utilizadas  en  un documento. alumna. Una   tarea  habitual  en  el  pre­procesamiento  de  los   documentos  es  la  eliminación  de  palabras vacías.  artículos.  conjunciones.   carentes  de  significado. Finalmente. Representación de documentos mediante el modelo vectorial Una  premisa  en cualquier  aplicación  de  recuperación  y tratamiento documental es la necesidad de  representar  el  contenido  de  los  documentos  mediante  un  modelo..  Por  ejemplo.  como  parte  del  pre­procesamiento  se  suele  realizar  la  normalización  de  las palabras  extraídas del documento.  Para  completar  esta  tarea.  Además.  etc.  como  son  preposiciones. El  pre­procesamiento  incluye  la  eliminación  de  los  signos  de  puntuación  y la  extracción  de  las palabras  separadas entre  sí  por  espacios  en blanco o signos de puntuación (si éstos no se han eliminado  en  el paso  previo). es el vectorial.  etc.  comparten  una  misma  raíz  léxima  (alumn­)   que   les  da  el  mismo significado semántico. organizaciones. Una forma gráfica se define como  una  secuencia de caracteres no delimitadores  (en  general. Esta normalización también llamada lematización— consiste en  dividir  cada  palabra  en  los  lemas  que  la  forman. Identificación de nombres propios La  extracción  de  nombres  propios relativos a personas. o segmentar el texto en  distintas  formas gráficas.  la  minería  textual  también  debería  permitirnos  identificar  las relaciones  que  existen  entre  estos  nombres  propios   y  constatar  así  “hechos”  descritos  en  los documentos. no todos los autores coinciden en la conveniencia de eliminar las palabras vacías.  letras). el programa informático debe convertir el documento que se va a procesar a un formato texto plano.  comprendida  entre  dos  caracteres  delimitadores (espacios o signos de puntuación).  así como  cantidades  monetarias  y  fechas  es  una  de  las  principales funciones  que  debe satisfacer la  minería  textual. funciones.  las  palabras alumno.

  sería  también  posible  agrupar  términos  a  partir  de  los documentos en los que aparecen de forma conjunta.  cada  documento se  considera  un  vector. En  relación  al  clustering. Análisis de clusters Se  trata  de  una  técnica que  permite  identificar  grupos  o  clases de  objetos  similares  a  partir  de un  espacio  multidimensional. La decisión será “verdadero” o “falso”. Ranking  categorization:  El  sistema  responderá  con  un  valor  que  indicará  la  conveniencia  o probabilidad estimada de que un documento pertenezca a una o más categorías. la ocurrencia conjunta de dos palabras en los mismos documentos o fragmentos).  será  un componente del vector.  de  la  misma  forma  que  podemos   agrupar  documentos  a  partir  del número  de   términos  que  comparten. Debemos señalar que en las aproximaciones clásicas para identificar relaciones entre términos.Un  vector  es  una  estructura consistente  en  un  número  fijo  de elementos  o  componentes. Hard  categorization:  el  sistema  tomará  una  decisión  sobre  si se va a clasificar un documento en cada categoría.  y  cada  término  que  aparece  en   al  menos  un  documento. Relaciones entre términos y concepto Entre  las  técnicas  utilizadas  por  la  minería  de  textos  se  encuentra  la  extracción  de  términos  o conceptos y la identificación de relaciones entre estos términos. Categorización automática Esta  técnica   se  utiliza  en  la  minería  textual  para  clasificar  documentos  en  una  serie  de categorías preestablecidas.  El análisis  de  cluster  consiste  en una clasificación desatendida o no supervisada.  En  el modelo  vectorial. en la cual   la  posición  de  cada  uno  de  ellos  es  significativa. éstas  se  deducen  a partir  de su co­ocurrencia (es decir. .

com/contenidos/2004/enero/2. Conclusiones La  utilización de  las  diferentes  técnicas  de  la minería de texto. Se pudieron extraer evidencias a partir de varios artículos de literatura biomédica y algunas de las claves fueron: ● ● ● ● ● ● ● ● El estrés está asociado con la migraña. Los pacientes con migraña tienen una alta agregación plaquetaria. como por ejemplo ocurrió con la migraña. En el describe como Don Swanson trato de extraer información a partir de colecciones de texto y demostró cómo cadenas de implicaciones causales dentro de la literatura médica pueden conducir a hipótesis para enfermedades poco frecuentes. El magnesio es un bloqueador natural del canal de calcio.Ejemplo Un ejemplo claro de la utilización de las técnicas de minería de textos lo realizó Hearst en 1999 y es incluido como ejemplo en el artículo en “Data mining: torturando a los datos hasta que confiesen” de Luis Carlos Molina Félix. Bibliografía Artículo.pdf) . Minería textual. Senso  (http://www. Los bloqueadores de canales de calcio previenen algunas migrañas.elprofesionaldelainformacion. El magnesio puede suprimir la agregación plaquetaria. La depresión cortical diseminada (DCD) está implicada en algunas migrañas.  conclusiones  de  los  datos  que  se obtuvieron a la hora de aplicar las dichas técnicas. demuestra que la información es de  gran  ayuda  diferentes  campos  de  investigación.   el  análisis  de  esta  puede  ser  de   gran importancia   ya  que  puede  determinar  diferentes  teorías. Los niveles altos de magnesio inhiben la DCD. Por Ricardo Eíto Brun y Jose A. El estrés puede conducir a la pérdida de magnesio.

Sign up to vote on this title
UsefulNot useful