Está en la página 1de 8

UniversidadTcnicaNacional MineradeDatos Resumendeexposicin:

MineradeTextos
Facilitador: RudyBarboza <rudy.barboza@gmail.com> Integrantes: MisaelMatamoros <mismatso@gmail.com> ErickMeneses <edmene84@gmail.com> JorgeSols <jorgesolislo91@gmail.com> Marzo2013

Indice
Introduccin Historia Definicin Lingsticacomputacional Lamineratextualcomoherramientaparaelanlisis Aplicacionesacadmicas Lastcnicasdelamineratextual Preprocesamientodelosdocumentos: Identificacindenombrespropios Representacindedocumentosmedianteelmodelovectorial Anlisisdeclusters Categorizacinautomtica Relacionesentretrminosyconcepto Ejemplo Conclusiones Bibliografa

Introduccin
La minera de texto es una tcnica que se utiliza para laayudaenelanlisisdelainformacin, unagrancantidaddelainformacinquese encuentraparadiferentesfinesesta almacenadaen archivos, debido a esto se emplean diferentes tcnicas y algoritmos para que esos datos puedan ser analizados, y poder llegar a tomar diferentes conclusionesbasado a lo que se ha encontrado.

Historia
A comienzos de los aos ochenta surgieron los primeros esfuerzosde minera de textos que necesitaban una gran cantidad de esfuerzo humano, pero los avances tecnolgicos han permitidoqueestareaprogresedemanerarpidaenlaltimadcada. Lamineratextualhatenidounmayorimpactoenlasactividadesrelacionadasconlainteligencia militar. Si bien este impacto nunca ha alcanzado el nivel de generalizacin de la minera de datos, los desafortunados acontecimientos del 11 de septiembre de2001hicieronquedistintos medios prestasen atencin a las tecnologas empleadas por las organizaciones policiales encargadas de luchar contra el terrorismo. As, a partir de esa fecha podemos encontrar un mayornmerodereferenciasalusodelamineratextualydedatosconestepropsito.

Definicin
La minera textual es una aplicacin de la lingstica computacional y del procesamiento de textos que pretende facilitar la identificacin y extraccin de nuevo conocimiento a partir de colecciones de documentos o corpus textuales. Relacionada con la minera de datos (desde una perspectivacomercialpodramosdecirquelamineratextualeslahermanapequeadela minera de datos), la diferencia entre estas dos aplicaciones est en que con esta ltima se pretende extraer conocimiento a partir de los patrones observables engrandes colecciones de

datosestructuradosquesealmacenanen bases dedatosrelacionales.Enelcasode laminera textual, se tomar comopunto de partidaparalaextraccindenuevoconocimientorepositorios documentalesotexto.Esdecir,informacinnoestructurada. DanSullivan: Cualquier operacin realizada para extraer y analizar textos procedentes de distintas fuentes externasconelobjetivodeobtenerinteligencia. MartiA.Hearst: La mineradetextostienecomoobjetivo descubririnformacin yconocimientoquepreviamente sedesconoca,yquenoaparecaenningunodelosdocumentosanalizados.

Lingsticacomputacional
La lingstica computacional es un campo multidisciplinar de la lingstica yla informtica que utiliza la informtica para estudiar y tratar el lenguaje humano.Paralograrlo,intentamodelarde forma lgica el lenguaje natural desde un punto devista computacional. Dicho modelado nose centra en ninguna de las reas de la lingstica en particular, sino que es un campo interdisciplinar, en el que participan lingistas, informticos especializados en inteligencia artificial,psiclogoscognoscitivosyexpertosenlgica,entreotros.

Lamineratextualcomoherramientaparaelanlisis
Se exige a una herramienta de minera textual que extraiga las conclusiones o el nuevo conocimiento,osimplementequefaciliteelanlisisauninvestigadorhumano? Inicialmente, la minera textual debe facilitar el anlisis de corpus textuales que a priori nos resultaran inmanejables debido a su tamao. As, un investigador podr analizar esos datos, identificar relacionesentre documentos y extraer conclusiones. Hearst deja claroel alcancede la minera textual, al indicar que para hacer progresos no es necesario un anlisis del texto propiodelainteligenciaartificial,sinoqueunamezcladeanlisishumanoyautomatizadopuede dar excelentes resultados. La autora llega incluso a definir minera textual como el descubrimientosemiautomatizadodepatronesytendenciasengrandesconjuntosdedatos.

Aplicacionesacadmicas
El tema de la minera de textos es de importancia para publicadores que tengan grandes bancos de data que requieran de indexacin. Esto es el caso en particular para disciplinas cientficas en las que hay una gran cantidad de informacin muy especfica en forma de texto escrito. Espor elloquesehanpresentadoiniciativascomo elOpenTextMiningInterface(OTMI) y elcommonJournalPublishingDocumentTypeDefinition(DTD)dela NIH, queofrecerndatos semnticospararesponderapreguntasmuyespecficassinquitarlasbarrerasdelpublicadoral accesopblico.

Lastcnicasdelamineratextual
Para lograr los resultados citados en el apartado anterior la minera textual adoptaunaseriede tcnicas procedentesdelarecuperacindeinformacinydelalingsticacomputacional.Estas tcnicasincluyen: Preprocesamiento de los documentos, que contendra la extraccin de trminos, eliminacin de las palabras vacas y normalizacin de los trminos restantes mediante stemming. Identificacindenombrespropios.Anlisissintcticoygramaticaldelostextos. Representacin de los documentos mediante el modelo vectorial. Frmulas para el clculodelasimilitudentreparesdedocumentos. Clustering o agrupacin automtica de documentos, que a su veztambin toma como punto de partida la representacin de los documentos segn el modelo vectorial y el clculodesimilitudes. Categorizacinautomtica. Relacionesentretrminosyconceptos.

Preprocesamientodelosdocumentos:
Esta tcnica consisteen extraer las palabras utilizadas en undocumento,osegmentareltexto en distintas formasgrficas.Unaformagrficasedefinecomo una secuenciadecaracteresno delimitadores (en general, letras), comprendida entre dos caracteres delimitadores(espacioso signosdepuntuacin). El preprocesamiento incluye la eliminacin de los signos de puntuacin yla extraccin de las palabras separadasentre s por espacios enblancoosignosdepuntuacin(sistosnosehan eliminado en elpaso previo). Para completar esta tarea,elprogramainformticodebeconvertir eldocumentoquesevaaprocesaraunformatotextoplano,nobinario. Una tarea habitual en el preprocesamiento de los documentos es la eliminacin de palabras vacas, carentes de significado, como son preposiciones, artculos, conjunciones, etc. Sin embargo,notodoslosautorescoincidenenlaconvenienciadeeliminarlaspalabrasvacas. Finalmente, como parte del preprocesamiento se suele realizar la normalizacin de las palabras extradasdeldocumento.Estanormalizacintambinllamadalematizacinconsiste en dividir cada palabra en los lemas que la forman. Por ejemplo, las palabrasalumno,alumna, alumnado, alumnos, etc., comparten una misma raz lxima (alumn) que les da el mismo significadosemntico.

Identificacindenombrespropios
La extraccin de nombres propiosrelativosapersonas,organizaciones,eventos,funciones, as como cantidades monetarias y fechas es una de las principalesfunciones que debesatisfacer la minera textual. Adems, la minera textual tambin debera permitirnos identificar las relaciones que existen entre estos nombres propios y constatar as hechos descritos en los documentos.

Representacindedocumentosmedianteelmodelovectorial
Una premisa encualquier aplicacin de recuperacin ytratamientodocumentaleslanecesidad de representar el contenido de los documentos mediante un modelo. El modelogeneralizadoa da de hoy, tanto en los sistemas deindexacincomoenlasaplicacionesdemineratextual,es elvectorial.

Un vector es una estructuraconsistente en un nmero fijo deelementos o componentes,enla cual la posicin de cada uno de ellos es significativa. En elmodelo vectorial, cada documento se considera un vector, y cada trmino que aparece en al menos un documento, ser un componentedelvector.

Anlisisdeclusters
Se trata de una tcnicaque permite identificar grupos o clasesde objetos similares a partir de un espacio multidimensional. Elanlisis de cluster consiste enunaclasificacindesatendidao nosupervisada.

Categorizacinautomtica
Esta tcnica se utiliza en la minera textual para clasificar documentos en una serie de categoraspreestablecidas. Hard categorization: el sistema tomar una decisin sobre sisevaaclasificarundocumento encadacategora.Ladecisinserverdaderoofalso. Ranking categorization: El sistema responder con un valor que indicar la conveniencia o probabilidadestimadadequeundocumentopertenezcaaunaomscategoras.

Relacionesentretrminosyconcepto
Entre las tcnicas utilizadas por la minera de textos se encuentra la extraccin de trminos o conceptosylaidentificacinderelacionesentreestostrminos. Debemossealarqueenlasaproximacionesclsicasparaidentificarrelacionesentretrminos, stas se deducen apartir desucoocurrencia(esdecir,laocurrenciaconjuntadedospalabras enlosmismosdocumentosofragmentos). En relacin al clustering, de la misma forma que podemos agrupar documentos a partir del nmero de trminos que comparten, sera tambin posible agrupar trminos a partir de los documentosenlosqueaparecendeformaconjunta.

Ejemplo
UnejemploclarodelautilizacindelastcnicasdemineradetextoslorealizHearsten1999 yesincluidocomoejemploenelartculoenDatamining:torturandoalosdatoshastaque confiesendeLuisCarlosMolinaFlix.EneldescribecomoDonSwansontratodeextraer informacinapartirdecoleccionesdetextoydemostrcmocadenasdeimplicaciones causalesdentrodelaliteraturamdicapuedenconducirahiptesisparaenfermedadespoco frecuentes,comoporejemploocurriconlamigraa.Sepudieronextraerevidenciasapartirde variosartculosdeliteraturabiomdicayalgunasdelasclavesfueron:

Elestrsestasociadoconlamigraa. Elestrspuedeconduciralaprdidademagnesio. Losbloqueadoresdecanalesdecalcioprevienenalgunasmigraas. Elmagnesioesunbloqueadornaturaldelcanaldecalcio. Ladepresincorticaldiseminada(DCD)estimplicadaenalgunasmigraas. LosnivelesaltosdemagnesioinhibenlaDCD. Lospacientesconmigraatienenunaaltaagregacinplaquetaria. Elmagnesiopuedesuprimirlaagregacinplaquetaria.

Conclusiones
La utilizacinde las diferentes tcnicas de lamineradetexto,demuestraquelainformacines de gran ayuda diferentes campos de investigacin, el anlisis de esta puede ser de gran importancia ya que puede determinar diferentes teoras, conclusiones de los datos que se obtuvieronalahoradeaplicarlasdichastcnicas.

Bibliografa
Artculo,Mineratextual,PorRicardoEtoBrunyJoseA.Senso (http://www.elprofesionaldelainformacion.com/contenidos/2004/enero/2.pdf)

También podría gustarte