Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Protocolo de investigacin
Presenta:
Resumen
La web almacena cantidades masivas de informacin no estructurada. Carece de un orden
especfico, por lo tanto, es difcil saber el tipo de documentos que los navegadores presentan
como resultados de una bsqueda de informacin.
Antecedentes
La World Wide Web (WWW) es un conjunto masivo de informacin accesible a nivel mundial
[Hernndez, 2004]. Podemos encontrar informacin de diversas temticas [Liu, 2007] alojadas
en pginas web, blogs o redes sociales [Jobsen, 2014]. Para poder ingresar a la web es
necesario usar algn navegador web que nos permita visualizar toda la informacin consultando
variedad de sitios web [Meloni, 2010].
Un navegador web es un software que interacta con distintos servidores web mediante el
modelo de cliente-servidor [Liu, 2007] para la obtencin de documentos creados bajo el lenguaje
de marcas de hipertexto (HTML) [Markov, 2007]. Una URL especifica la ubicacin, o direccin,
de cada una de las pginas web (u otro recurso) de Internet. Los URL constan de tres partes:
medio, host y ruta [Honeycutt, 1997] estn constituidos por abreviaturas, puntos y barras (slash).
URL es la direccin exacta de un documento o servidor en Internet [Lackerbauer, 01]. Todo este
proceso requiere el uso del protocolo de transferencia de hipertexto, mejor conocido como HTTP
[Chakrabarti, 2003]. Una sesin web es el almacenamiento de pginas web visitadas de un
mismo servidor por los usuarios para un propsito en general [Markov, 2007]. Cada sesin web
tiene un perodo mximo de tiempo para un mejor control de informacin [Hans, 2006].
Se utilizan para la generacin de bsquedas posteriores por el mismo usuario, o implementar
alguna especie de bsqueda de colaboracin con las herramientas de la minera de uso web
[Chakrabarti, 2003], [Scime, 2004]. La minera de datos es un rea de las ciencias
computacionales que se dedica al tratamiento de la informacin, pretende descubrir patrones,
modelos o formas de comportamiento mediante tcnicas adecuadas [Zaki, 2014], es necesario
poseer una gran cantidad de datos para desarrollar este proceso [Hernndez, 2004]. Es
importante mencionar que, no todos los patrones obtenidos sern tiles.
La minera de datos tiende a la extraccin de informacin con cierto grado de exactitud, por tal
motivo es primordial, saber que algoritmos aplicar a los datos, para obtener los datos que
realmente nos interesan [Witten, 2011]. Las tcnicas de la minera de datos de acuerdo a las
etapas que se planteen en un comienzo, estn principalmente clasificadas en 3 tipos que son
tcnicas predictivas, descriptivas y auxiliares [Prez, 2008], [Prez, 2014].
Las tcnicas predictivas estn basadas en la teora. Adems, se incluyen todos los tipos de
regresin, asociacin, anlisis de la varianza, covarianza, anlisis discriminante, series
temporales y mtodos bayesianos [Fu, 2014], [Hernndez, 2004]. Las tcnicas de modelado
originado por los datos (tcnicas descriptivas) estn basadas solo en patrones. Los mtodos
ms usados son asociaciones, dependencias, clustering y segmentaciones. Por ltimo, estn
las tcnicas auxiliares, su principal propsito es servir de apoyo para verificar resultados por
medio de informes [Prez, 2008].
Existen diversas herramientas de software tiles para la minera de datos, uno de los ms
conocidos es Weka. El cual es un software empleado principalmente en el rea de minera de
datos y el aprendizaje automtico. Contiene una extensa coleccin de algoritmos de Mquinas
de conocimiento, el nombre est basado en una especia endmica de Nueva Zelanda [Garca,
2012]. Weka est logrando cada vez mayor grado de aceptacin en universidades y empresas,
[Hall, 2009]. El programa fue desarrollado en Java en la Universidad de Waikato [Aler, 2009].
La minera web se enfoca a procesar la informacin que se encuentra almacenada en la web,
mediante las tcnicas ya conocidas de la minera de datos [Hernndez, 2004]. Sus principales
objetivos son mejorar la calidad de prestacin de servicios de informacin, optimizar los motores
de bsqueda [Witten, 2011] y descubrir los patrones sobre tendencias de acceso por parte del
comportamiento de los usuarios en la web [Han, 2006]. Emplea otras reas de conocimiento
como el aprendizaje de mquina, tcnicas estadsticas, bases de datos, inteligencia artificial, la
recuperacin de informacin, el uso de ontologas y visualizacin para la generacin de
resultados [Liu, 2007].
La minera de datos se puede aplicar prcticamente en cualquier rea de estudio [Thompson,
2010], por ejemplo: medicina, qumica, economa, deportes, poltica, desarrollo web, entre
muchas otras [Hernndez, 2004], [Fu, 2014], Tiene el objetivo de ayudar a mejorar el entorno,
mejor visualizacin de resultados y facilitar la toma de decisiones para cuestiones financieras,
anlisis de mercados, comercios, salud privada, bioingeniera, telecomunicaciones, bancos, etc.
[Prez, 2008].
La minera web est dividida de acuerdo a diversos autores en 3 reas principales: la estructura
web (orientada a la organizacin y jerarquizacin, para el crecimiento de mejores sitios web), el
contenido de informacin (diseada para mejorar las bsquedas de informacin) y los usuarios
de la web (el comportamiento de los usuarios) [Chakrabarti, 2003], [Liu, 2007], [Fu, 2014],
[Hernndez, 2004].La minera de texto es definida como una sub-rea de la minera contenido
web [Scime, 2004].
Sus principales funciones son el descubrimiento de temas, la extraccin de patrones de
asociacin, agrupacin de documentos web y clasificacin de sitios web. La minera de texto
resuelve problemas mediante el uso del procesamiento de lenguaje natural, que se basa en la
similitud de distribucin [Liu, 2007]. A continuacin, se describen brevemente algunos proyectos
realizados sobre minera web.
Algunos trabajos que han implementado el uso de rboles de decisin como herramienta para
la clasificacin de se describen a continuacin.
En 2005, Baeza desarroll un proyecto aplicando tcnicas de minera de uso y contenido web.
Su principal objetivo es facilitar las consultas para el hallazgo de informacin relevante, sobre
cmo re-organizar la estructura y contenido del sitio web. El modelo ha sido probado en diversos
sitios web que cuentan con diversas caractersticas (temtica, alcance, tamao). En trminos
generales se pretende resolver problemas sobre la presentacin de los sitios web frente a los
usuarios, mejorando hipervnculos y documentos [Baeza, 2005].
El modelo propuesto por Baeza inicia con los archivos logs, los datos de estructura y de
contenido como datos de entrada. La estructura del sitio es generada a partir de los
hipervnculos entre las pginas web y el contenido mixto de informacin corresponde al texto
asociado a cada una de sus pginas. La idea principal es la extraccin de informacin mediante
las consultas internas y externas para iniciar el reconocimiento de patrones sobre navegacin
y contenidos, as se verifica la esencia de la informacin que beneficia la estructura del sitio
web. La minera de datos es aplicada en todos los hipervnculos para el anlisis del contenido
de informacin usando clustering [Baeza, 2005].
En 2009 Barrientos evala el desempeo de tres de los algoritmos ms representativos para la
construccin de rboles de decisin. Para poner a prueba el rendimiento en el proceso de
clasificacin de los rboles de decisin, se utilizarn dos bases de datos que contienen datos
mdicos de pacientes reales. Estos datos corresponden a la sintomatologa que un mdico
especialista considera para el diagnstico de cncer de seno. Una de las bases de datos
contiene 692 casos recopilados de las observaciones de un solo mdico y la otra, contiene 322
casos recopilados de la observacin de 19 especialistas [Barrientos, 2009].
En suma, se busca determinar la pertinencia de los rboles de decisin, es decir, si pueden ser
una herramienta de apoyo para el diagnstico mdico [Barrientos, 2009]. Los algoritmos
utilizados fueron ID3, J48 y Naive Bayes. Los resultados de Barrientos indican que las bases
de datos presentan las caractersticas adecuadas para efectuar la simulacin de un diagnstico
mdico. El margen de error sigue estando presente en baja frecuencia, es necesario realizar
ligeras modificaciones en la base de datos para corregir algunas incongruencias. El algoritmo
con mayor porcentaje de aciertos es Naive Bayes con un 85% de clasificacin correcta
[Barrientos, 2009].
En el ao 2011 se crea el Sistema Recomendador de Oportunidades de Estudio (SROE). Fue
desarrollado bajo 2 mtodos para la fase de anlisis: el primer mtodo emprende un anlisis
para asignar la posibilidad y factibilidad de incorporar a la propuesta inicial de diseo planteada
en la implementacin. La segunda propuesta de anlisis se analizan los enfoques
recomendados para verificar su viabilidad sobre el modelo ID3, [Corniel, 2011]. Fue diseado
para estudiantes que intentan ingresar a universidades, en donde algunas carreras estn en
base con preferencias, competencias y recursos que el alumno aspirante posee. Se originaron
nuevos requerimientos de interfaz y minera de datos mediante los recursos semnticos usados
(ontologas, perfiles y modelos de uso) [Borges, 2009].
Otro factor importante para el desarrollo del SROE es el arduo trabajo que realizan los
aspirantes, su decisin sobre en qu universidad estudiar depende de los resultados de
consultas tradicionales en la web. Los resultados de una consulta tradicional a sistemas de
informacin son poco eficaces, debido a que la informacin acerca de las carreras en diferentes
sitios web, se encuentran desactualizados y disociados, predomina el poco uso del lenguaje
formal [Corniel 2011].
Hiptesis
Si se emplean rboles de decisin ID3 y J48 sobre una base de documentos, se espera
obtener una clasificacin de documentos pdf y html.
Objetivo General
Clasificar documentos mediante la implementacin de rboles de decisin en weka sobre una
base de documentos recopilados de internet.
Marco Terico
Introduccin a la computacin. [Gleen, 2012], [Forousan, 2003], [Norton, 2006].
Grafos [Nilsson, 1980] [Ginsberg, 1993] [Luger, 2009]
Grafos y rboles [Zaragoza, 2007] [Espinosa, 2010]
Teora de autmatas y lenguajes formales. [Hopcroft, 1998], [Hopcroft, 2008].
Clasificadores de rbol [Lpez, 2011] [Calot, 2011] [Padilla, 2014]
Scraping web. [Lawson, 2015], [Mitchell, 2013], [Ward, 2013]
Minera de Datos. [Hertzmann, 2012], [Han, 2006].
Minera Web. [Chakrabarti, 2003], [Markov, 2007]
Introduccin a weka [Hall, 2009], [Garca, 2012]
Desarrollo web [Vaswani, 2008], [Lingras, 2006]
Marco Metodolgico
Metodologa CRISP [IBM, 2012], [Galn, 2015], [Gallardo]
Modelo ID3 [Roche, 2009], [Moreno, 2009], [Buendia, 2014]
Arboles de decisin [Roche, 2009], [Moreno, 2009], [Erandi, 2009]
Weka [Camanes, 2008], [Callejas, 2010]
Aprendizaje automtico [Berzal, 2002]
rboles de clasificacin y regresin [Roche, 2009], [Berzal, 2002]
Tesis
Tcnicas de anlisis de datos aplicaciones prcticas utilizando weka [Molina, 2006].
Optimizacin del clasificador naive bayes usando rbol de decisin c.45 [Alarcn, 2015]
Objetivos Particulares
Clasificador ID3
1.- Entendimiento del negocio.
Continuar con la investigacin y anlisis de la informacin correspondiente para
comprender el motor de bsqueda de Google (anexo 3).
2.- Comprensin de los datos.
Recoleccin de documentos que sern puestos a estudio, para poder verificar sus
propiedades.
Guardar todos los documentos en formato PDF.
4.- Modelamiento
5.- Evaluacin
Clasificador J-48
6.- Entendimiento del negocio.
Continuar con la investigacin y anlisis de la informacin correspondiente para
comprender el motor de bsqueda de Google y los requerimientos de J-48 (anexo 3).
7.- Comprensin de los datos.
Recoleccin de documentos que sern puestos a estudio, para poder verificar sus
propiedades.
Guardar todos los documentos en formato PDF.
9.- Modelamiento
10.- Evaluacin
Referencias Bibliogrficas
[Alarcn, 2015]
[Arrondo, 2000]
[Baeza, 2005]
[Barrientos, 2009] Barrientos Martnez Roco Erandi. rboles de decisin como herramientas de
diagnstico mdico. 2009
http://www.medigraphic.com/pdfs/veracruzana/muv-2009/muv092c.pdf
[Berendet, 2002] Berendet Bettina. Using site semantics to analyze,
visualize, and support navigation.
Data Mining and Knowledge Discovery, 2002.
http://link.springer.com/article/10.1023%2FA
%3A1013280719795#page-1
[Buendia, 2014]
[Carmona, 2008]
[Chakrabarti,
2003]
[Coulouris, 2012]
[Coyotl, 2007]
[Forousan, 2003]
[Fu, 2014]
[Galn, 2015]
[Gauchat, 2012]
[Glen, 2012]
[Han, 2011]
Han Jiawei, Kamber Micheline, Pei Jian. Data Mining Concepts and
Techniques. Editorial Morgan Kaufman. 3 edicin. 2011.
Bibiloteca UAP Tianguistenco.
[Hay, 2001]
[Hernndez,
2008]
[Hopcroft,1993]
[Hopcroft, 2008]
[Hutter, 2013]
[Jagtap, 2013]
[Leskovec, 2014]
[Liang, 2005]
[Lingras,2006]
[Liu, 2007]
[Manning, 2008]
[Marakas, 2006]
[Markov, 2007]
[Norton,2006]
[Moine, 2011]
[Molina, 2006]
[Ogunbiyi, 2015]
[Pallis, 2005]
[Silvioti, 2007]
[Squire, 2004]
[Srikant, 2001]
[Scott, 2009]
[Tan, 2006]
[Tanenbaum,
2008]
[Vaswani, 2008]
[Vieira, 2009]
[Witten, 2011]
[Zaki, 2014]
[Zelle, 2002]
and
visitadas de un mismo servidor por los usuarios para un propsito en general [Markov, 2007].
Cada sesin web tiene un periodo mximo de tiempo para un mejor control de informacin
[Hans, 2006]. Se utilizan para la generacin de bsquedas posteriores por el mismo usuario, o
implementar alguna especie de bsqueda de colaboracin con las herramientas de la minera
de uso web [Chakrabarti, 2003], [Scime, 2004].
Un navegador web es un software que interacta con distintos servidores web mediante el
modelo de cliente-servidor [Liu, 2007] para la obtencin de documentos HTML (pginas web),
mediante el localizador universal de rescursos que poseen toda la pgina consultada puede
vincular ms pginas [Markov, 2007] para mostrrselas al usuario mediante el uso del protocolo
HTTP [Chakrabarti, 2003]. Los navegadores soportan distintos formatos de contenido
(imgenes, audios) e inclusive se pueden agregar plug-ins para archivos con extensiones
especficas [Gourley, 2002].
Un localizador universal de recursos (URL por sus siglas en ingls) es una direccin de un sitio
web. Es ms fcil identificar el sitio mediante su URL, inclusive ayuda a un mejor
posicionamiento en los principales buscadores [Smith, 2009]. Los navegadores web acceden al
servidor web en busca de lo que el usuario solicita y devuelve resultados en pginas web
[Wagner, 2011]. De acuerdo a Murray y Chakrabarti una URL consta de 3 partes:
1.-Una indicacin del protocolo usado, por ejemplo, como HTTP o HTTPS
2.-El nombre de dominio del sitio web.
3.- Datos opcionales como nmero de puerto de la direccin web acerca del documento
solicitado [Chakrabarti, 2003], [Murray, 2010].
Una pgina web es un escrito en lenguaje HTML [Wagner, 2011] que es difundida en la red
mediante un servidor. Puede tener en su contenido imgenes, texto, videos y muchos
componentes de diversos temas [Grigorik, 2013]. Las pginas web son intuitivas para los
usuarios [Niederst, 2007]. Suelen estar vinculadas entre s usando hipervnculos [Sostre, 2007].
Un rastreador web es un programa implementado por algoritmos de bsqueda de distintos tipos
en profundidad o en anchura [Markov, 2007], que utiliza como datos de entrada las URL de
pginas web.
Su objetivo consiste en extraer la informacin necesaria de las pginas web visitadas,
enseguida usa los vnculos dentro de ellos a buscar a otras pginas y es capaz de asignar un
orden jerrquico para abrirlas, en el menor tiempo posible [Scime, 2004]. Este proceso se repite
hasta alcanzar valores que le son implantados. Es la herramienta principal usada por los
buscadores web [Chakrabarti, 2003]. Los hipervnculos son visitados para obtener
caractersticas especficas. La composicin de un rastreador puede tener diversas reas de
aplicacin [Liu, 2007].
Los rastreadores web mayormente son usados en los motores de bsqueda que recorren miles
de pginas, verifican su contenido y en algunos casos descargan informacin en nuestro equipo
sobre un determinado tema, para despus formar grandes volmenes de informacin que sern
usados para nuevos sistemas o programas de anlisis [Chakrabarti, 2003]. Otra rea de
El agrupamiento es una tcnica que nos permite juntar ciertos documentos que presentan entre
s, una o varias caractersticas semejantes o con valores aproximados conforme a lo que dicen
Liu, Scieme [Liu, 2007], [Scieme, 2004]. A travs de este proceso, es posible predecir su
comportamiento usuario, patrones comunes, agrupar objetos similares, u organizar en
jerarquas. [Markov, 2007], poder clasificarlos, mediante los grupos que se formen. Esto es un
proceso no supervisado. Las medidas de igualdad son esenciales para muchas formas de
aprendizaje no supervisado. [Chakrabarti, 2003]. Suele ser un proceso recurrente en la minera
de datos.
rboles de clasificacin. Supone un anlisis exhaustivo de las respuestas espectrales de las
clases y del conjunto de datos disponibles, consiste en ir haciendo preguntas a cada pixel cuya
respuesta positiva o negativa conducir a otra pregunta [Chuvieco, 1995]. La minera de datos
se puede aplicar prcticamente en cualquier rea de estudio [Thompson, 2010], por ejemplo:
medicina, qumica, economa, deportes, poltica, desarrollo web, entre muchas otras
[Hernndez, 2004], [Fu, 2014].
Tiene el objetivo de ayudar a mejorar el entorno, mejor visualizacin de resultados y facilitar la
toma de decisiones para cuestiones financieras, anlisis de mercados, comercios, salud
privada, bioingeniera, telecomunicaciones, bancos, etc. [Prez, 2008].La minera web se
enfoca a procesar la informacin que se encuentra almacenada en la World Wide Web,
mediante las tcnicas ya conocidas de la minera de datos [Hernndez, 2004].
Sus principales objetivos son mejorar la calidad de prestacin de servicios de informacin,
optimizar los motores de bsqueda [Witten, 2011] y descubrir los patrones sobre tendencias de
acceso por parte del comportamiento de los usuarios en la web [Han, 2006]. Emplea otras reas
de conocimiento como el aprendizaje de mquina, tcnicas estadsticas, bases de datos,
inteligencia artificial, la recuperacin de informacin, el uso de ontologas y visualizacin para
la generacin de resultados [Liu, 2007].
Las ontologas, comnmente llamadas taxonomas o catlogos pueden ser definidos diagramas
estructurados de rboles. Poseen un alto grado de semejanza a las interfaces de consulta para
la extraccin de las caractersticas de un tema. Son empleadas para la jerarquizacin de
comentarios mltiples para generar resmenes estructurados [Liu, 2007]. Chakrabarti define
una antologa como un glosario, acerca de las entidades descritas por los componentes en el
glosario y se establecen los nexos entre las entidades. Las entidades suelen ser abreviaturas
[Chakrabarti, 2003].
El significado de cada letra puede hacer referencia a trminos conceptos y entidades con sus
respectivos vnculos [Medina, 2007]. Son difciles de utilizar debido a su alto grado para
conformar los conceptos fundamentales y establecer las relaciones [Scime, 2004]. La
recuperacin de la informacin (IR) son un conjunto de procedimientos que analizan la
informacin que se encuentra alojada en la web [Scime, 2004]. Su principal funcin es ayudar
al usuario a encontrar la informacin deseada, mediante la deteccin de palabras clave, en
grandes bancos de informacin [Liu, 2007].
en la navegacin web. Otras reas en donde se utiliza la minera web son el e-marketing y
comercio electrnico profesionales [Chakrabarti, 2003].
Un web log es un archivo generado por los servidores de manera automtica, mediante el
constante uso de navegadores y agentes [Chakrabarti, 2003], son la fuente principal de
extraccin de datos para el proceso de minera web de uso [Han, 2006] en el descubrimiento
de patrones de acceso de los usuarios. Su principal contenido son los sitios web visitados y
almacena todos los clics de los usuarios en el entorno web [Liu, 2007] [Hans, 2006]. Este archivo
de texto puede ser delimitado por comas, delimitado por el espacio, o delimitado por tabuladores
[Markov, 2007].
La web semntica es un trmino que ha surgido recientemente impulsado por el consorcio web
w3c.org. Su principal objetivo es utilizar los mtodos de representacin del conocimiento en la
Web. Hoy en da todos los sitios web estn estructurados para el entendimiento humano
[Markov, 2007]. Se basa en el uso de ontologas para representar la gestin del conocimiento
[Medina, 2007]. Scime expresa que la web semntica modificar en gran medid la
personalizacin de la web y las tareas de la minera web.
La Web Semntica une las dos reas de investigacin en rpido desarrollo de la Web semntica
y la minera Web con el propsito de mejorar la minera Web mediante la explotacin de las
nuevas estructuras semnticas en la Web [Scime, 2004]. Una peculiaridad propia es la
obtencin de palabras clave de los documentos, incluso supera la comprensin de la
informacin datos para culminar en una semntica legible por las computadoras, recordando la
estructura de los sitios en la web (semi o no estructurados) [Hans,2006].
importante para el desarrollo del SROE es el arduo trabajo que realizan los aspirantes, su
decisin sobre en qu universidad estudiar depende de los resultados de consultas tradicionales
en la web. Los resultados de una consulta tradicional a sistemas de informacin son poco
eficaces, debido a que la informacin acerca de las carreras en diferentes sitios web, se
encuentran desactualizados y disociados, predomina el poco uso del lenguaje formal [Corniel
2011].
Para la creacin del sistema SROEC fue necesario trabajar bajo el paradigma de agentes, la
metodologa GAIA y el lenguaje AUML, para la creacin de un prototipo de sistema usado para
dispersar informacin en la Web. Debido al gran parecido entre los subsistemas y los
componentes principales, se sugiri como referente para la implementacin del prototipo de
sistema recomendador asistido por una entidad multi-agente para la gestin de informacin. En
donde cada agente lleva a cabo la funcin para el cual fue designado mediante un lenguaje de
comunicacin llamado ACL [Singh, 1998].
Se implementaron tcnicas de minera de datos y agentes para llevar a cabo actividades como:
gestin de flujo de datos, direccin de redes, control de trfico areo, reingeniera de procesos,
minera de datos, gestin y recuperacin de informacin, comercio electrnico, educacin,
asistentes personales digitales (conocidas como PDAs por sus siglas en ingls), correo
electrnico, bibliotecas digitales, comando y control. Las tareas realizadas por los agentes en
este desarrollo son: la formulacin de una consulta, recopilacin de informacin para la
generacin del conocimiento, a partir de fuentes diseminadas en la web, y elementos de control
automtico para la gestin de parmetros internos que permiten el correcto funcionamiento del
sistema [Corniel, 2011].
Los datos requeridos son almacenados en 6 estructuras diferentes. La primera de ellas est
conformada por los perfiles del usuario, descrita anteriormente. Otra base de datos es de
recomendaciones (RB): guarda las recomendaciones creadas por el propio sistema luego de
procesar todos los datos ingresados por el usuario aspirante con el SROE. A menudo es usada
para filtrar mejores sugerencias de opciones de estudio. El tercer repositorio guarda slo
referencias. Las referencias son originadas por los aspirantes en relacin con los orientadores,
cuando finaliza la eleccin de carrera deseada. Se utiliza junto con las bases de dominio y de
usuario para configurar las opciones entorno a las caractersticas del aspirante.
La base de dominio guarda las caractersticas del entorno y recursos (carreras, ubicacin,
dependencia, rea de conocimiento). Existe tambin la base de conocimientos, almacena los
metadatos integrados, en formato XML. Por ltimo, se encuentra la base de los usuarios. No
solo contiene preferencias y gustos, como login y password, sino tambin las propiedades del
perfil del usuario (aptitudes, preferencias, caractersticas especficas, etc.) [Corniel, 2011].
Las conclusiones obtenidas por Corniel en este proyecto es que la aplicacin de la minera web
es muy til, debido a que nos permite generar conocimiento de las bases de datos ontolgicas.
Es muy recomendable la aplicacin de agentes inteligentes junto con la minera de datos
tradicional. La aplicacin del nuevo diseo al SROE, plantea la posibilidad de desarrollo usando
minera Web semntica, como alternativa para construir las decisiones de los aspirantes que
desean ingresar al nivel superior en Venezuela, a travs de sugerencias ms acordes a los
2002]. Otra tcnica es la que se encuentra basada en la agregacin de perfiles de usuario, con
clustering y reglas de asociacin [Mobasher, 2002].
El mtodo Caching, estudia los procesos de agrupacin para determinar las posibles pginas
que visitar el usuario y cargarlas previamente. Existe un modelo de esta magnitud ya instalada
en algunos navegadores [Lan, 2000], tambin est la opcin de encontrar el modelo con el
algoritmo de reglas de asociacin basado en la filosofa GSDF [Yang, 2003], entre otras. En el
proceso de diseo de minera web de uso, se analiza la calidad y eficacia de las pginas del
sitio. Existen diversas tcnicas para encontrar los patrones de secuencias y poderlos agrupar
para obtener una mejor estructura de un sitio web [Berendet, 2002].
Algunos procedimientos aplican clasificadores para obtener un sistema web adaptativo para
dar facilidades de navegacin a los usuarios [Fu, 2001], otras tcnicas se encargan de evaluar
la calidad de navegacin, del servicio o de la pgina mediante tcnicas de patrones de
secuencia [Spiliopoulou, 2001], y tcnicas que procesan en el backtracking de los usuarios para
describrir el tipo de comportamiento para el diseo, buscando patrones de secuencia en las
pginas [Srikant, 2001]. Finalmente, se encuentra el e-comercio, donde se aplican diversos
tipos de clustering para analizar todos los vnculos en las pginas web, basndose en lgica
difusa y algoritmos genticos [Hay, 2001].
Las consultas satisfactorias son todas aquellas que nos muestran resultados con esencia de
informacin. El comportamiento de los usuarios influye de manera crucial sobre los resultados
de las consultas que se realicen. Es por ello que las consultas satisfactorias estn clasificadas
en 2 tipos: clase A y clase B. Las consultas no satisfactorias, son todos aquellos resultados de
las bsquedas de informacin que no poseen ninguna relacin con las palabras clave del
usuario, es decir, resultados errneos. Las consultas insatisfactorias estn divididas en 4 tipos:
C, C, D Y E.
Las principales conclusiones son que el modelo propuesto por Baeza realmente resuelve el
problema planteado. La categorizacin de los tipos de consultas no satisfactorias clase D otorga
el beneficio de saber el contenido faltante mediante el anlisis de palabras clave. Un problema
detectado en la implementacin del modelo propuesto por Carmona es el enorme tamao de la
base de datos, por este motivo fue necesario reducir el nmero de instancias para ahorrar el
tiempo de procesamiento y almacenamiento. En la actualidad, es muy fcil encontrar se pueden
encontrar diversos mtodos de reduccin de instancias aplicadas a la base de datos MSNBC.
Los datos utilizados fueron elegidos mediante una seleccin de instancias aleatoria del 10%
sobre la base de datos real, obteniendo una nueva base de datos con 98982 usuarios. Las
principales conclusiones del modelo propuesto por Camona, indica un primer acercamiento al
uso de un algoritmo de descubrimiento de subgrupos con gramticas difusas para un problema
de minera de uso web. Es importante destacar que los datos de la base, nunca haban sido
procesados mediante esta tcnica. Se han reducido los datos de la base de datos original en
un 90%. Se recomienda estudiar otros mtodos de seleccin de datos para comparar los
resultados. La integracin de un mtodo de seleccin podra dar buenos resultados
.
Se sugiere aplicar una investigacin sobre mtodos de pre-procesamiento para esta base de
datos en proyectos futuros. Se pretende demostrar que es posible realizar una seleccin de
instancias sobre MSNBC sobre los datos con mayor relevancia posible y usar mtodos de
minera de datos. El descubrimiento de subgrupos y las secuencias que existen en la base de
datos son mtodos que pueden seguir aportando informacin, ms importante que la extraccin
de patrones frecuentes e indicando las secuencias que los usuarios realizan para llegar a una
clasificacin determinada [Carmona, 2008].
En 2009 Barrientos evala el desempeo de tres de los algoritmos ms representativos para la
construccin de rboles de decisin. Para poner a prueba el rendimiento en el proceso de
clasificacin de los rboles de decisin, se utilizarn dos bases de datos que contienen datos
mdicos de pacientes reales. Estos datos corresponden a la sintomatologa que un mdico
especialista considera para el diagnstico de cncer de seno. Una de las bases de datos
contiene 692 casos recopilados de las observaciones de un solo mdico y la otra, contiene 322
casos recopilados de la observacin de 19 especialistas [Barrientos, 2009].
En suma, se busca determinar la pertinencia de los rboles de decisin, es decir, si pueden ser
una herramienta de apoyo para el diagnstico mdico [Barrientos, 2009]. Los algoritmos
utilizados fueron ID3, J48 y Naive Bayes. Los resultados de Barrientos indican que las bases
de datos presentan las caractersticas adecuadas para efectuar la simulacin de un diagnstico
mdico. El margen de error sigue estando presente en baja frecuencia, es necesario realizar
ligeras modificaciones en la base de datos para corregir algunas incongruencias. El algoritmo
con mayor porcentaje de aciertos es Naive Bayes con un 85% de clasificacin correcta
[Barrientos, 2009].
Modelamiento
Es el momento de tomar la decisin de los tipos de modelado que se van a utilizar [Girons,
2012]. La determinacin del modelado ms adecuado se basar en las siguientes
consideraciones: Los tipos de datos disponibles para la minera. Sus objetivos de minera de
datos. Requisitos especficos de modelado [IBM, 2012]. Despus de concluir estas tareas
genricas, se procede a la generacin y evaluacin del modelo. Los parmetros utilizados en la
generacin del modelo, dependen de las caractersticas de los datos y de las caractersticas de
precisin que se quieran lograr con el modelo [Gallardo, 2009].
Evaluacin
Este paso requiere una clara comprensin de los objetivos comerciales, por lo que debe estar
seguro de incluir factores de toma de decisiones en la evaluacin del proyecto [IBM, 2012].
Argumentaremos la decisin de aprobacin o no de los modelos, haciendo referencia a los
resultados y a los criterios de xito establecidos [Girons, 2012]. Una vez realizada esta
evaluacin, se debe decidir si los objetivos han sido cumplidos y de ser as se puede avanzar a
la fase de implantacin, de lo contrario se tendra que identificar cualquier factor que se haya
podido pasar por alto y hacer una revisin del proceso [Galn, 2015].
Implantacin
Para poder implantar este proyecto en el negocio real sera necesario en primer lugar tener
acceso a la base de datos real del negocio. [Girons, 2012]. El volumen de estos datos en
movimiento es grande motivo por el cual la extraccin de las muestras debe ser realizada
cuidadosamente y realizando siempre backups de los datos explotados en cada proceso [Galn,
2015]. Dependiendo del plan de implementacin, este informe puede ser slo un resumen de
los puntos importantes del proyecto y la experiencia lograda o puede ser una presentacin final
que incluya y explique los resultados logrados con el proyecto [Gallardo, 2009].
El aprendizaje automtico consta de un conjunto de tcnicas capaces de ayudar a resolver
problemas de modelizacin en distintas reas como ser, la biologa, economa, informtica,
meteorologa, telecomunicaciones, etc. [Roche, 2009]. Adems de predecir una determinada
variable, nos puede brindar una mejor comprensin del fenmeno de estudio desde el punto de
vista de la causalidad, por ejemplo, estableciendo relaciones y jerarquas entre las variables
involucradas. Otra ventaja es que pueden manejarse grandes bases de datos.
Weka est conformado por conjunto de bibliotecas JAVA para la extraccin de conocimiento
desde Bases de Datos [Camanes, 2008]. Los algoritmos que proporciona la herramienta pueden
ser aplicados directamente a un conjunto de datos o llamados directamente desde cdigo Java.
Contiene instrumentos de pre-procesamiento, clasificacin, regresin, clustering, reglas de
asociacin y visualizacin de datos [Callejas, 2010].
En Weka, deberemos decidir qu datos son relevantes y cules no, que atributos influyen
realmente en el precio final del vehculo y cuales simplemente resulta un estorbo para el clculo
[Camanes, 2008]. Para cumplir con este propsito, despus de haber filtrado bien los datos
fuente, procederemos a aplicar diferentes mtodos y tcnicas que Weka nos proporciona. En
sus libreras, Weka tiene implementados los procesos ms comunes y tiles de minera de
datos. Se encuentran algunas implementaciones de varios clasificadores como: ID3, C4.5, CN2,
ADTree, Decisin Table, Perceptrn Multicapa, Bayes Ingenuo y otros ms [Moreno,
2009].Weka es un programa ideal para llevar a cabo las tareas de Minera de Datos (prediccin,
identificacin, agrupamiento, asociacin y clasificacin). [Callejas, 2010].
rboles de decisin.
Los denominados rboles de decisin, constituyen uno de los mtodos del aprendizaje inductivo
supervisado ms utilizados [Moreno, 2009]. Una de sus principales virtudes, es la sencillez de
los modelos obtenidos. Dado un conjunto de ejemplos de entrenamiento, se construye una
particin del espacio de entrada y se asigna a cada regin un determinado modelo [Roche,
2009]. Para construir el rbol maximal, comenzamos con toda la muestra en el nodo raz y
vamos obteniendo los nodos interiores por particiones sucesivas, mediante una cierta pregunta
o regla que involucra a uno de los p atributos [Berzal, 2002]. Se trata de rboles binarios, por lo
cual, en funcin de la respuesta, cada nodo se parte en dos nodos hijos. Por convencin,
asignamos el nodo izquierdo al caso afirmativo y el derecho, al contrario [Roche, 2002].
ID3 es un algoritmo greedy de Quinlan que prefiere rboles sencillos frente a rboles ms
complejos ya que, en principio, aquellos que tienen sus caminos ms cortos hasta las hojas son
ms tiles a la hora de clasificar. En cada momento se ramifica por el atributo de menor
importancia. Este proceso se repite recursivamente sobre los casos de entrenamiento
correspondientes [Berzal, 2002]. En este algoritmo se parte de un rbol vaci y se va
construyendo de manera recursiva, tomando en cada nodo aquel atributo que tiene el mayor
grado de informacin, haciendo que sea menos la cantidad de informacin que falta por cubrir
[Moreno, 2009].
Una vez generado el rbol, se deben encontrar las reglas de decisin, en el caso del ID3 se
recorre en pre orden y cada vez que llega a una hoja, escribe la regla que tiene como
consecuente el valor de la misma, y como antecedente, la conjuncin de las pruebas de valor,
especficos en todos los nodos recorridos desde la raz hasta la hoja [Roche, 2002].
Bsicamente este es el mtodo que se sigue utilizando el algoritmo ID3 [Berzal, 2002], se
realizaron mejoras a este algoritmo surgiendo el C4.5, quien, se distingue por manejar valores,
tanto discretos como continuos, tambin permite trabajar con valores que se desconocen
[Buendia, 2014].