Está en la página 1de 4

UNIVERSIDAD NACIONAL DE LOJA

Tema: Minera de Datos


Integrantes:
Diego Cale
Vernica Chimbo
Jinsop Campos
Fecha: 19/07/2015
Mdulo: 10mo A

DBLEARN
1. Introduccin.
La minera de datos puede definirse inicialmente como un proceso de
descubrimiento de nuevas y significativas relaciones, patrones y tendencias al
examinar grandes cantidades de datos.
La disponibilidad de grandes volmenes de informacin y el uso generalizado de
herramientas informticas ha transformado el anlisis de datos orientndolos hacia
determinadas tcnicas especializadas englobadas bajo el nombre de minera de
datos o Data Mining.
Las tcnicas de minera de datos persiguen el descubrimiento automtico del
conocimiento contenido en la informacin almacenado de modo ordenado en
grandes bases de datos. Estas tcnicas tienen como objetivo descubrir patrones,
perfiles y tendencias a travs del anlisis de los datos utilizando tecnologas de
reconocimiento de patrones, redes neuronales, lgica difusa, algoritmos genticos y
otras tcnicas avanzadas de anlisis de datos.
2. Concepto.
El sistema DBLearn fue diseado por Cai, Han y Cercone[2] y utiliza conocimientos
del dominio para generar descripciones para subconjuntos predefinidos de una base
de datos relacional. Las caractersticas especiales de este sistema son su estrategia
de bsqueda de abajo hacia arriba (bottom up); el uso de conocimientos del dominio
como jerarquas de valores de atributos y el uso del lgebra relacional. El conjunto
de entrenamiento es una tabla de datos relacional con n-tuplas. El sistema DBLearn
es relativamente simple, ya que utiliza solo dos operaciones de generalizacin para
construir los descriptores. La generalizacin est orientada a los atributos, lo cual
limita el conjunto de descriptores que pueden ser construidos. La performance del
sistema es buena, y la complejidad en el tiempo est en el orden de los O(N logN),
siendo N la cantidad inicial de tuplas.
3. Ventajas y Desventajas.
DBLearn utiliza SQL en la tarea inicial para extraer los datos relevantes de la base
de datos. En este sentido est dbilmente acoplado a un manejador de bases de
datos relacional. Una vez se ha encontrado el conjunto de datos objetivo, se lleva a
cabo un proceso de generalizacin orientado por atributos con base en una jerarqua

de conceptos de cada atributo. Finalmente, se extraen las reglas a partir de la


generalizacin.
Tienen un conjunto predefinido de algoritmos para realizar el proceso de
descubrimiento, siendo esto una desventaja, ya que no existe un mtodo o un
conjunto de mtodos que sirvan para todas las tareas, por lo que a veces es
necesario probar para una determinada tarea, varios mtodos. Por ste motivo, una
de las lneas de investigacin actual, consiste en crear Sistemas Extensibles. En
donde Extensible significa que se puedan incluir nuevas herramientas sin exceso de
programacin.
4. Un lenguaje de aprendizaje de base de datos
La generalizacin se puede realizar en muchas direcciones diferentes [5].
Aprendizaje sin restricciones puede resultar en un gran conjunto de reglas
aprendidas. Por otra parte, diferentes reglas se pueden extraer de la misma serie de
datos utilizando diferentes conocimientos de fondo (jerarquas conceptuales). Con
el fin de limitar un proceso de generalizacin y extraer reglas interesantes de bases
de datos, el aprendizaje debe ser dirigida por las solicitudes especficas de
aprendizaje y conocimientos de fondo.
Una solicitud de aprendizaje de base de datos debe consistir en:
(i)
una consulta de base de datos que extrae el conjunto relevante de datos,
(ii) el tipo de reglas que hay que aprender
(iii) la especificacin de la clase de destino, y posiblemente, las clases
contrastantes dependiendo las reglas que hay que aprender
(iv) las jerarquas de conceptos preferidos, y
(v) la forma preferida para expresar los resultados de aprendizaje.
El lenguaje de DBLEARN puede ser visto como una extensin del lenguaje SQL
relacional para el descubrimiento de conocimiento en bases de datos.
Ejemplo 1 . Nuestro objetivo es aprender una regla de la discriminacin que
distingue Ph.D. estudiantes de EM estudiantes de ciencias basadas en el nivel de
los cursos de ciencias en la que asisten. El aprendizaje implica tanto las relaciones
del estudiante y Curso. La solicitud se especifica a;

Tabla 1. Relacin de un estudiante con una base de datos de una universidad.

LENGUAJE DBLEARN.

Fig 1. Lenguaje Dblearn

en relacin Estudiante S , Curso C


aprender regla discriminacin por sstatus = " Ph.D. "
en contraste con ssrarus = " MS ".
donde S.Major = "ciencia" y C.Dept = "ciencia"
y c.TE = SName
en relevancia para NivelC
Observe que una consulta de base de datos est incrustado en la solicitud de
aprendizaje, y "ciencia" es una pieza de datos generalizado que se puede encontrar
en la tabla de concepto de jerarqua.
Ejemplo 2.
En la Tabla 1 se observa la relacin
universidad

estudiante en la base de datos de una

Supongamos que la tarea de aprendizaje es aprender reglas caractersticas para


estudiantes de posgrado relacionados con los atributos: Name, Major, Birth_Place
and GPA, utilizando el presente concepto de jerarqua predeterminado en la Fig.1 y
el valor umbral predeterminado de 3.
La tarea de aprendizaje quedara representada en DBLEARN como sigue:
in relation Student
learn characteristic rule for Status = graduate
in relevance to Name, Major, Birth_Place, GPA
5. Los datos relevantes para el proceso de descubrimiento
Una base de datos por lo general almacena una gran cantidad de datos, de que slo
una porcin puede ser relevante para un aprendizaje especfica tarea. Por ejemplo,
para caracterizar las caractersticas de estudiantes de posgrado en ciencias, slo
los datos relevantes para egresados en ciencias son apropiados en el proceso de
aprendizaje. Los datos pertinentes pueden extenderse durante varias relaciones. lA
consulta puede ser utilizado para recoger los datos relevantes para la tarea de la
base de datos.
6. Aplicaciones que implementan esta herramienta.
Para el soporte a la toma de decisiones se han desarrollado aplicaciones para el
anlisis de la canasta de mercados, en donde el proceso consiste en examinar las
ventas para identificar afinidades entre productos y los servicios de compra ofrecidos
a un consumidor. Despus del anlisis se puede examinar en cuanto incrementaron
las ventas de un determinado producto, dado que las ventas de otros disminuyeron.

Los resultados obtenidos en el anlisis de mercados, se pueden utilizar en la


planeacin y organizacin del negocio, en operaciones de manufactura y
distribucin, lanzamiento de promociones, entre otros.
En el rea bancaria y de tarjetas de crdito:
Deteccin de fraudes: Encontrar los patrones y tendencias de compra para
detectar comportamientos fraudulentos en el momento de compras con tarjetas
de crdito.
Anlisis de morosidad o incumplimiento de pagos en los crditos:
- Identificar los patrones especficos para predecir cundo y por qu los
clientes no cumplen sus pagos.
Segmentacin del mercado: Segmentar correctamente a los clientes en grupos
con motivos promocionales o de evaluacin.
- En el rea de telecomunicaciones:
Control de fuga de clientes: Predecir que clientes probablemente cambien a otro
proveedor en el futuro, basado en el uso y el perfil de clientes que ya se han
cambiado. De esta manera se pueden realizar esfuerzos de mercadeo para
mantener estos clientes.
Control de redes: Identificar patrones de usos que permitan predecir usos
futuros y determinen configuraciones ptimas de las redes.
Deteccin de fraudes: Descubre los patrones asociados con comportamientos
fraudulentos pasados para as identificar las razones de los fraudes presentes y
futuros.
Ventas cruzadas: Predecir qu clientes se pueden suscribir a productos y
servicios (internet, video, larga distancia) basados en el uso y perfiles de clientes
que ya utilizan estos servicios.
7. Bibliografa.
1. P. Agre and D. Chapman. PENGI: An implementation of the theory of activity. In
Proceedings of the Sixth National Conference on Artificial Intelligence, pages
268 272, 1987. [ACF 94a] R. Agrawal, M. Carey, C. Faloutson, S. Ghosh, A.
Houtsma, T. Imielinski, B. Iyer, A. Mahboob, H. Miranda, R. Srikant, and A.
Swami. Quest: A project on database mining. SIGMOD Record (ACM Special
Interest Group on Management of Data), 23(2):514514, June 1994.
2. Y. Cai, N. Cercone and J. Han, Attribute-Oriented Induction in Relational
Databases, in G. Piatetsky- Shapiro and W. J. Frawley (eds.), Knowledge
Discovery in Databases, AAAIIMIT Press, 1991, 213-228.
3. K. C. C. Chan and A. K. C. Wong, A Statistical Technique for Extracting
Classificatory Knowledge from Databases, in G. Piatetsky-Shapiro and W. J.
Frawley (eds.), Knowledge Discovery in Databases, AAAIIMIT Press, 1991,107124.