Metodología KDD

EDUARDO DANIEL MEZA LEDEZMA
JESUS EDUARDO PIRELA SILVA

ANGEL DANIEL LOPE SAN MARTIN
CARLOS FLORES GARCIA
Metodología KDD.
La metodología Descubrimiento de Conocimiento en Base de Datos (KDD) es
un proceso metodológico para encontrar un “modelo” válido, útil y entendible
que describa patrones de acuerdo a la información, y como modelo
entendemos que es la representación que intenta explicar ese patrón en los
datos.
Las fases que sigue este proceso son las siguientes:

1. Abstracción del escenario.
2. Selección de datos.
3. Limpieza y preprocesamiento.
4. Transformación de los datos.
5. Elección de tareas de Minería de Datos
6. Elección del algoritmo.
7. Aplicación del algoritmo.
8. Evaluación e interpretación.
9. Entendimiento del conocimiento.
1.- Abstracción del escenario: Entender la problemática a la que se está

enfrentando y tener contexto para proponer soluciones viables.
Abstracción del escenario.
La solución viable es la siguiente:
Implementar un algoritmo de minería de datos cuyo objetivo sea filtrar las
películas respecto a los gustos del usuario, al usuario se le pide que seleccione
ciertas películas que ya haya visto y sean de su agrado y en base a esto el
algoritmo trabajara, buscara en la base de datos las películas que coincidan
con los géneros de las películas que el usuario selecciono.
2.- Selección de los datos.

Los datos seleccionados y mas importantes a la hora de hacer el cálculo del
algoritmo serán los siguientes:
 Titulo
 Genero (más importante)
 Actores
 Año de lanzamiento
 La columna de gusto (que es la que el algoritmo tiene que generar, es
true si la recomienda y false si no)
3.- Limpieza y preprocesamiento.

En el caso de la limpieza de datos se tomara en cuenta los datos duplicados al
momento de que el algoritmo haga su trabajo para arrojar los resultados de la
minería de datos, esto para que cuando el algoritmo arroje los resultados al
momento de mostrar las recomendaciones, no muestre como recomendaciones
películas que el usuario puso que le gustaron (se entiende que si le gustaron es
porque ya las vio) y en la programación esto se vera reflejado como
simplemente sacando los registros de las películas que el usuario haya
seleccionado
4.- Transformación de los datos.
En este caso no es necesario hacer una transformación de los datos ya que los
datos pueden pasar por el proceso del algoritmo, así como están y no tenemos
números mas que el año de lanzamiento, pero este campo pasa sin problemas
entonces no tenemos que cambiarlo a categórico.
5.- Selección de la apropiada tarea de Minería de Datos.

Según los análisis hechos previamente con los paradigmas de minería de
datos, el apropiado para el proyecto seria de clasificación, ya que la
clasificación se ordena mediante clases o categorías y la clasificación encaja
perfecto, también hay que tener en cuenta que la respuesta final cuando el
algoritmo haga su trabajo se encuentra directamente en el mismo entorno que
todos los datos, simplemente es como una filtración finita con todos los
resultados posibles.
6.- Posteriormente se procede a seleccionar la técnica o algoritmo, o
incluso más de uno para la búsqueda del patrón y obtener conocimiento.
En principio para las pruebas y la documentación se hará uso del algoritmo a

priori, el algoritmo a priori se basa en la clasificación, concretamente en grupos
de “productos” o transacciones entonces enfocado al proyecto una transacción
se considera a una entrada del usuario a las películas que les gustaron, en
principio para que el algoritmo trabaje de manera correcta el usuario tendrá que
seleccionar unas 5 películas entre todo el repertorio, esto se traduce a 5
transacciones en donde el campo mas relevante es el genero
7.- Aplicación del algoritmo.

La aplicación del algoritmo en weka arrojo el siguiente resultado:
Con un soporte de 0.1 y una confidencia de 0.9 estos son los resultados
Soporte: El soporte del item o itemset X es el número de transacciones que
contienen X dividido entre el total de transacciones.
Confianza: La confianza de una regla “Si X entonces Y” se define acorde a la
ecuación
donde unión(XY) es el itemset que contienen todos los items de X y de Y. La

confianza se interpreta como la probabilidad P(Y|X), es decir, la probabilidad de
que una transacción que contiene los items de X, también contenga los items
de Y.
8.- Evaluación.
Con los resultados obtenidos se puede observar que se arrojan 4 reglas y se
describen a continuación:
 Si en sus selecciones, hay mas de 3 películas en donde la categoría
principal es drama, se recomendarán películas de drama
 Si en sus selecciones hay 2 películas donde la categoría principal es
comedia, no se recomendarán películas de comedia
 Si en sus selecciones hay 2 películas en donde la categoría principal son
superhéroes, se recomendarán películas de superhéroes
 Si en sus selecciones hay 2 películas donde la categoría principal es
terror, no se recomendarán películas de terror
Estas reglas no son del todo precisas y hay que agregar mas datos para que la
precisión aumente.
9.- Aplicación: Si todos los pasos se siguen correctamente y los resultados de
la evaluación se satisfacen, la última etapa es simplemente aplicar el
conocimiento encontrado al contexto y comenzar a resolver sus problemáticas.
Cuando el algoritmo funcione de manera correcta y arroje los resultados
esperados y precisos, se dará por solucionada la problemática, la cual es evitar
que los usuarios tarden tanto en decidir algo para ver, ya que actualmente hay
mucho contenido y muchas veces hay cierta indecisión, por ello la aplicación
del algoritmo ya que al tomar como base películas que la persona ya ha visto,
las recomendaciones serán directamente de sus gustos y se espera que las
recomendaciones sean del agrado del usuario.

Metodología KDD

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Metodología KDD

Cargado por

Copyright:

Formatos disponibles

EDUARDO DANIEL MEZA LEDEZMA

JESUS EDUARDO PIRELA SILVA

Las fases que sigue este proceso son las siguientes:

1.- Abstracción del escenario: Entender la problemática a la que se está

2.- Selección de los datos.

3.- Limpieza y preprocesamiento.

5.- Selección de la apropiada tarea de Minería de Datos.

En principio para las pruebas y la documentación se hará uso del algoritmo a

7.- Aplicación del algoritmo.

donde unión(XY) es el itemset que contienen todos los items de X y de Y. La

También podría gustarte