Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Mineria de Datos
Mineria de Datos
CHIMBORAZO
FACULTAD DE INGENIERÍA
Minería de Datos
Realizado por:
THALIA VELOZ
DANNY CÁCERES
QUINTO SEMESTRE
Periodo Académico
Abril – Agosto 2016
ÍNDICE
1. INTRODUCCIÓN........................................................................................................3
2. OBJETIVOS.................................................................................................................4
a. General.........................................................................................................................4
b. Específicos....................................................................................................................4
3. MARCO TEÓRICO.....................................................................................................4
3.1. Minería de Datos.......................................................................................................4
3.2. Pasos para instalar y utilizar WEKA........................................................................4
4. CONCLUSIONES........................................................................................................4
5. BIBLIOGRAFÍA..........................................................................................................5
2
1. INTRODUCCIÓN
Utiliza el análisis matemático para deducir los patrones y tendencias que existen en
los datos. Normalmente, estos patrones no se pueden detectar mediante la
exploración tradicional de los datos porque las relaciones son demasiado complejas
o porque hay demasiado datos.
3
2. OBJETIVOS
a. General
Investigar acerca de la minería de datos con el fin de analizar datos del
datawarehouse ventas mediante la instalación de la herramienta WEKA a
través del Árbol de Decisiones.
b. Específicos
3. MARCO TEÓRICO
Vamos a tratar de explicar para qué sirve la minería de datos dando ejemplos de en qué
situaciones se aplica.
Para decidir si concede el crédito o no: por ejemplo, estudiando y tratando los datos
puede llegar a la conclusión de que los varones menores de 20 años que están casados
4
estadísticamente tienen un alto porcentaje de impagos. Si el cliente corresponde a ese
perfil la decisión puede ser denegar el crédito.
a) Predictiva (por ejemplo caso del banco): sirve para predecir cosas.
En base a una regresión: por ejemplo calcular el tiempo previsible que se empleará en
corregir los errores de un desarrollo de software.
b) Descriptiva:
Reglas de asociación: conocer cómo se relacionan los datos o campos. Por ejemplo
conocer en el hipermercado que un cliente que compra leche muy probablemente
comprará también pan.
Secuenciación: intentar predecir el valor de una variable en función del tiempo. Por
ejemplo la demanda de energía eléctrica.
La minería de datos tiene muchos campos de aplicación pues puede ser útil en
prácticamente todas las facetas de la actividad humana. Vamos a indicar algunas
cuestiones relevantes sobre la posible aplicación de la minería de datos:
5
La minería de datos tiene utilidad empresarial: las empresas pueden optimizar procesos y
mejorar sus productos y ventas utilizando minería de datos.
La minería de datos es una disciplina que se está desarrollando cada vez con mayores
capacidades gracias al avance en tecnología y a la cada vez más alta capacidad de
computación de los ordenadores. Constituye un campo amplio de investigación en el que
cada vez trabajan más investigadores y equipos de investigación.
Un trabajo de minería de datos podríamos decir que típicamente consta de las siguientes
partes:
2. Entendimiento de los datos: hay que saber qué significan los datos, si son continuos
o discretos, qué tipo de valores toman, qué utilidad futura pueden tener y saber si están
bien capturados o no.
4. Modelamiento: una vez se tienen los datos organizados hay que definir los algoritmos
que se van a utilizar para tratar los datos. Una vez tratados, los datos nos devolverán
información útil.
6
¿QUÉ ES UN MODELO DE MINERÍA DE DATOS?
La minería de datos se aplica a todo tipo de datos imaginable: desde datos numéricos a
imágenes de satélite, mamografías, música, archivos de ordenador, imágenes, etc.
Podemos decir que “cualquier cosa” constituye un dato. Por tanto la minería de datos
tiene infinitas aplicaciones: comerciales, marketing, industria, internet, agricultura, etc.
Con miles de datos, necesitamos limpiarlos (eliminar fragmentos inútiles, repetidos, etc.)
y organizarlos, y una vez realizado este proceso decimos que tenemos “Información”.
La información hay que tratarla con un modelo para obtener resultados o conclusiones a
los que llamamos “Conocimiento”. Es decir, el conocimiento es información analizada.
Para este análisis hay diferentes modelos de minería de datos. Digamos que un modelo
es una forma de aplicar un tratamiento a una cantidad masiva de datos para extraer
información de ellos. Podemos citar por ejemplo dos de ellos:
No hay un modelo óptimo de tratamiento de datos. Por tanto, el modelo a elegir depende
de las circunstancias y necesidades. Factores a tener en cuenta son la efectividad del
modelo para dar resultados de calidad, y el si resulta necesario o no que sea
comprensible para el ser humano.
En el caso de escoger una red neuronal, las operaciones que se aplican a los datos hay
que determinarlas. ¿Cómo se hace esto? Digamos que “entrenando” a la red neuronal (a
esto se le llama machine learning o aprendizaje automático) a través de algoritmos de
7
optimización de forma que dados unos datos de entrada, vamos informando al sistema de
si el resultado es más o menos bueno. En sucesivas iteraciones, el sistema puede alcanzar
un grado de perfeccionamiento adecuado para su explotación comercial.
Las bases de datos han sido sin duda una herramienta fundamental que ha permitido la
evolución de la ciencia de la minería de datos. De hecho, a veces se usa el término
“KDD (Knowledge Discovery in Databases o Descubrimiento de Conocimiento en
Bases de Datos) como sinónimo de minería de datos.
Las bases de datos puede decirse que son una de las tres patas en que se apoya la minería
de datos, y que son:
1. Bases de datos
2. Estadística y
3. Algoritmia
Instalamos WEKA
Antes de iniciar weka pegamos un archivo llamado databaseUtils.props este nos
sirve para configurar los tipos de datos de postgreSQL con Weka.
1. INSTALAMOS WEKA
2. Antes de iniciar Weka pegamos un archivo llamado databaseUtils. props en el
directorio de instalación de Weka este nos sirve para configurar los tipos de
datos de postgreSQL con Weka no debemos olvidar que debemos modificar este
archivo la conexión a nuestra base de datos que necesitamos los dejare marcado
con celeste la parte a modificar.
8
3. Añadimos al directorio de instalación de Weka el driver de la base de datos a
conectar en este casa PostgreSQL
INICIAMOS WEKA
2. Damos clik en Explorer que es la parte que nos interesa para aplicar la minería
de datos y nos saldrá la siguiente pantalla.
9
3. Damos click en openDB y es ahí en donde vamos a ingresar el usuario y
contraseña de la base de datos a la cual nos vamos a conectar nos saldrá la
siguiente pantalla.
10
5. Ahora vamos a ingresar la consulta que realizamos en nuestra base de datos
con los campos que necesitamos para aplicar la minería de datos y
presionamos en ejecutar.
11
8. Seleccionamos choose y escogemos en la pestañas arboles el árbol de
decisión que nosotros consideremos en este caso j48.
10. Ahora podemos visualizar nuestro árbol de decisión (de acuerdo al nombre
del producto (campo nombre producto, campo cantidad de productos
vendidos en detalle factura, campo precio unitario en detalle factura), que
productos son los más posibles a venderse.)
12
ÁRBOL DE DESICIÓN
13
4. CONCLUSIONES
Puedo concluir diciendo que el archivo pg_hba.conf es un fichero que se utiliza para
definir los diferentes tipos de accesos que un usuario tiene en el clúster.
5. BIBLIOGRAFÍA
14