Está en la página 1de 14

UNIVERSIDAD NACIONAL DE

CHIMBORAZO

FACULTAD DE INGENIERÍA

ESCUELA DE SISTEMAS Y COMPUTACIÓN

Minería de Datos

Realizado por:

THALIA VELOZ

DANNY CÁCERES

QUINTO SEMESTRE

Periodo Académico
Abril – Agosto 2016
ÍNDICE

1. INTRODUCCIÓN........................................................................................................3
2. OBJETIVOS.................................................................................................................4
a. General.........................................................................................................................4
b. Específicos....................................................................................................................4
3. MARCO TEÓRICO.....................................................................................................4
3.1. Minería de Datos.......................................................................................................4
3.2. Pasos para instalar y utilizar WEKA........................................................................4
4. CONCLUSIONES........................................................................................................4
5. BIBLIOGRAFÍA..........................................................................................................5

2
1. INTRODUCCIÓN

En el presente informe se da a conocer lo más relevante acerca de la minería de


datos ya que es el proceso de detectar la información procesable de los conjuntos
grandes de datos.

Utiliza el análisis matemático para deducir los patrones y tendencias que existen en
los datos. Normalmente, estos patrones no se pueden detectar mediante la
exploración tradicional de los datos porque las relaciones son demasiado complejas
o porque hay demasiado datos.

Analizaremos los datos mediante la herramienta WEKA a través del Árbol de


Decisiones.

3
2. OBJETIVOS

a. General
Investigar acerca de la minería de datos con el fin de analizar datos del
datawarehouse ventas mediante la instalación de la herramienta WEKA a
través del Árbol de Decisiones.

b. Específicos

 Consultar conceptos, funcionalidad, campos de aplicación, metologías y


árbol de deciones acerca de la minería de datos.
 Mencionar los pasos para la instalación y utilización de la herramienta
WEKA.

3. MARCO TEÓRICO

3.1. Minería de Datos

¿QUÉ ES? ¿PARA QUÉ SIRVE?

Es el estudio y tratamiento de datos masivos para extraer conclusiones e información


relevante de ellos.

Vamos a tratar de explicar para qué sirve la minería de datos dando ejemplos de en qué
situaciones se aplica.

 Supongamos un banco que otorga créditos y va a estudiar la concesión de un crédito. El


banco tiene una serie histórica de datos de clientes y concesión de créditos con m x n
casillas. Por ejemplo los datos disponibles pueden ser: Cliente / Edad / Estado civil /
Trabaja / Nómina / Casa / Hipoteca / ¿Pagó?. Cada una de estas columnas se llama
atributo. El campo ¿Pagó? es binario (solo puede tomar como valores sí o no) y es el
atributo clave que tiene el banco para estudiar la concesión del crédito. No siempre
existe un atributo clave.

¿Para qué le sirve la minería de datos al banco?

Para decidir si concede el crédito o no: por ejemplo, estudiando y tratando los datos
puede llegar a la conclusión de que los varones menores de 20 años que están casados

4
estadísticamente tienen un alto porcentaje de impagos. Si el cliente corresponde a ese
perfil la decisión puede ser denegar el crédito.

 Supongamos una empresa de desarrollo de software. Un equipo de ingenieros puede


desarrollar aplicaciones informáticas y por cada una de ellas se recopilan distintos datos
relacionados con la métrica del software (por ejemplo Horas de trabajo / Líneas de
código / Número de errores por cada 1000 líneas de código, etc.).

¿Para qué le serviría la minería de datos a la empresa de desarrollo de software?

Para saber el número de errores que previsiblemente se va a encontrar en un proyecto y


el tiempo que puede necesitar para corregirlos, antes de que el proyecto en sí se haya
desarrollado completamente.

La funcionalidad de la minería de datos puede ser:

a) Predictiva (por ejemplo caso del banco): sirve para predecir cosas.

En base a una clasificación: por ejemplo si el cliente pagará o no pagará, o el tipo de


dolencia que puede tener un paciente.

En base a una regresión: por ejemplo calcular el tiempo previsible que se empleará en
corregir los errores de un desarrollo de software.

b) Descriptiva:

Agrupamiento (clustering): clasificar individuos en grupos en base a sus


características. Por ejemplo, clasificar pacientes del hospital en base a los datos de sus
analíticas.

Reglas de asociación: conocer cómo se relacionan los datos o campos. Por ejemplo
conocer en el hipermercado que un cliente que compra leche muy probablemente
comprará también pan.

Secuenciación: intentar predecir el valor de una variable en función del tiempo. Por
ejemplo la demanda de energía eléctrica.

CAMPOS DE APLICACIÓN DE LA MINERÍA DE DATOS

La minería de datos tiene muchos campos de aplicación pues puede ser útil en
prácticamente todas las facetas de la actividad humana. Vamos a indicar algunas
cuestiones relevantes sobre la posible aplicación de la minería de datos:

5
 La minería de datos tiene utilidad empresarial: las empresas pueden optimizar procesos y
mejorar sus productos y ventas utilizando minería de datos.

 Existen pocos especialistas o empresas especializadas en minería de datos. Teniendo en


cuenta su importancia, es un campo de trabajo para emprendedores.

 La minería de datos es una disciplina que se está desarrollando cada vez con mayores
capacidades gracias al avance en tecnología y a la cada vez más alta capacidad de
computación de los ordenadores. Constituye un campo amplio de investigación en el que
cada vez trabajan más investigadores y equipos de investigación.

METODOLOGÍA DE LA MINERÍA DE DATOS

Un trabajo de minería de datos podríamos decir que típicamente consta de las siguientes
partes:

1. Entendimiento del problema: se trata de hablar con el cliente, conocer sus


necesidades, conocer su negocio o actividad, conocer qué datos relevantes tiene
disponibles y cuáles serían necesarios pero no están disponibles, etc.

2. Entendimiento de los datos: hay que saber qué significan los datos, si son continuos
o discretos, qué tipo de valores toman, qué utilidad futura pueden tener y saber si están
bien capturados o no.

3. Preparación de datos: se trata de reflexionar sobre cómo guardar los datos.


Típicamente hablaremos de tablas con filas y columnas, pero hay que ver cómo se
organizan las tablas, cómo se interrelacionan entre ellas, etc. En definitiva organizar los
datos para poder sacarles partido.

4. Modelamiento: una vez se tienen los datos organizados hay que definir los algoritmos
que se van a utilizar para tratar los datos. Una vez tratados, los datos nos devolverán
información útil.

5. Evaluación: los resultados obtenidos deben de ser sometidos a comprobación,


verificar que están libres de errores, ratificar que son útiles para los objetivos
perseguidos, etc.

6. Despliegue funcional-comercial: una vez se tiene automatizada la captura y


tratamiento de datos para obtener unos resultados, se desarrollan herramientas,
normalmente en forma de aplicaciones informáticas que permiten generar alertas,
informes, estadísticas, etc. que tienen una utilidad directa para la toma de decisiones y
sistema de información del cliente.

6
¿QUÉ ES UN MODELO DE MINERÍA DE DATOS?

La minería de datos se aplica a todo tipo de datos imaginable: desde datos numéricos a
imágenes de satélite, mamografías, música, archivos de ordenador, imágenes, etc.
Podemos decir que “cualquier cosa” constituye un dato. Por tanto la minería de datos
tiene infinitas aplicaciones: comerciales, marketing, industria, internet, agricultura, etc.

Con miles de datos, necesitamos limpiarlos (eliminar fragmentos inútiles, repetidos, etc.)
y organizarlos, y una vez realizado este proceso decimos que tenemos “Información”.

La información hay que tratarla con un modelo para obtener resultados o conclusiones a
los que llamamos “Conocimiento”. Es decir, el conocimiento es información analizada.
Para este análisis hay diferentes modelos de minería de datos. Digamos que un modelo
es una forma de aplicar un tratamiento a una cantidad masiva de datos para extraer
información de ellos. Podemos citar por ejemplo dos de ellos:

Modelo de árbol de decisión: se trata de la aplicación del conocido procedimiento del


“divide y vencerás”. Sobre los datos, se van realizando sucesivas bifurcaciones hasta
llegar a un resultado. Sigue unas pautas lógicas, por lo que se dice que es una “caja
blanca”, o proceso comprensible por el ser humano. A modo de anécdota, podemos citar
un juego web denominado “Akinator el genio adivino”. El juego consiste en que
pensamos en un personaje y el sistema nos va haciendo una serie de preguntas: por
ejemplo, si es hombre o mujer. Con esta pregunta, se descartan aproximadamente el 50
% de los items en la base de datos. A continuación nos puede preguntar si es un
personaje vivo, con lo cual descarta otro porcentaje significativo. En base a
bifurcaciones, se llega finalmente al personaje en la base de datos que corresponde con el
que habíamos pensado y se produce la “adivinación”.

¿CÓMO ESCOGER UN MODELO DE MINERÍA DE DATOS?

No hay un modelo óptimo de tratamiento de datos. Por tanto, el modelo a elegir depende
de las circunstancias y necesidades. Factores a tener en cuenta son la efectividad del
modelo para dar resultados de calidad, y el si resulta necesario o no que sea
comprensible para el ser humano.

En el caso de escoger una red neuronal, las operaciones que se aplican a los datos hay
que determinarlas. ¿Cómo se hace esto? Digamos que “entrenando” a la red neuronal (a
esto se le llama machine learning o aprendizaje automático) a través de algoritmos de

7
optimización de forma que dados unos datos de entrada, vamos informando al sistema de
si el resultado es más o menos bueno. En sucesivas iteraciones, el sistema puede alcanzar
un grado de perfeccionamiento adecuado para su explotación comercial.

LAS BASES DE DATOS Y LA MINERÍA DE DATOS

Las bases de datos han sido sin duda una herramienta fundamental que ha permitido la
evolución de la ciencia de la minería de datos. De hecho, a veces se usa el término
“KDD (Knowledge Discovery in Databases o Descubrimiento de Conocimiento en
Bases de Datos) como sinónimo de minería de datos.

Las bases de datos puede decirse que son una de las tres patas en que se apoya la minería
de datos, y que son:
1. Bases de datos
2. Estadística y
3. Algoritmia

 Instalamos WEKA
 Antes de iniciar weka pegamos un archivo llamado databaseUtils.props este nos
sirve para configurar los tipos de datos de postgreSQL con Weka.

3.2. Pasos para instalar y utilizar WEKA

1. INSTALAMOS WEKA
2. Antes de iniciar Weka pegamos un archivo llamado databaseUtils. props en el
directorio de instalación de Weka este nos sirve para configurar los tipos de
datos de postgreSQL con Weka no debemos olvidar que debemos modificar este
archivo la conexión a nuestra base de datos que necesitamos los dejare marcado
con celeste la parte a modificar.

8
3. Añadimos al directorio de instalación de Weka el driver de la base de datos a
conectar en este casa PostgreSQL

4. Configuramos el archivo Run Weka.ini con el código que está marcado en


celeste recordemos que depende del driver del gestor de base de datos.

INICIAMOS WEKA

1. Ejecutamos Weka 3.8 y nos saldrá la siguiente pantalla.

2. Damos clik en Explorer que es la parte que nos interesa para aplicar la minería
de datos y nos saldrá la siguiente pantalla.

9
3. Damos click en openDB y es ahí en donde vamos a ingresar el usuario y
contraseña de la base de datos a la cual nos vamos a conectar nos saldrá la
siguiente pantalla.

4. Damos click en el icono de conectar y nos saldrá la conexión verdadera.

10
5. Ahora vamos a ingresar la consulta que realizamos en nuestra base de datos
con los campos que necesitamos para aplicar la minería de datos y
presionamos en ejecutar.

6. Presionamos en ok y nos enviara a la pestaña de pre proceso en donde nos


aparecerá los atributos con los que hicimos el select.

7. Para realizar el análisis por arboles de decisión nos dirigimos a la pestaña


clasificación y presionamos nos dará la siguiente pantalla.

11
8. Seleccionamos choose y escogemos en la pestañas arboles el árbol de
decisión que nosotros consideremos en este caso j48.

9. Seleccionamos por nombre de producto y damos click en start

10. Ahora podemos visualizar nuestro árbol de decisión (de acuerdo al nombre
del producto (campo nombre producto, campo cantidad de productos
vendidos en detalle factura, campo precio unitario en detalle factura), que
productos son los más posibles a venderse.)

12
ÁRBOL DE DESICIÓN

13
4. CONCLUSIONES

 Puedo concluir diciendo que el archivo pg_hba.conf es un fichero que se utiliza para
definir los diferentes tipos de accesos que un usuario tiene en el clúster.

 La configuración del archivo pg_hba.conf es muy sencillo y rápido ya sea por


medio de consola o por la interfaz gráfica de pgAdmin III, donde podemos definir
cómo, dónde y desde que sitio un usuario puede utilizar nuestro clúster PostgreSQL.

5. BIBLIOGRAFÍA

 Microsoft. (s.f.). Recuperado el 01 de 08 de 2016, de Microsoft:


https://msdn.microsoft.com/es-es/library/ms174949.aspx

 wikipedia. (25 de junio de 2016). Recuperado el 01 de 08 de 2016, de wikipedia:


https://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos

14

También podría gustarte