Está en la página 1de 32

Presentado por:

Mara Perdomo Sannys Surez Eliana Abreu Yeri cordero Leudy de los Santos

MINERA DE DATOS / Datamining


Cada vez es ms frecuente el almacn de informacin en bases de datos como en: Data Ware house Empresas de Marketing Escuelas Gobierno

Qu es Minera de datos?
El data mining (minera de datos), es un conjunto de tcnicas y tecnologas que permiten explorar grandes bases de datos con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto. La tarea de minera de datos real es el anlisis automtico o semi-automtico de grandes cantidades de datos para extraer patrones interesantes hasta ahora desconocidos, como los grupos de registros de datos (anlisis cluster), registros poco usuales (la deteccin de anomalas) y dependencias (minera por reglas de asociacin).

Qu es Minera de datos?
Esto generalmente implica el uso de tcnicas de bases de datos como los ndices espaciales. Estos patrones pueden entonces ser vistos como una especie de resumen de los datos de entrada, y pueden ser utilizados en el anlisis adicional o, por ejemplo, en la mquina de aprendizaje y anlisis predictivo Por ejemplo, el paso de minera de datos podra identificar varios grupos en los datos, que luego pueden ser utilizados para obtener resultados ms precisos de prediccin por un sistema de soporte de decisiones.

La MD est muy ligada a los Data Warehouse

Mineria de Datos
Un Datawarehouse es una base de datos corporativa que se caracteriza por integrar y depurar informacin de una o ms fuentes distintas, para luego procesarla permitiendo su anlisis desde infinidad de pespectivas y con grandes velocidades de respuesta. La creacin de un datawarehouse representa en la mayora de las ocasiones el primer paso, desde el punto de vista tcnico, para implantar una solucin completa y fiable de Business Intelligence.

La Minera de datos puede ser dividida en:


Minera de datos predictiva (mdp): Se usa primordialmente tcnicas estadsticas.

Minera de datos usa principalmente para el tcnicas de descubrimiento de inteligencia artificial. conocimiento (mddc):

APLICACIONES DE MINERA DE DATOS


Actualmente se aplica en reas tales como: Aspectos climatolgicos: prediccin de tormentas, etc. Medicina: encontrar la probabilidad de una respuesta satisfactoria a un tratamiento mdico.

Mercadotecnia: identificar clientes susceptibles de responder a ofertas de productos y servicios por correo, fidelidad de clientes, afinidad de productos, etc. Inversin en casas de bolsa y banca: anlisis de clientes, aprobacin de prstamos, determinacin de montos de crdito, etc.

Deteccin de fraudes y comportamientos inusuales: telefnicos, seguros, en tarjetas de crdito, de evasin fiscal, electricidad, etc.

Anlisis de canastas de mercado para mejorar la organizacin de tiendas, segmentacin de mercado (clustering). Determinacin de niveles de audiencia de programas televisivos. Industria y manufactura: diagnstico de fallas.

Usos
En el gobierno Para el FBI analizar las bases de datos comerciales para detectar terroristas. Departamento de Justicia debe introducirse en la vasta cantidad de datos comerciales referentes a los hbitos y preferencias de compra de los consumidores, con el fin de descubrir potenciales terroristas antes de que ejecuten una accin. En la empresa Deteccin de fraudes en las tarjetas de crdito. Examinar transacciones, propietarios de tarjetas y datos financieros para detectar y mitigar fraudes.

En la universidad Conociendo si los recin titulados de una universidad llevan a cabo actividades profesionales relacionadas con sus estudios. En los clubes deportivos El AC de Milan utiliza un sistema inteligente para prevenir lesiones. Esta temporada el club comenzar a usar redes neuronales para prevenir lesiones y optimizar el acondicionamiento de cada atleta. Esto ayudar a seleccionar el fichaje de un posible jugador o a alertar al mdico del equipo de una posible lesin

TCNICAS DE MINERA DE DATOS


Anlisis Preliminar de datos usando Query tools: es el 1 paso de un proyecto de MD, se aplica una consulta SQL al conjunto de datos, para rescatar algunos aspectos visibles antes de aplicar las tcnicas. Tcnicas de Visualizacin: son aptas para ubicar patrones en un conjunto de datos, puede usarse al comienzo de un proceso de MD para determinar la calidad de los datos.

Redes neuronales artificiales: son modelos predecibles, no lineales que aprenden a travs del entrenamiento.

Reglas de Asociacin: establecen asociaciones en base a los perfiles de los clientes sobre los cuales se realiza la MD. Algoritmos Genticos: son tcnicas de optimizacin que usan procesos tales como combinaciones genticas y mutaciones, etc. Redes Bayesianas: buscan determinar relaciones causales que expliquen un fenmeno segn los datos contenidos en una base de datos. Se han usado principalmente para realizar predicciones. rbol de Decisin: son estructuras que representan conjuntos de decisiones, y estas decisiones generan reglas para la clasificacin de un conjunto de datos.

ALGORITMOS DE MINERA DE DATOS


supervisados o predictivos: predicen el valor de un atributo de un conjunto de datos, conocidos otros atributos. A partir de datos cuya etiqueta se conoce se induce una relacin entre dicha etiqueta y otra serie de atributos. Esas relaciones sirven para realizar la prediccin de datos cuya etiqueta es desconocida.

No supervisados o del descubrimiento del conocimiento: con estos algoritmos se descubren patrones y tendencias en los datos actuales. El descubrimiento de esa informacin sirve para llevar a cabo acciones y obtener un beneficio de ellas.

Mtodos basados en rboles de decisin


Este mtodo genera un rbol de decisin, que a partir de una o ms variables predice otra, de forma que los conjuntos de una misma rama y nivel son disjuntos. Este algoritmo es muy til cuando necesitamos dividir un conjunto de datos en distintos segmentos basndonos en algn criterio de decisin.

Regresin
La Regresin ayuda a descubrir la dependencia del valor de un atributo con respecto a otros atributos dentro de la misma entidad u objeto. La regresin es similar a los rboles de decisin en cuanto a su contribucin para clasificar datos, pero predice atributos continuos, en lugar de separados.

Series temporales
Las series de tiempo representan datos en varios intervalos de tiempo o cualquier otro indicador cronolgico. Este se usa para pronosticar valores futuros como la demanda y el trfico de un sitio Web, usando tcnicas en auto regresin y rboles de decisin.

Segmentacin
No son ms que algoritmos, ms o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados. La segmentacin se usa para identificar grupos que tienen caractersticas comunes.

Tcnicas de agrupamiento (clustering)


Es un procedimiento de agrupacin de una serie de vectores segn criterios habitualmente de distancia; se tratar de disponer los vectores de entrada de forma que estn ms cercanos aquellos que tengan caractersticas comunes. El clustering es un modo de segmentar datos en grupos que no estn previamente definidos.

Reglas de asociacion
Se utilizan para descubrir hechos que

ocurren en comn dentro de un determinado conjunto de datos.

ETAPAS PRINCIPALES DEL PROCESO DE MD


1.Determinacin de los objetivos: delimitar los objetivos que el cliente desea bajo la orientacin del especialista en Data Mining. 2. Reprocesamiento de los datos: se refiere a la seleccin, limpieza, enriquecimiento, reduccin y la transformacin de las bases de datos.

3. Determinacin del modelo: se comienza con un anlisis estadstico de los datos, y luego se lleva a cabo una visualizacin grfica de los mismos para tener una primera aproximacin. 4. Anlisis de los resultados: verifica si los resultados obtenidos son coherentes y los compara con los obtenidos por el anlisis estadstico y de visualizacin grfica.

EXTENSIONES DEL DATA MINING


Web Mining: Consiste en aplicar las tcnicas de MD a documentos y servicios de la Web. Las herramientas de Web Mining analizan y procesan los logs para producir informacin significativa.

Text Mining: se refiere a examinar una coleccin de documentos y descubrir informacin no contenida en ningn documento individual de la coleccin. Dado que el 80 % de la informacin de una compaa se almacena en forma de documentos, existen tcnicas que apoyan al TM.

POR QU USAR DATA MINING?


Ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios. Contribuye a la toma de decisiones tcticas y estratgicas. Proporciona poder de decisin a los usuarios del negocio, y es capaz de medir las acciones y resultados de la mejor forma. Genera Modelos descriptivos: permite a empresas, explorar y comprender los datos e identificar patrones, relaciones y dependencias que impactan en los resultados finales. Genera Modelos predictivos: permite que relaciones no descubiertas travs del proceso del DM sean expresadas como reglas de negocio.

CONCLUSION
El desarrollo de la tecnologa de MD est en un momento crtico. No supervisados o del descubrimiento del conocimiento: con estos algoritmos se descubren patrones y tendencias en los datos actuales. El descubrimiento de esa informacin sirve para llevar a cabo acciones y obtener un beneficio de ellas. Existen elementos que la hacen operable, pero por otra parte, hay factores que pueden crear un descrdito a esta tecnologa, como ser: Los productos a comercializar son, actualmente costosos, y los consumidores pueden hallar una relacin costo/beneficio improductiva. Se requiere de mucha experiencia para utilizar herramientas de la tecnologa, o que sea muy fcil hallar patrones equvocos, triviales o no interesantes. La posibilidad de resolver los aspectos tcnicos de hallar patrones en tiempo o espacio

También podría gustarte