Está en la página 1de 13

INTRODUCCIN

El data mining es una de las principales herramientas que se utilizan dentro de los
programas de gestin del conocimiento como soporte a la toma de decisiones.
El fin es la extraccin de informacin oculta o anlisis de datos mediante tcnicas
estadsticas de grandes bases de datos.
Las herramientas de data mining o minera de datos pueden responder a preguntas
de negocios empresariales a priori no planteadas o que pueden consumir
demasiado tiempo para ser resueltas.
Los programas de gestin del conocimiento se complementan con distintas
herramientas adems del data mining, como puede ser el data warehousing o el
groupware. El data mining, como herramienta de bsqueda de informacin, se
utiliza como sistema de apoyo a la toma de decisiones de las altas direcciones de
las empresas.
Las tcnicas de data mining se centran en analizar el gran volumen de datos, que
en una primera seleccin pueden ser pertinentes, pero que la aplicacin de tcnicas
de seleccin ceida a unas determinadas demandas, reduce el tamao de los datos
eligiendo las variables ms influyentes en el problema.
En definitiva, la minera de datos es una tecnologa usada para descubrir
informacin oculta y desconocida, pero potencialmente til, a partir de las fuentes
de informacin de la propia empresa. Obtiene un conocimiento de un negocio,
utilizando tcnicas de agrupamiento, redes neuronales, rboles de decisin y
reglas de asociacin etc.

Qu es Minera de Datos?

Es un mecanismo de explotacin, consistente en la bsqueda de informacin


valiosa en grandes volmenes de datos. La minera de datos se centra en llenar la
necesidad de descubrir el por qu, para luego predecir y pronosticar las posibles
acciones con cierto factor de confianza para cada prediccin. Es el anlisis de
archivos y bitcoras de transacciones, trabaja a nivel del conocimiento con el fin
de descubrir patrones, relaciones, reglas, asociaciones o incluso excepciones tiles
para la toma de decisiones.

La minera de datos tiene como propsito la identificacin de un conocimiento


obtenido a partir de las bases de datos que aporten hacia la toma de decisin.
Minera de datos es la exploracin y anlisis de grandes cantidades de datos con
el objeto de encontrar patrones y reglas significativas
(conocimiento)

Definicin segn autores

Data Mining (Minera de datos)


Proceso de extraer conocimiento til y comprensible, previamente desconocido,
desde grandes cantidades de datos almacenados en distintos formatos (Witten and
Frank, 2000)
Knowledge Discovery in Databases KDD (Descubrimiento de Conocimiento en
Bases de Datos)
Proceso no trivial de identificar patrones vlidos, novedosos, potencialmente
tiles y, en ltima instancia, comprensibles, a partir de los datos (Fayyad y col.
1996)

Qu es Data Mining?

Un conjunto de tcnicas que se encuentran las relaciones que anteriormente no


han sido descubiertos

Una visin simplificada de la minera de datos

Datos Minera de datos Modelos

La minera de datos es un campo multidisciplinario

Inteligencia Estadstica
artificial

Minera de datos Ciencias de


Bases de
datos la informacin

Traficacin y Otras
visualizacin disciplinas
Qu es la Minera de Datos?

Mtodos Descriptivos
Encontrar patrones interpretables que describen los datos tiles para la
organizacin.

Mtodos de Prediccin
Utilizar algunas variables para predecir los valores desconocidos o futuros de otras
variables que pueden afectar o favorecer a la empresa.

Orgenes de la Minera de Datos

La minera de datos se ha insertado desde los aos 90 en el contexto de las


tecnologas de la informacin, algoritmia y desarrollo de software. Las lneas de
desarrollo en el mbito de minera de datos tienen sus orgenes en tres conceptos
importantes.

Estadstica Clsica
Inteligencia Artificial
Aprendizaje Automtico

Anlisis de regresin, desviacin estndar, varianza, anlisis de clustering,


intervalos de confianza, entre otros. Ciertamente, en las herramientas y tcnicas
utilizadas en minera de datos, el anlisis de estadstica clsica juega un rol
sumamente importante. Esta disciplina se encuentra basada en heursticas, de
forma opuesta a la estadstica, pero debido a que su implementacin necesitaba de
computadoras con un poder de procesamiento alto Podemos describir como la
unin de las estadsticas e Inteligencia Artificial porque conjuntas heursticas con
anlisis estadstico avanzado.

La minera de Datos es un campo interdisciplinario que conjunta las tcnicas de


aprendizaje automtico, reconocimientos de patrones, estadstica, base de datos y
visualizacin, para dirigirla a la extraccin e interpretacin de base de datos
inmensas

La Minera de datos puede ser dividida en:

Qu es la Minera de Datos?

La minera de datos se puede dividir en:

Minera de datos predictiva (mdp): usa primordialmente tcnicas estadsticas


que est basada en indicadores o datos estadsticos que ayudan a la toma de
decisiones.

Minera de datos para descubrimiento de conocimiento (mddc): usa


principalmente tcnicas de inteligencia artificial
Proceso del Data Mining

CARACTERSTICAS DE LA MINERA DE DATOS

Las herramientas de la minera de datos se combinan fcilmente y pueden


analizarse y procesarse rpidamente.

Explorar los datos se encuentran en las profundidades de las bases de datos, como
los almacenes de datos, que algunas veces contienen informacin almacenada
durante varios aos.

El entorno de la minera de datos suele tener una arquitectura cliente servidor.


Debido a la gran cantidad de datos, algunas veces resulta necesario usar
procesamiento en paralelo para la minera de datos.

Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e


inesperados.

Las herramientas de la minera de datos ayudan a extraer el mineral de la


informacin enterrado en archivos corporativos o en registros pblicos
archivados.

Las herramientas de la minera de datos se combinan fcilmente y pueden


analizarse y proce-sarse rpidamente

En algunos casos, los datos se consolidan en un almacn de datos y en mercados


de datos; en otros, se mantienen en servidores de Internet e Intranet.

En la Minera de Datos presentan los siguientes tipos de usuarios:


Analistas Empresariales.
Los peritos en estadstica
Los profesionales en tecnologa de la informacin.

Asociaciones:
Determinar cosas u objetos que van juntos

Ejemplo: Determinar que productos se adquieren conjuntamente en un


supermercado.

Clasificaciones.
Examinar las caractersticas de un nuevo objeto y asignarle una clase o
categora de acuerdo a un conjunto de tales objetos previamente definido.

Ejemplos: Clasificar aplicaciones a crdito como bajo, medio y alto riesgo


Detectar reclamos fraudulentos de seguros.

Estimacin
Relacionado con clasificacin Mientras clasificacin asigna un valor
discreto, Mientras clasificacin asigna un valor discreto, estimacin
produce un valor continuo.

Ejemplos: Estimar el precio de una vivienda Estimar el ingreso total de


una familia.

Agrupamientos.
Dividir una poblacin en un nmero de grupos ms homogneos No
depende de clases pre-definidas a diferencia de clasificacin.

Ejemplo: Dividir la base de clientes de acuerdo con los hbitos de


consumo.

Pronsticos.
Predecir un valor futuro con base a valores pasados.

Ejemplos: Predecir cunto efectivo requerir un cajero automtico en un


fin de semana

VENTAJAS DEL USO DE MINERA DE DATOS

La minera de datos descubre informacin que no se esperaba obtener.


Como muchos modelos diferentes son usados, algunos resultados
inesperados tienden a aparecer. Las combinaciones de distintas tcnicas
otorgan efectos inesperados que se transforma en un valor aadido a la
empresa.

Enormes bases de datos pueden ser analizadas mediante la tecnologa de


data mining.

Los resultados son fciles de entender: personas sin un conocimiento


previo en ingeniera informtica pueden interpretar los resultados con sus
propias ideas.

Contribuye a la toma de decisiones tcticas y estratgicas para detectar la


informacin clave.

Te permite encontrar, atraer y retener a los clientes. Reduce el riesgo de


perder clientes: ofrecer promociones especificas o productos especiales
para retenerlos.
Mejora la relacin con el cliente: la empresa puede mejorar la atencin al
cliente a partir de la informacin obtenida.

Permite ofrecer a tus clientes los productos o servicios que necesitan.

Los modelos son confiables. Los modelos son probados y comprobados


usando tcnicas estadsticas antes de ser usado, para que las predicciones
que se obtienen sean confiables y vlidas.

En su mayora, los modelos se generan y construyen de manera rpida. El


modelado a veces se torna ms fcil puesto que muchos algoritmos han
sido probados previamente.

Abre nuevas oportunidades de negocios y ahorra costes a la empresa.

DESVENTAJAS

Dificultad de recopilacin de los datos.


El pre procesamiento de datos puede llevar demasiado tiempo.
No est asegurada la obtencin de un modelo vlido

HERRAMIENTAS DE LA MINERA DE DATOS

Clementina / SPSS: Herramienta de data mining que permite desarrollar modelos


predictivos y desplegarlos para mejorar la toma de decisiones. Est diseada
teniendo en cuenta a los usuarios empresariales, de manera que no es preciso ser
un experto en data mining.

Clementina es la ms avanzada herramienta de Data Mining del mercado,


combina modernas tcnicas de modelamiento con poderosas herramientas de
acceso, manipulacin y exploracin de datos en una interfaz simple e intuitiva.

SAS Enterprise Miner / SAS: Solucin de minera de datos que proporciona


gran cantidad de modelos y de alternativas. Permite determinar pautas y
tendencias, explica resultados conocidos e identifica factores que permiten
asegurar efectos deseados. Adems, compara los resultados de las distintas
tcnicas de modelado, tanto en trminos estadsticos como de negocio, dentro de
un marco sencillo y fcil de interpretar.

Keel: Es un software para evaluar la evolucin de los algoritmos de minera de


datos y problemas de regresin, entre ellos: clasificacin, agrupamiento y patrn
de la minera. Contiene una gran coleccin de algoritmos clsicos de extraccin
de conocimientos, tcnicas de pre procesamiento (seleccin de instancias,
seleccin de caractersticas, discretizacin, mtodos de imputacin de valores),
Inteligencia Computacional de aprendizaje basado en algoritmos, incluido el
estado evolutivo de algoritmos de aprendizaje basados en diferentes enfoques
(Pittsburgh, Michigan y IRL) y modelos hbridos como sistemas difusos
genticos, redes neuronales evolutivas, etc. Nos permite realizar un anlisis
completo de cualquier modelo de aprendizaje en comparacin con los existentes,
incluido un mdulo de prueba estadstica para la comparacin entre ellos.

El uso ms comn de esta herramienta para un investigador ser la ejecucin


automatizada de los experimentos y el anlisis estadstico de sus resultados. Esta
herramienta no est diseada para ofrecer un tiempo real del progreso de los
algoritmos. Trabaja muy bien en ambiente distribuido de sistemas.

Fue diseado con doble objetivo: la investigacin y la educacin. Cuenta con


licencia comercial, lo que lo convierte Software propietario.

SAS Analytics / SAS: Suite de soluciones analticas que permiten transformar


todos los datos de la organizacin en conocimiento, reduciendo la incertidumbre,
realizando predicciones fiables y optimizando el desempeo.

RapidMiner / Yale: Es el lder mundial de cdigo abierto para la minera de


datos debido a su combinacin de su tecnologa de primera calidad y su rango de
funcionalidad. Esta aplicacin de RapidMiner cubre un amplio rango de minera
de datos. Adems de ser una herramienta flexible para aprender y explorar la
minera de datos, la interfaz grfica de usuario tiene como objetivo simplificar el
uso para las tareas complejas de esta rea.

TCNICAS MS USADAS EN LA MINERIA DE DATOS

Redes neuronales
Esta tcnica de inteligencia artificial, en los ltimos aos se ha convertido
en uno de los instrumentos de uso frecuente para detectar categoras
comunes en los datos, debido a que son capaces de detectar y aprender
complejos patrones, y caractersticas de los datos.

Una de las principales caractersticas de las redes neuronales, es que son


capaces de trabajar con datos incompletos e incluso paradjicos, que
dependiendo del problema puede resultar una ventaja o un inconveniente.
Adems, esta tcnica posee dos formas de aprendizaje: supervisado y no
supervisado.

rboles de decisin
Est tcnica se encuentra dentro de una metodologa de aprendizaje
supervisado. Su representacin es en forma de rbol en donde cada nodo
es una decisin, los cuales a su vez generan reglas para la clasificacin de
un conjunto de datos.
Los rboles de decisin son fciles de usar, admiten atributos discretos y
continuos, tratan bien los atributos no significativos y los valores faltantes.
Su principal ventaja es la facilidad de interpretacin.

Algoritmos genticos
Los algoritmos genticos imitan la evolucin de las especies mediante la
mutacin, reproduccin y seleccin, como tambin proporcionan
programas y optimizaciones que pueden ser usadas en la construccin y
entrenamiento de otras estructuras como es el caso de las redes neuronales.
Adems, los algoritmos genticos son inspirados en el principio de la
supervivencia de los ms aptos.

Clustering (agrupamiento)
Agrupan datos dentro de un nmero de clases preestablecidas o no,
partiendo de criterios de distancia o similitud, de manera que las clases
sean similares entre s y distintas con las otras clases. Su utilizacin ha
proporcionado significativos resultados en lo que respecta a los
clasificadores o reconocedores de patrones, como en el modelado de
sistemas. Este mtodo debido a su naturaleza flexible se puede combinar
fcilmente con otro tipo de tcnica de minera de datos, dando como
resultado un sistema hbrido.

Aprendizaje automtico

Esta tcnica de inteligencia artificial es utilizada para inferir conocimiento


del resultado de la aplicacin de alguna de las otras tcnicas antes
mencionadas.

POR QU USAR DATA MINING?

1.- resulta un buen punto de encuentro entre los investigadores y las personas de
negocios.
Este punto hace referencia a que aparece nueva tecnologa la cual muchas veces
es adquirida por empresas grandes las cuales financian estos proyectos.

2.- ahorra grandes cantidades de dinero a una empresa y abre nuevas


oportunidades de negocios.
Prcticamente esto apoya al punto anterior ya que cuando un proyecto es bueno
este es financiado por una empresa la cual adquiere ms dinero del que invirti y
gracias a esta tecnologa una empresa puede abrir otras oportunidades en el
mercado.

3.- trabajar con esta tecnologa implica cuidar un sin nmero de detalles debido a
que el producto final involucra "toma de decisiones".

Tienes la tecnologa y esta te abri paso en el mercado, tambin esta crea un


producto el cual tu estas ofreciendo, pero hay que ver que tan efectiva fue la
implementacin la empresa va creciendo o decreciendo? ha eso hace referencia
el punto 3.

4.- contribuye a la toma de decisiones tcticas y estratgicas proporcionando un


sentido automatizado para identificar informacin clave desde volmenes de datos
generados por procesos tradicionales y de e-Business.

5.- permite a los usuarios dar prioridad a decisiones y acciones, mostrando factores
que tienen un mayor en un objetivo, tambin muestra qu segmentos de clientes
son desechables y qu unidades de negocio son sobrepasados y el por qu?
Hace referencia a que gracias a Data Mining solo hay que preocuparse de las
tomas de decisiones ya que gracias a esta tecnologa va mostrando las diversas
ventajas y desventajas como son algunas sealadas en este punto.

6.- proporciona poderes de decisin a los usuarios del negocio que mejor
entienden el problema y el entorno y es capaz de medir las acciones y los
resultados de la mejor forma.

Gracias a Data Mining se pueden dividir los problemas en distintos sectores y esto
provocara que en diversos sectores deba haber distintos grupos de trabajo
especializados en el mbito de ese problema para as optimizar el tiempo y
recursos.

7.- genera Modelos descriptivos: en un contexto de objetivos definidos en los


negocios permite a empresas, sin tener en cuenta la industria o el tamao, explorar
automticamente, visualizar y comprender los datos e identificar patrones,
relaciones y dependencias que impactan en los resultados finales de la cuenta de
resultados (tales como el aumento de los ingresos, incremento de los beneficios,
contencin de costes y gestin de riesgos).

8.- genera Modelos predictivos: permite que relaciones no descubiertas e


identificadas a travs del proceso del Data Mining sean expresadas como reglas
de negocio o modelos predictivos. Estos outputs pueden comunicarse en formatos
tradicionales (presentaciones, informes, informacin electrnica compartida,
embebidos en aplicaciones, etc.) para guiar la estrategia y planificacin de la
empresa.
CASOS DE XITO DATA MINING

Gracias a estrategias de Data Mining, anlisis de grandes volmenes de datos y


prediccin de patrones de conducta, las marcas han aprovechado la cantidad de
informacin que recogen de los clientes y usuarios para crecer.
Marcas de ropa, de complementos, de alimentacin, grandes superficies o banca son solo
algunas de las empresas que han hecho uso de esta estrategia a lo largo del tiempo. Pero
tambin se ha utilizado en casos ms puntuales como campaas polticas o anlisis de la
audiencia para determinar el alcance de una serie de televisin o programas de
entretenimiento.

Data Mining en la campaa de Obama


Aunque la presidencia ya no est en sus manos y en la Casa Blanca reside otro nuevo
presidente, Obama recurri al Data Mining para mejorar su posicin respecto a la
poblacin. Puso a trabajar a un grupo de expertos en anlisis de datos masivos con el fin
de sondear las bases de datos propias los partidos, seguidores y militantes; las fuentes
pblicas e institucionales, y las redes sociales.

El resultado de los anlisis fue concluyente para invertir en marketing, definir las horas a
las que tendra mayor repercusin el mensaje y los canales ms apropiados para hacerlo,
as como dirigir la campaa hacan aquellos votantes afines al partido. Incluso hizo un
sondeo de popularidad de los miembros de su partido, con el fin de descubrir quin sera
la persona ms adecuada para acompaarlo a cada mitin, en funcin de la audiencia de
esa localizacin y el perfil del votante
Gestin de bancos de ADN

La tecnologa no solo ha favorecido el desarrollo de la comunicacin, sino que ha


influenciado en los avances mdicos. Para gestionar los datos que se almacenaban en
distintos bancos de ADN se puso en marcha un proyecto basado en Data Mining, un
software que permite la administracin de toda esta informacin.

La clave y principal objetivo del software es determinar vnculos biolgicos, identificar


personas a partir de marcadores genticos y buscar patrones genticos comunes a un
conjunto de muestras.

El desarrollo se realiz con herramientas de software libre y fue aceptado exitosamente


por parte del Ceprocor, que validar los resultados del sistema a travs de casos de tests
especficos.

BBN Technologies y los idiomas


BBN Technologies, IBM, Fast-Talk y Scan Soft han diseado tecnologa de datamining
de audio especfica para no depender de la persona hablante, es decir, de la entonacin.
Todo ello, para llevar a cabo transcripciones indexadas, susceptibles de ser objeto de
bsquedas. Adems, este anlisis de datos con data mining est dirigido a fuente de audio
en rabe, chino, ingls o espaol en tiempo real desde cualquier ordenador particular.
El xito de la minera de datos aplicada al sector retail

Uno de los sectores que ms se ha beneficiado en los ltimos aos de la adopcin de


estrategias y sistemas de data mining es, sin duda, el del comercio y las grandes
superficies. No en vano estamos ante un segmento en el que, cada da, se reciben millones
de datos, tanto estructurados como desestructurados, valiossimos para el negocio: cifras
de ventas, productos ms populares, comentarios en redes sociales, reseas de artculos
al alcance de estas firmas est sacar partido de estas cantidades ingentes de datos. Unas
cuantas compaas han sido ejemplo de buen uso y gestin de las informaciones a su
disposicin.

En el sector retail, Walmart es una verdadera institucin. La firma opera en 28 pases de


todo el planeta, a travs de ms de 11.500 tiendas y puntos de venta, bajo 65 marcas
globalmente que son visitadas por unos 250 millones de clientes al ao. Estas cifras
corporativas generales (no atendemos ya al detalle) nos dan una idea de la cantidad
ingente de informacin que se maneja en Walmart. Ya en el ao 1995, los ordenadores
de esta ensea procesaban ms de un milln de datos de consulta complejos.

A da de hoy, Walmart recoge cada hora (puedes verlo en detalle en este enlace)el
equivalente a 2,5 petabytes de datos desestructurados de sus clientes: mensajes en redes
sociales, foros de opinin, feeds por ejemplo, los sistemas de analtica y minera de
datos que emplea la cadena analizan alrededor de 100 millones de palabras clave diarias
para optimizar las pujas publicitarias.

Los estudios internos llevados a cabo por este gigante del comercio muestran que, por
cada billn de dlares de repunte de los ingresos marginales, los datos han estado
acompaados por un aumento de entre el 10 y el 15% de las ventas online. Todo ello
desde el momento en el que la compaa implement activamente su poltica de anlisis
y minera de datos.

Aparte de Walmart, Tesco fue una de las primeras grandes cadenas en comenzar a ver el
potencial del data mining para optimizar sus procesos de ventas, lanzamiento de
productos o fidelizacin. Tesco lanz su programa de tarjetas de fidelizacin ya en el ao
1995 con el objetivo de, por un lado, premiar la fidelidad de sus clientes ms habituales
y, por otro, lograr determinar mejor los perfiles de clientes actuales/potenciales, perfilar
mejor el target de sus campaas o dirigir mejor sus estrategias de venta de
productos/servicios.
En los primeros cinco aos tras la puerta en marcha de esta doble estrategia de Tesco
(fidelizacin + recogida masiva y anlisis de datos de clientes) las ventas de la compaa
aumentaron nada menos que un 50%.

VIDEO

https://www.youtube.com/watch?v=P5oxLVOu8qU&feature=youtu.be