Documentos de Académico
Documentos de Profesional
Documentos de Cultura
NDICE
INTRODUCIN........................................................................................................................... 1
1. MINERA DE DATOS ........................................................................................................ 5
1.1. DEFINICIN ................................................................................................................ 5
1.2. HISTORIA .................................................................................................................... 6
1.3. VENTAJAS Y DESVENTAJAS ............................................................................... 7
1.3.1. Ventajas .............................................................................................................. 7
1.3.2. Desventajas........................................................................................................ 8
3. TIPOS DE MINERA DE DATOS .................................................................................. 13
3.1. MINERA DE DATOS ESPACIALES .................................................................... 13
3.2. BASES DE DATOS GEOGRFICAS................................................................... 13
3.3. DATOS GEOGRFICOS ........................................................................................ 13
4. ETAPAS O FASE DE UN PROYECTO DE MINERA DE DATOS ......................... 14
4.1. CROSS INDUSTRY STANDARD PROCESS FOR DATA MINING ................ 14
4.2. PRINCIPALES FASES............................................................................................ 15
4.2.1. Entendimiento de negocios ......................................................................... 15
4.2.2. Comprensin de Datos ................................................................................. 16
4.2.3. Preparacin de datos .................................................................................... 16
4.2.4. Modelado .......................................................................................................... 16
4.2.5. Evaluacin ........................................................................................................ 17
4.2.6. Despliegue........................................................................................................ 17
5. CAMPOS DE ACCIN DE LA MINERA DE DATOS ............................................... 18
5.1. GOBIERNOS ............................................................................................................ 19
5.2. UNIVERSIDAD ......................................................................................................... 20
5.3. INVESTIGACION ESPACIAL ................................................................................ 21
5.4. INTERNET ................................................................................................................. 21
5.5. NEGOCIOS ............................................................................................................... 22
5.5.1. Hbitos de compra en supermercados .................................................... 22
5.5.2. Patrones de fuga ............................................................................................ 23
5.5.3. Fraudes ............................................................................................................. 23
5.5.4. Recursos humanos ........................................................................................ 24
5.6. TERRORISMO .......................................................................................................... 24
5.7. JUEGOS .................................................................................................................... 24
5.8. CIENCIA E INGENIERA ........................................................................................ 25
5.9. GENTICA ................................................................................................................ 25
5.10. INGENIERA ELCTRICA.................................................................................. 25
6. MINERA DE DATOS Y OTRAS DISCIPLINAS ANLOGAS ................................. 26
6.1. DE LA ESTADSTICA ............................................................................................. 26
6.2. LA INFORMTICA .................................................................................................. 27
1. MINERA DE DATOS
1.1. DEFINICIN
5
interpretacin de los resultados y la informacin son parte de la etapa
de minera de datos, pero que pertenecen a todo el proceso KDD
como pasos adicionales.
1.2. HISTORIA
Aunque desde un punto de vista acadmico el trmino data mining
es una etapa dentro de un proceso mayor llamado extraccin de
conocimiento en bases de datos (Knowledge Discovery in
Databases o KDD) en el entorno comercial, ambos trminos se usan
de manera indistinta. Lo que en verdad hace el data mining es reunir
las ventajas de varias reas como la Estadstica, la Inteligencia
Artificial, la Computacin Grfica, las Bases de Datos y el
Procesamiento Masivo, principalmente usando como materia prima
las bases de datos. Una definicin tradicional es la siguiente: "Un
proceso no trivial de identificacin vlida, novedosa, potencialmente
til y entendible de patrones comprensibles que se encuentran
ocultos en los datos". Desde otro punto de vista se define como "la
integracin de un conjunto de reas que tienen como propsito la
identificacin de un conocimiento obtenido a partir de las bases de
datos que aporten un sesgo hacia la toma de decisin. La idea de
data mining no es nueva. Ya desde los aos sesenta los estadsticos
manejaban trminos como data fishing, data mining o data
6
archaeology con la idea de encontrar correlaciones sin una hiptesis
previa en bases de datos con ruido. A principios de los aos ochenta,
Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-
Shapiro, entre otros, empezaron a consolidar los trminos de data
mining y KDD. A finales de los aos ochenta slo existan un par de
empresas dedicadas a esta tecnologa; y en 2002 existan ms de
100 empresas en el mundo que ofrecan alrededor de 300
soluciones. Las listas de discusin sobre este tema las forman
investigadores de ms de ochenta pases. Esta tecnologa ha sido
un buen punto de encuentro entre personas pertenecientes al mbito
acadmico y al de los negocios. El data mining es una tecnologa
compuesta por etapas que integra varias reas y que no se debe
confundir con un gran software. Durante el desarrollo de un proyecto
de este tipo se usan diferentes aplicaciones software en cada etapa
que pueden ser estadsticas, de visualizacin de datos o de
inteligencia artificial, principalmente. Actualmente existen
aplicaciones o herramientas comerciales de data mining muy
poderosas que facilitan el desarrollo de un proyecto. Sin embargo,
casi siempre acaban complementndose con otra herramienta.
1.3.1. Ventajas
Enormes bases de datos pueden ser analizadas.
Enormes bases de datos pueden ser analizadas mediante la
tecnologa del Data Mining. Estas Bases de datos pueden ser
enormes tanto en largo como en ancho. Por ejemplo, para
cada cliente se puede tener cientos de atributos que
contienen informacin detallada; y adems tener miles de
registros de clientes.
7
Como muchos modelos diferentes son validados, algunos
resultados inesperados tienden a aparecer. En muchos
estudios, se ha descubierto que combinaciones particulares
de factores entregan efectos inesperados que entregan valor
a la compaa. (Paales y cerveza).
1.3.2. Desventajas
Dificultad de recopilacin de los datos
Dependiendo del tipo de datos que se quieran recopilar puede
conllevar mucho trabajo o la necesidad de tecnologa de
elevado coste.
8
El pre procesamiento de datos puede llevar demasiado
tiempo
No est asegurada la obtencin de un modelo vlido
9
El hecho es, que en la prctica la totalidad de los modelos y algoritmos de
uso general en minera de datos Redes neuronales, decisin, regresin y
clasificacin, modelos logsticos, anlisis de componentes principales, etc.
gozan de una tradicin relativamente larga en otros campos.
Las tcnicas ms representativas de la estadstica y la informtica
son:
Redes neuronales
Son un paradigma de aprendizaje y procesamiento automtico inspirado
en la forma en que funciona el sistema nervioso de los animales. Se trata
de un sistema de interconexin de neuronas en una red que colabora para
producir un estmulo de salida. Genricamente, son mtodos de proceso
numrico en paralelo, en el que las variables interactan mediante
transformaciones lineales o no lineales, hasta obtener unas salidas. Estas
salidas se contrastan con los que tenan que haber salido, basndose en
unos datos de prueba, dando lugar a un proceso de retroalimentacin
mediante el cual la red se reconfigura, hasta obtener un modelo
adecuado.
Regresin lineal
Es la ms utilizada para formar relaciones entre datos. Es rpida y eficaz,
pero insuficiente en espacios multidimensionales donde puedan
relacionarse ms de 2 variables. Define la relacin entre una o ms
variables y un conjunto de variables predictores de las primeras.
rboles de decisin
Es un modelo de prediccin utilizado en el mbito de la inteligencia
artificial. Dada una base de datos se construyen estos diagramas de
construcciones lgicas, muy similares a los sistemas de prediccin
basados en reglas, que sirven para representar y categorizar una serie de
condiciones que suceden de forma sucesiva, para la resolucin de un
problema.
10
Modelos estadsticos
Es una expresin simblica en forma de igualdad o ecuacin que se
emplea en todos los diseos experimentales y en la regresin para indicar
los diferentes factores que modifican la variable de respuesta.
Agrupamiento o Clustering
Es un procedimiento de agrupacin de una serie de vectores segn
criterios habitualmente de distancia. Permite la clasificacin de una
poblacin de individuos caracterizados por mltiples atributos (binarios,
cualitativos o cuantitativos) en un nmero determinado de grupos, con
base en las semejanzas o diferencias de los individuos. Se tratar de
disponer los vectores de entrada de forma que estn ms cercanos
aquellos que tengan caractersticas comunes.
Anlisis de varianza
Evala la existencia de diferencias significativas entre las medias de una
o ms variables continas en poblaciones distintos.
Prueba chi-cuadrado
Por medio de la cual se realiza el contraste la hiptesis de dependencia
entre variables.
Anlisis discriminante
Permite la clasificacin de individuos en grupos que previamente se han
establecido. Tambin posibilita encontrar la regla de clasificacin de los
elementos de estos grupos, y por tanto una mejor identificacin de cules
son las variables que definan la pertenencia al grupo.
Series de tiempo
Permite el estudio de la evolucin de una variable a travs del tiempo,
para poder realizar predicciones, a partir de ese conocimiento y bajo el
supuesto de que no van a producirse cambios estructurales.
11
Algoritmos genticos
Son mtodos numricos de optimizacin, en los que aquella variable o
variables que se pretenden optimizar junto con las variables de estudio
constituyen un segmento de informacin. Aquellas configuraciones de las
variables de anlisis que obtengan mejores valores para la variable de
respuesta, correspondern a segmentos con mayor capacidad
reproductiva. A travs de la reproduccin, los mejores segmentos
perduran y su proporcin crece de generacin en generacin. Se puede
adems introducir elementos aleatorios para la modificacin de las
variables (mutaciones). Al cabo de cierto nmero de iteraciones, la
poblacin estar constituida por buenas soluciones al problema de
optimizacin, pues las malas soluciones han ido descartndose, iteracin
tras iteracin.
Inteligencia artificial
Mediante un sistema informtico que simula un sistema inteligente, se
procede al anlisis de los datos disponibles. Entre los sistemas de
Inteligencia Artificial se encuadraran los Sistemas Expertos y las Redes
Neuronales.
Sistemas Expertos
Son sistemas que han sido creados a partir de reglas prcticas extradas
del conocimiento de expertos. Principalmente a base de inferencias o de
causa-efecto.
Sistemas Inteligentes
Son similares a los sistemas expertos, pero con mayor ventaja ante
nuevas situaciones desconocidas para el experto.
12
3. TIPOS DE MINERA DE DATOS
13
incluso un rgano humano dentro de un mapa de imgenes mdicas.
Bsicamente, un dato geogrfico representa informacin topolgica
de algn tipo.
Existen varios tipos de datos geogrficos, desde los ms simples
que podran ser un punto y una lnea, hasta tipos complejos que
representen toda la informacin de una regin: su forma; regiones
vecinas; temperatura promedio; nmero de habitantes; relieve
topogrfico; etc.
14
4.2. PRINCIPALES FASES
1 Harper, Gavin; Stephen D. Pickett (agosto de 2006). "Los mtodos para datos HTS mineras". Drug
Discovery Today 11 (15-16): 694-699. Doi: 10.1016 / j.drudis.2006.06.006. PMID16846796
15
y luego convertir este conocimiento en una definicin del
problema de minera de datos, y un plan preliminar diseado
para alcanzar los objetivos. Un modelo
de decisin, especialmente una construida utilizando
el Modelo de Decisin y notacin estndar se puede utilizar.
4.2.2. Comprensin de Datos
La fase de comprensin de datos comienza con una coleccin
de datos inicial y contina con las actividades con el fin de
familiarizarse con los datos, para identificar los problemas de
calidad de datos, para descubrir las primeras ideas sobre los
datos, o para detectar subconjuntos interesantes para formar
hiptesis de informacin oculta.
4.2.4. Modelado
En esta fase, se seleccionan varias tcnicas de modelado y
se aplican, y sus parmetros estn calibrados para valores
ptimos. Tpicamente, existen varias tcnicas para el mismo
tipo de problema de minera de datos. Algunas tcnicas tienen
requerimientos especficos en forma de datos. Por lo tanto,
dar un paso atrs a la fase de preparacin de datos es a
menudo necesaria.
16
4.2.5. Evaluacin
En esta etapa en el proyecto que ha construido un modelo (o
modelos) que parece tener gran calidad, desde una
perspectiva de anlisis de datos. Antes de proceder a la
implementacin final del modelo, es importante para evaluar
ms a fondo el modelo, y revisar los pasos ejecutados para
construir el modelo, para estar seguro de que logra
adecuadamente los objetivos de negocio. Un objetivo clave es
determinar si hay algn problema de negocios importante que
no se ha considerado suficientemente. Al final de esta fase,
se debe alcanzar una decisin sobre el uso de los resultados
de minera de datos.
4.2.6. Despliegue
Creacin del modelo generalmente no es el final del
proyecto. Aunque el propsito del modelo es aumentar el
conocimiento de los datos, tendr que ser organizada y
presentada de una manera que sea til para el cliente los
conocimientos adquiridos. Dependiendo de los requisitos, la
fase de despliegue puede ser tan simple como la generacin
de un informe o tan complejo como la implementacin de una
puntuacin repetible de datos (por ejemplo, la asignacin de
segmento) o el proceso de minera de datos. En muchos
casos, ser el cliente, no el analista de datos, que llevar a
cabo los pasos de implementacin. Incluso si el analista
despliega el modelo es importante para el cliente para
entender por adelantado las acciones que debern llevarse a
cabo con el fin de hacer realidad el uso de los modelos
creados.
17
5. CAMPOS DE ACCIN DE LA MINERA DE DATOS
El data mining surge como una tecnologa que intenta ayudar a comprender
el contenido de una base de datos. De forma general, los datos son la
materia prima bruta. En el momento que el usuario les atribuye algn
significado especial pasan a convertirse en informacin. Cuando los
especialistas elaboran o encuentran un modelo, haciendo que la
interpretacin conjunta entre la informacin y ese modelo represente un
valor agregado, entonces nos referimos al conocimiento. En la figura 1 se
ilustra la jerarqua que existe en una base de datos entre dato, informacin
y conocimiento. Se observa igualmente el volumen que presenta en cada
nivel y el valor que los responsables de las decisiones le dan en esa
jerarqua. El rea interna dentro del tringulo representa los objetivos que
se han propuesto. La separacin del tringulo representa la estrecha unin
entre dato e informacin, no as entre la informacin y el conocimiento. El
data mining trabaja en el nivel superior buscando patrones,
comportamientos, agrupaciones, secuencias, tendencias o asociaciones
que puedan generar algn modelo que nos permita comprender mejor el
dominio para ayudar en una posible toma de decisin.
Sistemas parcialmente desconocidos: Si el modelo del sistema que
produce los datos es bien conocido, entonces no necesitamos de la minera
de datos ya que todas las variables son de alguna manera predecibles. Este
no es el caso del comercio electrnico, debido a los efectos del
comportamiento humano, el clima y de decisiones polticas entre otros. En
estos casos habr una parte del sistema que es conocida y habr una parte
aparentemente de naturaleza aleatoria. Bajo ciertas circunstancias, a partir
de una gran cantidad de datos asociada con el sistema, existe la posibilidad
de encontrar nuevos aspectos previamente desconocidos del modelo.
Enorme cantidad de datos: Al contar con mucha informacin en algunas
bases de datos es importante para una empresa encontrar la forma de
analizar "montaas" de informacin (lo que para un humano sera
imposible) y que ello le produzca algn tipo de beneficio.
Potente hardware y software: Muchas de las herramientas presentes en
la minera de datos estn basadas en el uso intensivo de la computacin,
en consecuencia, un equipo conveniente y un software eficiente, con el cual
18
cuente una compaa, aumentar el desempeo del proceso de buscar y
analizar informacin, el cual a veces debe vrselas con producciones de
datos del orden de los Gbytes/hora ( repetimos, algo humanamente
imposible). El uso del data mining puede ser provechoso en el caso de
poseer datos sobre sus procesos productivos, datos de seguimiento de
clientes, datos externos de mercado, datos sobre la actividad de
competidores, etc.
Entre las aplicaciones de la minera de datos tenemos:
5.1. GOBIERNOS
El FBI analizar las bases de datos comerciales para detectar
terroristas. A principios del mes de julio de 2002, el director del FBI
en Estados Unidos, John Aschcroft, anunci que el Departamento
de Justicia comenzara a introducirse en la enorme cantidad de
datos comerciales en los que se revelan hbitos y costumbres de la
poblacin, con el fin de poder identificar a potenciales terroristas con
antelacin a que puedan cometer un atentado. Algunos expertos
aseguran que, con esta informacin, el FBI unir todas las bases de
datos mediante el nmero de la Seguridad Social y permitir saber
si una persona fuma, qu talla y tipo de ropa usa, si ha sido arrestado
y cuantas veces, el barrio donde vive, si en este se cometen ms o
menos delitos, su salario, las revistas a las que est suscrito, su
altura y peso, sus contribuciones a la Iglesia, grupos polticos u
organizaciones no gubernamentales, sus enfermedades crnicas,
los libros que lee, los productos de supermercado que compra, si
tom clases de vuelo o si tiene cuentas de banco abiertas, entre
otros. La inversin inicial ronda los 70 millones de $ estadounidenses
para consolidar los almacenes de datos, desarrollar redes de
seguridad que sean capaces de compartir la informacin e
implementar nuevo software analtico y de visualizacin. Con este
tipo de aplicaciones sale de nuevo el tema tico de la privacidad y
libertad de los individuos. En el fondo la aplicacin es un gran
19
hermano que observa cualquier movimiento que se haga, pudiendo
estos ser utilizados para otros fines distintos a los que fue diseado.
5.2. UNIVERSIDAD
Se realiz un estudio sobre los recin titulados de la carrera de
Ingeniera en Sistemas Computacionales del Instituto Tecnolgico
de Chihuahua II en Mjico. Se quera observar si los recin titulados
se insertaban en actividades profesionales relacionadas con sus
estudios y, en caso negativo, se buscaba saber el perfil que
caracteriz a los ex-alumnos durante su estancia en la universidad.
Se deseaba concluir si con los planes de estudio de la universidad y
el rendimiento del alumno se haca una buena insercin laboral o si
existan otras variables que participaban en el proceso. Dentro de la
informacin considerada estaba el sexo, la edad, la escuela de
procedencia, el desempeo acadmico, la zona econmica donde
tena su vivienda y la actividad profesional, entre otras variables.
Mediante la aplicacin de conjuntos aproximados se descubri que
existan cuatro variables que determinaban la adecuada insercin
laboral, que son citadas de acuerdo con su importancia:
20
5.3. INVESTIGACION ESPACIAL
Durante seis aos, el Second Palomar Observatory Sky Survey
(POSS-II) coleccion tres terabytes de imgenes que contenan
aproximadamente dos millones de objetos en el cielo. Tres mil
fotografas fueron digitalizadas a una resolucin de 16 bits por pxel
con 23040 x 23040 pxeles por imagen. El objetivo era formar un
catlogo de todos esos objetos. El sistema Sky Image Cataloguing
and Analysis Tool (SKYCAT) se basa en tcnicas de agrupacin
(clustering) y rboles de decisin para poder clasificar los objetos en
estrellas, planetas, sistemas, galaxias, etc. con una alta
confiabilidad. Los resultados han ayudado a los astrnomos a
descubrir diecisis nuevos qusares (seales radiales lejanas) con
corrimiento hacia el rojo que los incluye entre los objetos ms lejanos
del universo y, por consiguiente, ms antiguos. Los qusares son
fuentes de Rayos X, radiacin ultravioleta, luz visible y tambin
infrarroja; en otras palabras, la emisin de radiacin de los qusares
resulta intensa en todo el espectro electromagntico. Estos
qusares son difciles de encontrar y permiten saber ms acerca de
los orgenes del universo.
5.4. INTERNET
Una de las aplicaciones de la minera de datos consiste en aplicar
sus tcnicas a documentos y servicios Web, lo que se denomina
comnmente con el trmino ingls web mining (minera de Web).
Cada vez que un usuario visita un sitio Web va dejando todo tipo de
huellas Web (direcciones de IP, navegador, galletas, etc.) que los
servidores automticamente almacenan en una base de datos (log).
Las herramientas de web mining analizan y procesan esta
abundante cantidad de datos para producir informacin significativa,
por ejemplo, cmo es la navegacin de un cliente antes de hacer
una compra en lnea. Debido a que los contenidos de Internet
consisten en varios tipos de datos, como texto, imagen, vdeo,
metadatos o hiperligas, investigaciones recientes usan el trmino
multimedia data mining (minera de datos multimedia) como una
21
instancia del web mining para tratar ese tipo de datos. Los accesos
totales por dominio, horarios de accesos ms frecuentes y visitas por
da, entre otros datos, son registrados por herramientas estadsticas
que complementan todo el proceso de anlisis del web mining.
Tambin es un rea en boga el del anlisis del comportamiento de
los visitantes sobre todo, cuando son clientes potenciales en una
pgina de internet. O la utilizacin de la informacin obtenida por
medios ms o menos legtimos sobre ellos para ofrecerles
propaganda adaptada especficamente a su perfil. O para, una vez
que adquieren un determinado producto, saber inmediatamente qu
otro ofrecerle teniendo en cuenta la informacin histrica disponible
acerca de los clientes que han comprado el primero.
5.5. NEGOCIOS
La minera de datos puede contribuir significativamente en las
aplicaciones de administracin empresarial basada en la relacin
con el cliente. En lugar de contactar con el cliente de forma
indiscriminada a travs de un centro de llamadas o enviando cartas,
slo se contactar con aquellos que se perciba que tienen una mayor
probabilidad de responder positivamente a una determinada oferta o
promocin. Por lo general, las empresas que emplean minera de
datos ven rpidamente el retorno de la inversin, pero tambin
reconocen que el nmero de modelos predictivos desarrollados
puede crecer muy rpidamente.
En lugar de crear modelos para predecir qu clientes pueden
cambiar, la empresa podra construir modelos separados para cada
regin y/o para cada tipo de cliente. Tambin puede querer
determinar que clientes van a ser rentables durante una ventana de
tiempo (una quincena, un mes,...) y slo enviar las ofertas a las
personas que es probable que sean rentables. Para mantener esta
cantidad de modelos, es necesario gestionar las versiones de cada
modelo y pasar a una minera de datos lo ms automatizada posible.
5.5.1. Hbitos de compra en supermercados
22
El ejemplo clsico de aplicacin de la minera de datos tiene
que ver con la deteccin de hbitos de compra en
supermercados. Un estudio muy citado detect que los
viernes haba una cantidad inusualmente elevada de clientes
que adquiran a la vez paales y cerveza. Se detect que se
deba a que dicho da solan acudir al supermercado padres
jvenes cuya perspectiva para el fin de semana consista en
quedarse en casa cuidando de su hijo y viendo la televisin
con una cerveza en la mano. El supermercado pudo
incrementar sus ventas de cerveza colocndolas prximas a
los paales para fomentar las ventas compulsivas.
5.5.3. Fraudes
Un caso anlogo es el de la deteccin de transacciones de
blanqueo de dinero o de fraude en el uso de tarjetas de crdito
o de servicios de telefona mvil e, incluso, en la relacin de
los contribuyentes con el fisco. Generalmente, estas
operaciones fraudulentas o ilegales suelen seguir patrones
caractersticos que permiten, con cierto grado de
23
probabilidad, distinguirlas de las legtimas y desarrollar as
mecanismos para tomar medidas rpidas frente a ellas.
5.6. TERRORISMO
La minera de datos ha sido citada como el mtodo por el cual la
unidad able danger del ejrcito de los EE.UU. haba identificado al
lder de los atentados del 11 de septiembre de 2001, mohammed
atta, y a otros tres secuestradores del "11-s" como posibles
miembros de una clula de al ALQEDA que operan en los EE.UU.
ms de un ao antes del ataque. Se ha sugerido que tanto la agencia
central de inteligencia y sus homloga canadiense, servicio de
inteligencia y seguridad canadiense, tambin han empleado este
mtodo.
5.7. JUEGOS
Desde comienzos de la dcada de 1960, con la disponibilidad de
orculos para determinados juegos combi nacionales, tambin
llamados finales de juego de tablero (por ejemplo, para las tres en
raya o en finales de ajedrez) con cualquier configuracin de inicio,
se ha abierto una nueva rea en la minera de datos que consiste en
24
la extraccin de estrategias utilizadas por personas para estos
orculos. Los planteamientos actuales sobre reconocimiento de
patrones, no parecen poder aplicarse con xito al funcionamiento de
estos orculos. En su lugar, la produccin de patrones perspicaces
se basa en una amplia experimentacin con bases de datos sobre
esos finales de juego, combinado con un estudio intensivo de los
propios finales de juego en problemas bien diseados y con
conocimiento de la tcnica (datos previos sobre el final del juego).
Ejemplos notables de investigadores que trabajan en este campo
son berlekamp en el juego de puntos y cajas (o timbiriche) y john
nunn en finales de ajedrez.
5.9. GENTICA
En el estudio de la gentica humana, el objetivo principal es entender
la relacin cartografa entre las partes y la variacin individual en las
secuencias del humano y la variabilidad en la susceptibilidad a las
enfermedades. En trminos ms llanos, se trata de saber cmo los
cambios en la secuencia de un individuo afectan al riesgo de
desarrollar enfermedades comunes (como por ejemplo el cncer).
Esto es muy importante para ayudar a mejorar el diagnstico,
prevencin y tratamiento de las enfermedades. La tcnica de minera
de datos que se utiliza para realizar esta tarea se conoce como
"reduccin de dimensional dad multifactorial".
25
equipos. Para la vigilancia de las vibraciones o el anlisis de los
cambios de carga en transformadores se utilizan ciertas tcnicas para
agrupacin de datos tales como los mapas auto-organizativos. Estos
mapas sirven para detectar condiciones anormales y para estimar la
naturaleza de dichas anomalas.
6.1. DE LA ESTADSTICA
Ciertamente, la minera de datos bebe de la estadstica, de la que toma
las siguientes tcnicas:
26
(binarios, cualitativos o cuantitativos) en un nmero determinado de
grupos, con base en las semejanzas o diferencias de los individuos.
6.2. LA INFORMTICA
De la informtica toma las siguientes tcnicas:
27
Sistemas Expertos: Son sistemas que han sido creados a partir de
reglas prcticas extradas del conocimiento de expertos.
Principalmente a base de inferencias o de causa-efecto.
28
retenerlos. La minera de datos ayuda a determinar qu clientes son
los ms proclives a darse de baja estudiando sus patrones de
comportamiento y comparndolos con muestras de clientes que,
efectivamente, se dieron de baja en el pasado.
Un caso anlogo es el de la deteccin de transacciones de blanqueo
de dinero o de fraude en el uso de tarjetas de crdito o de servicios
de telefona mvil e, incluso, en la relacin de los contribuyentes con
el fisco. Generalmente, estas operaciones fraudulentas o ilegales
suelen seguir patrones caractersticos que permiten, con cierto grado
de probabilidad, distinguirlas de las legtimas y desarrollar as
mecanismos para tomar medidas rpidas frente a ellas.
Tambin es un rea en boga el del anlisis del comportamiento de los
visitantes sobre todo, cuando son clientes potenciales en una
pgina de internet. O la utilizacin de la informacin obtenida por
medios ms o menos legtimos sobre ellos para ofrecerles
propaganda adaptada especficamente a su perfil. O para, una vez
que adquieren un determinado producto, saber inmediatamente qu
otro ofrecerle teniendo en cuenta la informacin histrica disponible
acerca de los clientes que han comprado el primero
29
BIBLIOGRAFIA
[1] Jhon Wiley Alan Simon and Sons. Data Warehouse, Data Mining and OLAP.
USA, 1997.
[2] Mc Graw Hill Alex Berson, Stephen J. Smith. Data Warehouse, Data Mining
and OLAP. USA, 1997.
[3] Mara Jos Ramrez Quintana Jos Hernndez Orallo. Extraccin Automtica
de Conocimiento en Bases de Datos e Ingeniera del Software. Espaa, 2003.
FUENTES
https://marquina88.wordpress.com/2012/06/06/mineria-de-datos
http://wiki.abogadourbanista.com/index.php?title=Data_mining
30