Está en la página 1de 8

6.

8 Minera de datos
La minera de datos proporciona un nuevo sistema para el manejo de grandes
bases de datos, gracias a un campo situado entre la estadstica, la tecnologa
de bases de datos, los patrones de reconocimiento, el aprendizaje de las
mquinas, la visualizacin de datos y los sistemas epertos !"#$%. Las bases
de datos se organizan de &orma que puedan ser &cilmente consultadas,
actualizadas o utilizadas para etraer in&ormacin. 'n manager de bases de
datos permite realizar estas &unciones, con peque(as bases pero sobre todo
con enormes cantidades de datos, di&ciles de manejar con otros m)todos. La
minera de datos no necesita ning*n n*mero determinado de variables ni
estima que )stas se comporten de una manera concreta mediante &unciones de
distribucin. +s mismo combina gran cantidad de t)cnicas y m)todos, y aplica
sus algoritmos, directamente sobre los datos lo que aporta un manejo y
procesamiento de in&ormacin ms e&iciente. ,e aplican as algoritmos o
razonamientos que, originalmente no &ueron dise(ados para ese tipo de datos
aunque se tiende a modi&icar la aplicacin de &orma que la terminologa y el
campo de trabajo se adecuen a la nueva aplicacin.
La minera de datos apenas se -a usado en la psiquiatra. .s tambi)n conocida
como /aprendizaje automtico0, /aprendizaje mquina0 !mac-ine learning% o
/descubrimiento de conocimiento en las bases de datos0, lo que -ace
re&erencia a la capacidad de los ordenadores de generar conocimiento a partir
del manejo de las grandes bases de datos. Muc-as industrias, sin embargo que
aparecen en la vida cotidiana utilizan estas t)cnicas, empresas de mar1eting,
viajes, banca, telecomunicaciones.... La necesidad de su uso surge a partir de
un intento de etraer la mayor cantidad de in&ormacin de inmensas bases de
datos, buscando patrones y caminos. +s se reduce la complejidad y se etrae
la mima in&ormacin de los datos. La de&inicin del t)rmino, acu(ado en los
"# por ingenieros in&ormticos sera /m)todos algortmicos orientados a bases
de datos que buscan patrones y estructuras en los datos que no se -aban
222222222
3g. 446
M56787,
22222222222222222222222222222222222222222222222222222222222222222222222222222222222
22222222222
sospec-ado antes0 o /la ciencia de buscar en grandes almacenes de datos
patrones y estructuras interesantes0. La minera de datos es ecl)ctica y recoge
ideas y m)todos de otras muc-as ciencias. .n la clnica los principales campos
de aplicacin seran las bases de datos de pacientes y la literatura m)dica. ,e
-an utilizado para localizar el principio de epidemias, que los m)dicos
generales a*n no eran capaces de detectar o predecir pacientes de mayor
riesgo y que necesitan ms cuidados.
+unque la minera de datos est basada en slidos principios estadsticos, es
distinta a la estadstica tradicional. 9o en&atiza en in&erencias y estimaciones
sino que su objetivo principal es la b*squeda de clasi&icaciones y
descubrimiento de nuevos conocimientos. :recuentemente se realiza de &orma
retrospectiva y no implica datos observacionales as que no precisa de dise(os
eperimentales. .l anlisis de los datos desde pro&esionales que desconocen
los criterios clnicos y los resultados esperables, as como la intervencin de las
mquinas, ayudan en la &iabilidad de los datos y evitan sesgos del investigador.
La di&erencia marcada por la estadstica tradicional, entre las t)cnicas de
probar -iptesis y las que generan -iptesis, permiten clasi&icar la minera
como una &orma de generar -iptesis mediante la eploracin de los datos pero
tambi)n crea conocimiento a trav)s de la eploracin, lo que supone una
innovacin y una novedosa interpretacin de los datos cient&icos.
.ntre las ventajas que aporta la minera de datos, cabe se(alar una reduccin
en tiempo y es&uerzo para el usuario &inal, la capacidad para el anlisis de
multitud de reas a la vez, la disminucin de la importancia de un posible error
-umano, los datos se presentan en el &ormato correcto y la posibilidad de
acceder a ellos en cualquier momento y desde cualquier lugar.
.n cuanto a las estrategias de la minera de datos consisten en /aprender de
los datos0. Los objetivos perseguidos mediante este modelo son la prediccin
del comportamiento de los datos, la clasi&icacin, la eploracin y estudios de
a&inidad.
Los algoritmos de prediccin determinan reglas o modelos para predecir
valores discretos en una serie de datos, y los de clasi&icacin predicen qu)
datos se comportan de distinta manera respecto a ciertos indicadores. La
a&inidad predice qu) eventos es probable que ocurran en relacin con otros, es
2222222222
8olores ,aiz ;onzlez
3g. 44<
+nlisis de los antecedentes &amiliares de la conducta suicida
22222222222222222222222222222222222222222222222222222222222222222222222222222222222
22222222222
decir predicen resultados y=o descubren relaciones entre los datos. 'n resumen
de estos conceptos se plasma en la 6abla $<.
6abla $<.7bjetivos modelados y t)cnicas de minera de datos !"#$%
7bjetivo ,upervisado 9o supervisado
3rediccin >egresin logstica 9o &actible
>edes neuronales
?rboles de decisin
>azonamiento basado en la
memoria
Mquinas de soporte
vectorial
?rboles de decisin @lustering
>edes neuronales Ao-onen netBor1s o mapas
+nlisis discriminante
@lasi&icacin
autoorganizadores
.nsamblados !bagging and
boosting%
@lasi&icadores 9aCve Dayes
.ploracin
+&inidad
?rboles de decisin
@lustering
3rincipales componentes
Lin1 analysis
+sociaciones
,ecuencias
+nlisis &actorial
.l proceso mediante el cual &unciona la minera de datos puede ser entendido
como un conjunto de -erramientas que se aplican seg*n el acrnimo ingl)s
,.MM+ !sample, eplore, modi&y, model and assess%, es decir, muestra,
eploracin, modi&icacin, creacin de modelos y asesoramiento. .stos cinco
escalones consisten en dibujar una muestra estadsticamente signi&icativa de
los datos, aplicarle t)cnicas de eploracin, estadsticas y de visualizacin,
maniobras de modi&icacin o manipulacin para seleccionar o trans&ormar las
variables ms signi&icativas y predictivas, modelar estas variables para la
prediccin de resultados y con&irmar , por *ltimo, el ajuste del modelo. .l
proceso se puede repetir las veces que sea necesario. .l &in *ltimo de la
minera de datos es generalizar los resultados obtenidos.
222222222
3g. 448
M56787,
22222222222222222222222222222222222222222222222222222222222222222222222222222222222
22222222222
Elustracin $F..l proceso de minera de datos ,.MM+
Muestra Muestreo
.ploracin .ploracin visual
@orrespondencia con el &actor de
clasi&icacin
Manipulacin
Modelos
+(adir o quitar grabaciones
+grupacin de variables
>edes neuronales
?rboles de decisin
6)cnicas estadsticas
+nlisis de series en el tiempo
8atos actualizados
9uevas cuestiones
+juste
Las aplicaciones de estas t)cnicas en datos re&erentes a la salud -an sido el
control de in&ecciones nosocomiales, identi&icar &actores de riesgo, etc.
Las t)cnicas tradicionales dejan a*n muc-as preguntas sin respuesta en la
toma de decisiones clnicas complejas. +s un reciente artculo aplica las
t)cnicas minera de datos para eplorar las decisiones tomadas en urgencias
en pacientes con intentos de suicidio. .studiando ciertas variables que los
psiquiatras tenan en cuenta a la -ora de valorar a los pacientes se observ
como con la estadstica tradicional se lograba clasi&icar bien a un <4G88H de
los pacientes &rente a un ""H que se clasi&icaba con las nuevas t)cnicas. +s
estos nuevos procedimientos estadsticos se proponen como -erramientas
potenciales para la creacin de guas clnicas de actuacin. .stas guas son
di&ciles de elaborar por la di&erencia entre las condiciones en las que se
realizan los estudios clnicos &rente a las condiciones de trabajo reales en la
2222222222
8olores ,aiz ;onzlez
3g. 44"
+nlisis de los antecedentes &amiliares de la conducta suicida
22222222222222222222222222222222222222222222222222222222222222222222222222222222222
22222222222
clnica cotidiana, la complejidad de las decisiones, di&cilmente estudiables con
datos objetivos de la estadstica tradicional.
Elustracin $I. 3roceso en la minera de datos
6." ,eleccin de caractersticas
La seleccin de caractersticas pretende de&inir aqu)llas variables que tienen
mayor capacidad de discriminacin, que son ms relevantes para separar las
muestras seg*n otra variable que se establece como clase.
.n nuestro caso se utilizarn m)todos tipo &ilter que son aquellos que usan
alg*n criterio de discriminacin para ordenar las variables por su relevancia, sin
usar in&ormacin sobre la precisin obtenida en la clasi&icacin de la variable
que se usa como clase !tpicamente se busca la mima separacin entre
clases%. ,on m)todos &ilter el 8iscriminante de :is-er, 6est de AolmogorovG
,mirno&&, 8iscriminante basado en En&ormacin Mutua y >ecursive :eature
.traction !>:.% .
6.".J 8iscriminante de :is-er
.l discriminante de :is-er es un mecanismo de ran1ing que se basa en
criterios de separacin lineales. ,ean
subconjuntos de muestras de las clases
y
la media correspondiente a los
y . ,ean igualmente
y
sus
respectivas varianzas. .l valor del discriminante de :is-er para la variable
viene dada porK
!J%
.ste discriminante mide la distancia entre las medias, ponderada por las
varianzas !cuanto mayores son )stas, menos relevante es la distancia entre las
medias, dado que -ay un mayor solapamiento%. .l -ec-o de que el numerador
222222222
3g. 4$#

También podría gustarte