Algoritmos de La Mineria de Datos

ALGORITMOS DE LA
MINERIA DE DATOS
En General un algoritmo de minera de datos genera un modelo
predictivo con base en los datos de entrada.
Para poder hacer minera se deben interpretar los modelos
generados, algunos de ellos son fciles de interpretar, como los
arboles de decisin y las reglas de decisin, pero otros son casi
incomprensibles.
ARBOLES DE DESICIONES
rboles de decisin son
particiones secunciales de un
conjunto de
datos que maximizan las
diferencias de la variable
independiente
Objetivo:
Segmentar la poblacin para

encontrar grupos.
homogneos
segn una cierta variable de

respuesta. Esta tcnica permite
representar de forma grfica una serie de
reglas sobre la decisin que se debe tomar
en la asignacin de un determinado
elemento a una clase o valor de salida.
Los rboles difieren segn:

-Tipo
de la variable de respuesta
-Tipos de variables de segmentacin
-rboles binarios o n-arios
-Criterio de particin
-Criterio de parada
RBOLES DE DECISION
Los
rboles de decisin suelen ser

empleados en tareas de clasificacin sobre
variables de respuesta categricas
(rboles de clasificacin), y tambin,
aunque en menor medida, en tareas de
prediccin sobre variables
de respuesta cuantitativas (rboles de
regresin).
REGLAS DE ASOCIACION
Nos
permite predecir patrones de

comportamientos futuros sobre
ocurrencias simultaneas de valores de
variables. Tcnica no supervisada
Una asociacin entre dos atributos ocurre
cuando la frecuencia con la que se dan
dos o ms valores determinados de cada
uno conjuntamente es relativamente alta.
Las
reglas de asociacin intentan

descubrir asociaciones o
conexiones entre objetos.
CONCECUENCIA= ANTECEDENTE
1,ANTECEDENTE 2,..ANTECEDENTE M.
Ejemplo, en un supermercado se analiza
si los paales y los potitos de
beb se compran conjuntamente
REDES NEURONALES
Sistemas
de procesamiento de la
informacin cuya estructura y
funcionamiento estn inspirados en las
redes neuronales biolgicas. Consisten en
un conjunto de elementos simples de
procesamiento llamados nodos o neuronas
conectadas entre s por conexiones que
tienen un valor numrico modificable
llamado peso.
Consiste
en sumar los valores de las

entradas (inputs) que recibe de otras
unidades conectadas a ella, neurona aplica
una funcin de activacin (usualmente no
lineal), enviar activacin o salida (output)
a las unidades a las que est conectada.
Pueden
ser utilizadas en problemas de

clasificacin (la variable de salida es
cualitativa) o en prediccin (la variable de
salida es cuantitativa).
Supervisada : ej. Perceptrn multicapa
No supervisada:
ej. Mapas autoorganizativos de
Kohonen
PERCEPTRN MULTICAPA
Aprende la asociacin que:
existe
entre un conjunto de patrones de

entrada y sus salida
Supervisada : ej. Perceptrn multicapa
No supervisada:
ej. Mapas autoorganizativos de
Kohonen
MAPAS AUTOORGANIZATIVOS DE KOHONEN
Aprendizaje competitivo.
Descubrir por si misma rasgos,
peculiaridades, correlaciones o categoras

que se encuentren en los datos. El
objetivo es descubrir caractersticas o
patrones caractersticos de entre un
conjunto de datos de entrada, pero
de forma NO SUPERVISADA.
Reflejadas en la estructura topolgica de
la red
EL ALGORITMO
REGRESIN LINEAL
EL ALGORITMO
REGRESIN LINEAL
La regresin lineal o ajuste lineal es un mtodo
matemtico que modeliza la relacin entre una
variable dependiente, las variables independientes y
un trmino aleatorio.
La relacin toma la forma de una ecuacin para la
lnea que mejor represente una serie de datos.
El parmetro MINIMUM_LEAF_CASES del algoritmo
se establece para ser mayor o igual que el nmero
total de casos que el algoritmo utiliza para entrenar
el modelo de minera de datos.
La ecuacin que representa la lnea de regresin

toma la forma general de y = ax + b y es conocida
como la ecuacin de regresin.
La variable Y representa la variable de salida, X
representa la variable de entrada y a y b son
coeficientes ajustables.
Puede recuperar los coeficientes, intersecciones y
otra informacin sobre la frmula de regresin
consultando el modelo de minera de datos
completado.
Ejemplo:
Vamos a calcular la recta de regresin de la
siguiente serie de datos de altura y peso de
los alumnos de una clase. Vamos a considerar
que la altura es la variable independiente "x"
y que el peso es la variable dependiente "y.
Alumno
Estatura Peso
x
Alumno
x
Estatura Peso
Alumno 1
1,25
32 Alumno 11
1,25
Alumno 2
1,28
33 Alumno 12
Alumno 3
1,27
Alumno 4
Alumno
x
Estatura Peso
x
33 Alumno 21
1,25
33
1,28
35 Alumno 22
1,28
34
34 Alumno 13
1,27
34 Alumno 23
1,27
34
1,21
30 Alumno 14
1,21
30 Alumno 24
1,21
31
Alumno 5
1,22
32 Alumno 15
1,22
33 Alumno 25
1,22
32
Alumno 6
1,29
35 Alumno 16
1,29
34 Alumno 26
1,29
34
Alumno 7
1,30
34 Alumno 17
1,30
35 Alumno 27
1,30
34
Alumno 8
1,24
32 Alumno 18
1,24
32 Alumno 28
1,24
31
Alumno 9
1,27
32 Alumno 19
1,27
33 Alumno 29
1,27
35
Alumno 10
1,29
35 Alumno 20
1,29
33 Alumno 30
1,29
34
Representamos en un grfico los pares de

valores de una distribucin bidimensional.
Vemos que la nube de puntos sigue una
tendencia lineal.
El coeficiente de correlacin lineal nos permite

determinar si, efectivamente, existe relacin entre
las dos variables. Una vez que se concluye que s
existe relacin, la regresin nos permite definir la
recta que mejor se ajusta a esta nube de puntos.
Algoritmos estadsticos: Muchos algoritmos estadsticos han sido

utilizados por los analistas para detectar patrones inusuales en los
datos y explicar dichos patrones mediante la utilizacin de modelos
estadsticos, como, por ejemplo, los modelos lineales.
Estos mtodos se han ganado su lugar y seguirn siendo utilizados
en los aos venideros.
Algoritmos genticos: tcnicas de optimizacin que utilizan
procesos como el entrecruzamiento gentico, la mutacin y la
seleccin natural en un diseo basado en los conceptos de la
evolucin natural.
Algoritmos estadsticos.
Los modelos estadsticos son los ms tradicionales y comunes
para hacer anlisis predictivos.
Asumamos que se quiere predecir el ingreso de una determinada
persona en funcin de su edad. La figura muestra que
efectivamente existe una relacin entre edad e ingreso.
Desventaja de la estadstica.
Los modelos estadsticos tiene el trasfondo en el que uno debe
asumir la forma del modelo a prioridad . La mayora de las bases
de datos contienen mucha informacin sobre los clientes, a veces
almacenadas en varios cientos de variables.
Cuando se quiere construir un modelo, se debe seleccionar qu
variables se van a utilizar e incorporar en el modelo, y que
relacin entre las variables debiera existir; debido a esta
condicin, muchas relaciones interesantes son pasadas por alto.
Por ejemplo:
una analista podra querer determinar el factor de riesgo que se
debe usar respecto de cada cliente asegurado en una compaa
que asegura autos. El analista podra suponer que los conductores
hombres son de alto riesgo y revisar las bases de datos para
corroborar (o refutar por supuesto) ese supuesto.
Si el supuesto no es corroborado por la base de datos, l podra ver
si existe una relacin con otros factores como sexo y edad juntos
como mejores predictores de riesgo.
En otras palabras, la estadstica genera series de patrones
hipotticos y relaciones que refuta o corrobora usando
herramientas tambin estadsticas. Pero, qu pasa cuando el
nmero de variables a ser analizada es del orden de los cientos?.,
en esos casos se hace mucho ms difcil (y desde luego demoroso)
el encontrar buenas hiptesis, que por lo dems pueden pasar por
alto informacin valiosa.
Algoritmo Gentico.
Uno de los principales campos de aplicacin de la Bioinformtica y
concretamente de la Minera de Datos, a da de hoy, es la Gentica.
Siguiendo el esquema de proceso de datos genticos con el que
trabajan en el Instituto para la Informtica Mdica y la Biometra de
la Universidad de Rostock (ver figura 1); damos un repaso general
al estado del arte en el proceso de datos genticos.
En la primera fase es la de adquisicin de datos en bruto. Estos
datos provienen de las siguientes fuentes:
Obtencin de microarrays de ADN en laboratorio.

Relaciones causales entre genes.
Datos clnicos.
Redes genticas.
En una segunda etapa estos datos experimentales se estructuran y

almacenan como una base de datos de la que se nutrirn las
tcnicas de minera.
Fig. 1. Esquema de proceso de datos en el

Instituto para la Informtica Mdica y la
Biometra,Universidad de Rostock.
En el ltimo paso se extrae la informacin que interesa a los

genetistas:
Relaciones causales entre genes y determinacin de
propiedades proteicas usando minera de texto sobre
publicaciones cientficas.
Categorizacin de patrones genticos mediante inteligencia
artificial.
Prediccin de las funciones que desempean los genes
gracias a redes genticas causales y a mtodos estadsticos.
Anlisis de microarrays usando mtodos estadsticos.
Representacin grfica de redes genticas causales.
Fig.2 : Fragmento de ADN:

"Dispositivo" de almacenamiento de
datos biolgico.
Clustering o algoritmo de
agrupamiento
Es un procedimiento de agrupacin de una serie de

vectores de acuerdo con un criterio de cercana
Esto es:
los
vectores de un mismo grupo (o clsters)

comparten propiedades comunes. -descripcin
de un conjunto de datos multidimensional
complejo. minera de datos
Dividida en 2:
-Jerrquicas:- construyen una jerarqua de

grupos (uno deriva de otro).
-De particionamiento:- en los que el nmero
de grupos se determina de antemano.
Algoritmos:
k-means: minimizacin de la distancia
interna
suma de patrones de distancia asignados
al agrupamiento del centro de este mismo
(centralizar datos )
Adaptativo: algoritmo de agrupamiento se
utiliza cuando no se conoce el numero de clases
del problema.

Algoritmos de La Mineria de Datos

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Algoritmos de La Mineria de Datos

Cargado por

Copyright:

Formatos disponibles

ALGORITMOS DE LA

Segmentar la poblacin para

segn una cierta variable de

Los rboles difieren segn:

rboles de decisin suelen ser

permite predecir patrones de

reglas de asociacin intentan

en sumar los valores de las

ser utilizadas en problemas de

entre un conjunto de patrones de

MAPAS AUTOORGANIZATIVOS DE KOHONEN

peculiaridades, correlaciones o categoras

La ecuacin que representa la lnea de regresin

Representamos en un grfico los pares de

El coeficiente de correlacin lineal nos permite

Algoritmos estadsticos: Muchos algoritmos estadsticos han sido

Obtencin de microarrays de ADN en laboratorio.

En una segunda etapa estos datos experimentales se estructuran y

Fig. 1. Esquema de proceso de datos en el

En el ltimo paso se extrae la informacin que interesa a los

Fig.2 : Fragmento de ADN:

Es un procedimiento de agrupacin de una serie de

vectores de un mismo grupo (o clsters)

-Jerrquicas:- construyen una jerarqua de

También podría gustarte