Está en la página 1de 32

ALGORITMOS DE LA

MINERIA DE DATOS
En General un algoritmo de minera de datos genera un modelo
predictivo con base en los datos de entrada.
Para poder hacer minera se deben interpretar los modelos
generados, algunos de ellos son fciles de interpretar, como los
arboles de decisin y las reglas de decisin, pero otros son casi
incomprensibles.

ARBOLES DE DESICIONES
rboles de decisin son
particiones secunciales de un
conjunto de
datos que maximizan las
diferencias de la variable
independiente

Objetivo:

Segmentar la poblacin para


encontrar grupos.

homogneos

segn una cierta variable de


respuesta. Esta tcnica permite
representar de forma grfica una serie de
reglas sobre la decisin que se debe tomar
en la asignacin de un determinado
elemento a una clase o valor de salida.

Los rboles difieren segn:


-Tipo

de la variable de respuesta
-Tipos de variables de segmentacin
-rboles binarios o n-arios
-Criterio de particin
-Criterio de parada

RBOLES DE DECISION
Los

rboles de decisin suelen ser


empleados en tareas de clasificacin sobre
variables de respuesta categricas
(rboles de clasificacin), y tambin,
aunque en menor medida, en tareas de
prediccin sobre variables
de respuesta cuantitativas (rboles de
regresin).

REGLAS DE ASOCIACION
Nos

permite predecir patrones de


comportamientos futuros sobre
ocurrencias simultaneas de valores de
variables. Tcnica no supervisada
Una asociacin entre dos atributos ocurre
cuando la frecuencia con la que se dan
dos o ms valores determinados de cada
uno conjuntamente es relativamente alta.

Las

reglas de asociacin intentan


descubrir asociaciones o
conexiones entre objetos.
CONCECUENCIA= ANTECEDENTE
1,ANTECEDENTE 2,..ANTECEDENTE M.
Ejemplo, en un supermercado se analiza
si los paales y los potitos de
beb se compran conjuntamente

REDES NEURONALES
Sistemas

de procesamiento de la
informacin cuya estructura y
funcionamiento estn inspirados en las
redes neuronales biolgicas. Consisten en
un conjunto de elementos simples de
procesamiento llamados nodos o neuronas
conectadas entre s por conexiones que
tienen un valor numrico modificable
llamado peso.

Consiste

en sumar los valores de las


entradas (inputs) que recibe de otras
unidades conectadas a ella, neurona aplica
una funcin de activacin (usualmente no
lineal), enviar activacin o salida (output)
a las unidades a las que est conectada.

Pueden

ser utilizadas en problemas de


clasificacin (la variable de salida es
cualitativa) o en prediccin (la variable de
salida es cuantitativa).
Supervisada : ej. Perceptrn multicapa
No supervisada:
ej. Mapas autoorganizativos de
Kohonen

PERCEPTRN MULTICAPA
Aprende la asociacin que:
existe

entre un conjunto de patrones de


entrada y sus salida
Supervisada : ej. Perceptrn multicapa
No supervisada:
ej. Mapas autoorganizativos de
Kohonen

MAPAS AUTOORGANIZATIVOS DE KOHONEN

Aprendizaje competitivo.
Descubrir por si misma rasgos,

peculiaridades, correlaciones o categoras


que se encuentren en los datos. El
objetivo es descubrir caractersticas o
patrones caractersticos de entre un
conjunto de datos de entrada, pero
de forma NO SUPERVISADA.
Reflejadas en la estructura topolgica de
la red

EL ALGORITMO
REGRESIN LINEAL

EL ALGORITMO
REGRESIN LINEAL
La regresin lineal o ajuste lineal es un mtodo
matemtico que modeliza la relacin entre una
variable dependiente, las variables independientes y
un trmino aleatorio.
La relacin toma la forma de una ecuacin para la
lnea que mejor represente una serie de datos.
El parmetro MINIMUM_LEAF_CASES del algoritmo
se establece para ser mayor o igual que el nmero
total de casos que el algoritmo utiliza para entrenar
el modelo de minera de datos.

La ecuacin que representa la lnea de regresin


toma la forma general de y = ax + b y es conocida
como la ecuacin de regresin.
La variable Y representa la variable de salida, X
representa la variable de entrada y a y b son
coeficientes ajustables.
Puede recuperar los coeficientes, intersecciones y
otra informacin sobre la frmula de regresin
consultando el modelo de minera de datos
completado.

Ejemplo:
Vamos a calcular la recta de regresin de la
siguiente serie de datos de altura y peso de
los alumnos de una clase. Vamos a considerar
que la altura es la variable independiente "x"
y que el peso es la variable dependiente "y.
Alumno

Estatura Peso
x

Alumno
x

Estatura Peso

Alumno 1

1,25

32 Alumno 11

1,25

Alumno 2

1,28

33 Alumno 12

Alumno 3

1,27

Alumno 4

Alumno
x

Estatura Peso
x

33 Alumno 21

1,25

33

1,28

35 Alumno 22

1,28

34

34 Alumno 13

1,27

34 Alumno 23

1,27

34

1,21

30 Alumno 14

1,21

30 Alumno 24

1,21

31

Alumno 5

1,22

32 Alumno 15

1,22

33 Alumno 25

1,22

32

Alumno 6

1,29

35 Alumno 16

1,29

34 Alumno 26

1,29

34

Alumno 7

1,30

34 Alumno 17

1,30

35 Alumno 27

1,30

34

Alumno 8

1,24

32 Alumno 18

1,24

32 Alumno 28

1,24

31

Alumno 9

1,27

32 Alumno 19

1,27

33 Alumno 29

1,27

35

Alumno 10

1,29

35 Alumno 20

1,29

33 Alumno 30

1,29

34

Representamos en un grfico los pares de


valores de una distribucin bidimensional.
Vemos que la nube de puntos sigue una
tendencia lineal.

El coeficiente de correlacin lineal nos permite


determinar si, efectivamente, existe relacin entre
las dos variables. Una vez que se concluye que s
existe relacin, la regresin nos permite definir la
recta que mejor se ajusta a esta nube de puntos.

Algoritmos estadsticos: Muchos algoritmos estadsticos han sido


utilizados por los analistas para detectar patrones inusuales en los
datos y explicar dichos patrones mediante la utilizacin de modelos
estadsticos, como, por ejemplo, los modelos lineales.
Estos mtodos se han ganado su lugar y seguirn siendo utilizados
en los aos venideros.
Algoritmos genticos: tcnicas de optimizacin que utilizan
procesos como el entrecruzamiento gentico, la mutacin y la
seleccin natural en un diseo basado en los conceptos de la
evolucin natural.

Algoritmos estadsticos.
Los modelos estadsticos son los ms tradicionales y comunes
para hacer anlisis predictivos.
Asumamos que se quiere predecir el ingreso de una determinada
persona en funcin de su edad. La figura muestra que
efectivamente existe una relacin entre edad e ingreso.
Desventaja de la estadstica.
Los modelos estadsticos tiene el trasfondo en el que uno debe
asumir la forma del modelo a prioridad . La mayora de las bases
de datos contienen mucha informacin sobre los clientes, a veces
almacenadas en varios cientos de variables.
Cuando se quiere construir un modelo, se debe seleccionar qu
variables se van a utilizar e incorporar en el modelo, y que
relacin entre las variables debiera existir; debido a esta
condicin, muchas relaciones interesantes son pasadas por alto.

Por ejemplo:
una analista podra querer determinar el factor de riesgo que se
debe usar respecto de cada cliente asegurado en una compaa
que asegura autos. El analista podra suponer que los conductores
hombres son de alto riesgo y revisar las bases de datos para
corroborar (o refutar por supuesto) ese supuesto.
Si el supuesto no es corroborado por la base de datos, l podra ver
si existe una relacin con otros factores como sexo y edad juntos
como mejores predictores de riesgo.
En otras palabras, la estadstica genera series de patrones
hipotticos y relaciones que refuta o corrobora usando
herramientas tambin estadsticas. Pero, qu pasa cuando el
nmero de variables a ser analizada es del orden de los cientos?.,
en esos casos se hace mucho ms difcil (y desde luego demoroso)
el encontrar buenas hiptesis, que por lo dems pueden pasar por
alto informacin valiosa.

Algoritmo Gentico.
Uno de los principales campos de aplicacin de la Bioinformtica y
concretamente de la Minera de Datos, a da de hoy, es la Gentica.
Siguiendo el esquema de proceso de datos genticos con el que
trabajan en el Instituto para la Informtica Mdica y la Biometra de
la Universidad de Rostock (ver figura 1); damos un repaso general
al estado del arte en el proceso de datos genticos.
En la primera fase es la de adquisicin de datos en bruto. Estos
datos provienen de las siguientes fuentes:

Obtencin de microarrays de ADN en laboratorio.


Relaciones causales entre genes.
Datos clnicos.
Redes genticas.

En una segunda etapa estos datos experimentales se estructuran y


almacenan como una base de datos de la que se nutrirn las
tcnicas de minera.

Fig. 1. Esquema de proceso de datos en el


Instituto para la Informtica Mdica y la
Biometra,Universidad de Rostock.

En el ltimo paso se extrae la informacin que interesa a los


genetistas:
Relaciones causales entre genes y determinacin de
propiedades proteicas usando minera de texto sobre
publicaciones cientficas.
Categorizacin de patrones genticos mediante inteligencia
artificial.
Prediccin de las funciones que desempean los genes
gracias a redes genticas causales y a mtodos estadsticos.
Anlisis de microarrays usando mtodos estadsticos.
Representacin grfica de redes genticas causales.

Fig.2 : Fragmento de ADN:


"Dispositivo" de almacenamiento de
datos biolgico.

Clustering o algoritmo de
agrupamiento

Es un procedimiento de agrupacin de una serie de


vectores de acuerdo con un criterio de cercana

Esto es:
los

vectores de un mismo grupo (o clsters)


comparten propiedades comunes. -descripcin
de un conjunto de datos multidimensional
complejo. minera de datos

Dividida en 2:

-Jerrquicas:- construyen una jerarqua de


grupos (uno deriva de otro).
-De particionamiento:- en los que el nmero
de grupos se determina de antemano.

Algoritmos:
k-means: minimizacin de la distancia
interna
suma de patrones de distancia asignados
al agrupamiento del centro de este mismo
(centralizar datos )
Adaptativo: algoritmo de agrupamiento se
utiliza cuando no se conoce el numero de clases
del problema.

También podría gustarte