Documentos de Académico
Documentos de Profesional
Documentos de Cultura
MINERIA DE DATOS
En General un algoritmo de minera de datos genera un modelo
predictivo con base en los datos de entrada.
Para poder hacer minera se deben interpretar los modelos
generados, algunos de ellos son fciles de interpretar, como los
arboles de decisin y las reglas de decisin, pero otros son casi
incomprensibles.
ARBOLES DE DESICIONES
rboles de decisin son
particiones secunciales de un
conjunto de
datos que maximizan las
diferencias de la variable
independiente
Objetivo:
homogneos
de la variable de respuesta
-Tipos de variables de segmentacin
-rboles binarios o n-arios
-Criterio de particin
-Criterio de parada
RBOLES DE DECISION
Los
REGLAS DE ASOCIACION
Nos
Las
REDES NEURONALES
Sistemas
de procesamiento de la
informacin cuya estructura y
funcionamiento estn inspirados en las
redes neuronales biolgicas. Consisten en
un conjunto de elementos simples de
procesamiento llamados nodos o neuronas
conectadas entre s por conexiones que
tienen un valor numrico modificable
llamado peso.
Consiste
Pueden
PERCEPTRN MULTICAPA
Aprende la asociacin que:
existe
Aprendizaje competitivo.
Descubrir por si misma rasgos,
EL ALGORITMO
REGRESIN LINEAL
EL ALGORITMO
REGRESIN LINEAL
La regresin lineal o ajuste lineal es un mtodo
matemtico que modeliza la relacin entre una
variable dependiente, las variables independientes y
un trmino aleatorio.
La relacin toma la forma de una ecuacin para la
lnea que mejor represente una serie de datos.
El parmetro MINIMUM_LEAF_CASES del algoritmo
se establece para ser mayor o igual que el nmero
total de casos que el algoritmo utiliza para entrenar
el modelo de minera de datos.
Ejemplo:
Vamos a calcular la recta de regresin de la
siguiente serie de datos de altura y peso de
los alumnos de una clase. Vamos a considerar
que la altura es la variable independiente "x"
y que el peso es la variable dependiente "y.
Alumno
Estatura Peso
x
Alumno
x
Estatura Peso
Alumno 1
1,25
32 Alumno 11
1,25
Alumno 2
1,28
33 Alumno 12
Alumno 3
1,27
Alumno 4
Alumno
x
Estatura Peso
x
33 Alumno 21
1,25
33
1,28
35 Alumno 22
1,28
34
34 Alumno 13
1,27
34 Alumno 23
1,27
34
1,21
30 Alumno 14
1,21
30 Alumno 24
1,21
31
Alumno 5
1,22
32 Alumno 15
1,22
33 Alumno 25
1,22
32
Alumno 6
1,29
35 Alumno 16
1,29
34 Alumno 26
1,29
34
Alumno 7
1,30
34 Alumno 17
1,30
35 Alumno 27
1,30
34
Alumno 8
1,24
32 Alumno 18
1,24
32 Alumno 28
1,24
31
Alumno 9
1,27
32 Alumno 19
1,27
33 Alumno 29
1,27
35
Alumno 10
1,29
35 Alumno 20
1,29
33 Alumno 30
1,29
34
Algoritmos estadsticos.
Los modelos estadsticos son los ms tradicionales y comunes
para hacer anlisis predictivos.
Asumamos que se quiere predecir el ingreso de una determinada
persona en funcin de su edad. La figura muestra que
efectivamente existe una relacin entre edad e ingreso.
Desventaja de la estadstica.
Los modelos estadsticos tiene el trasfondo en el que uno debe
asumir la forma del modelo a prioridad . La mayora de las bases
de datos contienen mucha informacin sobre los clientes, a veces
almacenadas en varios cientos de variables.
Cuando se quiere construir un modelo, se debe seleccionar qu
variables se van a utilizar e incorporar en el modelo, y que
relacin entre las variables debiera existir; debido a esta
condicin, muchas relaciones interesantes son pasadas por alto.
Por ejemplo:
una analista podra querer determinar el factor de riesgo que se
debe usar respecto de cada cliente asegurado en una compaa
que asegura autos. El analista podra suponer que los conductores
hombres son de alto riesgo y revisar las bases de datos para
corroborar (o refutar por supuesto) ese supuesto.
Si el supuesto no es corroborado por la base de datos, l podra ver
si existe una relacin con otros factores como sexo y edad juntos
como mejores predictores de riesgo.
En otras palabras, la estadstica genera series de patrones
hipotticos y relaciones que refuta o corrobora usando
herramientas tambin estadsticas. Pero, qu pasa cuando el
nmero de variables a ser analizada es del orden de los cientos?.,
en esos casos se hace mucho ms difcil (y desde luego demoroso)
el encontrar buenas hiptesis, que por lo dems pueden pasar por
alto informacin valiosa.
Algoritmo Gentico.
Uno de los principales campos de aplicacin de la Bioinformtica y
concretamente de la Minera de Datos, a da de hoy, es la Gentica.
Siguiendo el esquema de proceso de datos genticos con el que
trabajan en el Instituto para la Informtica Mdica y la Biometra de
la Universidad de Rostock (ver figura 1); damos un repaso general
al estado del arte en el proceso de datos genticos.
En la primera fase es la de adquisicin de datos en bruto. Estos
datos provienen de las siguientes fuentes:
Clustering o algoritmo de
agrupamiento
Esto es:
los
Dividida en 2:
Algoritmos:
k-means: minimizacin de la distancia
interna
suma de patrones de distancia asignados
al agrupamiento del centro de este mismo
(centralizar datos )
Adaptativo: algoritmo de agrupamiento se
utiliza cuando no se conoce el numero de clases
del problema.