Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Learning
Modelo de Comunicar y 5 1
datos Visualizar
Resultados
Construir un modelo Repetir el
¿Qué aprendimos de ellos? proceso
Ajustar un modelo
¿Los resultados tienen sentido?
Validar un modelo
¿Puedo decir una historia de ellos?
© Profesores del Curso – Machine Learning
8
Dos Categorías de Datos
• Tipo de data estructurada
• Ejemplo: archivos CSV, archivos Excel,
archivos base de datos (SAP, ORACLE,
etc).
https://www.youtube.com/watch?v=pO6FL6aAJ9s
Contenido Correcto
+ Momento Correcto
+ Lugar Correcto
+ Forma Correcta =
Decisión = Acción
Presentación,
Descubrimiento del
Producción
Gestión Datos & Conocimiento
y Diseminación
Representación del
Conocimiento
Visual Analytics es la ciencia del razonamiento analítico soportado por interfaces visuales interactivas.
Visualización
• Visualización de Información
• Recuperación de Información • Visualización Científica
• Recuperación Datos • Computación Grafica
• Minería de Datos
Data Análisis
Interacción
• Interacción Humano-Computadora
• Psicología Cognitiva
• Percepción
Visual Analytics puede verse como un enfoque integral que combina visualización,
factores humanos y análisis de datos.
Interacción a
Usuario
Visualización
Trazado de
Mapas
Transformación
Modelo
Data Construcción Conocimiento
Visualización
Modelo
Minería de
Datos Modelos
Parámetro de
Refinamiento
Análisis Datos Automatizado
Retroalimentación
El proceso de Visual Analytics combina métodos de análisis automáticos y visuales con un acoplamiento estricto a
través de la interacción humana para obtener conocimiento de los datos.
© Profesores del Curso – Machine Learning
24
Ejemplos de datos a integrar
“Probablemente
“Creciente relacionado con
Numero de los diferente datos
Reclamos registrados en un
Cliente…” hospital …”
• Aprendizaje No supervisado
• Medidas de Similitud
• Métodos de Agrupamiento
• Clustering Jerárquico
• Taller
• Objetivo
• Encontrar agrupamientos
de tal forma que los
objetos
• de un grupo sean
similares entre si y
diferentes de los
• objetos de otros grupos
[clusters].
• Aprendizaje no supervisado:
• No existen clases predefinidas.
• Los resultados obtenidos dependerán de:
• El algoritmo de agrupamiento seleccionado.
• El conjunto de datos disponible.
• La medida de similitud utilizada para comparar objetos
(usualmente, definida como medida de distancia).
A1, A4 y A7
Matriz de similitud
• Ordenamos los datos en la matriz de similitud con respecto a los
clusters en los que quedan los datos e inspeccionamos
visualmente…
Problema
Incluso en datos aleatorios, si nos
empenamos, encontramos clusters:
DBSCAN (arriba) y k-Means (abajo)
• Árbol de Decisión
• Curva ROC
3. Average predicciones
M Atributos
N Ejemplos
....…
M features
N examples
....…
M Atributos
N ejemplos
Toma la
Mayoria
de los
....…
....…
Votos
• El error estimado en estos out of bag samples se conoce como out of bag error (OOB error)
• Usar este conjunto de test (OOB) es tan preciso como si se usara un conjunto de test del mismo tamaño
que el de entrenamiento.
• Sería posible no usar un conjunto de test adicional.
© Profesores del Curso – Machine Learning
23
Entrena y Valida
Random Forest
• Introducción
• Problema
• Método de búsqueda y
optimización inspirados en la
evolución biológica.
• Posibles soluciones: población.
• Selección de los individuos más
aptos.
• Generación de nuevos
candidatos: reproducción sexual.
• Recombinación (cruce)
• Mutación
© Profesores del Curso – Machine Learning
5
Esquema básico Estrategias Optimizadora
función ALGORITMO-GENÉTICO(poblaciónInicial) de la Naturaleza
returns una población
entrada: poblaciónInicial, una población o SELECCIÓN NATURAL: supervivencia de los fuertes (Darwin)
static: población(.), un array de población
begin o REPRODUCCIÓN SEXUAL: genética Mendeliana
t0
o DIVERSIDAD: recombinación al azar y mutación
población(t) poblaciónInicial
EVALUAR(población(t))
➢ ALGORITMOS GENÉTICOS: Técnica de optimización basada en
while (not condiciónTerminación) do
la selección natural y la adaptación de los seres vivos al medio
t t +1
ambiente
población1 SELECCIONAR(población(t-1))
• HOLLAND (1975) : “Adaptation in Natural and Artificial
población2 CRUZAR(población1) Systems”
población3 MUTAR(población2)
• KOZA (1992) : “Genetic Programing. On the programming
población(t) REMPLAZAR(población3) of computers by means of Natural Selection”.
end
return(población(t))
end
© Profesores del Curso – Machine Learning
6
Codificación
1
1
1
RECOMBINACIÓN
• Intercambio de información que permite:
• Diversidad genética.
• Intercambio de información.
• Adaptación al medio ambiente.
Recombinación:
padre = p p1 , p p 2 ,..... p p ....., p pN
madre = pm1 , pm 2 ,..... pm ....., pmN
pnew 1 = p p + (1 − ) pm
( 0,1)
pnew 2 = (1 − ) p p + pm
Población inicial
Estructura
de cromosomas
Recombinar
Mutaciones
Criterio convergencia
STOP
POBLACION
CADENA INICIAL VALOR f(x)=x2
NUMERO (GENERADA DE X
AL AZAR)
1 01101 13 169
2 11000 24 576
3 01000 8 64
4 10011 19 361
VALORES DE
APTITUD O
ADAPTACION
SUMA = 1170
Probabilidad selección =
VALORES DE
POOL DE PAREJA POSICION DEL VALOR
NUEVA APTITUD
APAREAMIENTO SELECCIONADA ENTRECRUZAM. DE X
POBLACION
LUEGO DEL AL AZAR (ELEGIDO AL
ENTRECRUZAM. AZAR) f(x)=x2
Ya podemos ver que luego de una iteración parcial o en medio del camino
en la producción de una generación hemos incrementado la suma de las
funciones objetivo de 1170 a 1754, y el valor máximo se ha incrementado
de 576 a 729.
P(mut) = 0.001.
La simulación de este proceso indica que ningún bit sufre mutación con
este valor de probabilidad, por lo menos en esta prueba. Normalmente,
esto se hubiera llevado a cabo en un programa que usa un generador de
números al azar, y puede haber una posibilidad.
• Reproducción
• Entrecruzamiento
• Mutación
• Árbol de Decisión
• Curva ROC
Análisis Análisis
Pragmatico
LENGUAJE Sintatico
• Las distintas frases del análisis del lenguaje se afrontan con las
siguientes técnicas:
• Técnicas Lingüísticas formales: Se basan en el desarrollo de reglas
estructurales que se aplican a la frase de análisis del lenguaje.
• Técnicas probabilísticas: Se basan en el estudio en base a un conjunto
de textos de referencia (CORPUS) de característica de tipo
probabilístico asociadas a distintas fases del análisis del lenguaje.