Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Analítica de Datos
Módulo 4: Aprendizaje Computacional
Aprendizaje supervisado
Julio Godoy Del Campo
Presentación basada en libro: Artificial Intelligence: A Modern Approach (Russell y Norvig) 3ra edición
● Pasos:
a. Cargar los datos
b. Inicializar K (número de vecinos a considerar)
c. Para cada dato i
■ Calcular distancia entre dato a evaluar y el dato i
■ Añadir la distancia a una lista
■ Ordenar la lista de distancia de menor a mayor
■ Escoger los primeros k datos en la lista ordenada
■ Obtener la clase/etiqueta de cada dato y retornar su moda
● Ventajas:
○ Simple, fácil de entender e implementar
○ Aparte del valor de k, no se necesita hacer tuning de más parámetros, ni hacer
supuestos restrictivos
○ Sirve para clasificación y regresión
● Desventajas:
○ Puede ser muy lento
● En la práctica:
○ su uso en dominios donde se requiere respuesta rápida es limitado
A = hipótesis
B = evidencia
A = hipótesis
B = evidencia
● Supuestos:
○ los atributos son independientes (de ahí “Naive”)
○ los atributos tienen el mismo efecto en el resultado
X = atributos
X = atributos
X = atributos
X = atributos
X = atributos
○ Como los datos (escogidos al azar) no son iguales en cada caso, los árboles
resultantes son diferentes.
■ ejemplo: si el dataset de entrenamiento fuese [1, 2, 3, 4, 5, 6], uno de los árboles
podría utilizar [2, 2, 2, 4, 5, 5]
● En resumen
○ Random forest es un método de clasificación que utiliza un conjunto de árboles de
decisión
○ Utiliza bagging y randomización de características al construir cada árbol, intentando
construir un “forest” de árboles de baja correlación, cuya predicción es más exacta que
la de cada árbol individual.
○ Se requiere:
■ atributos que tengan algo de “poder predictivo”
■ baja correlación entre los árboles (y entre sus decisiones)
● ¿Qué es un hiperplano?
○ subespacio de n-1 dimensiones (donde n es la dimensión de los datos)
○ Ejemplo en 2 dimensiones:
Generalizando:
● ¿Qué es un margen?
○ Dado un hiperplano - una línea X
○ Calcular la distancia perpendicular desde cada punto a la línea X
○ La distancia más pequeña es el margen
○ SVM trata de encontrar el hiperplano que maximiza este margen
El problema:
● Busca una relación lineal entre lo que se quiere predecir y los atributos
○ Ejemplo: horas de estudio vs nota obtenida
4 2.3
24 7.0
14 5.4
7 3.3
● y = b0 + b1*x
○ y es el valor a predecir
○ x se obtiene de los datos
○ ¿qué valores usar para b0 y b1?
● y = b0 + b1*x
○ y es el valor a predecir
○ x se obtiene de los datos
○ ¿qué valores usar para b0 y b1? → aquellos que minimicen el “error”
● y = b0 + b1*x
○ y es el valor a predecir
○ x se obtiene de los datos
○ ¿qué valores usar para b0 y b1? → aquellos que minimicen el “error”
→ descenso de gradiente!
Demo