Está en la página 1de 26

Marchine Learning

Foundations
Qué es Machine Learning

• No son instrucciones detalladas como un condicional .


• Darle al ordenador los datos y las herramientas que se necesitas
para que la maquina aprenda.
• Aprende de los errores y busca la mejor forma de hacerlo.
• Problema
• Crea una regla
• Aplica la regla
• Feedback
• Ajusta la regla
Mecanismo de funcionamiento

• Usa los datos de prueba (testing) para ver como encaja el algoritmo
estadístico o matemático con los datos.

• Evalúa y encuentra patrones.

• Cada vez que aprende lo guarda en su base de datos.

• Cada vez aprende más de los datos.

• Nueva forma de encontrar parámetros en los datos.


Proceso General

• Entrenar con el set de datos de entrenamiento (Training dataset)

• Probar los resultados del modelo con el set de test (Testing datasets)

• Realizar pruebas con varios algoritmos para determinar cuál presenta mejores
resultados.
• Precisos y estables

• Cambiar los hyperparámetros de los algoritmos para lograr el balance entre


estable y preciso.
Formas de aprender

• Aprendizaje Supervisado.
• Se le muestran los datos al algoritmo (datos – label)

• Aprendizaje no supervisado
• Se le muestran los datos sin label
• La maquina crea las reglas e identifica patrones.
• Crea los labels.
• Se necesitan muchos datos para que el algoritmo haga observaciones por si
mismo.
• Semisupervisado
• Tutor y datos.
Aprendizaje Supervisado

• Conexión entre los datos y el output o label.

• Los datos contienen variables independientes y el output es la


variable dependiente.

• Los label pueden ser continuos (regresiones) o clasificaciones


binarias o más de 2 outcomes.
Aprendizaje No Supervisado

• Aprender y mejorar por prueba y error es la idea principal.

• Encuentra patrones en los datos y arroja resultados.

• Los más comunes son los algoritmos de recomendación pero


también se da en algoritmos de recomendación.

• Para encontrar patrones nuevos.


Semi supervisado

• Iniciar con un set pequeño con labels para hacer clasificaciones


básicos.
• Pero se alimenta la maquina con ese set de datos y se deja que
aprenda con base en esos patrones.
• Ejemplo, para que pueda expandir su vocabulario en un programa
de reconocimiento de texto.
• Se conoce como inductive learning.
• Otro es transductive reasoning – de lo general a lo particular.
• Puede llevar a errores
Reinforcement - reforzamiento

• Diferente de los otros métodos que revisamos.

• Se le da a la máquina una meta clara y deberá iterar hasta lograr el


mejor resultado.

• Darle recompensas al algoritmo para que vaya aumentando el premio.

• Q-learning – rewards more sofisticadas.


• Estados
• Acciones
• Mejorar la calidad del outcome (Q)
Categorías de aprendizaje supervisado

• Binaria – solo dos posibles resultados.

• Clasificación de múltiples clases - más de 2 posibles resultados.

• Regresión – solución con variable label continua


Conceptos Claves
Conceptos claves
Alto sesgo y baja varianza bajo sesgo y baja varianza
• Bias – sesgo: brecha entre el valor
predicho y el valor real.

• Varianza: cuando los valores predichos


están ampliamente dispersos.
Alto sesgo y alta varianza bajo sesgo y alta varianza
• Alto sesgo y poca varianza =
consistentemente errado.
• Alto sesgo y alta varianza =
consistentemente errado en una
manera inconsistente.
Parámetros de regularización

• La regularización ayuda a evitar que


los modelos se sobreajusten a los set
de entrenamiento. Favorece la
generalización.
• L1 reduce a cero las variables menos
relevantes. Modelo más disperso y
con menos ruido.
• L2 produce valores de ponderación
generales más pequeños y estabiliza
las ponderaciones cuando hay gran
correlación entre las características
de entrada.

Fuente:https://developers.google.com/machine-learning/crash-course/regularization-for-sparsity/l1-regularization?hl=es-419
Tasa de aprendizaje

• La tasa de aprendizaje afecta la velocidad a la que el algoritmo alcanza (se converge en) las
ponderaciones óptimas.
• Son las actualizaciones de las ponderaciones del modelo por cada ejemplo de datos que
encuentre.

• El tamaño de estas actualizaciones se controla mediante la tasa de aprendizaje.

• Una tasa de aprendizaje demasiado elevada podría impedir que las ponderaciones alcancen
la solución óptima.

• Un valor demasiado pequeño hace que el algoritmo requiera muchos pases para alcanzar las
ponderaciones óptimas.
Ruido

• Noise o Ruido: diferentes resultados con predictores parecidos.

• Para reducir el ruido se deben agregar nuevos predictores se agrega más


complejidad.

• Mayor complejidad hace el modelo más flexible peor más difícil de manejar.

• Signal and noise


• Señal lo que puedes usar para hacer predicciones acertadas.
• Ruido: la varianza natural en los datos que no ofrece ningún insigth.
Mejorar la estabilidad y la precisión

• Bagging: Varias versiones del mismo algoritmo para promediar.

• Boosting: toma los resultados de un algoritmo y los pasa por otro.


• Le da más peso a los errores para tratar de corregirlos.
• Aumenta el sobre ajuste. (caída del 5% en el acierto del set de
entrenamiento al de prueba)

• Stacking: Se usan varios modelos para mejorar la predicción.


Algoritmos
Regresión

• Busca la relación entre variables


dependientes y variables
independientes.

• Es un algoritmo supervisado, tienes


que tener un set de entrenamiento
con los labels.

• Revisa los datos para crear un


modelos estadístico estándar.
Regresión Logística

• Modelar un resultado binario con una


más variables explicativas. (dicotómica)

• Modelar un resultado con más de dos


categorías con una más variables
explicativas. (multinomial)

• Sirve para predicción o clasificación


según los datos de entrada.

• De la probabilidad de ocurrencia de la
variable de salida.
Árboles de decisión

• Necesita variables que son predictores Clima Día de la Tareas Salir al


y una se salida o resultado. semana parque

• El resultado del algoritmo es la ruta


Soleado Lunes No Si
de sucesos para llegar a un resultado.
• Parten de un nodo raíz que debe ser Soleado Domingo Si Si
el de mayor importancia. Nublado Lunes No No
• El siguiente nodo es el de decisión.
Nublado Domingo Si No
• ENTROPIA: divisiones para encontrar
un resultado. Lluvia Lunes No No
• La entropía varía con la capacidad Lluvia Domingo Si NO
predictiva de cada variable.
Entropía

Salir al parque
Si No
9 5

𝑐 Entropía(salir) = Entropía(5,9)
  = Entropía (0.36,0.64)
𝐸 ( 𝑆 )=∑ − 𝑝𝑖 𝑙𝑜𝑔 2 𝑃𝑖
𝑖=1
= (0.36log0.36- 0.64log0.64
= 0.94

• La ganancia de información
consiste en un decremento de
la entropía del sistema.
K-nearest neighbor

• Lazy running o instance based machine learning


algorithm.
• Todo pasa una sola vez, el algoritmo no aprende más allá
de una instancia.

• Compara todo lo que sabes con todo lo que no


sabes.

Peso
• Necesita mucho poder de computación, por lo que
es difícil correrlo con grandes datasets.

• Minimizar las distancias entre las variables para


arrojar el resultado de la clasificación. Altura

• Se suele usar la distancia euclidiana.


Tipos de distancias

• Euclideana: distancia "ordinaria" entre dos puntos de un espacio euclídeo (espacio


bidimensional)

• Maximum o Chebyshov: Métrica definida en un espacio vectorial donde la distancia entre


dos puntos (representados por sus vectores) es la mayor de sus diferencias a lo largo de
cualquiera de sus dimensiones coordenadas.

• Manhattan o Taxista: la distancia entre dos puntos es la suma de las diferencias


(absolutas) de sus coordenadas.

• Distancia Canberra: Versión ponderada de las distancia del taxista. Se usa para comparar
listas rankeadas. La distancia no varía ante cambios de escala.
K-means clustering (No supervisado)

• Se crean clusters con lo que la


máquina observa en los datos.

• Crea centroides según las variables con


las que pueda clasificar.

Peso
• Los centroides se colocan de manera
aleatoria y se van moviendo según la
cantidad de datos mal clasificados. La Altura
distancia se puede reducir.
Redes bayes Naive

• Basados en probabilidades condicionales. El


teorema de Bayes.
• Como un suceso impacta la probabilidad de
Ponderador A B C
ocurrencia de otro suceso.
Altura 2 0.1 0.1 0.8
• Se usan para clasificaicón binaria o multi clase.
Peso 2 0.3 0.2 0.5
• Predictores que pueden estar autocorrelacionados
Naive los considera independientes. Por eso se Largo 3 0.2 0.2 0.6
consideran Naive o inocentes. 1.4 1,2 4.4
• Arroja la probabilidad de que pertenezca a un
grupo. Se puede usar con función de multiplicación
ponderada para darle peso a las variables.
Redes Neuronales

• Se basa en como el cerebro humano aprende.


• Las neuronas se conectan entre si, reforzando los
aciertos y dándole menos pesos a los errores.
• Se dice que es un método black box ( no se conoce los
pasos intermedios ni como replicar el modelo)
• Sirven para reconocer patrones (clasificación y
regresión).
• Toleran fallos (patrones con ruido o con fallos)
• La sinapsis está dada por los pesos de la salida.
• Hay aprendizaje supervisado y no supervisado.

También podría gustarte