Está en la página 1de 29

Machine Learning with

Apache Spark
MuleSoft Academy

Hoy:
-

Regresin lineal.
Gradient Descent y variantes.
Regularizacin.
Notebook 1:
-

Predecir alquileres de bicicletas en Washington DC


Normalizacin
Bsqueda de hiper-parmetros
Feature Engineering agregado de interaccin entre variables

Intro,Regression &
Gradient Descent

Regresin Lineal
-

Tenemos un conjunto de m puntos en n dimensiones.


Cada punto est asociado a un label que es un nmero (lo que queremos
predecir).
El objetivo es encontrar un vector de n+1 dimensiones que multiplicado por
cualquier punto de nuestro set de datos nos aproxime el valor que queremos
predecir.
La dimensin extra es por el trmino independiente.

Funcin Costo

Gradient Descent
-

Es el algoritmo ms popular y ms usado para problemas de optimizacin en


donde la funcin costo es una funcin diferenciable.
Se puede aplicar a muchos algoritmos diferentes!
Viene en tres prcticas presentaciones:
-

Full Gradient Descent


Stochastic Gradient Descent
Minibatch Gradient Descent

Calculando el Gradiente

Actualizando W

Stochastic Gradient Descent


-

Calcular el gradiente slo en base al error de 1 punto.


Actualizar
Repetir

Mini-batch Gradient Descent


-

Calcular el gradiente para un "lote" de puntos.


Actualizar w
Repetir

Gradient Descent en Spark


-

El algoritmo es fcilmente paralelizable.


Se puede calcular parte del gradiente en funcin de parte de los datos
Y luego sumar todo para calcular el gradiente completo y actualizar w

Agregando Regularizacin

L=0

L=1

L=10

Grado 5

Notebook 1

Bike Rentals in Washington DC


-

Objetivo: Predecir la cantidad de alquileres x hora de bicis en Washington DC


Datos:
-

Hora
Estacin
Clima
Temperatura
Humedad
Viento
Es Feriado?
Es poca de vacaciones?
Cantidad de alquileres

Notebook

Conclusiones
-

Feature Engineering es la clave del xito.


-

Detectar Features Ruidosos


Agregar interacciones entre features

La bsqueda de hiper-parmetros es el segundo factor.


No siempre el mejor error nos da las mejores predicciones!

Next Week

Next Week:Clasificacin
-

Problemas y Algoritmos de clasificacin en Apache Spark


-

Logistic Regression
Random Forests
GBM

También podría gustarte