Documentos de Académico
Documentos de Profesional
Documentos de Cultura
2023-2
Contenidos
Introducción y
Motivación
¿Qué es Inteligencia
Artificial?
Agentes Racionales
Historia de la IA
Introducción
ChatGP
T
ChatGP
T
ChatGP
T
¿Que es
IA?
Que es
”IA?
es la ciencia y la ingeniería de
hacer máquinas inteligentes,
especialmente atravez de
programas computadora"
John
McCarthy
Que es
IA?
"es la simulación de procesos de
inteligencia humana por
máquinas"
Encyclopædia
Britannica
Que es
IA?
"es la capacidad de las máquinas
para aprender de la experiencia,
razonar y percibir su entorno, y
realizar tareas que
tradicionalmente requieren
inteligencia humana"
Que es
IA?
"es el estudio de agentes
inteligentes — un programa de
computador que percibe su
entorno y realiza acciones que
maximizan sus posibilidades de
éxito en algún objetivo "
Principales
Áreas
• Reasoning, problem solving.
• Knowledge representation
• Planning
• Machine Learning
• Natural language processing
• Perception
• Robotics
• Creativity
• Ethics and social implications
Machine
learning
DAT TASKS
A
Classificatio
n
𝑓 Regressio
n
Density estimation
Generative
modelling
Machine
learning
DAT TASKS
A
Classificatio
n
Regression
Density estimation
Generative
modelling
Machine
learning
Fashion MNIST dataset
Clases [0-9]
Machine
learning
Machine
learning
EJERCIC
IO
SUMARI
O
• APLICACIONES REALES CON IMPACTO
• IA ES UNA TECNOLOGÍA DISRUPTIVA
• GRAN OFERTA DE TRABAJO
• ÁREAS DE LA IA — MACHINE LEARNING
Qué es la Inteligencia Artificial?
Que es la
IA?
La ciencia de contruir máquinas que:
Modelos Modelos
computacionales de computacionales de
comportamiento comportamiento
humano racional
Modelos computacionales del
comportamiento humano
Sistemas que piensan como
humanos
Pensando humanamente
modelo cognitivo
Entender como piensan los humanos
Desarrollar una Teoria de la mente (Ciencia coginitiva)
Expresar la teoría de la mente como un programa de computadora
Sistemas que actúan como
humanos
Actuando humanamente
“El arte de crear máquinas que realicen ciertas tareas
que requieran inteligencia cuando son realizadas por
la gente” (Kurzweil,1990)
Test de Turing
Sistemas que actúan como
•humanos
Test de Turing
• Turing (1950) "Computing machinery and intelligence"
Critica
• Impacto en el empleo
• Ciberseguridad
Los Cimientos de la IA
psicología
Teoria de control y
cibernética
economía
matemática
Agentes Racionales
Agente
s
• Percibe su entorno
(secuencia de percepciones) a
travéz de sensores y actúa
sobre el el mismo a travéz de
actuadores
Ejemplo: un agente de software tiene cadenas codificadas de bits para que funcionen
Como sensores y actuadores.
Agent Percepciones
e Sensores
?
Acciones
Actuadores
Agente
Racional
• Primeras clases en IA
• Test de Turing
• Machine learning
• Algoritmos genéticos
• Aprendizaje por refuerzo
El nacimiento de la IA, 1943 —
1956 Marvin Minsky & Dean Ed- monds (1950)
Primera computadora neuronal — SNARC
John
MacCarthy
(1956)
LISP
Paper: Programs with common sense
Razonamiento, representación — logica
MYCIN.
• Sistema experto para diagonisticar infecciones en la sangre
• 450 reglas, = expertos, + doctores jóvenes
Bayesian Networks
HMM
MDP Datasets
Big data, 2001—presente
Trillones de palabras,
Billones de
imágenes
Billones de horas de habla/video
Datos genómicos
Datos de tracking de vehículos
Datos de clicks
Datos de redes sociales
https://futureoflife.org/open-letter/pause-giant-ai-experiments/
https://www.wired.com/story/chatgpt-pause-ai-experiments-open-letter/
Discusión
Discusió
n
• Qué es inteligencia?
• Qué es inteligencia artificial?
• Qué es un agente?
• Qué es racionalidad?
Agentes Ingeligentes
2023-2
Introducción al Machine Learning
(Aprendizaje automático)
Machine
learning
Data Tasks
Classificatio
n
𝑓 Regressio
n
Density estimation
Generative
modelling
Machine
learning
Data Tasks
Classificatio
n
Regression
Density estimation
Generative
modelling
Machine
learning
Tom Mitchell (1998)
Arthur Samuel (1959)
Es el campo de Un programa de
computadora aprende de la
estudio que le da experiencia E con respecto a
a la computadora alguna clase de tareas T y la
medida de desempeño P, si
la capacidad de su desempeño en tareas en
aprender sin ser T, medido por P, mejora con
la experiencia E
programada
explícitamente.”
Machine
learning
https://www.ibm.com/cloud/learn/machine-learning#:~:text=One%20of%20its%20own%2C%20Arthur,he%20lost%20to%20the%20computer.
História y aplicaiones
Histori
a
Pesimismo/
Poco
financiamiento 2010-2012 - redes
Algoritmos: - speech-to-text y
neuronales
Perceptrons Cadena reconocimiento de
(limitaciones de Markov,Kernels objetos 2016 - AlphaGo
Algoritmo
implementado como un los modelos SVMs, Redes derrotó al campeón
circuito lineales) convolucionales humano de Go
Aprendizaje supervisado
Aprendizaje autosupervisado
• Los datos tienen etiquetas • Los datos no tienen
(labels) etiquetas pero el algoritmo
genera sus propias
Aprendizaje no supervisado etiquetas
Tarea de clasificación
Tipos de ML – Aprendizaje supervisado
Tarea de regresión
Tipos de ML – Aprendizaje supervisado
k-Nearest Neighbors
Linear Regression
Logistic Regression
Support Vector Machines (SVMs)
Decision Trees and Random Forests
Neural networks
Deep Convolutional neural
networks
Tipos de ML – Aprendizaje no supervisado
t-
SNE
Tipos de ML – Aprendizaje no supervisado
Detección de anomalias/novedades
Tipos de ML – Aprendizaje no supervisado
representación latente
Datos de
microarray
Clustering de genes
Tipos de ML – Aprendizaje no supervisado
Aprendizaje semi-supervisado con dos clases (triángulos y cuadrados): los ejemplos no etiquetados (círculos) ayudan a
clasificar una nueva instancia (la cruz) en la clase de triángulos en lugar de la clase de cuadrados, aunque esté más
cerca de los cuadrados etiquetados.
Tipos de ML – Aprendizaje autosupervisado
Tipos de ML – Aprendizaje por refuerzo
AlphaGo (DeepMind)
En Mayo 2017 derrotó al campeón mundial Ke Jie en
Go.
Tareas
𝑓
Machine learning – Fundamentos
Entrenar
Infinitas soluciones
Machine learning – Fundamentos
¿ PORQUÉ?
• Explicar vs predecir
Machine learning – Fundamentos
¿ PORQUÉ?
• Modelado predictivo
Machine learning – Fundamentos
Programación Tradicional
o
Machine learning – Fundamentos
Naturaleza de 𝑓
𝑓: 𝑌 → 𝘧
𝑌 espacio de entrada
• .txt,.csv. DB, strings, imágenes, etc.
𝘧 espacio de salida
• Labels, ranking, (puede no existir)
Machine learning – Fundamentos
Algoritmos de aprendizaje para 𝑓
𝑦 = 𝑓(𝑥; 𝛽, Θ)
𝛽, Θ: parámetros e hiperparámetros
No Paramétricos 𝛽 es potencialmente
infinito
Machine learning – Fundamentos
Algoritmos de aprendizaje para 𝑓
𝑦 = 𝑓(𝑥; 𝛽, Θ)
𝛽, Θ: parámetros e hiperparámetros
Naturaleza de 𝑓
𝑓: 𝑌 → 𝘧
𝑌 espacio de entrada
• .txt,.csv. DB, strings, imágenes, etc.
𝘧 espacio de salida
• Labels, ranking, (puede no existir)
Machine learning – Fundamentos
Algoritmos de aprendizaje para 𝑓
𝑦 = 𝑓(𝑥; 𝛽, Θ)
𝛽, Θ: parámetros e hiperparámetros
𝑓 𝑥! ; 𝛽 , Θ = 𝜎 ) 𝛽𝑑 𝑥𝑑! + 𝛽&
𝑑#$
Donde 𝑥 ! = (𝑥 ! , 𝑥 ! , …
𝑥! )
1
Machine learning – Clasificación con
KNN
Algoritmo no paramétrico
𝑓 𝑥! ; 𝛽 , Θ = 𝑓 𝑥𝑙 𝑙 ∈ 𝒩𝑘 𝑥 !
𝑚𝑜𝑑𝑎 }
Donde 𝑥 ! = (𝑥 ! , 𝑥 ! , …
𝑥! )
1
Machine learning – Regresión LR vs
KNN
Algoritmo paramétrico Algoritmo no paramétrico
Regresión lineal KNN
𝑓 𝑥, ; 𝛽 , =( 𝛽 𝑑 𝑥𝑑, + 𝛽1 𝑓 𝑥, ; 𝛽 , Θ = 1 ( 𝑓(𝑥(𝑙 ) )
𝑘
Θ 𝑑. / 𝑙 ∈ 𝖭 𝑘 (𝑥𝘍 )
Observar que 𝑘 ∈ Θ, i.e., es un
hiperparámetro
Machine learning – Regresión RL vs
KNN
Algoritmo paramétrico Algoritmo no paramétrico
Regresión lineal KNN
𝑓 𝑥, ; 𝛽 , =( 𝛽 𝑑 𝑥𝑑, + 𝛽1 𝑓 𝑥, ; 𝛽 , Θ = 1 ( 𝑓(𝑥(𝑙 ) )
𝑘
Θ 𝑑. / 𝑙 ∈ 𝖭 𝑘 (𝑥𝘍 )
Observar que 𝑘 ∈ Θ, i.e., es un
hiperparámetro
Machine learning – Regresión LR vs
SVM
Algoritmo paramétrico Algoritmo semi-paramétrico
Regresión lineal Support vector machine
D
=( 𝛽𝑑𝑥@ + 𝛽 𝑁
𝑓 𝑥 @; 𝛽, 𝑑
Θ 𝑑BC E
𝑓 𝑥 @; 𝛽 , =( 𝛽i 𝑘(𝑥i , 𝑥 @) +
Θ 𝛽E
iBC
Linear SVM
𝑁 / 𝛽6 𝑥6 𝑥 + 𝛽1
𝑇 ,
𝑓 𝑥 , ; 𝛽 , Θ = ∑6.
Machine learning – Regresión lineal
Algoritmo paramétrico
Regresión lineal
𝑥 $$ 𝑥5 $ ⋅ 𝑥 𝐷$ 1 𝛽$
⋅ 1 𝛽5
𝑓 𝐗2342; 𝛽 , Θ = 𝑥 $5 𝑥5 5 𝑥 𝐷5
⋅
⋅ ⋅ ⋅ ⋅ ⋅
𝛽&
𝑥 $𝑡 𝑥 5𝑡 ⋅ 𝑥 𝐷𝑡 1
Machine learning – Fundamentos
Algoritmos de aprendizaje para 𝑓
𝑦 = 𝑓(𝑥; 𝛽, Θ)
• Validación objetiva
• Comparación de modelos
• Identificación de problemas
• Toma de descisiones
• Monitoreo y Mantenimiento
Métricas – Regresión
• Mean Absolute Error
(MAE)
~ 50% clase A,
~ 50 % clase B
• Datos desbalanceados:
99% clase A,
1 % clase B
Matriz de confusión
Métricas –
Clasificación
Predicción Predicción
1 0
Etiqueta actual TP FN
1
Etiqueta actual FP TN
0
• TP — Verdaderos Positivos: Los casos en los que predijimos 1 y la salida real también fue 1.
• TN— Verdaderos Negativos: Los casos en los que predijimos 0 y la salida real también fue 0.
• FP— Falsos Positivos: Los casos en los que predijimos 1 y la salida real fue 0.
• FN— Falsos Negativos: Los casos en los que predijimos 0 y la salida real fue 1.
Métricas –
Clasificación
• TP — Verdaderos Positivos: Los casos en los que predijimos 1 y la salida real también fue 1.
• TN— Verdaderos Negativos: Los casos en los que predijimos 0 y la salida real también fue 0.
• FP— Falsos Positivos: Los casos en los que predijimos 1 y la salida real fue 0.
• FN— Falsos Negativos: Los casos en los que predijimos 0 y la salida real fue 1.
Métricas –
Clasificación
• Acurácia (TP+TN)/(TP+TN + FP +
FN)
• Precisión: TP/(TP+FP)
• Recall
• Score F1
• Curva PR
• Curva ROC
• Métrica AUC - PR
• Métrica AUC - ROC
Métricas –
Clasificación
• Acurácia (TP+TN)/(TP+TN + FP +
FN)
• Precisión: TP/(TP+FP)
• Recall: TP/(TP+FN)
• Score F1
• Curva PR
• Curva ROC
• Métrica AUC - PR
• Métrica AUC - ROC
Métricas –
Clasificación
• Acurácia (TP+TN)/(TP+TN + FP + FN)
• Precisión: TP/(TP+FP)
• Recall: TP/(TP+FN)
• Score F1 = 2* precisión*recall/(precision +
recall)
• Curva PR
• Curva ROC
• Métrica AUC - PR
• Métrica AUC - ROC
Métricas –
Clasificación
• Acurácia (TP+TN)/(TP+TN + FP + FN)
• Precisión: TP/(TP+FP)
• Recall: TP/(TP+FN)
• Score F1 = 2* precisión*recall/(precision +
recall)
• Curva PR
• Curva ROC
• Métrica AUC - PR
• Métrica AUC - ROC
TPR = TP/(TP+FN)
(Recall) FPR =
FP/(TN+FP)
Métricas –
Clasificación
Modelo señal-
ruido
D 𝜖 = 0, 𝑉𝑎𝑟 𝜖 = 𝜎𝑒2
𝑌 = 𝑓 𝑋 + 𝜖,
Machine learning – descomposición
sesgo varianza
Modelo señal-
ruido
D 𝜖 = 0, 𝑉𝑎𝑟 𝜖 = 𝜎𝑒2
𝑌=𝑓 𝑋 + 𝜖,
Machine learning – descomposición
sesgo varianza
Model
o
𝑌=𝑓 𝑋 + D 𝜖 = 0, 𝑉𝑎𝑟 𝜖 = 𝜎𝑒2
𝜖, Regresor estimado 𝑓3
𝑋 Puntode
Función test 𝑋 =en𝑥el
depérdida * punto de
test
2
D 𝑌 − * 𝑋 = 𝑥*
𝑓3 𝑥
“promediar la función de pérdida en el punto de test 𝑋 = 𝑥* que se obtendria
2
2 1 𝜎𝗀 2
D 𝑌 − = 𝜎𝗀 +
2 N 𝑓(𝑥(𝑙 ) − 𝑓 𝑥* + 𝑘
𝑘 )
𝑓3 𝑥 * 𝑙∈𝖭 𝑘 (𝑥 # )
Machine learning – descomposición
sesgo varianza
Función de pérdida en el punto de
test:
2 2 2
D 𝑌 − + D 𝑓3 𝑥* − D
* 𝑋 = 𝑥* = 𝜎𝗀2 + D 𝑓3 *𝑥 − * *
𝑓3 𝑥 3
2 + 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑓 𝑥
=𝑓𝑒𝑟𝑟𝑜𝑟
𝑥
i𝑟𝑟𝑒𝑑𝑢𝑐i𝑏𝑙𝑒 + 𝑏𝑖𝑎𝑠
Modelo lineal 𝑓𝑝 𝑥 = 𝑥 𝑇 𝛽 = 𝑥1 𝛽1 + 𝑥2 𝛽2 + … + 𝑥𝑝 𝛽𝑝
D 𝑌 −
2
𝑋 = 𝑥* = 𝜎2 + D[𝑓3 𝑥 ] − 𝑓 𝑥 2
+𝑝 2
* 𝜎 𝗀
𝗀 𝑝 *
𝑁
𝑓3 𝑥 *
Métricas
Entrenamiento- Validación
Sesgo-varianza
Sobreajuste (overfitting)
Definiciones de errores
Selección de modelo
Cómo escoger el modelo con la complejidad
correcta para
optimizar la generalización?
Validación de modelo
Cómo evaluar correctamente la capacidad de
generalización del modelo escogido en la selección
de modelo?
Validación de Modelo
Validación de Modelo
Métodos usados
• Validación cruzada
• Boostraping
• Conformal prediction
Validación de Modelo: Validación
cruzada (cross-validation)
𝐸𝑟𝑟 = 𝔼➚𝔼K𝑡,$𝑡 [𝐿
𝑌𝑡, 𝑓! 𝑋𝑡
|➚]
Validación de Modelo: Validación cruzada
𝐸𝑟𝑟 = 𝔼➚𝔼K𝑡,$𝑡 [𝐿
Se usa como proxy para el Error de generalización del (error condicional dado el
𝑌𝑡, 𝑓! 𝑋𝑡
modelo 𝑓! conjunto de entrenamiento)
|➚]
𝐸𝑟𝑟➚ = 𝔼K𝑡,$𝑡 [𝐿
𝑌𝑡, 𝑓! 𝑋𝑡
Validación cruzada
• Validación cruzada leave-one out
Selección de modelo
Selección de modelo
• Conocimiento a priori
• Búsqueda Bayesiana
Escoger los hiperparámetros óptimos de una SVM con kernel RBF — en función de la
capacidad de generalización
Input:
Modelo: SVM
Hyperparámetros: 𝐶 ∈ {2&5, 2 & ( , … 25}, 𝜆 ∈ {2&5, 2 & ( , … 25}
Datos de entrenamiento
Escoger entre tres modelos: regressión logística (lm), SVM, random forest (rf) — cada
uno con sus propios hiperparámetros
Input:
Modelo: 𝑀𝑒𝑡𝑎𝑚𝑜𝑑𝑒𝑙𝑜(𝑙𝑚, 𝑆𝑉𝑀, 𝑟𝑓, 𝑛𝑛, 𝑋𝑏𝑜𝑜𝑠𝑡, . . )
hiperparámetros: cada modelo con sus propios
parámetros
Output:
Salida: modelo óptimo con hiperparámetros óptimos
Ver https://automl.github.io/auto-sklearn/master/
Selección d e Modelo
Problema de clases no
balanceadas Input
Modelos
• Imputador =
{SMOTE,
SMOTESVM}
• Selector de
variables =
{recursivo,
secuencial}
•Modelo ={lm, SVM, rf}
hiperparámetros
cada modelo con con sus propios hyperparámetros
Salida: secuéncia óptima de modelos con hiperparámetros
Selección de Modelo — Grid Search
C
Estimación d e Hiper-parametros
Random search es más eficiente que Grid search (varios ML algoritmos y varios
datasets)
Búsqueda coarse
• Explorar em baja resolución el espácio de
hyperparámetros
• Identificar las zonas de interese
Búsqueda finer
Ejemplo:
Grid Search en un espacio
de parámetros de 4 x 4
Selección de Modelo — Regla de un error estándar
Validación de modelo con los los mejores hiperparámetros puede tener sesgo (bias)
Ejemplo: validación cruzada del modelo con hipeparámetros óptimos estimados en la etapa de
selección de modelo
Modelo con
Selección de Validación de
hyperparámetros
Modelo Modelo
óptimos
Validación cruzada anidada
Modelo con
Selección de Validación de
hyperparámetros
Modelo Modelo
óptimos
Recap
Recap
•
𝐗 ∈ ℝ𝑁×𝐷
matriz de datos
• 𝑋$, … , 𝑋𝑑 , … , 𝑋𝐷 variables predictoras de entrada
• 𝑌 variable objetivo
• 𝑥&𝑑 ∈ ℝ valor de 𝑋𝑑 en el registro 𝑖
𝑦 = 𝑓(𝑥; 𝛽, Θ)
Regresión Polinomial
Máquinas de Vectores de
Soporte
Variable predictora: propaganda en la
TV Variable objetivo: ventas (Sales)
Regresión
lineal
Adrien-Marie Legendre
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝐷
𝑋𝐷
Usa un hiperplano como modelo de machine learning,
el objetivo es encontrar el hiperplano que hace que el modelo tenga el mayor poder de generalización
Entrenar
— encontrar los parámetros óptimos a partir de los datos y una función objetivo 𝐽(𝛽)
𝛽 ∗ = (𝛽0∗ , 𝛽1∗ )
Predecir
Entrenar
— encontrar los parámetros óptimos a partir de los datos y una función objetivo 𝐽(𝛽)
𝛽∗ = 𝛽0∗ , 𝛽1∗ = argmin𝛽𝐽(𝛽)
Predecir
• min 𝑓 𝑥 = −2
• argmin𝑥 𝑓 𝑥
=4.9
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
Modelo para una variablev
𝑠𝑎𝑙𝑒𝑠 = 𝛽0 + 𝛽1 ×𝑇𝑉
𝑌 = 𝛽0 + 𝛽1 𝑋
Entrenar
— encontrar los parámetros óptimos a partir de los datos y una función objetivo 𝐽(𝛽)
𝑁
𝛽∗= 𝛽0 , 𝛽1 = argmin𝛽 𝐽 𝛽 =argmin𝛽 9 (𝑦&
∗ ∗
𝛽
𝑠𝑎𝑙𝑒𝑠 = 𝛽0 + 𝛽1 ×𝑇𝑉
𝑌 = 𝛽0 + 𝛽1 𝑋
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
Modelo para una variable
𝑠𝑎𝑙𝑒𝑠 = 𝛽0 + 𝛽1 ×𝑇𝑉
𝑌 = 𝛽0 + 𝛽1 𝑋
Entrenar
— encontrar los parámetros óptimos a partir de los datos y una función objetivo 𝐽(𝛽)
𝑁
𝛽∗= 𝛽0 , 𝛽1 = argmin𝛽 𝐽(𝛽) =argmin𝛽 9 (𝑦&
∗ ∗
Entrenar
— encontrar los parámetros óptimos a partir de los datos y una función objetivo 𝐽(𝛽)
𝑁
𝛽∗ = 𝛽0 , 𝛽1 = argmin𝛽 𝐽(𝛽) =argmin𝛽
∗ ∗
9 (𝑦& −𝛽
0 − 𝛽 1 𝑥 &)
) &'
1
Predecir
Predicciones para los datos de entrenamiento
— in-sample predictions
— para un punto de test 𝑥𝑡
𝑦𝑡 = 𝛽 ∗ + 𝛽 ∗ 𝑥 𝑡
0
1
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
Modelo para una variable
𝑠𝑎𝑙𝑒𝑠 = 𝛽0 + 𝛽1 ×𝑇𝑉
𝑌 = 𝛽0 + 𝛽1 𝑋
Entrenar
— encontrar los parámetros óptimos a partir de los datos y una función objetivo 𝐽(𝛽)
𝑁
𝛽∗ = 𝛽0 , 𝛽1 = argmin𝛽𝐽(𝛽) =argmin𝛽 9 ( 𝑦& −𝛽
∗ ∗
0 − 𝛽 1 𝑥 &) ) +
Ω(𝛽)
&'
1
Predecir
Regularizador
— para un punto de test 𝑥𝑡 — para prevenir overfitting
𝑦𝑡 = 𝛽 ∗ + 𝛽 ∗ 𝑥 𝑡
0
1
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
Modelo para una variable
𝑠𝑎𝑙𝑒𝑠 = 𝛽0 + 𝛽1 ×𝑇𝑉
𝑌 = 𝛽0 + 𝛽1 𝑋
Entrenar
— encontrar los parámetros óptimos a partir de los datos y una función objetivo 𝐽(𝛽)
𝑁
𝛽∗ = 𝛽0 , 𝛽1 = argmin𝛽𝐽(𝛽) =argmin𝛽 9 𝑓 (𝑦&,
∗ ∗ + Ω(𝛽)
&' 𝑦>)
1
Predecir
Función de pérdida
— para un punto de test 𝑥𝑡 — aka, loss function
𝑦𝑡 = 𝛽 ∗ + 𝛽 ∗ 𝑥 𝑡
0
1
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
Modelo para una variable
𝑠𝑎𝑙𝑒𝑠 = 𝛽0 + 𝛽1 ×𝑇𝑉
𝑌 = 𝛽0 + 𝛽1 𝑋
Entrenar
— encontrar los parámetros óptimos a partir de los datos y una función objetivo 𝐽(𝛽)
𝑁
𝛽∗ = 𝛽0 , 𝛽1 = argmin𝛽 𝐽(𝛽) =argmin𝛽 9 𝑓 (𝑦&, 𝑦>) Ω(𝛽)
∗ ∗
+ &'
1
Predecir
Ignorar por ahora
— para un punto de test 𝑥𝑡
𝑦𝑡 = 𝛽 ∗ + 𝛽 ∗ 𝑥 𝑡
0
1
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
Modelo para una variable
𝑠𝑎𝑙𝑒𝑠 = 𝛽0 + 𝛽1 ×𝑇𝑉
𝑌 = 𝛽0 + 𝛽1 𝑋
Entrenar
— encontrar los parámetros óptimos a partir de los datos y una función objetivo 𝐽(𝛽)
𝑁
1 𝑁
&' 𝑥&− 𝑥̅ 𝑦& −
𝛽 ∗ = 𝛽0∗ , 𝛽1∗ = 𝛽0∗ = 9 , 𝛽1∗ = ∑ 1
𝑁 𝑁
∑ &'𝑥 𝑦C
− 𝑥̅ )
&
𝑦& &'
1
1
Predecir
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽) 𝑋) + ⋯ + 𝛽𝑝 𝑋𝑝
Entrenar
— encontrar los parámetros óptimos a partir de los datos y una función objetivo 𝐽(𝛽)
𝑁
𝛽∗ = 𝛽 , 𝛽 , … , 𝛽 ∗ = argmin 𝐽(𝛽) =argmin
∗ ∗
9 (𝑦 −𝑦; ) )
0 1 𝑝 𝛽 𝛽
& &
&'1
Predecir
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽) 𝑋) + ⋯ + 𝛽𝑝 𝑋𝑝
Entrenar
— encontrar los parámetros óptimos a partir de los datos y una función objetivo 𝐽(𝛽)
𝑁
𝛽∗ = 𝛽∗ , 𝛽∗ , … , 𝛽∗ = argmin 𝐽(𝛽) =argmin 9 ( 𝑦& −𝛽0 − 𝛽1 𝑥1 − 𝛽) 𝑥) − ⋯ −
0 1 𝑝 𝛽 𝛽
𝛽
&' 𝑥 ) )
𝑝 𝑝
1
Predecir
𝑁
𝛽∗ = 𝛽 ,𝛽 ,…,
∗ ∗
𝛽∗ = argmin 𝐽(𝛽) =argmin 9 ( 𝑦& −𝛽0 − 𝛽1 𝑋1 − 𝛽) 𝑋) − ⋯ −
0 1 𝑝 𝛽 𝛽
𝛽
&' 𝑋 ) )
𝑝 𝑝
1
𝑁
𝐽 𝛽 = ( (𝑦i −𝛽0 − 𝛽1 𝑥i1 − 𝛽2 𝑥i2 − ⋯ −
𝛽𝑝 𝑥i 𝑝 ) 2 i&1
𝐽 𝛽 = 𝒚 − 𝐗𝛽 𝑇 𝒚 − 𝐗𝛽
Regresión lineal — solución via
ecuaciones normales y SVF
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
— Solución analítica via ecuación normal
𝐽 𝛽 = 𝒚 − 𝐗𝛽 𝑇 𝒚 − 𝐗𝛽
𝜕𝐽 𝛽
= −2𝐗𝑇 𝒚 − 𝐗𝛽 =
𝜕𝛽
0
Valor mínimo en cero
𝐗𝑇
𝒚 − 𝐗𝛽
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
— Solución analítica via ecuación normal
La ecuación normal
𝛽∗ = (𝐗𝑇 𝐗)%1 𝐗 𝑇 𝒚
• variables correlacionadas
𝛽∗ = 𝐗 𝒚
"
• 𝑁<𝑝
Regresión lineal — aprendizaje via
gradiente descendente
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
— Aprendizaje via gradiente descendente
Rápida para un gran número de variables
Algunas variaciones son out-of-core: procesan datos de conjuntos muy grandes que no caben en
memoria
𝛽2 𝛽2
𝛽1
𝛽1
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
— Aprendizaje via gradiente descendente
Gradiente de una function: es el operador
6𝐽
6𝛽 1
❑𝐽 𝛽#, 𝛽$, 𝛽2, … , 𝛽𝑝 6𝐽
6𝛽
…2
= #𝐽
#𝛽 𝑝
Si estamos en el punto 𝛽#, 𝛽$, 𝛽2, … , 𝛽𝑝, el gradiente ∇𝐽 𝛽#, 𝛽$, 𝛽2, … , 𝛽𝑝 nos indica en
que
dirección ir para incrementar el valor𝐽 𝛽#, 𝛽$, 𝛽2, … , 𝛽𝑝 lo más rapido posible
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
— Aprendizaje via gradiente descendente
Campo vectorial para visualizar gradientes
𝑁 𝑁
1 1
𝐽 𝛽 = 𝑀𝑆𝐸 𝛽 = 2 (𝑦 −𝑦6 )2 = 2 (𝑦 −𝑥 𝑇 𝛽) 2
N i i N i i
i$ 1 i$ 1
𝑁
𝜕 𝜕 2
𝐽 𝛽 = 𝑀𝑆𝐸 𝛽 = 2 ( 𝑥 i𝑇 𝛽 − 𝑦i )𝑥 i 𝑑
𝜕𝛽𝑑 𝜕𝛽𝑑 N
i$ 1
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
— Aprendizaje via gradiente descendente
Calcular las derivadas parciales y colocarlas en un vector (vector gradiente)
𝑁
2
𝜕 6 ( 𝑥 +𝑇 𝛽 − 𝑦 )1
𝑀𝑆𝐸 𝛽 N
𝜕𝛽( +, +
)
𝜕 2 𝑁 2
∇𝛽 J 𝛽 = ∇𝛽MSE 𝛽 = 𝑀𝑆𝐸 𝛽 = 6 (𝑥+𝑇 𝛽 − 𝑦+)𝑥+) = 𝐗 𝑇 ( 𝐗𝛽 −
𝜕𝛽) N N
… +, 𝒚)
…
𝜕 )
𝑀𝑆𝐸 𝛽 2 𝑁 𝑇
𝜕𝛽𝑝 6 (𝑥+ 𝛽 −
N
𝑦
+,+)𝑥+𝑝
)
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋; 𝛽, 𝛩
Bueno cuando hay muchas variables (mejor que las ecuaciones normales y SVD)
𝜕
𝑀𝑆𝐸 𝛽
𝜕𝛽h
𝜕 2
∇𝛽 MSE 𝛽 𝑀𝑆𝐸 𝛽 𝑇
𝜕𝛽 i = 𝐗 ( 𝐗𝛽 − 𝒚)
= … N
𝜕
𝑀𝑆𝐸 𝛽
𝜕𝛽𝑝
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋; 𝛽, 𝛩
— Aprendizaje via gradiente descendente batch
𝐽𝛽
Algoritmo
• Inicializar 𝜂, 𝜂
iteraciones/epocas
• Iniciar 𝛽 aleatoriamente
𝛽
• Para cada iteracion
𝛽𝑛 𝑒 𝑥 𝑡 ∶= 𝛽 − 𝜂∇ 𝛽 𝐽(𝛽)
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
— Aprendizaje via gradiente descendente
Limitación, usa todo el conjunto de entrenamiento en cada paso!!! — lento en conjuntos de datos grandes)
Bueno cuando hay muchas variables (mejor que las ecuaciones normales y SVD)
𝜕
𝑀𝑆𝐸 𝛽
𝜕𝛽h
𝜕 2
∇𝛽 MSE 𝛽 𝑀𝑆𝐸 𝛽 𝑇
𝜕𝛽 i = 𝐗 ( 𝐗𝛽 − 𝒚)
= … N
𝜕
𝑀𝑆𝐸 𝛽
𝜕𝛽𝑝
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
— Aprendizaje via gradiente descendente
Gradiente descendente estocástico mini-
batch
• Inicializar 𝜂, 𝜂
iteraciones/epocas
• Iniciar 𝛽 aleatoriamente
𝛽
• Para cada iteracion
𝛽𝑛 𝑒 𝑥 𝑡 ∶= 𝛽 − 𝜂∇ 𝛽 𝐽(𝛽)
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋; 𝛽, 𝛩
— Aprendizaje via gradiente descendente batch
𝐽𝛽
Algoritmo
• Inicializar 𝜂, 𝜂
iteraciones/epocas
• Iniciar 𝛽 aleatoriamente
𝛽
• Para cada iteracion
𝛽𝑛 𝑒 𝑥 𝑡 ∶= 𝛽 − 𝜂∇ 𝛽 𝐽(𝛽)
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
— Aprendizaje via gradiente descendente
Gradiente descendente estocástico
•El gradiente es estimado usando una
instancia aleatória del conjunto de
entrenamiento
•Bueno cuando el conjunto de
entrenamiento es grande
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
— Aprendizaje via gradiente descendente
Gradiente descendente estocástico mini-
batch
Idea equivocada: poder predictivo puede ser inferido a partir del poder explicativo