Está en la página 1de 240

Curso

2023-2
Contenidos

Introducción y
Motivación

¿Qué es Inteligencia
Artificial?

Agentes Racionales

Historia de la IA
Introducción
ChatGP
T
ChatGP
T
ChatGP
T
¿Que es
IA?
Que es
”IA?
es la ciencia y la ingeniería de
hacer máquinas inteligentes,
especialmente atravez de
programas computadora"

John
McCarthy
Que es
IA?
"es la simulación de procesos de
inteligencia humana por
máquinas"

Encyclopædia
Britannica
Que es
IA?
"es la capacidad de las máquinas
para aprender de la experiencia,
razonar y percibir su entorno, y
realizar tareas que
tradicionalmente requieren
inteligencia humana"
Que es
IA?
"es el estudio de agentes
inteligentes — un programa de
computador que percibe su
entorno y realiza acciones que
maximizan sus posibilidades de
éxito en algún objetivo "
Principales
Áreas
• Reasoning, problem solving.
• Knowledge representation
• Planning
• Machine Learning
• Natural language processing
• Perception
• Robotics
• Creativity
• Ethics and social implications
Machine
learning
DAT TASKS
A
Classificatio
n

𝑓 Regressio
n

Density estimation

Generative
modelling
Machine
learning
DAT TASKS
A
Classificatio
n

Regression

Density estimation

Generative

modelling
Machine
learning
Fashion MNIST dataset

60000 Training &validation


10000 Testing

Datapoint 28x28 image

Clases [0-9]
Machine
learning
Machine
learning
EJERCIC
IO
SUMARI
O
• APLICACIONES REALES CON IMPACTO
• IA ES UNA TECNOLOGÍA DISRUPTIVA
• GRAN OFERTA DE TRABAJO
• ÁREAS DE LA IA — MACHINE LEARNING
Qué es la Inteligencia Artificial?
Que es la
IA?
La ciencia de contruir máquinas que:

piensan como piensan


humanos racionalmente

actúan como actúan


humanos racionalmente

Modelos Modelos
computacionales de computacionales de
comportamiento comportamiento
humano racional
Modelos computacionales del
comportamiento humano
Sistemas que piensan como
humanos
Pensando humanamente

• El esfuerzo en hacer que las computadoras piensen — máquinas con


mente — en el full y literal sentido de la palabra (Haugeland, 1985)

• La automatización de actividades que asociamos con el


humano, actividades como toma de decisiones, resolución de problemas,
pensamiento
aprendizaje (Bellman, 1978)

modelo cognitivo
Entender como piensan los humanos
Desarrollar una Teoria de la mente (Ciencia coginitiva)
Expresar la teoría de la mente como un programa de computadora
Sistemas que actúan como
humanos

Actuando humanamente
“El arte de crear máquinas que realicen ciertas tareas
que requieran inteligencia cuando son realizadas por
la gente” (Kurzweil,1990)

“El estudio de cómo hacer que las computadoras


realicen actividades, las cuales, al momento la gente
lo hace mejor” (Rich and Knight, 1991)

Test de Turing
Sistemas que actúan como
•humanos
Test de Turing
• Turing (1950) "Computing machinery and intelligence"

• Test de Turing Si el interrogador no diferencia al humano del sistema, entonces


el sistema posee cierto grado de inteligencia (Turing 1950)
Sistemas que actúan como
humanos
• Test de Turing
• Turing (1950) "Computing machinery and intelligence"

EL programa de compudator debería poseer:


• Procesamiento del lenguaje natural
• Representación del conocimiento
• Razonamiento automático
• Aprendizaje automático (machine learning)
Sistemas que actúan como
humanos
• Test de Turing
• Turing (1950) "Computing machinery and intelligence"

Test de Turing completo:


• Visión por computador
• Robótica
Sistemas que actúan como
humanos
• Test de Turing
• Turing (1950) "Computing machinery and intelligence"

Critica

• Es mas importante estudiar los princípios subyacentes de la inteligencia que imitar


un humano
Modelos computacionales del
pensamiento
racional
Sistemas que piensan
racionalmente
Pensando racionalmente
“El estudio de facultades mentales através del uso de modelos
computacionales” (Chamiak and McDermott, 1985)

“El estudio de los cálculos que hacen posible percibir razonar y


actuar” (Winston, 1992)

Enfoque de las leyes del pensamiento


Pensamiento correcto, modelado por la lógica
Crítica: no es fácil modelar el conocimiento usando lógica
Crítica: diferencia entre solucionar el problema en principio vs la
práctica
Sistemas que actúan
racionalmente
Actuando
“La inteligencia computacional es el estudio del diseño de agentes inteligentes”
racionalmente
(Poole et al., 1998)

“La inteligencia artificial tiene a ver con el comportamiento inteligente en


artefactos” (Nilsson, 1998)

El enfoque del agente racional (Latin agere, “actuar”)


Se diferencian de los programas comunes pues pueden operar con autonomía,
perciben su entorno, persisten en el tiempo, se adaptan al cambio, se formulan
nuevas metas

Agente racional — realiza lo correcto


Logra el mejor resultado
Logra el mejor resultado en promedio si existe incerteza
Modelo estándar
Máquinas
beneficiosas
El modelo estándar de IA tiene limitaciones
El objetivo está completamente especificado
E.g. implementar un juego de ajedrez V
E.g, problema del camino mas corto V
Programar un carro autónomo? X

Problema de alineación de valor


Balance y alineamiento entre objetivo (máquina) vs preferencias
(humanos)
Maquinas deben perseguir nuestros objetivos (no objetivos internos
de la máquina)
Riesgos y beneficios de la IA
Riesgos y beneficios de la
IA
• Armas autónomas

• Monitoreamiento y persuasión — individuos, colectivo, física o virtualmente

• Toma de desición con sesgo

• Impacto en el empleo

• Aplicaciónes críticas — carros autónomos, administración de agua en las ciudades

• Ciberseguridad
Los Cimientos de la IA

Leer sección 1.2 (AIMA)


Ingeniería de computadoras

psicología
Teoria de control y
cibernética

economía

matemática
Agentes Racionales
Agente
s
• Percibe su entorno
(secuencia de percepciones) a
travéz de sensores y actúa
sobre el el mismo a travéz de
actuadores

Ejemplo: un agente humano tiene sensores : ojos, oídos, tacto, etc


Y también tiene actuadores :manos piernas, etc.

Ejemplo: un agente robotico tiene sensores : cámaras, rayos infrarojos, etc


Y también tiene actuadores : motores, brazos mecánicos, etc.

Ejemplo: un agente de software tiene cadenas codificadas de bits para que funcionen
Como sensores y actuadores.
Agent Percepciones

e Sensores

?
Acciones
Actuadores
Agente
Racional

hace la cosas de manera correcta — comportamiento racional


Agente
Racional
• Depende de cuatro cosas:
• Medida de performance (grado de exito)
• Secuencia de percepciones
• Conocimiento a priori de su entorno
• Acciones que el agente puede realizar

Esto nos conlleva a definir :


agente ideal y racional
Para cada posible secuencia de percepciones un agente
racional e ideal debería escoger cualquier acción que
maximice su medida de performance en las bases de la
evidencia probada por la secuencia de percepciones y
cualquier conocimiento que el agente tenga”
Agente
Racional
•Un agente no es omniciente
• No sabe con perfección lo que sucederá realizando dicha
acción, racionalidad no es lo mismo que perfección,
racionalidad maximiza la medida de performance

• El agente debe aprender de las percepciones


• Debe alimentar su conocimiento a priori del entorno

• El agente debe tener autonomía


• Debe aprender para incrementar su conocimiento.
Historia de la IA
Historia de la Inteligencia Artificial

Leer sección 1.3 (AIMA)


Ganadores del premio Turing en
IA
Marvin Minsky (1969)

Cimientos de la IA, representación y razonamiento

John MacCarthy (1971)

Ganadores del premio


Turing
Allen Newell & Herbert Simons (1975)

Modelos simbólicos de resolución de problemas y


cognición humana

Ganadores del premio


Turing
Ed Feigenbaum and Raj Reddy (1994)

Sistemas expertos y codificación de conocimiento humano

Ganadores del premio


Turing
Juda Pearl (2011)

Técnicas de razonamiento probabilístico

Ganadores del premio


Turing
Yoshua Bengio, Geoffrey Hinton, and Yann LeCun (2019)

Investigación en Deep Learning

Ganadores del premio


Turing
Ganadores del premio
Turing
El nacimiento de la IA, 1943 —
1956

Warren McCulloch and Walter Pitts (1943)


Primera red neuronal artificial

Algoritmo de aprendizaje Hebbiano


Donald Hebb (1949)
El nacimiento de la IA, 1943 —
1956

Alan Turing (1947)

• Primeras clases en IA
• Test de Turing
• Machine learning
• Algoritmos genéticos
• Aprendizaje por refuerzo
El nacimiento de la IA, 1943 —
1956 Marvin Minsky & Dean Ed- monds (1950)
Primera computadora neuronal — SNARC

Christopher Strachey (1952)

Primer video juego de damas,


musica por computador,
literatura generada po
computador

Allen Newell & Herbert Simons (1956)


Logic Theorist — programa de
prueba de teoremas
El nacimiento de la IA, 1943 —
1956
Organizo junto con Minsky, Shannon y Rochester
el primer workshop de IA

John MacCarthy (1956)


Entusiasmo y grandes expectativas, 1952—
1969
Allen Newell & Herbert Simons (1957)
General Problem Solver
Herbert Gelernter (1959)
Geometry Theorem
Prover

Arthur Lee Samuel (1959)


Checkers usando machine learning

John
MacCarthy
(1956)
LISP
Paper: Programs with common sense
Razonamiento, representación — logica

Tom Evans — Analogy, solucionador de problemas geométricos


Entusiasmo y grandes expectativas, 1952—
1969
Frank Rosenblatt (1957)
Perceptron — Ordenador IBM 704, 1957
Perceptron — paper, 1962

Bernie Widrow (1962)


Adalines
Una dosis de realidad, 1966 —
1973
Programas de IA fallan en problemas complejos (Weak methods)

• Como los humanos realizan una tarea vs


• analisis cuidadoso de la tarea
• que es solucionar la tarea
• Que algoritmos se necesita

• Problemas intractables — explosión combinatória


• Gobierno Británico finaliza soporte en investigación de IA, Lighthill report (1973)

• Limitaciones fundamentals en las estructuras usadas para IA


• Minsky and Papert, libro: Perceptrons (1969)
Sistemas Expertos, 1969—
1986 Bruce G. Buchanan (1969)
DENDRAL A program for generating explanatory hypotheses in organic chemistry.
• Programa que rivalizó a expertos humanos en un campo específico
• Determina la estructura molecular de um compuesto desconocido

MYCIN.
• Sistema experto para diagonisticar infecciones en la sangre
• 450 reglas, = expertos, + doctores jóvenes

Roger Shank (1977)


Investigación en entendimento del lenguaje natural

La mayoria de las grandes corporaciones americanas tiene su


propio grupo de IA en sistemas expertos — miles de milloes de dolares son
invertidos en IA entre (1988)

Invierno de la IA — no se cumplen las promesas, los


sistemas expertos no escalan, no aprenden de la experiencia, no funcionan para
problemas complejos
El retorno de las redes neuronales, 1986 — presente

Geoffrey Hinton, 1986

Algoritmo de aprendizaje de redes neuronales

Surgimiento de modelos conexionistas

• Rivaliza con el enfoque simbólico


(Newell&Simons)
• Rivaliza con el enfoque lógico de
MacCarthy
Razonamiento Probabilístico y Machine Learning, 1987 —
presente

Teoría de la probabilidad en vez de lógica booleana


Machine learning en vez de reglas codificadas
Resultados experimentales en vez afirmaciones
filosóficas

Bayesian Networks
HMM

MDP Datasets
Big data, 2001—presente

Trillones de palabras,
Billones de
imágenes
Billones de horas de habla/video
Datos genómicos
Datos de tracking de vehículos
Datos de clicks
Datos de redes sociales

Los datos juegan un papel relevante


en machine learning
Deep Learning, 2011—present

Aplicaciones con mejor performace que humanos

Hablaremos de la historia de deep learning en otra clase


Foundation Models, 2021—present
Marzo 29, 2023

https://futureoflife.org/open-letter/pause-giant-ai-experiments/

https://www.wired.com/story/chatgpt-pause-ai-experiments-open-letter/
Discusión
Discusió
n
• Qué es inteligencia?
• Qué es inteligencia artificial?
• Qué es un agente?
• Qué es racionalidad?
Agentes Ingeligentes
2023-2
Introducción al Machine Learning
(Aprendizaje automático)
Machine
learning
Data Tasks
Classificatio
n

𝑓 Regressio
n

Density estimation

Generative
modelling
Machine
learning
Data Tasks
Classificatio
n

Regression

Density estimation

Generative

modelling
Machine
learning
Tom Mitchell (1998)
Arthur Samuel (1959)

Es el campo de Un programa de
computadora aprende de la
estudio que le da experiencia E con respecto a
a la computadora alguna clase de tareas T y la
medida de desempeño P, si
la capacidad de su desempeño en tareas en
aprender sin ser T, medido por P, mejora con
la experiencia E
programada
explícitamente.”
Machine
learning

https://www.ibm.com/cloud/learn/machine-learning#:~:text=One%20of%20its%20own%2C%20Arthur,he%20lost%20to%20the%20computer.
História y aplicaiones
Histori
a
Pesimismo/
Poco
financiamiento 2010-2012 - redes
Algoritmos: - speech-to-text y
neuronales
Perceptrons Cadena reconocimiento de
(limitaciones de Markov,Kernels objetos 2016 - AlphaGo
Algoritmo
implementado como un los modelos SVMs, Redes derrotó al campeón
circuito lineales) convolucionales humano de Go

Minsky y Invierno/Edad Deep


Perceptron
Papert de Oro Learning
195 195 196 198 199 2000 201
7 9 9 0 0 0
Ideas Campos de
Arthur
Fundamentales IA
Samuel
Psicólogos - modelos Visión
Programa de
neuronales de Computacional
damas basado en , NLP , etc
cognición 1984 - Leslie
el aprendizaje
Valiant - aprendizaje
P AC
1988 -
Backpropagation
Geoffrey Hinton
1988 - Libro de Judea
P earl
- redes bayesianas
Historia — Redes Neuronales
y Deep learning
Tipos de Machine Learning
Tipos de Machine Learning — De acuerdo al feedback
en el aprendizaje

Aprendizaje supervisado
Aprendizaje autosupervisado
• Los datos tienen etiquetas • Los datos no tienen
(labels) etiquetas pero el algoritmo
genera sus propias
Aprendizaje no supervisado etiquetas

• Los datos no tienen Aprendizaje por


etiquetas refuerzo
Aprendizaje semisupervisado • Un agente aprende
por medio
de recompensas y
• Muchos datos sin etiquetas y penalizaciones
pocos datos con etiquetas
Tipos de ML – Aprendizaje supervisado

Tarea de clasificación
Tipos de ML – Aprendizaje supervisado

Tarea de regresión
Tipos de ML – Aprendizaje supervisado

Clasificación Detección de Objetos

Regresión Traducción Automática


Tipos de ML – Aprendizaje supervisado
Modelos ML
supervisados

k-Nearest Neighbors
Linear Regression
Logistic Regression
Support Vector Machines (SVMs)
Decision Trees and Random Forests
Neural networks
Deep Convolutional neural
networks
Tipos de ML – Aprendizaje no supervisado

El conjunto de entrenamiento no contiene etiquetas (labels)


El algoritmo tiene que estimar estructuras/padrones de los
datos
Tipos de ML – Aprendizaje no supervisado

t-
SNE
Tipos de ML – Aprendizaje no supervisado

El conjunto de entrenamiento no contiene etiquetas (labels)


El algoritmo tiene que estimar estructuras/padrones de los
datos

Detección de anomalias/novedades
Tipos de ML – Aprendizaje no supervisado

El conjunto de entrenamiento no contiene etiquetas (labels)


El algoritmo tiene que estimar estructuras/padrones de los
datos

representación latente

Aprendizaje manifold usando kernel


Análisis de Componentes Principales Autoencoders P CA

Aprendizaje de representación /Reducción de dimensionalidad


Tipos de ML – Aprendizaje no supervisado

Datos de
microarray

Identifying Regulatory Mechanisms using Individual Variation


Reveals Key Role for Chromatin Modification. [Su-In Lee, Dana
Pe'er, Aimee M. Dudley, George M. Church and Daphne Koller.
’06]

Clustering de genes
Tipos de ML – Aprendizaje no supervisado

Generative adversarial networks

Ver paper: https://arxiv.org/abs/1710.10196


Tipos de ML – Aprendizaje no supervisado
Modelos de ML no supervisados
Clustering
• K-Means
• DBSCAN
• Hierarchical Cluster Analysis (HCA)
Anomaly detection and novelty detection
• One-class SVM
• Isolation Forest
Visualization and dimensionality
reduction
• Principal Component Analysis (PCA)
• Kernel PCA
• Locally Linear Embedding (LLE)
• t-Distributed Stochastic Neighbor Embedding (t-SNE)
Association rule learning
• Apriori
• Eclat
Deep learning models
• GAN, VAE, diffusion process
Tipos de ML – Aprendizaje semisupervisado

Aprendizaje semi-supervisado con dos clases (triángulos y cuadrados): los ejemplos no etiquetados (círculos) ayudan a
clasificar una nueva instancia (la cruz) en la clase de triángulos en lugar de la clase de cuadrados, aunque esté más
cerca de los cuadrados etiquetados.
Tipos de ML – Aprendizaje autosupervisado
Tipos de ML – Aprendizaje por refuerzo

AlphaGo (DeepMind)
En Mayo 2017 derrotó al campeón mundial Ke Jie en
Go.

Aprendió la mejor estrategia de juego (policy) analizando


millones de juegos y
Jugando los juegos contra sí mismo.
Tipos de Machine Learning
De acuerdo si el algoritmo es basado en modelos o en
instancias

• Algoritmos paramétricos — model based ML

• Algoritmos no paramétricos — instance based ML


Tipos de ML – Aprendizaje no parametrico
o basado en instancias

Usa un conjunto de observaciones para


definir el comportamiento de la
máquina
Tipos de ML – Aprendizaje parametrico o
basado en modelo

Usa una modelo para definir el


comportamiento de la
máquina
Fundamentos de Machine Learning
Machine learning – Fundamentos

“Agentes que pueden mejorar su comportamiento a través del


estudio diligente de experiencias pasadas y predicciones sobre el
futuro”
Data
Modelo de ML como hipótesis del entorno

Tareas
𝑓
Machine learning – Fundamentos

Por que Machine Learning?


• No es posible programar explícitamente todos los posibles
futuros

• A vezes no se tiene idea de como programar la


solución
Machine learning – Fundamentos

Entrenar

• estimar 𝑓 a partir de los datos

Problema mal definido

Infinitas soluciones
Machine learning – Fundamentos

¿ PORQUÉ?

• Explicar vs predecir
Machine learning – Fundamentos

¿ PORQUÉ?

• Modelado predictivo
Machine learning – Fundamentos
Programación Tradicional

datos Computadora resultado


program
a
𝑦 = 𝑓(𝑥)

𝑥 = los datos de entrada


Aprendizaje de Máquina 𝑦= el resultado esperado
𝑓 = el programa
datos Computadora programa
resultad
o

o
Machine learning – Fundamentos
Naturaleza de 𝑓

𝑓 ∈ ℱ, espacio de hipótesis (funciones)

𝑓: 𝑌 → 𝘧

𝑌 espacio de entrada
• .txt,.csv. DB, strings, imágenes, etc.

𝘧 espacio de salida
• Labels, ranking, (puede no existir)
Machine learning – Fundamentos
Algoritmos de aprendizaje para 𝑓

𝑦 = 𝑓(𝑥; 𝛽, Θ)

𝛽, Θ: parámetros e hiperparámetros

Paramétricos 𝛽 es finito y fijo

No Paramétricos 𝛽 es potencialmente
infinito
Machine learning – Fundamentos
Algoritmos de aprendizaje para 𝑓

𝑦 = 𝑓(𝑥; 𝛽, Θ)

𝛽, Θ: parámetros e hiperparámetros

Paramétricos: usa 𝛽 para predecir

No Paramétricos : usa 𝛽 y todo/parte de


los datos para predecir
Agentes Ingeligentes
2023-2
Modelos paramétricos vs no
paramétricos
Machine learning – Fundamentos 𝑓: 𝑌 → 𝘧
𝑥 → 𝑓(𝑥)

Naturaleza de 𝑓

𝑓 ∈ ℱ, espacio de hipótesis (funciones)

𝑓: 𝑌 → 𝘧

𝑌 espacio de entrada
• .txt,.csv. DB, strings, imágenes, etc.

𝘧 espacio de salida
• Labels, ranking, (puede no existir)
Machine learning – Fundamentos
Algoritmos de aprendizaje para 𝑓
𝑦 = 𝑓(𝑥; 𝛽, Θ)

𝛽, Θ: parámetros e hiperparámetros

Paramétricos usa Θ y los datos para estimar 𝛽, (luego


descarta los datos) (aka: model-based ML)

No Paramétricos usa los datos y Θ (aka: instance-based


ML)

Semiparamétricos usa Θ y los datos para estimar 𝛽,


(luego descarta parte de los datos)
Machine learning – Clasificación con regresión
logística
Algoritmo paramétrico
𝐷

𝑓 𝑥! ; 𝛽 , Θ = 𝜎 ) 𝛽𝑑 𝑥𝑑! + 𝛽&
𝑑#$

Donde 𝑥 ! = (𝑥 ! , 𝑥 ! , …
𝑥! )
1
Machine learning – Clasificación con
KNN
Algoritmo no paramétrico

𝑓 𝑥! ; 𝛽 , Θ = 𝑓 𝑥𝑙 𝑙 ∈ 𝒩𝑘 𝑥 !
𝑚𝑜𝑑𝑎 }

Donde 𝑥 ! = (𝑥 ! , 𝑥 ! , …
𝑥! )
1
Machine learning – Regresión LR vs
KNN
Algoritmo paramétrico Algoritmo no paramétrico
Regresión lineal KNN

𝑓 𝑥, ; 𝛽 , =( 𝛽 𝑑 𝑥𝑑, + 𝛽1 𝑓 𝑥, ; 𝛽 , Θ = 1 ( 𝑓(𝑥(𝑙 ) )
𝑘
Θ 𝑑. / 𝑙 ∈ 𝖭 𝑘 (𝑥𝘍 )
Observar que 𝑘 ∈ Θ, i.e., es un
hiperparámetro
Machine learning – Regresión RL vs
KNN
Algoritmo paramétrico Algoritmo no paramétrico
Regresión lineal KNN

𝑓 𝑥, ; 𝛽 , =( 𝛽 𝑑 𝑥𝑑, + 𝛽1 𝑓 𝑥, ; 𝛽 , Θ = 1 ( 𝑓(𝑥(𝑙 ) )
𝑘
Θ 𝑑. / 𝑙 ∈ 𝖭 𝑘 (𝑥𝘍 )
Observar que 𝑘 ∈ Θ, i.e., es un
hiperparámetro
Machine learning – Regresión LR vs
SVM
Algoritmo paramétrico Algoritmo semi-paramétrico
Regresión lineal Support vector machine

D
=( 𝛽𝑑𝑥@ + 𝛽 𝑁
𝑓 𝑥 @; 𝛽, 𝑑
Θ 𝑑BC E
𝑓 𝑥 @; 𝛽 , =( 𝛽i 𝑘(𝑥i , 𝑥 @) +
Θ 𝛽E
iBC
Linear SVM

𝑁 / 𝛽6 𝑥6 𝑥 + 𝛽1
𝑇 ,
𝑓 𝑥 , ; 𝛽 , Θ = ∑6.
Machine learning – Regresión lineal
Algoritmo paramétrico

Regresión lineal

𝑥 $$ 𝑥5 $ ⋅ 𝑥 𝐷$ 1 𝛽$
⋅ 1 𝛽5
𝑓 𝐗2342; 𝛽 , Θ = 𝑥 $5 𝑥5 5 𝑥 𝐷5

⋅ ⋅ ⋅ ⋅ ⋅
𝛽&
𝑥 $𝑡 𝑥 5𝑡 ⋅ 𝑥 𝐷𝑡 1
Machine learning – Fundamentos
Algoritmos de aprendizaje para 𝑓

𝑦 = 𝑓(𝑥; 𝛽, Θ)

Entrenar — estimar 𝛽, Θ usando un conjunto


de entrenamiento

Predecir — en un conjunto de test

Medir/evaluar — Usar métricas para medir


el desempeño del modelo
Métricas
Laboratório de Métricas
Métricas
Evaluar cuantitativamente la performance del modelo

• Validación objetiva

• Comparación de modelos

• Selección de Modelo (configuración de hyperparámetros)

• Identificación de problemas

• Lenguaje común para expresar el rendimiento del modelo

• Toma de descisiones

• Monitoreo y Mantenimiento
Métricas – Regresión
• Mean Absolute Error
(MAE)

• Mean Squared Error (MSE)

• Root Mean Squared Error (RMSE)


Métricas – Regresión
• Mean Absolute Error
(MAE)

• Mean Squared Error


(MSE)

• Root Mean Squared Error (RMSE)


Métricas – Regresión
• Mean Absolute Error
(MAE)

• Mean Squared Error (MSE)

• Root Mean Squared Error


(RMSE)
Métricas –
Clasificación
Exactitud (Accuracy) = número de predicciones correctas / Total de predicciones

• Funciona bien para datos balanceados

~ 50% clase A,
~ 50 % clase B

• Datos desbalanceados:

99% clase A,
1 % clase B

Um Clasificador que siempre predice clase A


tendrá 0.99 de exactitud
Métricas –
Clasificación
Predicción Predicción
1 0
Etiqueta actual 50 10
1
Etiqueta actual 5 10
0

Matriz de confusión
Métricas –
Clasificación
Predicción Predicción
1 0
Etiqueta actual TP FN
1
Etiqueta actual FP TN
0

• TP — Verdaderos Positivos: Los casos en los que predijimos 1 y la salida real también fue 1.

• TN— Verdaderos Negativos: Los casos en los que predijimos 0 y la salida real también fue 0.

• FP— Falsos Positivos: Los casos en los que predijimos 1 y la salida real fue 0.

• FN— Falsos Negativos: Los casos en los que predijimos 0 y la salida real fue 1.
Métricas –
Clasificación

• TP — Verdaderos Positivos: Los casos en los que predijimos 1 y la salida real también fue 1.

• TN— Verdaderos Negativos: Los casos en los que predijimos 0 y la salida real también fue 0.

• FP— Falsos Positivos: Los casos en los que predijimos 1 y la salida real fue 0.

• FN— Falsos Negativos: Los casos en los que predijimos 0 y la salida real fue 1.
Métricas –
Clasificación
• Acurácia (TP+TN)/(TP+TN + FP +
FN)
• Precisión: TP/(TP+FP)
• Recall
• Score F1
• Curva PR
• Curva ROC
• Métrica AUC - PR
• Métrica AUC - ROC
Métricas –
Clasificación
• Acurácia (TP+TN)/(TP+TN + FP +
FN)
• Precisión: TP/(TP+FP)
• Recall: TP/(TP+FN)
• Score F1
• Curva PR
• Curva ROC
• Métrica AUC - PR
• Métrica AUC - ROC
Métricas –
Clasificación
• Acurácia (TP+TN)/(TP+TN + FP + FN)
• Precisión: TP/(TP+FP)
• Recall: TP/(TP+FN)
• Score F1 = 2* precisión*recall/(precision +
recall)
• Curva PR
• Curva ROC
• Métrica AUC - PR
• Métrica AUC - ROC
Métricas –
Clasificación
• Acurácia (TP+TN)/(TP+TN + FP + FN)
• Precisión: TP/(TP+FP)
• Recall: TP/(TP+FN)
• Score F1 = 2* precisión*recall/(precision +
recall)
• Curva PR
• Curva ROC
• Métrica AUC - PR
• Métrica AUC - ROC

Gráfico precisión vs recall en funcion de diferentes valores de corte


Métricas –
Clasificación
• Acurácia (TP+TN)/(TP+TN + FP + FN)
• Precisión: TP/(TP+FP)
• Recall: TP/(TP+FN)
• Score F1 = 2* precisión*recall/(precision +
recall)
• Curva PR
• Curva ROC
• Métrica AUC - ROC
• Métrica AUC - PR

Gráfico ROC en funcion de diferentes valores de corte


Métricas –
Clasificación
• Acurácia (TP+TN)/(TP+TN + FP + FN)
• Precisión: TP/(TP+FP)
• Recall: TP/(TP+FN)
• Score F1 = 2* precisión*recall/(precision +
recall)
• Curva PR
• Curva ROC
• Métrica AUC - ROC
• Métrica AUC - PR

Gráfico ROC en funcion de diferentes valores de corte


Métricas –
Clasificación

Métrica AUC (área debajo de la curva


ROC)

TPR = TP/(TP+FN)
(Recall) FPR =
FP/(TN+FP)
Métricas –
Clasificación

• Métrica AUC (área debajo de la curva TPR = TP/(TP+FN)


ROC) (Recall) FPR =
FP/(TN+FP)
TP
R

El modelo separa las clases con probabilidad =


1
Métricas –
Clasificación

Métrica AUC (área debajo de la curva TPR = TP/(TP+FN)


ROC) (Recall) FPR =
FP/(TN+FP)
TP
R

El modelo separa las clases con probabilidad =


0.7
Métricas –
Clasificación

Métrica AUC (área debajo de la curva TPR = TP/(TP+FN)


ROC) (Recall) FPR =
FP/(TN+FP)
TP
R

El modelo separa las clases con probabilidad


=0.5
Métricas –
Clasificación

Métrica AUC (área debajo de la curva TPR = TP/(TP+FN)


ROC) (Recall) FPR =
FP/(TN+FP)
TP
R

El modelo separa las clases con probabilidad


=0
Métricas –
Clasificación
Teoría de errores
Machine learning – Definición de errores
Conjunto de entrenamiento
➚ = { 𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 , … , 𝑥𝑁 , 𝑦𝑁 }

Error de generalización del modelo 𝑓3 (error condicional dado el conjunto de


entrenamiento)

𝐸𝑟𝑟➚ = DK𝑡,F𝑡 [𝐿 𝑌𝑡, 𝑓3 𝑋𝑡 |➚]

Error esperado de generalización del modelo 𝑓3

𝐸𝑟𝑟 = D➚DK𝑡,F𝑡 [𝐿 𝑌𝑡, 𝑓3 𝑋𝑡 |➚]


𝑁
1
Error de entrenamiento 𝐸𝑟𝑟 = $ 𝐿(𝑦i , 𝑓)
𝑁 i$ 1
(𝑥i ))
Machine learning – Definición de errores
El Error de entrenamiento siempre es menor que error de generalización, pues los
mismos datos están siendo usados para ajustar el modelo y para evaluar el error

𝐸𝑟𝑟 = 𝑁1 ∑𝑁i $ 1 𝐿 𝑦i , 𝑓) ≤ 𝐸𝑟𝑟➚ = D ( 𝑡 ,* 𝑡 [𝐿 𝑌𝑡, 𝑓) 𝑋𝑡 |


𝑥i ➚]
Machine learning – Definición de errores
La generalización de un modelo de ML es su poder
predictivo evaluado datos de test

La validación de la generalización de un modelo


es
extremadamente importante en la práctica

La validación nos ayuda a escoger y dar una medidad de calidad al


modelo de ML
Dilema sesgo-varianza
Machine learning – descomposición
sesgo varianza
Machine learning – descomposición
sesgo varianza
Machine learning – descomposición
sesgo varianza
Machine learning – descomposición
sesgo varianza

Modelo señal-
ruido
D 𝜖 = 0, 𝑉𝑎𝑟 𝜖 = 𝜎𝑒2
𝑌 = 𝑓 𝑋 + 𝜖,
Machine learning – descomposición
sesgo varianza

Modelo señal-
ruido
D 𝜖 = 0, 𝑉𝑎𝑟 𝜖 = 𝜎𝑒2
𝑌=𝑓 𝑋 + 𝜖,
Machine learning – descomposición
sesgo varianza

Model
o
𝑌=𝑓 𝑋 + D 𝜖 = 0, 𝑉𝑎𝑟 𝜖 = 𝜎𝑒2

𝜖, Regresor estimado 𝑓3

𝑋 Puntode
Función test 𝑋 =en𝑥el
depérdida * punto de
test
2
D 𝑌 − * 𝑋 = 𝑥*
𝑓3 𝑥
“promediar la función de pérdida en el punto de test 𝑋 = 𝑥* que se obtendria

si repetidamente estimaramos 𝑓3 con muchos conjuntos de entrenamiento


Machine learning – descomposición
sesgo varianza

Función de pérdida en el punto de


test:
2 2 2
D 𝑌 − 𝑋 = 𝑥* = 𝜎 2 + D − 𝑓 𝑥* + D 𝑓3 𝑥 * − D
* 𝑓3 𝑥
𝗀 𝑓3 𝑥 *
3
𝑓 𝑥
= 𝑒𝑟𝑟𝑜𝑟i𝑟𝑟𝑒𝑑𝑢𝑐i𝑏𝑙𝑒
* + 𝑏𝑖𝑎𝑠2 + 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒

Usualmente, si 𝑓3 es mas complejo, el sesgo es menor, pero la varianza


aumenta
Machine learning – descomposición
sesgo varianza

Función de pérdida en el punto de


test:
2 2 2
D 𝑌 − 𝑋 = 𝑥 * = 𝜎 2 + D
− 𝑓 𝑥* + D 𝑓3 −D
* 𝑓3 𝑥 *
𝗀 𝑥*
𝑓3 𝑥 𝑓3 𝑥
= 𝑒𝑟𝑟𝑜𝑟i𝑟𝑟𝑒𝑑𝑢𝑐i𝑏𝑙𝑒
* + 𝑏𝑖𝑎𝑠2 + 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒
KNN

2
2 1 𝜎𝗀 2
D 𝑌 − = 𝜎𝗀 +
2 N 𝑓(𝑥(𝑙 ) − 𝑓 𝑥* + 𝑘
𝑘 )
𝑓3 𝑥 * 𝑙∈𝖭 𝑘 (𝑥 # )
Machine learning – descomposición
sesgo varianza
Función de pérdida en el punto de
test:
2 2 2
D 𝑌 − + D 𝑓3 𝑥* − D
* 𝑋 = 𝑥* = 𝜎𝗀2 + D 𝑓3 *𝑥 − * *

𝑓3 𝑥 3
2 + 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑓 𝑥
=𝑓𝑒𝑟𝑟𝑜𝑟
𝑥
i𝑟𝑟𝑒𝑑𝑢𝑐i𝑏𝑙𝑒 + 𝑏𝑖𝑎𝑠

Modelo lineal 𝑓𝑝 𝑥 = 𝑥 𝑇 𝛽 = 𝑥1 𝛽1 + 𝑥2 𝛽2 + … + 𝑥𝑝 𝛽𝑝

D 𝑌 −
2
𝑋 = 𝑥* = 𝜎2 + D[𝑓3 𝑥 ] − 𝑓 𝑥 2
+𝑝 2
* 𝜎 𝗀
𝗀 𝑝 *
𝑁
𝑓3 𝑥 *

Observe que la complejidad de modelo esta relacionada con el número de


parametros 𝑝
Agentes Ingeligentes
2023-2
Recap

Algoritmos paramétricos vs no paramétricos

Métricas

Entrenamiento- Validación

Sesgo-varianza

Sobreajuste (overfitting)

Definiciones de errores
Selección de modelo
Cómo escoger el modelo con la complejidad
correcta para
optimizar la generalización?

Validación de modelo
Cómo evaluar correctamente la capacidad de
generalización del modelo escogido en la selección
de modelo?
Validación de Modelo
Validación de Modelo

Cómo evaluar correctamente la capacidad de


generalización del modelo escogido en la selección
de modelo?

• El modelo tiene los hiperparámetros fijos

• Como estimar adecuadamente error en términos


estadísticos
Validación de Modelo

Métodos usados

• Validación cruzada

• Validación cruzada anidada

• Boostraping

• Conformal prediction
Validación de Modelo: Validación
cruzada (cross-validation)

Uno de los métodos mas usados para estimar el error esperado de


generalización
Validación de Modelo: Validación cruzada

Es un buen estimador del Error esperado de generalización del


modelo 𝑓!

𝐸𝑟𝑟 = 𝔼➚𝔼K𝑡,$𝑡 [𝐿

𝑌𝑡, 𝑓! 𝑋𝑡

|➚]
Validación de Modelo: Validación cruzada

Uno de los métodos mas usados para estimar el error de generalización

Es un buen estimador del Error esperado de generalización del modelo


𝑓!

𝐸𝑟𝑟 = 𝔼➚𝔼K𝑡,$𝑡 [𝐿
Se usa como proxy para el Error de generalización del (error condicional dado el
𝑌𝑡, 𝑓! 𝑋𝑡
modelo 𝑓! conjunto de entrenamiento)
|➚]
𝐸𝑟𝑟➚ = 𝔼K𝑡,$𝑡 [𝐿

𝑌𝑡, 𝑓! 𝑋𝑡
Validación cruzada
• Validación cruzada leave-one out
Selección de modelo
Selección de modelo

Estrategia para escoger el modelo con la


complejidad correcta para optimizar la
generalización
Estratégias usadas

• Conocimiento a priori

• Búsqueda en malla (Grid Search)

• Búsqueda aleatoria (Random Search)

• Búsqueda Gruesa-fina (Coarse finer)

• Regla de un error estándar

• Búsqueda Bayesiana

• Búsqueda usando algoritmos evolutivos


Selección d e Modelo

Escoger los hiperparámetros óptimos de una SVM con kernel RBF — en función de la
capacidad de generalización

Input:
Modelo: SVM
Hyperparámetros: 𝐶 ∈ {2&5, 2 & ( , … 25}, 𝜆 ∈ {2&5, 2 & ( , … 25}
Datos de entrenamiento

Output: par de hiperparámetros óptimos (𝐶𝑜 𝑝 𝑡 , 𝜆𝑜 𝑝 𝑡 )


Selección d e Modelo

Escoger entre tres modelos: regressión logística (lm), SVM, random forest (rf) — cada
uno con sus propios hiperparámetros

Input:
Modelo: 𝑀𝑒𝑡𝑎𝑚𝑜𝑑𝑒𝑙𝑜(𝑙𝑚, 𝑆𝑉𝑀, 𝑟𝑓, 𝑛𝑛, 𝑋𝑏𝑜𝑜𝑠𝑡, . . )
hiperparámetros: cada modelo con sus propios
parámetros

Output:
Salida: modelo óptimo con hiperparámetros óptimos

Ver https://automl.github.io/auto-sklearn/master/
Selección d e Modelo
Problema de clases no
balanceadas Input
Modelos
• Imputador =
{SMOTE,
SMOTESVM}
• Selector de
variables =
{recursivo,
secuencial}
•Modelo ={lm, SVM, rf}
hiperparámetros
cada modelo con con sus propios hyperparámetros
Salida: secuéncia óptima de modelos con hiperparámetros
Selección de Modelo — Grid Search

• Realiza una búsqueda exahustiva en todós los valores de los


hiperparámetros del modelo del Machine learning

• Computacionalmente costoso si se tienen muchos


hiperparámetros
Lambda

C
Estimación d e Hiper-parametros

Citado de ”The elements of statistical


learning”
Random Search —(Bergstra, J., & Bengio, Y. (2012) )

Random search es más eficiente que Grid search (varios ML algoritmos y varios
datasets)

• tiene mayor cobertura para hiperparámetros importantes

• requiere menor costo computacional

• independecia estadística de cada trial


Selección de Modelo — Coarse-finer search

Búsqueda coarse
• Explorar em baja resolución el espácio de
hyperparámetros
• Identificar las zonas de interese

Búsqueda finer

•Explorar las zonas de interés

Ejemplo:
Grid Search en un espacio
de parámetros de 4 x 4
Selección de Modelo — Regla de un error estándar

Estimar los mejores hiperparámetros pueden causar overfitting en la selección de modelo

One-standard error rule —


• Estimar el modelo con minimo error (a nivel de hyperparámetros)
• escoger el modelo cuyo error este dentro una desviación estandar del mínimo
error

Otra estratégia: promediar los mejores hyperparámetros


Validación cruzada anidada
Validación cruzada anidada

Validación de modelo con los los mejores hiperparámetros puede tener sesgo (bias)

Ejemplo: validación cruzada del modelo con hipeparámetros óptimos estimados en la etapa de
selección de modelo

Modelo con
Selección de Validación de
hyperparámetros
Modelo Modelo
óptimos
Validación cruzada anidada

Se valida la estrategia usada (grid/random/coarse-finer/one-standard error rule)


Validación cruzada anidada (nested-cross validation)

Modelo con
Selección de Validación de
hyperparámetros
Modelo Modelo
óptimos
Recap

• - VALIDACIÓN CRUZADA ANIDADA


Agentes Ingeligentes
2023-2
Recap

Sesgo – Varianza tradeoff

Recap

Selección de modelo • Validación cruzada anidada


Regresión
lineal
Notación


𝐗 ∈ ℝ𝑁×𝐷
matriz de datos
• 𝑋$, … , 𝑋𝑑 , … , 𝑋𝐷 variables predictoras de entrada
• 𝑌 variable objetivo
• 𝑥&𝑑 ∈ ℝ valor de 𝑋𝑑 en el registro 𝑖

• 𝑥& ∈ ℝ𝐷 valores en el registro 𝑖: 𝑥& = 𝑥&$, 𝑥&2, … , 𝑥&𝐷

• 𝒙𝑑 ∈ ℝ𝑁 valores de 𝑋𝑑 (en negrita para enfatizar que es un


vector de tamaño 𝑁)
Variable predictora: propaganda en la
TV Variable objetivo: ventas (Sales)
• 𝑦& valor de la variable objetivo 𝑌 para la registro 𝑖
Recordando

Algoritmos de aprendizaje para 𝑓

𝑦 = 𝑓(𝑥; 𝛽, Θ)

Entrenar — estimar 𝛽, Θ usando un conjunto


de entrenamiento

Predecir — en un conjunto de test

Medir/evaluar — Usar métricas para medir


el desempeño del modelo
Modelos Lineales para
regresión
Regresión Lineal

Regresión Polinomial

Ridge, LASSO y Elastic net

Máquinas de Vectores de
Soporte
Variable predictora: propaganda en la
TV Variable objetivo: ventas (Sales)
Regresión
lineal
Adrien-Marie Legendre

En 1805, el matemático francés Adrien-Marie Legendre


publicó el método de ajustar una línea a un conjunto de
puntos al intentar predecir la ubicación de un cometa
(siendo la navegación celeste la ciencia más valiosa en el
comercio global en ese momento, al igual que la IA en la
actualidad). — la nueva electricidad Variable predictora: propaganda en la
TV Variable objetivo: ventas (Sales)
Regresión
lineal 𝑦& − 𝑦#& = 𝑦& −
Carl Friedrich Gauss 𝛽( − 𝛽$ 𝑥&

Cuatro años más tarde, el niño prodigio alemán de 24


años, Carl Friedrich Gauss, insistió en que lo había estado
usando desde 1795, pero que lo consideraba demasiado
trivial para escribir sobre él. La afirmación de Gauss llevó Variable predictora: propaganda en la
a Legendre a publicar un apéndice en el que observaba
de forma anónima que “un geómetra muy célebre no ha TV Variable objetivo: ventas (Sales)
dudado en apropiarse de este método”.
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
Modelo

𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝐷
𝑋𝐷
Usa un hiperplano como modelo de machine learning,

el objetivo es encontrar el hiperplano que hace que el modelo tenga el mayor poder de generalización

(NO el mejor hiperplano ajustado a los datos)


Regresión lineal — Problema de
optimización
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
Modelo para una variable
𝑠𝑎𝑙𝑒𝑠 = 𝛽0 + 𝛽1 ×𝑇𝑉
𝑌 = 𝛽0 + 𝛽1 𝑋

Entrenar

— encontrar los parámetros óptimos a partir de los datos y una función objetivo 𝐽(𝛽)
𝛽 ∗ = (𝛽0∗ , 𝛽1∗ )

Predecir

— para un punto de test 𝑥𝑡


𝑦𝑡 = 𝛽 ∗ + 𝛽 ∗ 𝑥 𝑡
0 1
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
Modelo para una variable
𝑠𝑎𝑙𝑒𝑠 = 𝛽0 + 𝛽1 ×𝑇𝑉
𝑌 = 𝛽0 + 𝛽1 𝑋

Entrenar

— encontrar los parámetros óptimos a partir de los datos y una función objetivo 𝐽(𝛽)
𝛽∗ = 𝛽0∗ , 𝛽1∗ = argmin𝛽𝐽(𝛽)

Predecir

— para un punto de test 𝑥𝑡


𝑦𝑡 = 𝛽 ∗ + 𝛽 ∗ 𝑥 𝑡
0 1
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
argmin𝑥 𝑓 𝑥 — es el valor de 𝑥 en donde 𝑓 𝑥
es mínimo

• min 𝑓 𝑥 = −2

• argmin𝑥 𝑓 𝑥
=4.9
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
Modelo para una variablev
𝑠𝑎𝑙𝑒𝑠 = 𝛽0 + 𝛽1 ×𝑇𝑉
𝑌 = 𝛽0 + 𝛽1 𝑋

Entrenar

— encontrar los parámetros óptimos a partir de los datos y una función objetivo 𝐽(𝛽)

𝑁
𝛽∗= 𝛽0 , 𝛽1 = argmin𝛽 𝐽 𝛽 =argmin𝛽 9 (𝑦&
∗ ∗

−𝑦; & ) ) &'


1
Predecir

— para un punto de test 𝑥𝑡


𝑦𝑡 = 𝛽 ∗ + 𝛽 ∗ 𝑥 𝑡
0 1
𝐽(𝛽)

𝛽
𝑠𝑎𝑙𝑒𝑠 = 𝛽0 + 𝛽1 ×𝑇𝑉
𝑌 = 𝛽0 + 𝛽1 𝑋
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
Modelo para una variable
𝑠𝑎𝑙𝑒𝑠 = 𝛽0 + 𝛽1 ×𝑇𝑉
𝑌 = 𝛽0 + 𝛽1 𝑋

Entrenar

— encontrar los parámetros óptimos a partir de los datos y una función objetivo 𝐽(𝛽)

𝑁
𝛽∗= 𝛽0 , 𝛽1 = argmin𝛽 𝐽(𝛽) =argmin𝛽 9 (𝑦&
∗ ∗

−𝑦; & ) ) &'


1
Predecir
Predicciones para los datos de entrenamiento
— para un punto de test 𝑥𝑡 — in-sample predictions
𝑦𝑡 = 𝛽 ∗ + 𝛽 ∗ 𝑥 𝑡
0
1
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
Modelo para una variable
𝑠𝑎𝑙𝑒𝑠 = 𝛽0 + 𝛽1 ×𝑇𝑉
𝑌 = 𝛽0 + 𝛽1 𝑋

Entrenar

— encontrar los parámetros óptimos a partir de los datos y una función objetivo 𝐽(𝛽)

𝑁
𝛽∗ = 𝛽0 , 𝛽1 = argmin𝛽 𝐽(𝛽) =argmin𝛽
∗ ∗
9 (𝑦& −𝛽
0 − 𝛽 1 𝑥 &)
) &'
1
Predecir
Predicciones para los datos de entrenamiento
— in-sample predictions
— para un punto de test 𝑥𝑡
𝑦𝑡 = 𝛽 ∗ + 𝛽 ∗ 𝑥 𝑡
0
1
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
Modelo para una variable
𝑠𝑎𝑙𝑒𝑠 = 𝛽0 + 𝛽1 ×𝑇𝑉
𝑌 = 𝛽0 + 𝛽1 𝑋

Entrenar

— encontrar los parámetros óptimos a partir de los datos y una función objetivo 𝐽(𝛽)

𝑁
𝛽∗ = 𝛽0 , 𝛽1 = argmin𝛽𝐽(𝛽) =argmin𝛽 9 ( 𝑦& −𝛽
∗ ∗
0 − 𝛽 1 𝑥 &) ) +
Ω(𝛽)
&'
1
Predecir
Regularizador
— para un punto de test 𝑥𝑡 — para prevenir overfitting
𝑦𝑡 = 𝛽 ∗ + 𝛽 ∗ 𝑥 𝑡
0
1
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
Modelo para una variable
𝑠𝑎𝑙𝑒𝑠 = 𝛽0 + 𝛽1 ×𝑇𝑉
𝑌 = 𝛽0 + 𝛽1 𝑋

Entrenar

— encontrar los parámetros óptimos a partir de los datos y una función objetivo 𝐽(𝛽)

𝑁
𝛽∗ = 𝛽0 , 𝛽1 = argmin𝛽𝐽(𝛽) =argmin𝛽 9 𝑓 (𝑦&,
∗ ∗ + Ω(𝛽)
&' 𝑦>)
1
Predecir
Función de pérdida
— para un punto de test 𝑥𝑡 — aka, loss function
𝑦𝑡 = 𝛽 ∗ + 𝛽 ∗ 𝑥 𝑡
0
1
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
Modelo para una variable
𝑠𝑎𝑙𝑒𝑠 = 𝛽0 + 𝛽1 ×𝑇𝑉
𝑌 = 𝛽0 + 𝛽1 𝑋

Entrenar

— encontrar los parámetros óptimos a partir de los datos y una función objetivo 𝐽(𝛽)

𝑁
𝛽∗ = 𝛽0 , 𝛽1 = argmin𝛽 𝐽(𝛽) =argmin𝛽 9 𝑓 (𝑦&, 𝑦>) Ω(𝛽)
∗ ∗

+ &'
1
Predecir
Ignorar por ahora
— para un punto de test 𝑥𝑡
𝑦𝑡 = 𝛽 ∗ + 𝛽 ∗ 𝑥 𝑡
0
1
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
Modelo para una variable
𝑠𝑎𝑙𝑒𝑠 = 𝛽0 + 𝛽1 ×𝑇𝑉
𝑌 = 𝛽0 + 𝛽1 𝑋

Entrenar

— encontrar los parámetros óptimos a partir de los datos y una función objetivo 𝐽(𝛽)

𝑁
1 𝑁
&' 𝑥&− 𝑥̅ 𝑦& −
𝛽 ∗ = 𝛽0∗ , 𝛽1∗ = 𝛽0∗ = 9 , 𝛽1∗ = ∑ 1
𝑁 𝑁
∑ &'𝑥 𝑦C
− 𝑥̅ )
&
𝑦& &'
1
1
Predecir

— para un punto de test 𝑥𝑡


𝑦𝑡 = 𝛽 ∗ + 𝛽 ∗ 𝑥 𝑡
0 1
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
Modelo multivariable
𝑠𝑎𝑙𝑒𝑠 = 𝛽0 + 𝛽1 𝑇𝑉 + 𝛽)𝑟𝑎𝑑𝑖𝑜 + 𝛽*𝑛𝑒𝑤𝑠𝑝𝑎𝑝𝑒𝑟

𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽) 𝑋) + ⋯ + 𝛽𝑝 𝑋𝑝

Entrenar

— encontrar los parámetros óptimos a partir de los datos y una función objetivo 𝐽(𝛽)

𝑁
𝛽∗ = 𝛽 , 𝛽 , … , 𝛽 ∗ = argmin 𝐽(𝛽) =argmin
∗ ∗
9 (𝑦 −𝑦; ) )
0 1 𝑝 𝛽 𝛽
& &
&'1

Predecir

— para un punto de test 𝑥𝑡


𝑦𝑡 = 𝛽 ∗ + 𝛽 ∗ 𝑥𝑡 1 + 𝛽 ∗ 𝑥𝑡 ) + ⋯ + +𝛽 ∗ 𝑥𝑡 𝑝
0 1 1
1
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
Modelo multivariable
𝑠𝑎𝑙𝑒𝑠 = 𝛽0 + 𝛽1 𝑇𝑉 + 𝛽)𝑟𝑎𝑑𝑖𝑜 + 𝛽*𝑛𝑒𝑤𝑠𝑝𝑎𝑝𝑒𝑟

𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽) 𝑋) + ⋯ + 𝛽𝑝 𝑋𝑝

Entrenar

— encontrar los parámetros óptimos a partir de los datos y una función objetivo 𝐽(𝛽)

𝑁
𝛽∗ = 𝛽∗ , 𝛽∗ , … , 𝛽∗ = argmin 𝐽(𝛽) =argmin 9 ( 𝑦& −𝛽0 − 𝛽1 𝑥1 − 𝛽) 𝑥) − ⋯ −
0 1 𝑝 𝛽 𝛽
𝛽
&' 𝑥 ) )
𝑝 𝑝
1
Predecir

— para un punto de test 𝑥𝑡


𝑦𝑡 = 𝛽 ∗ + 𝛽 ∗ 𝑥𝑡 1 + 𝛽 ∗ 𝑥𝑡 ) + ⋯ + +𝛽 ∗ 𝑥𝑡 𝑝
0
1
1
1
𝑦& − 𝑦#& = 𝑦& − 𝛽( − 𝛽$ 𝑥&$
− 𝛽2 𝑥&2
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
Estimar:

𝑁
𝛽∗ = 𝛽 ,𝛽 ,…,
∗ ∗
𝛽∗ = argmin 𝐽(𝛽) =argmin 9 ( 𝑦& −𝛽0 − 𝛽1 𝑋1 − 𝛽) 𝑋) − ⋯ −
0 1 𝑝 𝛽 𝛽
𝛽
&' 𝑋 ) )
𝑝 𝑝
1

usando el conjunto de datos


➚ = { 𝑥 1 , 𝑦1 , 𝑥 ) , 𝑦) , … , 𝑥 𝑁 , 𝑦𝑁
}
— observe:
𝑁
𝐽 𝛽 = 9 ( 𝑦 & −𝛽0 − 𝛽1𝑥&1 − 𝛽)𝑥&) − ⋯ − 𝛽𝑝𝑥&𝑝)
) &'1
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
𝑁
𝐽 𝛽 = ( (𝑦i−𝑦,i) 2
i&1

𝑁
𝐽 𝛽 = ( (𝑦i −𝛽0 − 𝛽1 𝑥i1 − 𝛽2 𝑥i2 − ⋯ −
𝛽𝑝 𝑥i 𝑝 ) 2 i&1

𝐽 𝛽 = 𝒚 − 𝐗𝛽 𝑇 𝒚 − 𝐗𝛽
Regresión lineal — solución via
ecuaciones normales y SVF
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
— Solución analítica via ecuación normal
𝐽 𝛽 = 𝒚 − 𝐗𝛽 𝑇 𝒚 − 𝐗𝛽

𝜕𝐽 𝛽
= −2𝐗𝑇 𝒚 − 𝐗𝛽 =
𝜕𝛽
0
Valor mínimo en cero
𝐗𝑇

𝒚 − 𝐗𝛽
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
— Solución analítica via ecuación normal
La ecuación normal
𝛽∗ = (𝐗𝑇 𝐗)%1 𝐗 𝑇 𝒚

• Rápida para 𝑁 grande

• Lenta para 𝑝 grande

• No funciona si 𝐗 𝑇 𝐗 es singular (no invertible)

• variables correlacionadas

• 𝑁 < 𝑝 (datos de microarray por ejemplo)


Modelo de regresión lineal para 𝑌 = 𝑓 𝑋; 𝛽, 𝛩
— Solución via descomposición de valores
singulares
𝑌 = 𝐗𝛽

𝛽∗ = 𝐗 𝒚
"

𝐗 " es la Pseudoinversa de Moore-Penrose, se estima usando la técnica de SVD

• Rápida para 𝑁 grande

• Lenta para 𝑝 grande

• funciona si 𝐗 𝑇 𝐗 es singular (no invertible)


• variables correlacionadas

• 𝑁<𝑝
Regresión lineal — aprendizaje via
gradiente descendente
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
— Aprendizaje via gradiente descendente
Rápida para un gran número de variables

Algunas variaciones son out-of-core: procesan datos de conjuntos muy grandes que no caben en
memoria
𝛽2 𝛽2

𝛽1
𝛽1
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
— Aprendizaje via gradiente descendente
Gradiente de una function: es el operador

6𝐽
6𝛽 1
❑𝐽 𝛽#, 𝛽$, 𝛽2, … , 𝛽𝑝 6𝐽
6𝛽
…2
= #𝐽
#𝛽 𝑝

Si estamos en el punto 𝛽#, 𝛽$, 𝛽2, … , 𝛽𝑝, el gradiente ∇𝐽 𝛽#, 𝛽$, 𝛽2, … , 𝛽𝑝 nos indica en
que

dirección ir para incrementar el valor𝐽 𝛽#, 𝛽$, 𝛽2, … , 𝛽𝑝 lo más rapido posible
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
— Aprendizaje via gradiente descendente
Campo vectorial para visualizar gradientes

Asocia un vector a cada punto de entrada

El tamaño de los vectores nunca está a escala, pero si


la proporción del tamaño de las longitudes entre los
vectores

El tamaño de los vectores esta asociado a un color


Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
— Aprendizaje via gradiente descendente
Gradiente descendente tipo batch

𝑁 𝑁
1 1
𝐽 𝛽 = 𝑀𝑆𝐸 𝛽 = 2 (𝑦 −𝑦6 )2 = 2 (𝑦 −𝑥 𝑇 𝛽) 2
N i i N i i
i$ 1 i$ 1

Encontrar las derivadas parciales de la function de costo:

𝑁
𝜕 𝜕 2
𝐽 𝛽 = 𝑀𝑆𝐸 𝛽 = 2 ( 𝑥 i𝑇 𝛽 − 𝑦i )𝑥 i 𝑑
𝜕𝛽𝑑 𝜕𝛽𝑑 N
i$ 1
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
— Aprendizaje via gradiente descendente
Calcular las derivadas parciales y colocarlas en un vector (vector gradiente)

𝑁
2
𝜕 6 ( 𝑥 +𝑇 𝛽 − 𝑦 )1
𝑀𝑆𝐸 𝛽 N
𝜕𝛽( +, +
)
𝜕 2 𝑁 2
∇𝛽 J 𝛽 = ∇𝛽MSE 𝛽 = 𝑀𝑆𝐸 𝛽 = 6 (𝑥+𝑇 𝛽 − 𝑦+)𝑥+) = 𝐗 𝑇 ( 𝐗𝛽 −
𝜕𝛽) N N
… +, 𝒚)

𝜕 )
𝑀𝑆𝐸 𝛽 2 𝑁 𝑇
𝜕𝛽𝑝 6 (𝑥+ 𝛽 −
N
𝑦
+,+)𝑥+𝑝
)
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋; 𝛽, 𝛩

— Aprendizaje via gradiente descendente


Limitación, usa todo el conjunto de entrenamiento en cada paso!!! — lento en conjuntos de datos grandes)

Bueno cuando hay muchas variables (mejor que las ecuaciones normales y SVD)

𝜕
𝑀𝑆𝐸 𝛽
𝜕𝛽h
𝜕 2
∇𝛽 MSE 𝛽 𝑀𝑆𝐸 𝛽 𝑇
𝜕𝛽 i = 𝐗 ( 𝐗𝛽 − 𝒚)
= … N
𝜕
𝑀𝑆𝐸 𝛽
𝜕𝛽𝑝
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋; 𝛽, 𝛩
— Aprendizaje via gradiente descendente batch
𝐽𝛽
Algoritmo

• Inicializar 𝜂, 𝜂

iteraciones/epocas

• Iniciar 𝛽 aleatoriamente
𝛽
• Para cada iteracion

𝛽𝑛 𝑒 𝑥 𝑡 ∶= 𝛽 − 𝜂∇ 𝛽 𝐽(𝛽)
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
— Aprendizaje via gradiente descendente
Limitación, usa todo el conjunto de entrenamiento en cada paso!!! — lento en conjuntos de datos grandes)

Bueno cuando hay muchas variables (mejor que las ecuaciones normales y SVD)

𝜕
𝑀𝑆𝐸 𝛽
𝜕𝛽h
𝜕 2
∇𝛽 MSE 𝛽 𝑀𝑆𝐸 𝛽 𝑇
𝜕𝛽 i = 𝐗 ( 𝐗𝛽 − 𝒚)
= … N
𝜕
𝑀𝑆𝐸 𝛽
𝜕𝛽𝑝
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
— Aprendizaje via gradiente descendente
Gradiente descendente estocástico mini-
batch

•El gradiente es estimado usando un


subconjunto aleatório del conjunto de
entrenamiento

•Bueno cuando el conjunto de entrenamiento


es grande
N D
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋; 𝛽, 𝛩
— Aprendizaje via gradiente descendente batch
𝐽𝛽
Algoritmo

• Inicializar 𝜂, 𝜂

iteraciones/epocas

• Iniciar 𝛽 aleatoriamente
𝛽
• Para cada iteracion

𝛽𝑛 𝑒 𝑥 𝑡 ∶= 𝛽 − 𝜂∇ 𝛽 𝐽(𝛽)
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋; 𝛽, 𝛩
— Aprendizaje via gradiente descendente batch
𝐽𝛽
Algoritmo

• Inicializar 𝜂, 𝜂

iteraciones/epocas

• Iniciar 𝛽 aleatoriamente
𝛽
• Para cada iteracion

𝛽𝑛 𝑒 𝑥 𝑡 ∶= 𝛽 − 𝜂∇ 𝛽 𝐽(𝛽)
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
— Aprendizaje via gradiente descendente
Gradiente descendente estocástico
•El gradiente es estimado usando una
instancia aleatória del conjunto de
entrenamiento
•Bueno cuando el conjunto de
entrenamiento es grande
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
— Aprendizaje via gradiente descendente
Gradiente descendente estocástico mini-
batch

•El gradiente es estimado usando un


subconjunto aleatório del conjunto de
entrenamiento

•Bueno cuando el conjunto de entrenamiento


es grande
Observació
n
Los modelos de regression Y = 𝑓 = D[𝑌 ∣ 𝑋]
𝑋 son
usados para:
Modelado explicativo
• 𝑓 (función causal) es usada para testar una hipótesis causal (𝑋 causa Y),
• A veces 𝑓 es diseñada para dar soporte al modelo causal entre 𝑋 y Y
•• 𝑓
𝑓 debe tener el menor
es retrospectiva: sesgo
usada parapossible
testar, ocon respecto
descubrir a los datos
hipótesis causales
• Validación: 1) Validacion de modelo: 𝑓 representa bien la hipótesis? 2) Ajuste de modelo: 𝑓 encaja con los datos?
• Poder explicativo: teste de hipótesis, 𝑅2
Modelado descriptivo — estimar la asociación entre 𝑋 vs Y, al nivel de los datos (no de las hipótesis, o modelado).
Se busca sumarizar o representar los datos de una manera compacta.
Observació
n
Los modelos de regression Y = 𝑓 = D[𝑌 ∣ 𝑋]
𝑋 son
usados para:
Modelado predictivo
• 𝑓 (función predictiva) es usada para capturar la asociación entre 𝑋 y Y,
•• interpretabilidad
𝑓 de 𝑓 nopredicciones
es usada para generar es requerida,ensinnuevos
embargo deseada
datos
• 𝑓 tiene un buen balance entre sesgo y varianza, los modelos “erróneos” muchas veces tienen mayor
poder predictivo que los modelos con menos sesgo
• Validación: 𝑓 generaliza a nuevos datos?
• Poder predictivo: métricas en conjunto validación/test

Idea equivocada: poder predictivo puede ser inferido a partir del poder explicativo

También podría gustarte