(01-4) MatClase 01 - AG - Agentes Inteligentes

Curso
2023-2
Contenidos
Introducción y
Motivación
¿Qué es Inteligencia
Artificial?
Agentes Racionales
Historia de la IA
Introducción
ChatGP
T
ChatGP
T
ChatGP
T
¿Que es
IA?
Que es
”IA?
es la ciencia y la ingeniería de
hacer máquinas inteligentes,
especialmente atravez de
programas computadora"
John
McCarthy
Que es
IA?
"es la simulación de procesos de
inteligencia humana por
máquinas"
Encyclopædia
Britannica
Que es
IA?
"es la capacidad de las máquinas
para aprender de la experiencia,
razonar y percibir su entorno, y
realizar tareas que
tradicionalmente requieren
inteligencia humana"
Que es
IA?
"es el estudio de agentes
inteligentes — un programa de
computador que percibe su
entorno y realiza acciones que
maximizan sus posibilidades de
éxito en algún objetivo "
Principales
Áreas
• Reasoning, problem solving.
• Knowledge representation
• Planning
• Machine Learning
• Natural language processing
• Perception
• Robotics
• Creativity
• Ethics and social implications
Machine
learning
DAT TASKS
A
Classificatio
n
𝑓 Regressio
n
Density estimation
Generative
modelling
Machine
learning
DAT TASKS
A
Classificatio
n
Regression
Density estimation
Generative
modelling
Machine
learning
Fashion MNIST dataset
60000 Training &validation

10000 Testing
Datapoint 28x28 image
Clases [0-9]
Machine
learning
Machine
learning
EJERCIC
IO
SUMARI
O
• APLICACIONES REALES CON IMPACTO
• IA ES UNA TECNOLOGÍA DISRUPTIVA
• GRAN OFERTA DE TRABAJO
• ÁREAS DE LA IA — MACHINE LEARNING
Qué es la Inteligencia Artificial?
Que es la
IA?
La ciencia de contruir máquinas que:
piensan como piensan

humanos racionalmente
actúan como actúan

humanos racionalmente
Modelos Modelos
computacionales de computacionales de
comportamiento comportamiento
humano racional
Modelos computacionales del
comportamiento humano
Sistemas que piensan como
humanos
Pensando humanamente
• El esfuerzo en hacer que las computadoras piensen — máquinas con

mente — en el full y literal sentido de la palabra (Haugeland, 1985)
• La automatización de actividades que asociamos con el

humano, actividades como toma de decisiones, resolución de problemas,
pensamiento
aprendizaje (Bellman, 1978)
modelo cognitivo
Entender como piensan los humanos
Desarrollar una Teoria de la mente (Ciencia coginitiva)
Expresar la teoría de la mente como un programa de computadora
Sistemas que actúan como
humanos
Actuando humanamente
“El arte de crear máquinas que realicen ciertas tareas
que requieran inteligencia cuando son realizadas por
la gente” (Kurzweil,1990)
“El estudio de cómo hacer que las computadoras

realicen actividades, las cuales, al momento la gente
lo hace mejor” (Rich and Knight, 1991)
Test de Turing
•humanos
Test de Turing
• Turing (1950) "Computing machinery and intelligence"
• Test de Turing Si el interrogador no diferencia al humano del sistema, entonces

el sistema posee cierto grado de inteligencia (Turing 1950)
humanos
• Test de Turing
EL programa de compudator debería poseer:

• Procesamiento del lenguaje natural
• Representación del conocimiento
• Razonamiento automático
• Aprendizaje automático (machine learning)
humanos
• Test de Turing
Test de Turing completo:

• Visión por computador
• Robótica
humanos
• Test de Turing
Critica
• Es mas importante estudiar los princípios subyacentes de la inteligencia que imitar

un humano
Modelos computacionales del
pensamiento
racional
Sistemas que piensan
racionalmente
Pensando racionalmente
“El estudio de facultades mentales através del uso de modelos
computacionales” (Chamiak and McDermott, 1985)
“El estudio de los cálculos que hacen posible percibir razonar y

actuar” (Winston, 1992)
Enfoque de las leyes del pensamiento

Pensamiento correcto, modelado por la lógica
Crítica: no es fácil modelar el conocimiento usando lógica
Crítica: diferencia entre solucionar el problema en principio vs la
práctica
Sistemas que actúan
racionalmente
Actuando
“La inteligencia computacional es el estudio del diseño de agentes inteligentes”
racionalmente
(Poole et al., 1998)
“La inteligencia artificial tiene a ver con el comportamiento inteligente en

artefactos” (Nilsson, 1998)
El enfoque del agente racional (Latin agere, “actuar”)

Se diferencian de los programas comunes pues pueden operar con autonomía,
perciben su entorno, persisten en el tiempo, se adaptan al cambio, se formulan
nuevas metas
Agente racional — realiza lo correcto

Logra el mejor resultado
Logra el mejor resultado en promedio si existe incerteza
Modelo estándar
Máquinas
beneficiosas
El modelo estándar de IA tiene limitaciones
El objetivo está completamente especificado
E.g. implementar un juego de ajedrez V
E.g, problema del camino mas corto V
Programar un carro autónomo? X
Problema de alineación de valor

Balance y alineamiento entre objetivo (máquina) vs preferencias
(humanos)
Maquinas deben perseguir nuestros objetivos (no objetivos internos
de la máquina)
Riesgos y beneficios de la IA
Riesgos y beneficios de la
IA
• Armas autónomas
• Monitoreamiento y persuasión — individuos, colectivo, física o virtualmente
• Toma de desición con sesgo
• Impacto en el empleo
• Aplicaciónes críticas — carros autónomos, administración de agua en las ciudades
• Ciberseguridad
Los Cimientos de la IA
Leer sección 1.2 (AIMA)

Ingeniería de computadoras
psicología
Teoria de control y
cibernética
economía
matemática
Agentes Racionales
Agente
s
• Percibe su entorno
(secuencia de percepciones) a
travéz de sensores y actúa
sobre el el mismo a travéz de
actuadores
Ejemplo: un agente humano tiene sensores : ojos, oídos, tacto, etc

Y también tiene actuadores :manos piernas, etc.
Ejemplo: un agente robotico tiene sensores : cámaras, rayos infrarojos, etc

Y también tiene actuadores : motores, brazos mecánicos, etc.
Ejemplo: un agente de software tiene cadenas codificadas de bits para que funcionen
Como sensores y actuadores.
Agent Percepciones
e Sensores
?
Acciones
Actuadores
Agente
Racional
hace la cosas de manera correcta — comportamiento racional

Agente
Racional
• Depende de cuatro cosas:
• Medida de performance (grado de exito)
• Secuencia de percepciones
• Conocimiento a priori de su entorno
• Acciones que el agente puede realizar
Esto nos conlleva a definir :

agente ideal y racional
Para cada posible secuencia de percepciones un agente
racional e ideal debería escoger cualquier acción que
maximice su medida de performance en las bases de la
evidencia probada por la secuencia de percepciones y
cualquier conocimiento que el agente tenga”
Agente
Racional
•Un agente no es omniciente
• No sabe con perfección lo que sucederá realizando dicha
acción, racionalidad no es lo mismo que perfección,
racionalidad maximiza la medida de performance
• El agente debe aprender de las percepciones

• Debe alimentar su conocimiento a priori del entorno
• El agente debe tener autonomía

• Debe aprender para incrementar su conocimiento.
Historia de la IA
Historia de la Inteligencia Artificial
Leer sección 1.3 (AIMA)

Ganadores del premio Turing en
IA
Marvin Minsky (1969)
Cimientos de la IA, representación y razonamiento
John MacCarthy (1971)
Ganadores del premio

Turing
Allen Newell & Herbert Simons (1975)
Modelos simbólicos de resolución de problemas y

cognición humana

Turing
Ed Feigenbaum and Raj Reddy (1994)
Sistemas expertos y codificación de conocimiento humano

Turing
Juda Pearl (2011)
Técnicas de razonamiento probabilístico

Turing
Yoshua Bengio, Geoffrey Hinton, and Yann LeCun (2019)
Investigación en Deep Learning

Turing
Turing
El nacimiento de la IA, 1943 —
1956
Warren McCulloch and Walter Pitts (1943)

Primera red neuronal artificial
Algoritmo de aprendizaje Hebbiano

Donald Hebb (1949)
1956
Alan Turing (1947)
• Primeras clases en IA
• Test de Turing
• Machine learning
• Algoritmos genéticos
• Aprendizaje por refuerzo
1956 Marvin Minsky & Dean Ed- monds (1950)
Primera computadora neuronal — SNARC
Christopher Strachey (1952)
Primer video juego de damas,

musica por computador,
literatura generada po
computador

Logic Theorist — programa de
prueba de teoremas
1956
Organizo junto con Minsky, Shannon y Rochester
el primer workshop de IA
John MacCarthy (1956)

Entusiasmo y grandes expectativas, 1952—
1969
General Problem Solver
Herbert Gelernter (1959)
Geometry Theorem
Prover
Arthur Lee Samuel (1959)

Checkers usando machine learning
John
MacCarthy
(1956)
LISP
Paper: Programs with common sense
Razonamiento, representación — logica
Tom Evans — Analogy, solucionador de problemas geométricos

Entusiasmo y grandes expectativas, 1952—
1969
Frank Rosenblatt (1957)
Perceptron — Ordenador IBM 704, 1957
Perceptron — paper, 1962
Bernie Widrow (1962)

Adalines
Una dosis de realidad, 1966 —
1973
Programas de IA fallan en problemas complejos (Weak methods)
• Como los humanos realizan una tarea vs

• analisis cuidadoso de la tarea
• que es solucionar la tarea
• Que algoritmos se necesita
• Problemas intractables — explosión combinatória

• Gobierno Británico finaliza soporte en investigación de IA, Lighthill report (1973)
• Limitaciones fundamentals en las estructuras usadas para IA

• Minsky and Papert, libro: Perceptrons (1969)
Sistemas Expertos, 1969—
1986 Bruce G. Buchanan (1969)
DENDRAL A program for generating explanatory hypotheses in organic chemistry.
• Programa que rivalizó a expertos humanos en un campo específico
• Determina la estructura molecular de um compuesto desconocido
MYCIN.
• Sistema experto para diagonisticar infecciones en la sangre
• 450 reglas, = expertos, + doctores jóvenes
Roger Shank (1977)

Investigación en entendimento del lenguaje natural
La mayoria de las grandes corporaciones americanas tiene su

propio grupo de IA en sistemas expertos — miles de milloes de dolares son
invertidos en IA entre (1988)
Invierno de la IA — no se cumplen las promesas, los

sistemas expertos no escalan, no aprenden de la experiencia, no funcionan para
problemas complejos
El retorno de las redes neuronales, 1986 — presente
Geoffrey Hinton, 1986
Algoritmo de aprendizaje de redes neuronales
Surgimiento de modelos conexionistas
• Rivaliza con el enfoque simbólico

(Newell&Simons)
• Rivaliza con el enfoque lógico de
MacCarthy
Razonamiento Probabilístico y Machine Learning, 1987 —
presente
Teoría de la probabilidad en vez de lógica booleana

Machine learning en vez de reglas codificadas
Resultados experimentales en vez afirmaciones
filosóficas
Bayesian Networks
HMM
MDP Datasets
Big data, 2001—presente
Trillones de palabras,
Billones de
imágenes
Billones de horas de habla/video
Datos genómicos
Datos de tracking de vehículos
Datos de clicks
Datos de redes sociales
Los datos juegan un papel relevante

en machine learning
Deep Learning, 2011—present
Aplicaciones con mejor performace que humanos
Hablaremos de la historia de deep learning en otra clase

Foundation Models, 2021—present
Marzo 29, 2023
https://futureoflife.org/open-letter/pause-giant-ai-experiments/
https://www.wired.com/story/chatgpt-pause-ai-experiments-open-letter/
Discusión
Discusió
n
• Qué es inteligencia?
• Qué es inteligencia artificial?
• Qué es un agente?
• Qué es racionalidad?
Agentes Ingeligentes
2023-2
Introducción al Machine Learning
(Aprendizaje automático)
Machine
learning
Data Tasks
Classificatio
n
𝑓 Regressio
n
Density estimation
Generative
modelling
Machine
learning
Data Tasks
Classificatio
n
Regression
Density estimation
Generative
modelling
Machine
learning
Tom Mitchell (1998)
Arthur Samuel (1959)
Es el campo de Un programa de
computadora aprende de la
estudio que le da experiencia E con respecto a
a la computadora alguna clase de tareas T y la
medida de desempeño P, si
la capacidad de su desempeño en tareas en
aprender sin ser T, medido por P, mejora con
la experiencia E
programada
explícitamente.”
Machine
learning
https://www.ibm.com/cloud/learn/machine-learning#:~:text=One%20of%20its%20own%2C%20Arthur,he%20lost%20to%20the%20computer.
História y aplicaiones
Histori
a
Pesimismo/
Poco
financiamiento 2010-2012 - redes
Algoritmos: - speech-to-text y
neuronales
Perceptrons Cadena reconocimiento de
(limitaciones de Markov,Kernels objetos 2016 - AlphaGo
Algoritmo
implementado como un los modelos SVMs, Redes derrotó al campeón
circuito lineales) convolucionales humano de Go
Minsky y Invierno/Edad Deep

Perceptron
Papert de Oro Learning
195 195 196 198 199 2000 201
7 9 9 0 0 0
Ideas Campos de
Arthur
Fundamentales IA
Samuel
Psicólogos - modelos Visión
Programa de
neuronales de Computacional
damas basado en , NLP , etc
cognición 1984 - Leslie
el aprendizaje
Valiant - aprendizaje
P AC
1988 -
Backpropagation
Geoffrey Hinton
1988 - Libro de Judea
P earl
- redes bayesianas
Historia — Redes Neuronales
y Deep learning
Tipos de Machine Learning
Tipos de Machine Learning — De acuerdo al feedback
en el aprendizaje
Aprendizaje supervisado
Aprendizaje autosupervisado
• Los datos tienen etiquetas • Los datos no tienen
(labels) etiquetas pero el algoritmo
genera sus propias
Aprendizaje no supervisado etiquetas
• Los datos no tienen Aprendizaje por

etiquetas refuerzo
Aprendizaje semisupervisado • Un agente aprende
por medio
de recompensas y
• Muchos datos sin etiquetas y penalizaciones
pocos datos con etiquetas
Tipos de ML – Aprendizaje supervisado
Tarea de clasificación
Tarea de regresión
Clasificación Detección de Objetos
Regresión Traducción Automática

Modelos ML
supervisados
k-Nearest Neighbors
Linear Regression
Logistic Regression
Support Vector Machines (SVMs)
Decision Trees and Random Forests
Neural networks
Deep Convolutional neural
networks
Tipos de ML – Aprendizaje no supervisado
El conjunto de entrenamiento no contiene etiquetas (labels)

El algoritmo tiene que estimar estructuras/padrones de los
datos
t-
SNE

datos
Detección de anomalias/novedades

datos
representación latente
Aprendizaje manifold usando kernel

Análisis de Componentes Principales Autoencoders P CA
Aprendizaje de representación /Reducción de dimensionalidad

Datos de
microarray
Identifying Regulatory Mechanisms using Individual Variation

Reveals Key Role for Chromatin Modification. [Su-In Lee, Dana
Pe'er, Aimee M. Dudley, George M. Church and Daphne Koller.
’06]
Clustering de genes
Generative adversarial networks
Ver paper: https://arxiv.org/abs/1710.10196

Modelos de ML no supervisados
Clustering
• K-Means
• DBSCAN
• Hierarchical Cluster Analysis (HCA)
Anomaly detection and novelty detection
• One-class SVM
• Isolation Forest
Visualization and dimensionality
reduction
• Principal Component Analysis (PCA)
• Kernel PCA
• Locally Linear Embedding (LLE)
• t-Distributed Stochastic Neighbor Embedding (t-SNE)
Association rule learning
• Apriori
• Eclat
Deep learning models
• GAN, VAE, diffusion process
Tipos de ML – Aprendizaje semisupervisado
Aprendizaje semi-supervisado con dos clases (triángulos y cuadrados): los ejemplos no etiquetados (círculos) ayudan a
clasificar una nueva instancia (la cruz) en la clase de triángulos en lugar de la clase de cuadrados, aunque esté más
cerca de los cuadrados etiquetados.
Tipos de ML – Aprendizaje autosupervisado
Tipos de ML – Aprendizaje por refuerzo
AlphaGo (DeepMind)
En Mayo 2017 derrotó al campeón mundial Ke Jie en
Go.
Aprendió la mejor estrategia de juego (policy) analizando

millones de juegos y
Jugando los juegos contra sí mismo.
Tipos de Machine Learning
De acuerdo si el algoritmo es basado en modelos o en
instancias
• Algoritmos paramétricos — model based ML
• Algoritmos no paramétricos — instance based ML

Tipos de ML – Aprendizaje no parametrico
o basado en instancias
Usa un conjunto de observaciones para

definir el comportamiento de la
máquina
Tipos de ML – Aprendizaje parametrico o
basado en modelo
Usa una modelo para definir el

comportamiento de la
máquina
Fundamentos de Machine Learning
Machine learning – Fundamentos
“Agentes que pueden mejorar su comportamiento a través del

estudio diligente de experiencias pasadas y predicciones sobre el
futuro”
Data
Modelo de ML como hipótesis del entorno
Tareas
𝑓
Por que Machine Learning?

• No es posible programar explícitamente todos los posibles
futuros
• A vezes no se tiene idea de como programar la

solución
Entrenar
• estimar 𝑓 a partir de los datos
Problema mal definido
Infinitas soluciones
¿ PORQUÉ?
• Explicar vs predecir
¿ PORQUÉ?
• Modelado predictivo
Programación Tradicional
datos Computadora resultado

program
a
𝑦 = 𝑓(𝑥)
𝑥 = los datos de entrada

Aprendizaje de Máquina 𝑦= el resultado esperado
𝑓 = el programa
datos Computadora programa
resultad
o
o
Naturaleza de 𝑓
𝑓 ∈ ℱ, espacio de hipótesis (funciones)
𝑓: 𝑌 → 𝘧
𝑌 espacio de entrada
• .txt,.csv. DB, strings, imágenes, etc.
𝘧 espacio de salida
• Labels, ranking, (puede no existir)
Algoritmos de aprendizaje para 𝑓
𝑦 = 𝑓(𝑥; 𝛽, Θ)
𝛽, Θ: parámetros e hiperparámetros
Paramétricos 𝛽 es finito y fijo
No Paramétricos 𝛽 es potencialmente
infinito
𝑦 = 𝑓(𝑥; 𝛽, Θ)
Paramétricos: usa 𝛽 para predecir
No Paramétricos : usa 𝛽 y todo/parte de

los datos para predecir
2023-2
Modelos paramétricos vs no
paramétricos
Machine learning – Fundamentos 𝑓: 𝑌 → 𝘧
𝑥 → 𝑓(𝑥)
Naturaleza de 𝑓
𝑓 ∈ ℱ, espacio de hipótesis (funciones)
𝑓: 𝑌 → 𝘧
𝑌 espacio de entrada
• .txt,.csv. DB, strings, imágenes, etc.
𝘧 espacio de salida
• Labels, ranking, (puede no existir)
𝑦 = 𝑓(𝑥; 𝛽, Θ)
Paramétricos usa Θ y los datos para estimar 𝛽, (luego

descarta los datos) (aka: model-based ML)
No Paramétricos usa los datos y Θ (aka: instance-based

ML)
Semiparamétricos usa Θ y los datos para estimar 𝛽,

(luego descarta parte de los datos)
Machine learning – Clasificación con regresión
logística
Algoritmo paramétrico
𝐷
𝑓 𝑥! ; 𝛽 , Θ = 𝜎 ) 𝛽𝑑 𝑥𝑑! + 𝛽&
𝑑#$
Donde 𝑥 ! = (𝑥 ! , 𝑥 ! , …
𝑥! )
1
Machine learning – Clasificación con
KNN
Algoritmo no paramétrico
𝑓 𝑥! ; 𝛽 , Θ = 𝑓 𝑥𝑙 𝑙 ∈ 𝒩𝑘 𝑥 !
𝑚𝑜𝑑𝑎 }
Donde 𝑥 ! = (𝑥 ! , 𝑥 ! , …
𝑥! )
1
Machine learning – Regresión LR vs
KNN
Algoritmo paramétrico Algoritmo no paramétrico
Regresión lineal KNN
𝑓 𝑥, ; 𝛽 , =( 𝛽 𝑑 𝑥𝑑, + 𝛽1 𝑓 𝑥, ; 𝛽 , Θ = 1 ( 𝑓(𝑥(𝑙 ) )
𝑘
Θ 𝑑. / 𝑙 ∈ 𝖭 𝑘 (𝑥𝘍 )
Observar que 𝑘 ∈ Θ, i.e., es un
hiperparámetro
Machine learning – Regresión RL vs
KNN
Algoritmo paramétrico Algoritmo no paramétrico
Regresión lineal KNN
𝑓 𝑥, ; 𝛽 , =( 𝛽 𝑑 𝑥𝑑, + 𝛽1 𝑓 𝑥, ; 𝛽 , Θ = 1 ( 𝑓(𝑥(𝑙 ) )
𝑘
Θ 𝑑. / 𝑙 ∈ 𝖭 𝑘 (𝑥𝘍 )
Observar que 𝑘 ∈ Θ, i.e., es un
hiperparámetro
Machine learning – Regresión LR vs
SVM
Algoritmo paramétrico Algoritmo semi-paramétrico
Regresión lineal Support vector machine
D
=( 𝛽𝑑𝑥@ + 𝛽 𝑁
𝑓 𝑥 @; 𝛽, 𝑑
Θ 𝑑BC E
𝑓 𝑥 @; 𝛽 , =( 𝛽i 𝑘(𝑥i , 𝑥 @) +
Θ 𝛽E
iBC
Linear SVM
𝑁 / 𝛽6 𝑥6 𝑥 + 𝛽1
𝑇 ,
𝑓 𝑥 , ; 𝛽 , Θ = ∑6.
Machine learning – Regresión lineal
Algoritmo paramétrico
Regresión lineal
𝑥 $$ 𝑥5 $ ⋅ 𝑥 𝐷$ 1 𝛽$
⋅ 1 𝛽5
𝑓 𝐗2342; 𝛽 , Θ = 𝑥 $5 𝑥5 5 𝑥 𝐷5
⋅
⋅ ⋅ ⋅ ⋅ ⋅
𝛽&
𝑥 $𝑡 𝑥 5𝑡 ⋅ 𝑥 𝐷𝑡 1
𝑦 = 𝑓(𝑥; 𝛽, Θ)
Entrenar — estimar 𝛽, Θ usando un conjunto

de entrenamiento
Predecir — en un conjunto de test
Medir/evaluar — Usar métricas para medir

el desempeño del modelo
Métricas
Laboratório de Métricas
Métricas
Evaluar cuantitativamente la performance del modelo
• Validación objetiva
• Comparación de modelos
• Selección de Modelo (configuración de hyperparámetros)
• Identificación de problemas
• Lenguaje común para expresar el rendimiento del modelo
• Toma de descisiones
• Monitoreo y Mantenimiento
Métricas – Regresión
• Mean Absolute Error
(MAE)
• Mean Squared Error (MSE)
• Root Mean Squared Error (RMSE)

(MAE)
• Mean Squared Error

(MSE)
• Root Mean Squared Error (RMSE)

(MAE)
• Mean Squared Error (MSE)
• Root Mean Squared Error

(RMSE)
Métricas –
Clasificación
Exactitud (Accuracy) = número de predicciones correctas / Total de predicciones
• Funciona bien para datos balanceados
~ 50% clase A,
~ 50 % clase B
• Datos desbalanceados:
99% clase A,
1 % clase B
Um Clasificador que siempre predice clase A

tendrá 0.99 de exactitud
Métricas –
Clasificación
Predicción Predicción
1 0
Etiqueta actual 50 10
1
Etiqueta actual 5 10
0
Matriz de confusión
Métricas –
Clasificación
Predicción Predicción
1 0
Etiqueta actual TP FN
1
Etiqueta actual FP TN
0
• TP — Verdaderos Positivos: Los casos en los que predijimos 1 y la salida real también fue 1.
• TN— Verdaderos Negativos: Los casos en los que predijimos 0 y la salida real también fue 0.
• FP— Falsos Positivos: Los casos en los que predijimos 1 y la salida real fue 0.
• FN— Falsos Negativos: Los casos en los que predijimos 0 y la salida real fue 1.
Métricas –
Clasificación
• TP — Verdaderos Positivos: Los casos en los que predijimos 1 y la salida real también fue 1.
• TN— Verdaderos Negativos: Los casos en los que predijimos 0 y la salida real también fue 0.
• FP— Falsos Positivos: Los casos en los que predijimos 1 y la salida real fue 0.
• FN— Falsos Negativos: Los casos en los que predijimos 0 y la salida real fue 1.
Métricas –
Clasificación
• Acurácia (TP+TN)/(TP+TN + FP +
FN)
• Precisión: TP/(TP+FP)
• Recall
• Score F1
• Curva PR
• Curva ROC
• Métrica AUC - PR
• Métrica AUC - ROC
Métricas –
Clasificación
• Acurácia (TP+TN)/(TP+TN + FP +
FN)
• Recall: TP/(TP+FN)
• Score F1
• Curva PR
• Curva ROC
Métricas –
Clasificación
• Acurácia (TP+TN)/(TP+TN + FP + FN)
• Score F1 = 2* precisión*recall/(precision +
recall)
• Curva PR
• Curva ROC
Métricas –
Clasificación
recall)
• Curva PR
• Curva ROC
Gráfico precisión vs recall en funcion de diferentes valores de corte

Métricas –
Clasificación
recall)
• Curva PR
• Curva ROC
Gráfico ROC en funcion de diferentes valores de corte

Métricas –
Clasificación
recall)
• Curva PR
• Curva ROC
Gráfico ROC en funcion de diferentes valores de corte

Métricas –
Clasificación
Métrica AUC (área debajo de la curva

ROC)
TPR = TP/(TP+FN)
(Recall) FPR =
FP/(TN+FP)
Métricas –
Clasificación
• Métrica AUC (área debajo de la curva TPR = TP/(TP+FN)

ROC) (Recall) FPR =
FP/(TN+FP)
TP
R
El modelo separa las clases con probabilidad =

1
Métricas –
Clasificación
Métrica AUC (área debajo de la curva TPR = TP/(TP+FN)

ROC) (Recall) FPR =
FP/(TN+FP)
TP
R
El modelo separa las clases con probabilidad =

0.7
Métricas –
Clasificación

ROC) (Recall) FPR =
FP/(TN+FP)
TP
R
El modelo separa las clases con probabilidad

=0.5
Métricas –
Clasificación

ROC) (Recall) FPR =
FP/(TN+FP)
TP
R
El modelo separa las clases con probabilidad

=0
Métricas –
Clasificación
Teoría de errores
Machine learning – Definición de errores
Conjunto de entrenamiento
➚ = { 𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 , … , 𝑥𝑁 , 𝑦𝑁 }
Error de generalización del modelo 𝑓3 (error condicional dado el conjunto de

entrenamiento)
𝐸𝑟𝑟➚ = DK𝑡,F𝑡 [𝐿 𝑌𝑡, 𝑓3 𝑋𝑡 |➚]
Error esperado de generalización del modelo 𝑓3
𝐸𝑟𝑟 = D➚DK𝑡,F𝑡 [𝐿 𝑌𝑡, 𝑓3 𝑋𝑡 |➚]

𝑁
1
Error de entrenamiento 𝐸𝑟𝑟 = $ 𝐿(𝑦i , 𝑓)
𝑁 i$ 1
(𝑥i ))
El Error de entrenamiento siempre es menor que error de generalización, pues los
mismos datos están siendo usados para ajustar el modelo y para evaluar el error
𝐸𝑟𝑟 = 𝑁1 ∑𝑁i $ 1 𝐿 𝑦i , 𝑓) ≤ 𝐸𝑟𝑟➚ = D ( 𝑡 ,* 𝑡 [𝐿 𝑌𝑡, 𝑓) 𝑋𝑡 |

𝑥i ➚]
La generalización de un modelo de ML es su poder
predictivo evaluado datos de test
La validación de la generalización de un modelo

es
extremadamente importante en la práctica
La validación nos ayuda a escoger y dar una medidad de calidad al

modelo de ML
Dilema sesgo-varianza
Machine learning – descomposición
sesgo varianza
sesgo varianza
sesgo varianza
sesgo varianza
Modelo señal-
ruido
D 𝜖 = 0, 𝑉𝑎𝑟 𝜖 = 𝜎𝑒2
𝑌 = 𝑓 𝑋 + 𝜖,
sesgo varianza
Modelo señal-
ruido
D 𝜖 = 0, 𝑉𝑎𝑟 𝜖 = 𝜎𝑒2
𝑌=𝑓 𝑋 + 𝜖,
sesgo varianza
Model
o
𝑌=𝑓 𝑋 + D 𝜖 = 0, 𝑉𝑎𝑟 𝜖 = 𝜎𝑒2
𝜖, Regresor estimado 𝑓3
𝑋 Puntode
Función test 𝑋 =en𝑥el
depérdida * punto de
test
2
D 𝑌 − * 𝑋 = 𝑥*
𝑓3 𝑥
“promediar la función de pérdida en el punto de test 𝑋 = 𝑥* que se obtendria
si repetidamente estimaramos 𝑓3 con muchos conjuntos de entrenamiento

sesgo varianza
Función de pérdida en el punto de

test:
2 2 2
D 𝑌 − 𝑋 = 𝑥* = 𝜎 2 + D − 𝑓 𝑥* + D 𝑓3 𝑥 * − D
* 𝑓3 𝑥
𝗀 𝑓3 𝑥 *
3
𝑓 𝑥
= 𝑒𝑟𝑟𝑜𝑟i𝑟𝑟𝑒𝑑𝑢𝑐i𝑏𝑙𝑒
* + 𝑏𝑖𝑎𝑠2 + 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒
Usualmente, si 𝑓3 es mas complejo, el sesgo es menor, pero la varianza

aumenta
sesgo varianza

test:
2 2 2
D 𝑌 − 𝑋 = 𝑥 * = 𝜎 2 + D
− 𝑓 𝑥* + D 𝑓3 −D
* 𝑓3 𝑥 *
𝗀 𝑥*
𝑓3 𝑥 𝑓3 𝑥
= 𝑒𝑟𝑟𝑜𝑟i𝑟𝑟𝑒𝑑𝑢𝑐i𝑏𝑙𝑒
* + 𝑏𝑖𝑎𝑠2 + 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒
KNN
2
2 1 𝜎𝗀 2
D 𝑌 − = 𝜎𝗀 +
2 N 𝑓(𝑥(𝑙 ) − 𝑓 𝑥* + 𝑘
𝑘 )
𝑓3 𝑥 * 𝑙∈𝖭 𝑘 (𝑥 # )
sesgo varianza
test:
2 2 2
D 𝑌 − + D 𝑓3 𝑥* − D
* 𝑋 = 𝑥* = 𝜎𝗀2 + D 𝑓3 *𝑥 − * *
𝑓3 𝑥 3
2 + 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑓 𝑥
=𝑓𝑒𝑟𝑟𝑜𝑟
𝑥
i𝑟𝑟𝑒𝑑𝑢𝑐i𝑏𝑙𝑒 + 𝑏𝑖𝑎𝑠
Modelo lineal 𝑓𝑝 𝑥 = 𝑥 𝑇 𝛽 = 𝑥1 𝛽1 + 𝑥2 𝛽2 + … + 𝑥𝑝 𝛽𝑝
D 𝑌 −
2
𝑋 = 𝑥* = 𝜎2 + D[𝑓3 𝑥 ] − 𝑓 𝑥 2
+𝑝 2
* 𝜎 𝗀
𝗀 𝑝 *
𝑁
𝑓3 𝑥 *
Observe que la complejidad de modelo esta relacionada con el número de

parametros 𝑝
2023-2
Recap
Algoritmos paramétricos vs no paramétricos
Métricas
Entrenamiento- Validación
Sesgo-varianza
Sobreajuste (overfitting)
Definiciones de errores
Selección de modelo
Cómo escoger el modelo con la complejidad
correcta para
optimizar la generalización?
Validación de modelo
Cómo evaluar correctamente la capacidad de
generalización del modelo escogido en la selección
de modelo?
Validación de Modelo
Cómo evaluar correctamente la capacidad de

generalización del modelo escogido en la selección
de modelo?
• El modelo tiene los hiperparámetros fijos
• Como estimar adecuadamente error en términos

estadísticos
Métodos usados
• Validación cruzada
• Validación cruzada anidada
• Boostraping
• Conformal prediction
Validación de Modelo: Validación
cruzada (cross-validation)
Uno de los métodos mas usados para estimar el error esperado de

generalización
Validación de Modelo: Validación cruzada
Es un buen estimador del Error esperado de generalización del

modelo 𝑓!
𝐸𝑟𝑟 = 𝔼➚𝔼K𝑡,$𝑡 [𝐿
𝑌𝑡, 𝑓! 𝑋𝑡
|➚]
Validación de Modelo: Validación cruzada
Uno de los métodos mas usados para estimar el error de generalización
Es un buen estimador del Error esperado de generalización del modelo

𝑓!
𝐸𝑟𝑟 = 𝔼➚𝔼K𝑡,$𝑡 [𝐿
Se usa como proxy para el Error de generalización del (error condicional dado el
modelo 𝑓! conjunto de entrenamiento)
|➚]
𝐸𝑟𝑟➚ = 𝔼K𝑡,$𝑡 [𝐿
Validación cruzada
• Validación cruzada leave-one out
Estrategia para escoger el modelo con la

complejidad correcta para optimizar la
generalización
Estratégias usadas
• Conocimiento a priori
• Búsqueda en malla (Grid Search)
• Búsqueda aleatoria (Random Search)
• Búsqueda Gruesa-fina (Coarse finer)
• Regla de un error estándar
• Búsqueda Bayesiana
• Búsqueda usando algoritmos evolutivos

Selección d e Modelo
Escoger los hiperparámetros óptimos de una SVM con kernel RBF — en función de la
capacidad de generalización
Input:
Modelo: SVM
Hyperparámetros: 𝐶 ∈ {2&5, 2 & ( , … 25}, 𝜆 ∈ {2&5, 2 & ( , … 25}
Datos de entrenamiento
Output: par de hiperparámetros óptimos (𝐶𝑜 𝑝 𝑡 , 𝜆𝑜 𝑝 𝑡 )

Escoger entre tres modelos: regressión logística (lm), SVM, random forest (rf) — cada
uno con sus propios hiperparámetros
Input:
Modelo: 𝑀𝑒𝑡𝑎𝑚𝑜𝑑𝑒𝑙𝑜(𝑙𝑚, 𝑆𝑉𝑀, 𝑟𝑓, 𝑛𝑛, 𝑋𝑏𝑜𝑜𝑠𝑡, . . )
hiperparámetros: cada modelo con sus propios
parámetros
Output:
Salida: modelo óptimo con hiperparámetros óptimos
Ver https://automl.github.io/auto-sklearn/master/
Problema de clases no
balanceadas Input
Modelos
• Imputador =
{SMOTE,
SMOTESVM}
• Selector de
variables =
{recursivo,
secuencial}
•Modelo ={lm, SVM, rf}
hiperparámetros
cada modelo con con sus propios hyperparámetros
Salida: secuéncia óptima de modelos con hiperparámetros
Selección de Modelo — Grid Search
• Realiza una búsqueda exahustiva en todós los valores de los

hiperparámetros del modelo del Machine learning
• Computacionalmente costoso si se tienen muchos

hiperparámetros
Lambda
C
Estimación d e Hiper-parametros
Citado de ”The elements of statistical

learning”
Random Search —(Bergstra, J., & Bengio, Y. (2012) )
Random search es más eficiente que Grid search (varios ML algoritmos y varios
datasets)
• tiene mayor cobertura para hiperparámetros importantes
• requiere menor costo computacional
• independecia estadística de cada trial

Selección de Modelo — Coarse-finer search
Búsqueda coarse
• Explorar em baja resolución el espácio de
hyperparámetros
• Identificar las zonas de interese
Búsqueda finer
•Explorar las zonas de interés
Ejemplo:
Grid Search en un espacio
de parámetros de 4 x 4
Selección de Modelo — Regla de un error estándar
Estimar los mejores hiperparámetros pueden causar overfitting en la selección de modelo
One-standard error rule —

• Estimar el modelo con minimo error (a nivel de hyperparámetros)
• escoger el modelo cuyo error este dentro una desviación estandar del mínimo
error
Otra estratégia: promediar los mejores hyperparámetros

Validación cruzada anidada
Validación de modelo con los los mejores hiperparámetros puede tener sesgo (bias)
Ejemplo: validación cruzada del modelo con hipeparámetros óptimos estimados en la etapa de
selección de modelo
Modelo con
Selección de Validación de
hyperparámetros
Modelo Modelo
óptimos
Se valida la estrategia usada (grid/random/coarse-finer/one-standard error rule)

Validación cruzada anidada (nested-cross validation)
Modelo con
Selección de Validación de
hyperparámetros
Modelo Modelo
óptimos
Recap
• - VALIDACIÓN CRUZADA ANIDADA

2023-2
Recap
Sesgo – Varianza tradeoff
Recap
Selección de modelo • Validación cruzada anidada

Regresión
lineal
Notación
•
𝐗 ∈ ℝ𝑁×𝐷
matriz de datos
• 𝑋$, … , 𝑋𝑑 , … , 𝑋𝐷 variables predictoras de entrada
• 𝑌 variable objetivo
• 𝑥&𝑑 ∈ ℝ valor de 𝑋𝑑 en el registro 𝑖
• 𝑥& ∈ ℝ𝐷 valores en el registro 𝑖: 𝑥& = 𝑥&$, 𝑥&2, … , 𝑥&𝐷
• 𝒙𝑑 ∈ ℝ𝑁 valores de 𝑋𝑑 (en negrita para enfatizar que es un

vector de tamaño 𝑁)
Variable predictora: propaganda en la
TV Variable objetivo: ventas (Sales)
• 𝑦& valor de la variable objetivo 𝑌 para la registro 𝑖
Recordando
𝑦 = 𝑓(𝑥; 𝛽, Θ)
Entrenar — estimar 𝛽, Θ usando un conjunto

de entrenamiento
Predecir — en un conjunto de test
Medir/evaluar — Usar métricas para medir

el desempeño del modelo
Modelos Lineales para
regresión
Regresión Lineal
Regresión Polinomial
Ridge, LASSO y Elastic net
Máquinas de Vectores de
Soporte
Variable predictora: propaganda en la
Regresión
lineal
Adrien-Marie Legendre
En 1805, el matemático francés Adrien-Marie Legendre

publicó el método de ajustar una línea a un conjunto de
puntos al intentar predecir la ubicación de un cometa
(siendo la navegación celeste la ciencia más valiosa en el
comercio global en ese momento, al igual que la IA en la
actualidad). — la nueva electricidad Variable predictora: propaganda en la
Regresión
lineal 𝑦& − 𝑦#& = 𝑦& −
Carl Friedrich Gauss 𝛽( − 𝛽$ 𝑥&
Cuatro años más tarde, el niño prodigio alemán de 24

años, Carl Friedrich Gauss, insistió en que lo había estado
usando desde 1795, pero que lo consideraba demasiado
trivial para escribir sobre él. La afirmación de Gauss llevó Variable predictora: propaganda en la
a Legendre a publicar un apéndice en el que observaba
de forma anónima que “un geómetra muy célebre no ha TV Variable objetivo: ventas (Sales)
dudado en apropiarse de este método”.
Modelo de regresión lineal para 𝑌 = 𝑓 𝑋;
𝛽, 𝛩
Modelo
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝐷
𝑋𝐷
Usa un hiperplano como modelo de machine learning,
el objetivo es encontrar el hiperplano que hace que el modelo tenga el mayor poder de generalización
(NO el mejor hiperplano ajustado a los datos)

Regresión lineal — Problema de
optimización
𝛽, 𝛩
Modelo para una variable
𝑠𝑎𝑙𝑒𝑠 = 𝛽0 + 𝛽1 ×𝑇𝑉
𝑌 = 𝛽0 + 𝛽1 𝑋
Entrenar
— encontrar los parámetros óptimos a partir de los datos y una función objetivo 𝐽(𝛽)
𝛽 ∗ = (𝛽0∗ , 𝛽1∗ )
Predecir
— para un punto de test 𝑥𝑡

𝑦𝑡 = 𝛽 ∗ + 𝛽 ∗ 𝑥 𝑡
0 1
𝛽, 𝛩
𝑌 = 𝛽0 + 𝛽1 𝑋
Entrenar
𝛽∗ = 𝛽0∗ , 𝛽1∗ = argmin𝛽𝐽(𝛽)
Predecir

𝑦𝑡 = 𝛽 ∗ + 𝛽 ∗ 𝑥 𝑡
0 1
𝛽, 𝛩
argmin𝑥 𝑓 𝑥 — es el valor de 𝑥 en donde 𝑓 𝑥
es mínimo
• min 𝑓 𝑥 = −2
• argmin𝑥 𝑓 𝑥
=4.9
𝛽, 𝛩
Modelo para una variablev
𝑌 = 𝛽0 + 𝛽1 𝑋
Entrenar
𝑁
𝛽∗= 𝛽0 , 𝛽1 = argmin𝛽 𝐽 𝛽 =argmin𝛽 9 (𝑦&
∗ ∗
−𝑦; & ) ) &'

1
Predecir

𝑦𝑡 = 𝛽 ∗ + 𝛽 ∗ 𝑥 𝑡
0 1
𝐽(𝛽)
𝛽
𝑌 = 𝛽0 + 𝛽1 𝑋
𝛽, 𝛩
𝑌 = 𝛽0 + 𝛽1 𝑋
Entrenar
𝑁
𝛽∗= 𝛽0 , 𝛽1 = argmin𝛽 𝐽(𝛽) =argmin𝛽 9 (𝑦&
∗ ∗
−𝑦; & ) ) &'

1
Predecir
Predicciones para los datos de entrenamiento
— para un punto de test 𝑥𝑡 — in-sample predictions
𝑦𝑡 = 𝛽 ∗ + 𝛽 ∗ 𝑥 𝑡
0
1
𝛽, 𝛩
𝑌 = 𝛽0 + 𝛽1 𝑋
Entrenar
𝑁
𝛽∗ = 𝛽0 , 𝛽1 = argmin𝛽 𝐽(𝛽) =argmin𝛽
∗ ∗
9 (𝑦& −𝛽
0 − 𝛽 1 𝑥 &)
) &'
1
Predecir
Predicciones para los datos de entrenamiento
— in-sample predictions
𝑦𝑡 = 𝛽 ∗ + 𝛽 ∗ 𝑥 𝑡
0
1
𝛽, 𝛩
𝑌 = 𝛽0 + 𝛽1 𝑋
Entrenar
𝑁
𝛽∗ = 𝛽0 , 𝛽1 = argmin𝛽𝐽(𝛽) =argmin𝛽 9 ( 𝑦& −𝛽
∗ ∗
0 − 𝛽 1 𝑥 &) ) +
Ω(𝛽)
&'
1
Predecir
Regularizador
— para un punto de test 𝑥𝑡 — para prevenir overfitting
𝑦𝑡 = 𝛽 ∗ + 𝛽 ∗ 𝑥 𝑡
0
1
𝛽, 𝛩
𝑌 = 𝛽0 + 𝛽1 𝑋
Entrenar
𝑁
𝛽∗ = 𝛽0 , 𝛽1 = argmin𝛽𝐽(𝛽) =argmin𝛽 9 𝑓 (𝑦&,
∗ ∗ + Ω(𝛽)
&' 𝑦>)
1
Predecir
Función de pérdida
— para un punto de test 𝑥𝑡 — aka, loss function
𝑦𝑡 = 𝛽 ∗ + 𝛽 ∗ 𝑥 𝑡
0
1
𝛽, 𝛩
𝑌 = 𝛽0 + 𝛽1 𝑋
Entrenar
𝑁
𝛽∗ = 𝛽0 , 𝛽1 = argmin𝛽 𝐽(𝛽) =argmin𝛽 9 𝑓 (𝑦&, 𝑦>) Ω(𝛽)
∗ ∗
+ &'
1
Predecir
Ignorar por ahora
𝑦𝑡 = 𝛽 ∗ + 𝛽 ∗ 𝑥 𝑡
0
1
𝛽, 𝛩
𝑌 = 𝛽0 + 𝛽1 𝑋
Entrenar
𝑁
1 𝑁
&' 𝑥&− 𝑥̅ 𝑦& −
𝛽 ∗ = 𝛽0∗ , 𝛽1∗ = 𝛽0∗ = 9 , 𝛽1∗ = ∑ 1
𝑁 𝑁
∑ &'𝑥 𝑦C
− 𝑥̅ )
&
𝑦& &'
1
1
Predecir

𝑦𝑡 = 𝛽 ∗ + 𝛽 ∗ 𝑥 𝑡
0 1
𝛽, 𝛩
Modelo multivariable
𝑠𝑎𝑙𝑒𝑠 = 𝛽0 + 𝛽1 𝑇𝑉 + 𝛽)𝑟𝑎𝑑𝑖𝑜 + 𝛽*𝑛𝑒𝑤𝑠𝑝𝑎𝑝𝑒𝑟
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽) 𝑋) + ⋯ + 𝛽𝑝 𝑋𝑝
Entrenar
𝑁
𝛽∗ = 𝛽 , 𝛽 , … , 𝛽 ∗ = argmin 𝐽(𝛽) =argmin
∗ ∗
9 (𝑦 −𝑦; ) )
0 1 𝑝 𝛽 𝛽
& &
&'1
Predecir

𝑦𝑡 = 𝛽 ∗ + 𝛽 ∗ 𝑥𝑡 1 + 𝛽 ∗ 𝑥𝑡 ) + ⋯ + +𝛽 ∗ 𝑥𝑡 𝑝
0 1 1
1
𝛽, 𝛩
Modelo multivariable
𝑠𝑎𝑙𝑒𝑠 = 𝛽0 + 𝛽1 𝑇𝑉 + 𝛽)𝑟𝑎𝑑𝑖𝑜 + 𝛽*𝑛𝑒𝑤𝑠𝑝𝑎𝑝𝑒𝑟
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽) 𝑋) + ⋯ + 𝛽𝑝 𝑋𝑝
Entrenar
𝑁
𝛽∗ = 𝛽∗ , 𝛽∗ , … , 𝛽∗ = argmin 𝐽(𝛽) =argmin 9 ( 𝑦& −𝛽0 − 𝛽1 𝑥1 − 𝛽) 𝑥) − ⋯ −
0 1 𝑝 𝛽 𝛽
𝛽
&' 𝑥 ) )
𝑝 𝑝
1
Predecir

𝑦𝑡 = 𝛽 ∗ + 𝛽 ∗ 𝑥𝑡 1 + 𝛽 ∗ 𝑥𝑡 ) + ⋯ + +𝛽 ∗ 𝑥𝑡 𝑝
0
1
1
1
𝑦& − 𝑦#& = 𝑦& − 𝛽( − 𝛽$ 𝑥&$
− 𝛽2 𝑥&2
𝛽, 𝛩
Estimar:
𝑁
𝛽∗ = 𝛽 ,𝛽 ,…,
∗ ∗
𝛽∗ = argmin 𝐽(𝛽) =argmin 9 ( 𝑦& −𝛽0 − 𝛽1 𝑋1 − 𝛽) 𝑋) − ⋯ −
0 1 𝑝 𝛽 𝛽
𝛽
&' 𝑋 ) )
𝑝 𝑝
1
usando el conjunto de datos

➚ = { 𝑥 1 , 𝑦1 , 𝑥 ) , 𝑦) , … , 𝑥 𝑁 , 𝑦𝑁
}
— observe:
𝑁
𝐽 𝛽 = 9 ( 𝑦 & −𝛽0 − 𝛽1𝑥&1 − 𝛽)𝑥&) − ⋯ − 𝛽𝑝𝑥&𝑝)
) &'1
𝛽, 𝛩
𝑁
𝐽 𝛽 = ( (𝑦i−𝑦,i) 2
i&1
𝑁
𝐽 𝛽 = ( (𝑦i −𝛽0 − 𝛽1 𝑥i1 − 𝛽2 𝑥i2 − ⋯ −
𝛽𝑝 𝑥i 𝑝 ) 2 i&1
𝐽 𝛽 = 𝒚 − 𝐗𝛽 𝑇 𝒚 − 𝐗𝛽
Regresión lineal — solución via
ecuaciones normales y SVF
𝛽, 𝛩
— Solución analítica via ecuación normal
𝐽 𝛽 = 𝒚 − 𝐗𝛽 𝑇 𝒚 − 𝐗𝛽
𝜕𝐽 𝛽
= −2𝐗𝑇 𝒚 − 𝐗𝛽 =
𝜕𝛽
0
Valor mínimo en cero
𝐗𝑇
𝒚 − 𝐗𝛽
𝛽, 𝛩
— Solución analítica via ecuación normal
La ecuación normal
𝛽∗ = (𝐗𝑇 𝐗)%1 𝐗 𝑇 𝒚
• Rápida para 𝑁 grande
• Lenta para 𝑝 grande
• No funciona si 𝐗 𝑇 𝐗 es singular (no invertible)
• variables correlacionadas
• 𝑁 < 𝑝 (datos de microarray por ejemplo)

Modelo de regresión lineal para 𝑌 = 𝑓 𝑋; 𝛽, 𝛩
— Solución via descomposición de valores
singulares
𝑌 = 𝐗𝛽
𝛽∗ = 𝐗 𝒚
"
𝐗 " es la Pseudoinversa de Moore-Penrose, se estima usando la técnica de SVD
• Rápida para 𝑁 grande
• Lenta para 𝑝 grande
• funciona si 𝐗 𝑇 𝐗 es singular (no invertible)

• variables correlacionadas
• 𝑁<𝑝
Regresión lineal — aprendizaje via
gradiente descendente
𝛽, 𝛩
— Aprendizaje via gradiente descendente
Rápida para un gran número de variables
Algunas variaciones son out-of-core: procesan datos de conjuntos muy grandes que no caben en
memoria
𝛽2 𝛽2
𝛽1
𝛽1
𝛽, 𝛩
Gradiente de una function: es el operador
6𝐽
6𝛽 1
❑𝐽 𝛽#, 𝛽$, 𝛽2, … , 𝛽𝑝 6𝐽
6𝛽
…2
= #𝐽
#𝛽 𝑝
Si estamos en el punto 𝛽#, 𝛽$, 𝛽2, … , 𝛽𝑝, el gradiente ∇𝐽 𝛽#, 𝛽$, 𝛽2, … , 𝛽𝑝 nos indica en
que
dirección ir para incrementar el valor𝐽 𝛽#, 𝛽$, 𝛽2, … , 𝛽𝑝 lo más rapido posible
𝛽, 𝛩
Campo vectorial para visualizar gradientes
Asocia un vector a cada punto de entrada
El tamaño de los vectores nunca está a escala, pero si

la proporción del tamaño de las longitudes entre los
vectores
El tamaño de los vectores esta asociado a un color

𝛽, 𝛩
Gradiente descendente tipo batch
𝑁 𝑁
1 1
𝐽 𝛽 = 𝑀𝑆𝐸 𝛽 = 2 (𝑦 −𝑦6 )2 = 2 (𝑦 −𝑥 𝑇 𝛽) 2
N i i N i i
i$ 1 i$ 1
Encontrar las derivadas parciales de la function de costo:
𝑁
𝜕 𝜕 2
𝐽 𝛽 = 𝑀𝑆𝐸 𝛽 = 2 ( 𝑥 i𝑇 𝛽 − 𝑦i )𝑥 i 𝑑
𝜕𝛽𝑑 𝜕𝛽𝑑 N
i$ 1
𝛽, 𝛩
Calcular las derivadas parciales y colocarlas en un vector (vector gradiente)
𝑁
2
𝜕 6 ( 𝑥 +𝑇 𝛽 − 𝑦 )1
𝑀𝑆𝐸 𝛽 N
𝜕𝛽( +, +
)
𝜕 2 𝑁 2
∇𝛽 J 𝛽 = ∇𝛽MSE 𝛽 = 𝑀𝑆𝐸 𝛽 = 6 (𝑥+𝑇 𝛽 − 𝑦+)𝑥+) = 𝐗 𝑇 ( 𝐗𝛽 −
𝜕𝛽) N N
… +, 𝒚)
…
𝜕 )
𝑀𝑆𝐸 𝛽 2 𝑁 𝑇
𝜕𝛽𝑝 6 (𝑥+ 𝛽 −
N
𝑦
+,+)𝑥+𝑝
)

Limitación, usa todo el conjunto de entrenamiento en cada paso!!! — lento en conjuntos de datos grandes)
Bueno cuando hay muchas variables (mejor que las ecuaciones normales y SVD)
𝜕
𝑀𝑆𝐸 𝛽
𝜕𝛽h
𝜕 2
∇𝛽 MSE 𝛽 𝑀𝑆𝐸 𝛽 𝑇
𝜕𝛽 i = 𝐗 ( 𝐗𝛽 − 𝒚)
= … N
𝜕
𝑀𝑆𝐸 𝛽
𝜕𝛽𝑝
— Aprendizaje via gradiente descendente batch
𝐽𝛽
Algoritmo
• Inicializar 𝜂, 𝜂
iteraciones/epocas
• Iniciar 𝛽 aleatoriamente
𝛽
• Para cada iteracion
𝛽𝑛 𝑒 𝑥 𝑡 ∶= 𝛽 − 𝜂∇ 𝛽 𝐽(𝛽)
𝛽, 𝛩
Limitación, usa todo el conjunto de entrenamiento en cada paso!!! — lento en conjuntos de datos grandes)
Bueno cuando hay muchas variables (mejor que las ecuaciones normales y SVD)
𝜕
𝑀𝑆𝐸 𝛽
𝜕𝛽h
𝜕 2
∇𝛽 MSE 𝛽 𝑀𝑆𝐸 𝛽 𝑇
𝜕𝛽 i = 𝐗 ( 𝐗𝛽 − 𝒚)
= … N
𝜕
𝑀𝑆𝐸 𝛽
𝜕𝛽𝑝
𝛽, 𝛩
Gradiente descendente estocástico mini-
batch
•El gradiente es estimado usando un

subconjunto aleatório del conjunto de
entrenamiento
•Bueno cuando el conjunto de entrenamiento

es grande
N D
𝐽𝛽
Algoritmo
iteraciones/epocas
𝛽
𝐽𝛽
Algoritmo
iteraciones/epocas
𝛽
𝛽, 𝛩
Gradiente descendente estocástico
•El gradiente es estimado usando una
instancia aleatória del conjunto de
entrenamiento
•Bueno cuando el conjunto de
entrenamiento es grande
𝛽, 𝛩
Gradiente descendente estocástico mini-
batch
•El gradiente es estimado usando un

subconjunto aleatório del conjunto de
entrenamiento
•Bueno cuando el conjunto de entrenamiento

es grande
Observació
n
Los modelos de regression Y = 𝑓 = D[𝑌 ∣ 𝑋]
𝑋 son
usados para:
Modelado explicativo
• 𝑓 (función causal) es usada para testar una hipótesis causal (𝑋 causa Y),
• A veces 𝑓 es diseñada para dar soporte al modelo causal entre 𝑋 y Y
•• 𝑓
𝑓 debe tener el menor
es retrospectiva: sesgo
usada parapossible
testar, ocon respecto
descubrir a los datos
hipótesis causales
• Validación: 1) Validacion de modelo: 𝑓 representa bien la hipótesis? 2) Ajuste de modelo: 𝑓 encaja con los datos?
• Poder explicativo: teste de hipótesis, 𝑅2
Modelado descriptivo — estimar la asociación entre 𝑋 vs Y, al nivel de los datos (no de las hipótesis, o modelado).
Se busca sumarizar o representar los datos de una manera compacta.
Observació
n
Los modelos de regression Y = 𝑓 = D[𝑌 ∣ 𝑋]
𝑋 son
usados para:
Modelado predictivo
• 𝑓 (función predictiva) es usada para capturar la asociación entre 𝑋 y Y,
•• interpretabilidad
𝑓 de 𝑓 nopredicciones
es usada para generar es requerida,ensinnuevos
embargo deseada
datos
• 𝑓 tiene un buen balance entre sesgo y varianza, los modelos “erróneos” muchas veces tienen mayor
poder predictivo que los modelos con menos sesgo
• Validación: 𝑓 generaliza a nuevos datos?
• Poder predictivo: métricas en conjunto validación/test
Idea equivocada: poder predictivo puede ser inferido a partir del poder explicativo

(01-4) MatClase 01 - AG - Agentes Inteligentes

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

(01-4) MatClase 01 - AG - Agentes Inteligentes

Cargado por

Copyright:

Formatos disponibles

Curso

60000 Training &validation

Datapoint 28x28 image

piensan como piensan

actúan como actúan

• El esfuerzo en hacer que las computadoras piensen — máquinas con

• La automatización de actividades que asociamos con el

“El estudio de cómo hacer que las computadoras

• Test de Turing Si el interrogador no diferencia al humano del sistema, entonces

EL programa de compudator debería poseer:

Test de Turing completo:

• Es mas importante estudiar los princípios subyacentes de la inteligencia que imitar

“El estudio de los cálculos que hacen posible percibir razonar y

Enfoque de las leyes del pensamiento

“La inteligencia artificial tiene a ver con el comportamiento inteligente en

El enfoque del agente racional (Latin agere, “actuar”)

Agente racional — realiza lo correcto

Problema de alineación de valor

• Monitoreamiento y persuasión — individuos, colectivo, física o virtualmente

• Toma de desición con sesgo

• Aplicaciónes críticas — carros autónomos, administración de agua en las ciudades

Leer sección 1.2 (AIMA)

Ejemplo: un agente humano tiene sensores : ojos, oídos, tacto, etc

Ejemplo: un agente robotico tiene sensores : cámaras, rayos infrarojos, etc

hace la cosas de manera correcta — comportamiento racional

Esto nos conlleva a definir :

• El agente debe aprender de las percepciones

• El agente debe tener autonomía

Leer sección 1.3 (AIMA)

Cimientos de la IA, representación y razonamiento

John MacCarthy (1971)

Ganadores del premio

Modelos simbólicos de resolución de problemas y

Ganadores del premio

Sistemas expertos y codificación de conocimiento humano

Ganadores del premio

Técnicas de razonamiento probabilístico

Ganadores del premio

Investigación en Deep Learning

Ganadores del premio

Warren McCulloch and Walter Pitts (1943)

Algoritmo de aprendizaje Hebbiano

Alan Turing (1947)

Christopher Strachey (1952)

Primer video juego de damas,

Allen Newell & Herbert Simons (1956)

John MacCarthy (1956)

Arthur Lee Samuel (1959)

Tom Evans — Analogy, solucionador de problemas geométricos

Bernie Widrow (1962)

• Como los humanos realizan una tarea vs

• Problemas intractables — explosión combinatória

• Limitaciones fundamentals en las estructuras usadas para IA

Roger Shank (1977)

La mayoria de las grandes corporaciones americanas tiene su

Invierno de la IA — no se cumplen las promesas, los

Geoffrey Hinton, 1986

Algoritmo de aprendizaje de redes neuronales

Surgimiento de modelos conexionistas

• Rivaliza con el enfoque simbólico

Teoría de la probabilidad en vez de lógica booleana

Los datos juegan un papel relevante

Aplicaciones con mejor performace que humanos