Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tenga en cuenta: esta copia es casi, pero no del todo, idéntica a la versión impresa del libro.
En particular, los números de página no son idénticos (pero los números de sección son los
mismos).
Machine Translated by Google
Machine Translated by Google
COMPRENSIÓN
APRENDIZAJE AUTOMÁTICO
De Teoría a
Algoritmos
Shai ShalevShwartz
La Universidad Hebrea, Jerusalén
Shai BenDavid
Universidad de Waterloo, Canadá
Machine Translated by Google
www.cambridge.org
Información sobre este título: www.cambridge.org/9781107057135
Cambridge University Press no se hace responsable de la persistencia o precisión de las URL de los sitios
web de Internet externos o de terceros a los que se hace referencia en esta publicación, y no garantiza que
el contenido de dichos sitios web sea, o siga siendo, exacto o apropiado.
Machine Translated by Google
viii
Prefacio
El primer objetivo de este libro es proporcionar una introducción rigurosa, pero fácil de seguir, a los
conceptos principales que subyacen al aprendizaje automático: ¿Qué es el aprendizaje?
¿Cómo puede aprender una máquina? ¿Cómo cuantificamos los recursos necesarios para aprender
un concepto dado? ¿Es siempre posible aprender? ¿Podemos saber si el proceso de aprendizaje tuvo
éxito o fracasó?
El segundo objetivo de este libro es presentar varios algoritmos clave de aprendizaje automático.
Elegimos presentar algoritmos que, por un lado, se utilizan con éxito en la práctica y, por otro lado,
brindan un amplio espectro de diferentes técnicas de aprendizaje. Además, prestamos especial
atención a los algoritmos apropiados para el aprendizaje a gran escala (también conocido como "Big
Data"), ya que en los últimos años, nuestro mundo se ha vuelto cada vez más "digitalizado" y la
cantidad de datos disponibles para el aprendizaje está aumentando drásticamente. Como resultado,
en muchas aplicaciones los datos son abundantes y el tiempo de cálculo es el principal cuello de
botella. Por lo tanto, cuantificamos explícitamente tanto la cantidad de datos como la cantidad de
tiempo de cálculo necesarios para aprender un concepto dado.
El libro está dividido en cuatro partes. La primera parte pretende dar una respuesta inicial rigurosa
a las cuestiones fundamentales del aprendizaje. Describimos una generalización del modelo de
aprendizaje Probablemente aproximadamente correcto (PAC) de Valiant, que es una primera respuesta
sólida a la pregunta "¿qué es aprender?". Describimos las reglas de aprendizaje de Minimización de
riesgos empíricos (ERM), Minimización de riesgos estructurales (SRM) y Longitud mínima de
descripción (MDL), que muestran "cómo puede aprender una máquina". Cuantificamos la cantidad de
datos necesarios para el aprendizaje usando las reglas ERM, SRM y MDL y mostramos cómo el
aprendizaje puede fallar al derivar
Machine Translated by Google
viii
Agradecimientos
El libro se basa en los cursos de Introducción al aprendizaje automático impartidos por Shai
ShalevShwartz en la Universidad Hebrea y por Shai BenDavid en la Universidad de
Waterloo. El primer borrador del libro surgió de las notas de clase del curso impartido en la
Universidad Hebrea por Shai ShalevShwartz durante 20102013. Agradecemos mucho la
ayuda de Ohad Shamir, quien se desempeñó como TA para el curso en 2010, y de Alon
Gonen, quien se desempeñó como TA para el curso en 20112013. Ohad y Alon prepararon
algunas notas de lectura y muchos de los ejercicios. Alon, a quien estamos en deuda por su
ayuda durante toda la realización del libro, también ha preparado un manual de solución.
Contenido
1 Introducción 19
1.1 ¿Qué es el aprendizaje? 19
1.2 ¿Cuándo necesitamos el aprendizaje automático? 21
1.3 Tipos de aprendizaje 1.4 22
Relaciones con otros campos 24
1.5 Cómo leer este libro 25
1.5.1 Posibles planes de cursos basados en este libro 26
1.6 Notación 27
Parte I Fundamentos 31
2 Un comienzo suave 33
2.1 Un modelo formal: el marco de aprendizaje estadístico 2.2 Minimización 33
empírica del riesgo 2.2.1 Algo puede salir 35
mal: sobreajuste 2.3 Minimización empírica del riesgo con 35
sesgo inductivo 2.3.1 Clases de hipótesis finitas 2.4 Ejercicios 36
37
41
X Contenido
6 La dimensión VC 67
6.1 Las clases de tamaño infinito se pueden aprender 67
6.2 La dimensión VC 68
6.3 Ejemplos 70
6.3.1 Funciones de umbral 70
6.3.2 Intervalos 6.3.3 71
7 Capacidad de aprendizaje no 83
Contenido xi
10 Impulso 130
10.1 Capacidad de aprendizaje 131
débil 10.1.1 Implementación eficiente de ERM para tocones de decisión 133
10.2 AdaBoost 134
10.3 Combinaciones lineales de hipótesis base 10.3.1 La 137
dimensión VC de L(B, T) 139
10.4 AdaBoost para reconocimiento facial 10.5 140
Resumen 10.6 141
Comentarios bibliográficos 10.7 141
Ejercicios 142
xi Contenido
Contenido XIII
xiv Contenido
Contenido XV
22 Agrupamiento 307
22.1 Algoritmos de agrupamiento basados en vínculos 310
22.2 Agrupamientos de minimización de kmedias y otros costos 22.2.1 311
El algoritmo de kmedias 22.3 313
Agrupamiento espectral 22.3.1 315
Corte de gráficos 22.3.2 315
Cortes de gráficos relajados y laplacianos de gráficos 22.3.3 315
Agrupamiento espectral no normalizado 22.4 Cuello 317
de botella de información * 22.5 Una 317
visión de alto nivel del agrupamiento 22.6 318
Resumen 22.7 320
Comentarios bibliográficos 22.8 320
Ejercicios 320
xvi Contenido
28 Prueba del teorema fundamental de la teoría del aprendizaje 28.1 El límite 392
superior para el caso agnóstico 28.2 El límite inferior para el 392
caso agnóstico 28.2.1 Demostrar que m(, δ) ≥ 0,5 log(1/(4δ))/ 393
2 28.2.2 Demostrar Que m(, 1/8) ≥ 8d/2 28.3 La cota superior del 393
Contenido xvii
31 PACBayes 415
31.1 Límites de PACBayes 31.2 415
Comentarios bibliográficos 31.3 417
Ejercicios 417
notas 435
Referencias 437
Índice 447
Machine Translated by Google
Machine Translated by Google
1 Introducción
Comencemos por considerar un par de ejemplos del aprendizaje natural de los animales.
Algunos de los problemas más fundamentales en ML ya surgen en ese contexto, con el que
todos estamos familiarizados.
Timidez ante el cebo: las ratas aprenden a evitar los cebos venenosos: cuando las ratas
encuentran alimentos con un aspecto u olor novedosos, primero comen cantidades muy
pequeñas y la alimentación posterior dependerá del sabor del alimento y su efecto fisiológico.
Si el alimento produce un efecto nocivo, el nuevo alimento a menudo se asociará con la
enfermedad y, en consecuencia, las ratas no lo comerán. Claramente, hay un mecanismo de
aprendizaje en juego aquí: el animal usó la experiencia pasada con algún alimento para adquirir
experiencia en la detección de la seguridad de este alimento. Si la experiencia pasada con la
comida fue etiquetada negativamente, el animal predice que también tendrá un efecto negativo
cuando la encuentre en el futuro.
Inspirándonos en el ejemplo anterior de aprendizaje exitoso, demostremos una tarea típica
de aprendizaje automático. Supongamos que nos gustaría programar una máquina que aprenda
a filtrar correos electrónicos no deseados. Una solución ingenua sería aparentemente similar a
la forma en que las ratas aprenden a evitar los cebos venenosos. La máquina simplemente
memorizará todos los correos electrónicos anteriores que el usuario humano haya etiquetado
como correo no deseado. Cuando llega un nuevo correo electrónico, la máquina lo busca en el conjunto
20 Introducción
de correos electrónicos no deseados anteriores. Si coincide con uno de ellos, será desechado. De lo contrario,
se moverá a la carpeta de la bandeja de entrada del usuario.
Si bien el enfoque anterior de "aprendizaje por memorización" a veces es útil, carece de un aspecto
importante de los sistemas de aprendizaje: la capacidad de etiquetar mensajes de correo electrónico no vistos.
Un estudiante exitoso debe poder progresar de ejemplos individuales a una generalización más amplia. Esto
también se conoce como razonamiento inductivo o inferencia inductiva. En el ejemplo de la timidez ante el cebo
presentado anteriormente, después de que las ratas encuentran un ejemplo de cierto tipo de alimento, aplican
su actitud hacia él en ejemplos nuevos e invisibles de alimentos de olor y sabor similares. Para lograr la
generalización en la tarea de filtrado de spam, el alumno puede escanear los correos electrónicos vistos
anteriormente y extraer un conjunto de palabras cuya aparición en un mensaje de correo electrónico sea
indicativa de spam. Luego, cuando llega un nuevo correo electrónico, la máquina puede verificar si una de las
palabras sospechosas aparece en él y predecir su etiqueta en consecuencia. Dicho sistema podría potencialmente
predecir correctamente la etiqueta de los correos electrónicos no vistos.
Sin embargo, el razonamiento inductivo podría llevarnos a conclusiones falsas. Para ilustrar esto,
consideremos nuevamente un ejemplo del aprendizaje animal.
Superstición de las palomas: En un experimento realizado por el psicólogo BF Skinner,
colocó un grupo de palomas hambrientas en una jaula. A la jaula se le había acoplado un mecanismo automático
que entregaba comida a las palomas a intervalos regulares sin referencia alguna al comportamiento de las aves.
Las palomas hambrientas dieron la vuelta a la jaula, y cuando se entregó la comida por primera vez, encontró a
cada paloma ocupada en alguna actividad (picotear, girar la cabeza, etc.). La llegada del alimento reforzaba la
acción específica de cada ave y, en consecuencia, cada ave tendía a dedicar más tiempo a esa misma acción.
Eso, a su vez, aumentó la posibilidad de que la próxima entrega aleatoria de alimentos encontrara a cada ave
involucrada nuevamente en esa actividad. Lo que resulta es una cadena de eventos que refuerza la asociación
de las palomas de la entrega del alimento con cualquier acción fortuita que hayan estado realizando cuando fue
entregado por primera vez. Posteriormente continúan realizando estas mismas acciones con diligencia.1
¿Qué distingue a los mecanismos de aprendizaje que resultan en superstición del aprendizaje útil? Esta
pregunta es crucial para el desarrollo de aprendices automáticos.
Si bien los estudiantes humanos pueden confiar en el sentido común para filtrar conclusiones de aprendizaje
aleatorias sin sentido, una vez que exportamos la tarea de aprender a una máquina, debemos proporcionar
principios nítidos bien definidos que protegerán al programa de llegar a conclusiones sin sentido o inútiles. El
desarrollo de tales principios es un objetivo central de la teoría del aprendizaje automático.
Entonces, ¿qué hizo que el aprendizaje de las ratas fuera más exitoso que el de las palomas?
Como primer paso para responder a esta pregunta, echemos un vistazo más de cerca al fenómeno de la timidez
ante el cebo en las ratas.
La timidez del cebo revisada: las ratas no logran adquirir el condicionamiento entre la comida y la descarga
eléctrica o entre el sonido y las náuseas: el mecanismo de la timidez del cebo en
1
Ver: http://psychclassics.yorku.ca/Skinner/Pigeon
Machine Translated by Google
las ratas resultan ser más complejas de lo que cabría esperar. En experimentos llevados a cabo
por García (García & Koelling 1996), se demostró que si el estímulo desagradable que sigue al
consumo de alimentos se reemplaza por, digamos, una descarga eléctrica (en lugar de náuseas),
entonces no se produce ningún condicionamiento. Incluso después de repetidos ensayos en los
que el consumo de algún alimento va seguido de la administración de descargas eléctricas
desagradables, las ratas no tienden a evitar ese alimento. Una falla similar del condicionamiento
ocurre cuando la característica del alimento que implica náuseas (como el gusto o el olfato) se
reemplaza por una señal vocal. Las ratas parecen tener algún conocimiento previo "incorporado"
que les dice que, si bien la correlación temporal entre la comida y las náuseas puede ser causal,
es poco probable que exista una relación causal entre el consumo de alimentos y las descargas
eléctricas o entre los sonidos y las náuseas.
Concluimos que una característica distintiva entre el aprendizaje de la timidez del cebo y la
superstición de la paloma es la incorporación de conocimientos previos que sesgan el mecanismo
de aprendizaje. Esto también se conoce como polarización inductiva. Las palomas del experimento
están dispuestas a adoptar cualquier explicación sobre la aparición de comida.
Sin embargo, las ratas "saben" que la comida no puede causar una descarga eléctrica y que es
poco probable que la presencia simultánea de ruido con alguna comida afecte el valor nutricional
de esa comida. El proceso de aprendizaje de las ratas está sesgado hacia la detección de algún
tipo de patrones mientras se ignoran otras correlaciones temporales entre eventos.
Resulta que la incorporación de conocimientos previos, que sesga el proceso de aprendizaje, es
inevitable para el éxito de los algoritmos de aprendizaje (esto se establece y demuestra formalmente
como el "teorema de NoFreeLunch" en el Capítulo 5) . El desarrollo de herramientas para expresar
la experiencia en el dominio, traducirlo en un sesgo de aprendizaje y cuantificar el efecto de dicho
sesgo en el éxito del aprendizaje es un tema central de la teoría del aprendizaje automático. En
términos generales, cuanto más sólidos sean los conocimientos previos (o las suposiciones previas)
con los que uno comienza el proceso de aprendizaje, más fácil es aprender de otros ejemplos. Sin
embargo, cuanto más fuertes son estos supuestos previos, menos flexible es el aprendizaje: está
sujeto, a priori, al compromiso con estos supuestos. Discutiremos estos temas explícitamente en el
Capítulo 5.
• Tareas realizadas por animales/humanos: existen numerosas tareas que los seres
humanos realizamos de manera rutinaria, pero nuestra introspección sobre cómo
las hacemos no es lo suficientemente elaborada como para extraer un buen resultado.
Machine Translated by Google
22 Introducción
Con más y más datos grabados digitalmente disponibles, se vuelve obvio que hay tesoros
de información significativa enterrados en archivos de datos que son demasiado grandes y
demasiado complejos para que los humanos puedan entenderlos. Aprender a detectar
patrones significativos en conjuntos de datos grandes y complejos es un campo prometedor
en el que la combinación de programas que aprenden con la capacidad de memoria casi
ilimitada y la velocidad de procesamiento cada vez mayor de las computadoras abre nuevos
horizontes.
Adaptabilidad. Una característica limitante de las herramientas programadas es su rigidez: una vez que el
programa se ha escrito e instalado, permanece sin cambios.
Sin embargo, muchas tareas cambian con el tiempo o de un usuario a otro.
Las herramientas de aprendizaje automático (programas cuyo comportamiento se adapta a sus
datos de entrada) ofrecen una solución a tales problemas; son, por naturaleza, adaptables a los
cambios en el entorno con el que interactúan. Las aplicaciones exitosas típicas del aprendizaje
automático para tales problemas incluyen programas que decodifican texto escrito a mano, donde
un programa fijo puede adaptarse a las variaciones entre la escritura a mano de diferentes usuarios;
programas de detección de correo no deseado, que se adaptan automáticamente a los cambios
en la naturaleza de los correos electrónicos no deseados; y programas de reconocimiento de voz.
El aprendizaje es, por supuesto, un dominio muy amplio. En consecuencia, el campo del aprendizaje
automático se ha ramificado en varios subcampos que se ocupan de diferentes tipos de tareas de aprendizaje.
Brindamos una taxonomía aproximada de los paradigmas de aprendizaje, con el objetivo de brindar una
perspectiva de dónde se ubica el contenido de este libro dentro del amplio campo del aprendizaje automático.
Describimos cuatro parámetros a lo largo de los cuales se pueden clasificar los paradigmas de aprendizaje.
Supervisado frente a no supervisado Dado que el aprendizaje implica una interacción entre el alumno y el
entorno, se pueden dividir las tareas de aprendizaje de acuerdo con la naturaleza de esa
interacción. La primera distinción a tener en cuenta es la diferencia entre aprendizaje supervisado
y no supervisado. como un
Machine Translated by Google
Utilidad del maestro Cuando uno piensa en el aprendizaje humano, en un bebé en casa o en un
estudiante en la escuela, el proceso a menudo involucra a un maestro servicial, que está
tratando de alimentar al alumno con la información más útil.
Machine Translated by Google
24 Introducción
útil para lograr el objetivo de aprendizaje. Por el contrario, cuando un científico aprende
sobre la naturaleza, el medio ambiente, que desempeña el papel de maestro, puede
considerarse pasivo: las manzanas caen, las estrellas brillan y la lluvia cae sin tener en
cuenta las necesidades del alumno. Modelamos tales escenarios de aprendizaje
postulando que los datos de entrenamiento (o la experiencia del alumno) son generados
por algún proceso aleatorio. Este es el bloque de construcción básico en la rama del
"aprendizaje estadístico". Finalmente, el aprendizaje también ocurre cuando la entrada del
alumno es generada por un "maestro" adversario. Este puede ser el caso en el ejemplo del
filtrado de spam (si el creador de spam hace un esfuerzo por engañar al diseñador del filtro
de spam) o en el aprendizaje de detección de fraude.
Uno también usa un modelo de maestro contradictorio como el peor de los casos, cuando
no se puede asumir con seguridad una configuración más suave. Si puede aprender contra
un maestro adversario, tiene la garantía de tener éxito interactuando con cualquier maestro
extraño.
Protocolo de aprendizaje en línea versus por lotes El último parámetro que mencionamos es la
distinción entre situaciones en las que el alumno tiene que responder en línea, a lo largo
del proceso de aprendizaje, y entornos en los que el alumno tiene que utilizar la experiencia
adquirida solo después de tener la oportunidad de procesar grandes cantidades. de datos.
Por ejemplo, un corredor de bolsa tiene que tomar decisiones diarias, en base a la
experiencia acumulada hasta el momento. Puede convertirse en un experto con el tiempo,
pero podría haber cometido errores costosos en el proceso. Por el contrario, en muchos
entornos de minería de datos, el alumno, el minero de datos, tiene grandes cantidades de
datos de entrenamiento para jugar antes de tener que sacar conclusiones.
Como campo interdisciplinario, el aprendizaje automático comparte hilos comunes con los campos
matemáticos de la estadística, la teoría de la información, la teoría de juegos y la optimización. Es,
naturalmente, un subcampo de la informática, ya que nuestro objetivo es programar máquinas para
que aprendan. En cierto sentido, el aprendizaje automático puede verse como una rama de la IA
(inteligencia artificial), ya que, después de todo, la capacidad de convertir la experiencia en pericia
o de detectar patrones significativos en datos sensoriales complejos es la piedra angular de la
inteligencia humana (y animal). inteligencia. Sin embargo, se debe tener en cuenta que, a diferencia
de la IA tradicional, el aprendizaje automático no intenta crear una imitación automatizada del
comportamiento inteligente, sino más bien utilizar las fortalezas y
Machine Translated by Google
La esperanza es que las técnicas automatizadas puedan descubrir patrones significativos (o hipótesis)
que el observador humano puede haber pasado por alto.
A diferencia de las estadísticas tradicionales, en el aprendizaje automático en general, y en este
libro en particular, las consideraciones algorítmicas juegan un papel importante. El aprendizaje
automático se trata de la ejecución del aprendizaje por medio de computadoras; por lo tanto, los
problemas algorítmicos son fundamentales. Desarrollamos algoritmos para realizar las tareas de
aprendizaje y nos preocupamos por su eficiencia computacional. Otra diferencia es que, si bien la
estadística suele estar interesada en el comportamiento asintótico (como la convergencia de las
estimaciones estadísticas basadas en muestras a medida que los tamaños de las muestras crecen
hasta el infinito), la teoría del aprendizaje automático se centra en los límites de las muestras finitas.
Es decir, dado el tamaño de las muestras disponibles, la teoría del aprendizaje automático tiene como
objetivo determinar el grado de precisión que un alumno puede esperar sobre la base de dichas muestras.
Hay más diferencias entre estas dos disciplinas, de las cuales mencionaremos sólo una más aquí.
Mientras que en estadística es común trabajar bajo la suposición de ciertos modelos de datos
predeterminados (como asumir la normalidad de las distribuciones de generación de datos o la
linealidad de las dependencias funcionales), en el aprendizaje automático el énfasis está en trabajar
bajo una "distribución libre”, donde el alumno asume lo menos posible sobre la naturaleza de la
distribución de datos y permite que el algoritmo de aprendizaje determine qué modelos se aproximan
mejor al proceso de generación de datos. Una discusión precisa de este tema requiere algunos
preliminares técnicos, y volveremos a ello más adelante en el libro, y en particular en el Capítulo 5.
La primera parte del libro proporciona los principios teóricos básicos que subyacen al aprendizaje
automático (ML). En cierto sentido, esta es la base sobre la cual el resto
Machine Translated by Google
26 Introducción
del libro está construido. Esta parte podría servir como base para un minicurso sobre los
fundamentos teóricos de ML.
La segunda parte del libro presenta los enfoques algorítmicos más utilizados para el aprendizaje
automático supervisado. Un subconjunto de estos capítulos también se puede usar para introducir
el aprendizaje automático en un curso general de IA para estudiantes de informática, matemáticas
o ingeniería.
La tercera parte del libro amplía el alcance de la discusión de la clasificación estadística a
otros modelos de aprendizaje. Cubre el aprendizaje en línea, el aprendizaje no supervisado, la
reducción de la dimensionalidad, los modelos generativos y el aprendizaje de características.
La cuarta parte del libro, Teoría avanzada, está dirigida a lectores interesados en la
investigación y proporciona las técnicas matemáticas más técnicas que sirven para analizar e
impulsar el campo del aprendizaje automático teórico.
1. Capítulos 2–4.
2. Capítulo 9 (sin el cálculo de VC).
3. Capítulos 5 y 6 (sin pruebas).
4. Capítulo 10.
5. Capítulos 7, 11 (sin pruebas).
6. Capítulos 12, 13 (con algunas de las pruebas más fáciles).
7. Capítulo 14 (con algunas de las pruebas más fáciles).
8. Capítulo 15.
9. Capítulo 16.
10. Capítulo 18.
11. Capítulo 22.
12. Capítulo 23 (sin pruebas para detección comprimida).
13. Capítulo 24.
14. Capítulo 25.
1.6 Notación 27
6. Capítulo 30.
7. Capítulos 12, 13.
8. Capítulo 14.
9. Capítulo 8.
10. Capítulo 17.
11. Capítulo 29.
12. Capítulo 19.
13. Capítulo 20.
14. Capítulo 21.
1.6 Notación
La mayor parte de la notación que usamos a lo largo del libro es estándar o se define en el
acto. En esta sección describimos nuestras convenciones principales y proporcionamos una
tabla que resume nuestra notación (Tabla 1.1). Se anima al lector a saltarse esta sección y
volver a ella si durante la lectura del libro alguna notación no está clara.
Denotamos escalares y objetos abstractos con letras minúsculas (por ejemplo, x y λ).
A menudo, nos gustaría enfatizar que algún objeto es un vector y luego usamos letras en
negrita (por ejemplo, x y λ). El iésimo elemento de un vector x se denota por xi . Usamos
letras mayúsculas para denotar matrices, conjuntos y secuencias. El significado debe ser
claro por el contexto. Como veremos en un momento, la entrada de un algoritmo de
aprendizaje es una secuencia de ejemplos de entrenamiento. Denotamos por z un ejemplo
abstracto y por S = z1, . . . , zm una secuencia de m ejemplos. Históricamente, a menudo se
hace referencia a S como un conjunto de entrenamiento; sin embargo, siempre supondremos
que S es una secuencia en lugar de un conjunto. Una secuencia de m vectores se denota por x1, . . . , xm.
El iésimo elemento de xt se denota por xt,i.
A lo largo del libro, hacemos uso de nociones básicas de probabilidad. Denotamos por D
una distribución sobre algún conjunto,2 por ejemplo, Z. Usamos la notación z D para
denotar que z se muestrea de acuerdo con D. Dada una variable aleatoria f : Z → R, su valor
esperado se denota por Ez D[f(z)]. A veces usamos la forma abreviada E[f] cuando la
dependencia de z es clara por el contexto. Para f : Z → {verdadero, falso} también usamos
Pz D[f(z)] para denotar D({z : f(z) = verdadero}). En el próximo capítulo también
introduciremos la notación Dm para denotar la probabilidad sobre Z m inducida por el
muestreo (z1, . . . , zm) donde cada punto zi se muestrea de D independientemente de los
otros puntos.
En general, hemos hecho un esfuerzo por evitar la notación asintótica. Sin embargo,
ocasionalmente lo usamos para aclarar los resultados principales. En particular, dadas f : R
→ R+ y g : R → R+ escribimos f = O(g) si existen x0, α R+ tales que para todo x > x0
tenemos f(x) ≤ αg(x). Escribimos f = o(g) si para todo α > 0 existe
2
Para ser matemáticamente preciso, D debería definirse sobre alguna σálgebra de subconjuntos de Z.
El usuario que no esté familiarizado con la teoría de la medida puede omitir las pocas notas al pie y
comentarios sobre definiciones y suposiciones de mensurabilidad más formales.
Machine Translated by Google
28 Introducción
x2 o x = x, x (la 2 norma de x)
= d
x1 yo=1 |xi| (la 1 norma de x)
x∞ = maxi |xi| (la norma ∞ de x)
x0 el número de elementos distintos de cero de x
A R d,k ad × k matriz sobre R
A la transpuesta de A
Ay, j el (i, j) elemento de A
d
XX la matriz d × d A st Ai,j = xixj (donde x R )
x1, . . . , x m una secuencia de m vectores
xi,j el jésimo elemento del iésimo vector en la secuencia
w(1) , . . . , w(t) los valores de un vector w durante un algoritmo iterativo
w i(t) el iésimo elemento del vector w(t)
X dominio de instancias (un conjunto)
etiquetas de dominio (un conjunto)
1.6 Notación 29
x0 tal que para todo x > x0 tenemos f(x) ≤ αg(x). Escribimos f = Ω(g) si existen x0, α R+
tales que para todo x > x0 tenemos f(x) ≥ αg(x). La notación f = ω(g) se define de manera
análoga. La notación f = Θ(g) significa que f = O(g) y g = O(f). Finalmente, la notación f =
O˜(g) significa que existe k N tal que f(x) = O(g(x) logk (g(x))).
Parte I
Cimientos
Machine Translated by Google
Machine Translated by Google
2 Un comienzo suave
Comencemos nuestro análisis matemático mostrando cómo se puede lograr un aprendizaje exitoso
en un entorno relativamente simplificado. Imagina que acabas de llegar a una pequeña isla del
Pacífico. Pronto descubrirá que las papayas son un ingrediente importante en la dieta local. Sin
embargo, nunca antes has probado las papayas. Tienes que aprender a predecir si una papaya que
ves en el mercado es sabrosa o no.
Primero, debe decidir en qué características de una papaya debe basarse su predicción. Sobre la
base de su experiencia previa con otras frutas, decide utilizar dos características: el color de la
papaya, que va desde el verde oscuro, pasando por el naranja y el rojo hasta el marrón oscuro, y la
suavidad de la papaya, que va desde dura como una piedra hasta blanda. Su entrada para calcular
su regla de predicción es una muestra de papayas que ha examinado en busca de color y suavidad
y luego las ha probado y ha descubierto si estaban sabrosas o no. Analicemos esta tarea como una
demostración de las consideraciones involucradas en los problemas de aprendizaje.
Nuestro primer paso es describir un modelo formal destinado a capturar tales tareas de
aprendizaje.
34 Un comienzo suave
=P
definitivamente definitivamente
correcta función de etiquetado f. Omitimos este subíndice cuando está claro por el contexto.
L(D,f)(h) tiene varios nombres sinónimos, como el error de generalización, el riesgo o el
verdadero error de h, y usaremos estos nombres indistintamente a lo largo del libro. Usamos
la letra L para el error, ya que vemos este error como la pérdida del alumno. Más adelante
también hablaremos
otras formulaciones posibles de tal pérdida.
definitivamente
Aunque la regla ERM parece muy natural, sin tener cuidado, este enfoque puede fallar
miserablemente.
Para demostrar tal fracaso, volvamos al problema de aprender a
Machine Translated by Google
36 Un comienzo suave
predecir el sabor de una papaya en base a su suavidad y color. Considere una muestra como se
muestra a continuación:
Suponga que la distribución de probabilidad D es tal que las instancias se distribuyen uniformemente
dentro del cuadrado gris y la función de etiquetado, f, determina que la etiqueta sea 1 si la instancia
está dentro del cuadrado azul interior y 0 en caso contrario. El área del cuadrado gris en la imagen es
2 y el área del cuadrado azul es 1.
Considere el siguiente predictor:
yi si i [m] st xi = x
hS(x) = (2.3)
0 de lo contrario.
Si bien este predictor puede parecer bastante artificial, en el Ejercicio 1 mostramos una representación
natural usando polinomios. Claramente, no importa cuál sea la muestra, LS(hS) = 0, y por lo tanto
este predictor puede ser elegido por un algoritmo ERM (es una de las hipótesis de mínimo costo
empírico; ningún clasificador puede tener un error menor). Por otro lado, el verdadero error de
cualquier clasificador que predice la etiqueta 1 solo en un número finito de instancias es, en este caso,
1/2. Así, LD(hS) = 1/2.
Hemos encontrado un predictor cuyo desempeño en el conjunto de entrenamiento es excelente, pero
su desempeño en el “mundo” real es muy pobre. Este fenómeno se llama sobreajuste. Intuitivamente,
el sobreajuste ocurre cuando nuestra hipótesis se ajusta "demasiado bien" a los datos de
entrenamiento (tal vez como la experiencia cotidiana de que una persona que proporciona una
explicación perfecta y detallada de cada una de sus acciones puede despertar sospechas).
Acabamos de demostrar que la regla ERM podría conducir a un sobreajuste. En lugar de renunciar al
paradigma ERM, buscaremos formas de rectificarlo. Buscaremos condiciones bajo las cuales haya
una garantía de que ERM no se sobreajuste, es decir, condiciones bajo las cuales cuando el predictor
de ERM tiene un buen desempeño con respecto a los datos de entrenamiento, también es muy
probable que funcione bien sobre la distribución de datos subyacente.
donde argmin representa el conjunto de hipótesis en H que alcanzan el valor mínimo de LS(h)
sobre H. Al restringir al alumno a elegir un predictor de H, lo inclinamos hacia un conjunto
particular de predictores. Tales restricciones a menudo se denominan sesgo inductivo. Dado
que la elección de tal restricción está determinada
antes de que el alumno vea los datos de entrenamiento, idealmente debería basarse en algún
conocimiento previo sobre el problema que se va a aprender. Por ejemplo, para el problema de
predicción del sabor a papaya, podemos elegir la clase H como el conjunto de predictores que
están determinados por rectángulos alineados en el eje (en el espacio determinado por las
coordenadas de color y suavidad). Más adelante mostraremos que se garantiza que ERMH
sobre esta clase no sobreajustará. Por otro lado, el ejemplo de sobreajuste que hemos visto
anteriormente demuestra que elegir H como una clase de predictores que incluye todas las
funciones que asignan el valor 1 a un conjunto finito de puntos de dominio no es suficiente para
garantizar que ERMH no sobreajustado
Una pregunta fundamental en la teoría del aprendizaje es sobre qué clases de hipótesis el
aprendizaje ERMH no dará como resultado un sobreajuste. Estudiaremos esta cuestión más
adelante en el libro.
Intuitivamente, elegir una clase de hipótesis más restringida nos protege mejor contra el
sobreajuste, pero al mismo tiempo puede causarnos un sesgo inductivo más fuerte. Volveremos
a esta compensación fundamental más adelante.
38 Un comienzo suave
El supuesto de realizabilidad implica que para cada hipótesis ERM tenemos que3 LS(hS) = 0. Sin
embargo, estamos interesados en el verdadero riesgo de hS, L(D,f)(hS), más que en su riesgo
empírico.
Claramente, cualquier garantía sobre el error con respecto a la distribución subyacente, D, para un
algoritmo que tiene acceso solo a una muestra S debe depender de la relación entre D y S. La
suposición común en el aprendizaje automático estadístico es que la muestra de entrenamiento S se
genera muestreando puntos de la distribución D independientemente unos de otros. Formalmente,
Dado que L(D,f)(hS) depende del conjunto de entrenamiento, S, y ese conjunto de entrenamiento
se elige mediante un proceso aleatorio, existe aleatoriedad en la elección del predictor hS y, en
consecuencia, en el riesgo L(D, f)(hS). Formalmente, decimos que es una variable aleatoria. No es
realista esperar que, con total certeza, S sea suficiente para dirigir al alumno hacia un buen clasificador
(desde el punto de vista de D), ya que siempre existe alguna probabilidad de que los datos de
entrenamiento muestreados sean muy poco representativos de los datos subyacentes. D. Si volvemos
al ejemplo de la degustación de papaya, siempre hay alguna (pequeña) posibilidad de que todas las
papayas que hemos probado no fueran sabrosas, a pesar de que, digamos, el 70% de las papayas
en nuestra isla son sabrosos En tal caso, ERMH(S) puede ser la función constante que etiqueta cada
papaya como “no sabrosa” (y tiene un error del 70% sobre la verdadera distribución de papayas en la
isla). Por lo tanto, abordaremos la probabilidad de muestrear un conjunto de entrenamiento para el
cual L(D,f)(hS) no sea demasiado grande. Por lo general, denotamos la probabilidad de obtener una
muestra no representativa por δ y llamamos (1 − δ) el parámetro de confianza de nuestra predicción.
Además de eso, dado que no podemos garantizar una predicción de etiquetas perfecta,
introducimos otro parámetro para la calidad de la predicción, el parámetro de precisión,
3
Hablando matemáticamente, esto se cumple con probabilidad 1. Para simplificar la presentación,
a veces omitimos el especificador "con probabilidad 1".
Machine Translated by Google
comúnmente denotado por . Interpretamos el evento L(D,f)(hS) > como una falla del alumno,
mientras que si L(D,f)(hS) ≤ vemos la salida del algoritmo como un predictor aproximadamente
correcto. Por lo tanto (fijando alguna función de etiquetado f : X → Y), estamos interesados en
acotar por arriba la probabilidad de muestrear mtuplas de instancias que conducirán al fracaso del
alumno. Formalmente, sean S|x = (x1, . . . , xm) las instancias del conjunto de entrenamiento. Nos
gustaría un límite superior
HB = {h H : L(D,f)(h) > }.
Además, deja
sea el conjunto de muestras engañosas: es decir, para cada S|x M, hay una hipótesis "mala", h
HB, que parece una hipótesis "buena" en S|x. Ahora, recuerda que nos gustaría acotar la
probabilidad del evento L(D,f)(hS) > . Pero, dado que el supuesto de realizabilidad implica que
LS(hS) = 0, se sigue que el evento L(D,f)(hS) > solo puede ocurrir si para alguna h HB tenemos
LS(h) = 0. En otras Es decir, este evento solo ocurrirá si nuestra muestra está en el conjunto de
muestras engañosas, M. Formalmente, hemos demostrado que
METRO =
{S|x : LS(h) = 0}. (2.5)
h HB
Por eso,
Luego, hacemos un límite superior del lado derecho de la ecuación anterior usando el
límite de unión: una propiedad básica de las probabilidades.
lema 2.2 (Union Bound) Para cualesquiera dos conjuntos A, B y una distribución D tenemos
A continuación, liguemos cada sumando del lado derecho del anterior en igualdad. Fijar alguna
hipótesis “mala” h HB. El evento LS(h) = 0 es equivalente
Machine Translated by Google
40 Un comienzo suave
al evento i, h(xi) = f(xi). Dado que los ejemplos en el conjunto de entrenamiento se muestrean
iid, obtenemos que
donde la última desigualdad se sigue del hecho de que h HB. Combinando la ecuación
−
anterior con la Ecuación (2.8) y usando la desigualdad 1 − ≤ e se obtiene que para todo nosotros
h HB,
−m
D m({S|x : L(D,f)(hS) > }) ≤ |HB| mi ≤ |H| mi m.
En la figura 2.1 se muestra una ilustración gráfica que explica cómo usamos el límite de unión .
Figura 2.1 Cada punto en el círculo grande representa una posible mtupla de instancias.
Cada óvalo coloreado representa el conjunto de mtuplas "engañosas" de instancias para algún
predictor "malo" h HB. El ERM puede sobreajustarse potencialmente siempre que obtenga
un conjunto de entrenamiento engañoso S. Es decir, para algún h HB tenemos LS(h) = 0.
La ecuación (2.9) garantiza que para cada mala hipótesis individual, h HB, como máximo (1 − ) m
fracción de los conjuntos de entrenamiento sería engañosa. En particular, cuanto más grande es m,
más pequeño se vuelve cada uno de estos óvalos de colores. El límite de unión formaliza el hecho de
que el área que representa los conjuntos de entrenamiento que son engañosos con respecto a algún
h HB (es decir, los conjuntos de entrenamiento en M) es como máximo la suma de las áreas de los
óvalos coloreados. Por lo tanto, está acotado por |HB| veces el tamaño máximo de un óvalo de color.
Cualquier muestra S fuera de los óvalos coloreados no puede causar un sobreajuste de la regla ERM.
corolario 2.3 Sea H una clase finita de hipótesis. Sea δ (0, 1) y > 0
Machine Translated by Google
2.4 Ejercicios 41
log(|H|/δ) m
≥ .
Entonces, para cualquier función de etiquetado, f, y para cualquier distribución, D, para la cual se
cumple el supuesto de realizabilidad (es decir, para alguna h H, L(D,f)(h) = 0), con probabilidad de
al menos 1 − δ sobre la elección de una muestra iid S de tamaño m, tenemos que para cada hipótesis
ERM, hS, se cumple que
L(D,f)(hS) ≤ .
El corolario anterior nos dice que para una m suficientemente grande, la regla ERMH sobre una
clase de hipótesis finita será probablemente (con confianza 1−δ) aproximadamente (hasta un error de )
correcta. En el próximo capítulo definimos formalmente el modelo de aprendizaje Probablemente
Aproximadamente Correcto (PAC).
2.4 Ejercicios
mi
[LS(h)] = L(D,f)(h).
S|x Dm
1 si a1 ≤ x1 ≤ b1 y a2 ≤ x2 ≤ b2
h(a1,b1,a2,b2)(x1, x2) = . (2.10)
0 de lo contrario
La clase de todos los rectángulos alineados con el eje en el plano se define como
Tenga en cuenta que esta es una clase de hipótesis de tamaño infinito. A lo largo de este ejercicio
nos basamos en el supuesto de realizabilidad.
Machine Translated by Google
42 Un comienzo suave
1. Sea A el algoritmo que devuelve el rectángulo más pequeño que encierra todos los ejemplos positivos
en el conjunto de entrenamiento. Demuestre que A es un ERM. 4 log(4/δ)
2. Muestre que si A recibe un conjunto de entrenamiento de tamaño ≥ entonces, con una probabilidad
de al menos 1 − δ, devuelve una hipótesis con un error de como máximo .
Sugerencia: arregle alguna distribución D sobre X , sea R = R(a 2,b a b 2 ) sea el recto 1 , 1 ,
R
+
+ D(S)
+
+
R1
En este capítulo definimos nuestro principal modelo de aprendizaje formal: el aprendizaje PAC.
modelo y sus extensiones. Consideraremos otras nociones de capacidad de aprendizaje en el
Capítulo 7.
En el capítulo anterior hemos demostrado que para una clase finita de hipótesis, si el
La regla ERM con respecto a esa clase se aplica en un entrenamiento suficientemente grande
muestra (cuyo tamaño es independiente de la distribución subyacente o el etiquetado
función), entonces la hipótesis de salida será probablemente aproximadamente correcta.
De manera más general, ahora definimos el aprendizaje Probablemente Aproximadamente Correcto (PAC).
definición 3.1 (capacidad de aprendizaje de PAC) Una clase de hipótesis H es aprendible de PAC
si existe una función mH : (0, 1)2 → N y un algoritmo de aprendizaje con el
propiedad: Para toda , y δ (0, 1), para toda distribución D sobre X siguiente ,
para cada función de etiquetado f : X → {0, 1}, si se cumple la suposición realizable
con respecto a H, D, f, entonces cuando se ejecuta el algoritmo de aprendizaje en m ≥
mH(, δ) iid ejemplos generados por D y etiquetados por f, el algoritmo devuelve
una hipótesis h tal que, con probabilidad de al menos 1 − δ (sobre la elección de
los ejemplos), L(D,f)(h) ≤ .
reflejar. Nuestro parámetro de precisión, , permite "perdonar" al clasificador del alumno por
cometer errores menores.
Complejidad de la muestra
La función mH : (0, 1)2 → N determina la complejidad de la muestra de aprendizaje H: es decir,
cuántos ejemplos se requieren para garantizar una solución probablemente aproximadamente
correcta. La complejidad de la muestra es una función de los parámetros de precisión () y confianza
(δ). También depende de las propiedades de la clase de hipótesis H; por ejemplo, para una clase
finita mostramos que la complejidad de la muestra depende del tamaño logarítmico de H.
Tenga en cuenta que si H es aprendible por PAC, hay muchas funciones mH que satisfacen los
requisitos dados en la definición de capacidad de aprendizaje por PAC. Por lo tanto, para ser
precisos, definiremos la complejidad muestral del aprendizaje de H como la “función mínima”, en
el sentido de que para cualquier , δ, mH(, δ ) es el número entero mínimo que satisface los
requisitos del aprendizaje PAC con precisión y confianza δ.
Recordemos ahora la conclusión del análisis de clases de hipótesis finitas
del capitulo anterior. Se puede reformular diciendo:
corolario 3.2 Cada clase de hipótesis finita es PAC aprendible con complejidad de muestra
registro(|H|/δ)
mH(, δ) ≤ .
Hay infinitas clases que también se pueden aprender (ver, por ejemplo, el Ejercicio 3). Más
adelante mostraremos que lo que determina la capacidad de aprendizaje PAC de una clase no es
su finitud sino una medida combinatoria llamada dimensión VC.
El modelo que acabamos de describir se puede generalizar fácilmente, de modo que se pueda
aplicar a un ámbito más amplio de tareas de aprendizaje. Consideramos generalizaciones en dos
aspectos:
.
metro
Dado S, un estudiante puede calcular LS(h) para cualquier función h : X → {0, 1}. Tenga en cuenta
que LS(h) = LD(uniforme sobre S)(h).
El objetivo
Deseamos encontrar alguna hipótesis, h : X → Y, que (probablemente aproximadamente) minimice
el riesgo real, LD(h).
Es fácil comprobar (ver Ejercicio 7) que para toda distribución de probabilidad D, el predictor
óptimo de Bayes fD es óptimo, en el sentido de que ningún otro clasificador, g : X → {0, 1} tiene un
error menor. Es decir, para todo clasificador g, LD(fD) ≤ LD(g).
Desafortunadamente, dado que no conocemos D, no podemos utilizar este predictor óptimo fD.
A lo que el alumno tiene acceso es a la muestra de capacitación. Ahora podemos presentar la
definición formal de capacidad de aprendizaje PAC agnóstico, que es una extensión natural de la
definición de capacidad de aprendizaje PAC a la configuración de aprendizaje más realista e
irrealizable que acabamos de discutir.
Claramente, no podemos esperar que el algoritmo de aprendizaje encuentre una hipótesis cuyo
error sea menor que el mínimo error posible, el del predictor de Bayes.
Además, como demostraremos más adelante, una vez que no hacemos suposiciones previas
sobre la distribución de generación de datos, no se puede garantizar que ningún algoritmo encuentre
un predictor que sea tan bueno como el óptimo de Bayes. En cambio, requerimos que el algoritmo
de aprendizaje encuentre un predictor cuyo error no sea mucho mayor que el mejor error posible de
un predictor en alguna clase de hipótesis de referencia dada.
Por supuesto, la fuerza de tal requisito depende de la elección de esa clase de hipótesis.
definición 3.3 (Aprendebilidad PAC agnóstica) Una hipótesis clase H es aprendible PAC agnóstica
si existe una función mH : (0, 1)2 → N y un algoritmo de aprendizaje con la siguiente propiedad:
Para cada , δ (0, 1) y para cada distribución D sobre X ×Y, cuando se ejecuta el algoritmo de
aprendizaje en m ≥ mH(, δ) iid ejemplos generados por D, el algoritmo devuelve una hipótesis h tal
que, con probabilidad de al menos 1 − δ (sobre la elección de los m ejemplos de entrenamiento),
A continuación, ampliamos nuestro modelo para que pueda aplicarse a una amplia variedad de tareas
de aprendizaje. Consideremos algunos ejemplos de diferentes tareas de aprendizaje.
• Regresión En esta tarea, uno desea encontrar algún patrón simple en los datos: una relación funcional
entre los componentes X e Y de los datos. Por ejemplo, uno desea encontrar una función lineal
que prediga mejor el peso de un bebé al nacer sobre la base de medidas de ultrasonido de la
circunferencia de la cabeza, la circunferencia abdominal y la longitud del fémur. Aquí, nuestro
conjunto de dominios X es un subconjunto de R (las tres mediciones de ultrasonido) y el conjunto
de "etiquetas"
Y, es el conjunto de los números reales (el peso en gramos). En este contexto, es más adecuado
llamar a Y el conjunto objetivo. Nuestros datos de entrenamiento, así como la salida del alumno,
son como antes (una secuencia finita de pares (x, y) y una función de X a Y respectivamente).
Sin embargo, nuestra medida del éxito es
Machine Translated by Google
= mi (h(x) − y) (x,y) .
definitivamente
2
DL(h) D (3.2)
Para dar cabida a una amplia gama de tareas de aprendizaje generalizamos nuestro formalismo
de la medida del éxito de la siguiente manera:
DL(h) (3.3)
1
metro
LS(h) =
definitivamente
• Pérdida 0–1: Aquí, nuestra variable aleatoria z oscila sobre el conjunto de pares X × Y y la función
de pérdida es
=
definitivamente 0 si h(x) = y 1 si
0−1(h,(x, y))
h(x) = y
.
definitivamente
2
3.3 Resumen 49
Para resumir, definimos formalmente la capacidad de aprendizaje de PAC agnóstico para funciones de
pérdida generales.
definición 3.4 (Aprendebilidad PAC agnóstica para funciones generales de pérdida) Una clase de
hipótesis H es aprendible PAC agnóstica con respecto a un conjunto Z y una función de pérdida: H
× Z → R+, si existe una función mH: (0 , 1 ) 2 → N δ (0, 1) y un algoritmo de aprendizaje con la
propiedad: Para cada , y para cada distribución D sobre Z, cuando se ejecuta el siguiente
algoritmo de aprendizaje en m ≥ mH(, δ) iid ejemplos generados por D, el algoritmo devuelve h
H tal que, con probabilidad de al menos 1 − δ (sobre la elección de los m ejemplos de entrenamiento),
Observación 3.1 (Una nota sobre la mensurabilidad*) En la definición anterior, para cada h H,
vemos la función (h, ∙) : Z → R+ como una variable aleatoria y definimos LD(h) como el valor
esperado de esta variable aleatoria. Para eso, necesitamos exigir que la función (h, ∙) sea medible.
Formalmente, asumimos que existe un σálgebra de subconjuntos de Z, sobre el cual se define la
probabilidad D, y que la preimagen de cada segmento inicial en R+ está en esta σálgebra. En el
caso específico de clasificación binaria con pérdida 0−1, el álgebra σ es sobre X × {0, 1} y nuestra
suposición de es equivalente a la suposición de que para cada h, el conjunto {(x, h(x )) : x X}
está en el σálgebra.
3.3 Resumen
En este capítulo definimos nuestro principal modelo de aprendizaje formal: el aprendizaje PAC. El
modelo básico se basa en el supuesto de realizabilidad, mientras que la variante agnóstica no
Machine Translated by Google
Nuestra definición más general de aprendizaje PAC agnóstico con funciones generales de
pérdida sigue los trabajos de Vladimir Vapnik y Alexey Chervonenkis (Vapnik & Chervonenkis
1971). En particular, seguimos el marco general de aprendizaje de Vapnik (Vapnik 1982, Vapnik
1992, Vapnik 1995, Vapnik 1998).
El aprendizaje PAC fue introducido por Valiant (1984). Valiant fue nombrado ganador del
Premio Turing 2010 por la introducción del modelo PAC. La definición de Valiant requiere que la
complejidad de la muestra sea polinomial en 1/ y en 1/δ, así como en el tamaño de representación
de las hipótesis en la clase (ver también Kearns & Vazirani (1994)). Como veremos en el Capítulo
6, si un problema se puede aprender en PAC, entonces la complejidad de la muestra depende
polinómicamente de 1/ y log(1/δ).
La definición de Valiant también requiere que el tiempo de ejecución del algoritmo de aprendizaje
sea polinomial en estas cantidades. Por el contrario, elegimos distinguir entre el aspecto estadístico
del aprendizaje y el aspecto computacional del aprendizaje. Desarrollaremos el aspecto
computacional más adelante en el Capítulo 8, donde presentamos el modelo completo de
aprendizaje PAC de Valiant. Por razones explicativas, usamos el término aprendizaje PAC incluso
cuando ignoramos el aspecto del tiempo de ejecución del aprendizaje.
Finalmente, la formalización del aprendizaje PAC agnóstico se debe a Haussler (1992).
3.5 Ejercicios
1. Monotonicidad de la complejidad de la muestra: Sea H una clase de hipótesis para una tarea
de clasificación binaria. Suponga que H es aprendible en PAC y su complejidad de muestra
viene dada por mH(∙, ∙). Demuestre que mH es monótonamente no creciente en cada uno de
sus parámetros. Es decir, demuestre que dado δ (0, 1), y dado 0 < 1 ≤ 2 < 1, tenemos que
mH(1, δ) ≥ mH(2, δ). De manera similar, demuestre que dado (0, 1), y dado 0 < δ1 ≤ δ2 <
1, tenemos que mH(, δ1) ≥ mH(, δ2).
2. Sea X un dominio discreto, y sea HSingleton = {hz : z X} {h −}, donde hz es la función
para cada z X , definida por hz(x) = 1 si x = z y hz(x) = 0 si x = z. h − es simplemente la
hipótesis totalmente negativa, es decir, x X, h −(x) = 0.
La suposición de realizabilidad aquí implica que la hipótesis verdadera f etiqueta negativamente
todos los ejemplos en el dominio, quizás excepto uno.
Machine Translated by Google
3.5 Ejercicios 51
registro (1/δ)
mH(, δ) ≤ .
LD(A(S)) ≤ LD(B(S))
para todas las muestras S (X ×{0, 1}) m. Decimos que un algoritmo de aprendizaje A es
mejor que B, si es mejor que B con respecto a todas las distribuciones de probabilidad D sobre
X × {0, 1}.
1. Un predictor de etiqueta probabilística es una función que asigna a cada punto de dominio
un valor de probabilidad xa, h(x) [0, 1], que determina la probabilidad de predecir la
etiqueta 1. Es decir, dado tal h y una entrada , x, la etiqueta para x se predice lanzando
una moneda con sesgo h(x) hacia cara y prediciendo 1 si la moneda sale cara. Formalmente,
definimos un predictor de etiqueta probabilística como una función, h : X → [0, 1]. La
pérdida de tal h en un ejemplo (x, y) se define como |h(x) − y|, que es exactamente la
probabilidad de que la predicción de h no sea igual a y. Tenga en cuenta que si h es
determinista, es decir, devuelve valores en {0, 1}, entonces |h(x) − y| = 1[h(x)=y] .
Demuestre que para cada distribución generadora de datos D sobre X × {0, 1}, el predictor
óptimo de Bayes tiene el riesgo más pequeño (con la función de pérdida (h,(x, y)) = |h(x)
−y|, entre todos los posibles predictores de etiquetas, incluidos los probabilísticos).
2. Sea X un dominio y {0, 1} un conjunto de etiquetas. Demuestre que para toda distribución D
sobre X × {0, 1}, existe un algoritmo de aprendizaje AD que es mejor que cualquier otro
algoritmo de aprendizaje con respecto a D.
3. Demostrar que para cada algoritmo de aprendizaje A existe una distribución de probabilidad,
D, y un algoritmo de aprendizaje B tal que A no es mejor que B frente a D.
9. Considere una variante del modelo PAC en la que hay dos oráculos de ejemplo: uno que
genera ejemplos positivos y otro que genera ejemplos negativos, ambos de acuerdo con la
distribución subyacente D en X. Formalmente, dada una función objetivo f : X → {0, 1}, sea D+
la distribución sobre X + = {x X : f(x) = 1} definida por D+(A) = D(A)/D (X +), para todo A
X +. De manera similar, D− es la distribución sobre X − inducida por D.
3.5 Ejercicios 53
El primer modelo de aprendizaje formal que hemos discutido fue el modelo PAC.
En el Capítulo 2 , hemos demostrado que bajo el supuesto de realizabilidad, cualquier clase de
hipótesis finita es aprendible por PAC. En este capítulo, desarrollaremos una herramienta general,
la convergencia uniforme, y la aplicaremos para mostrar que cualquier clase finita se puede
aprender en el modelo PAC agnóstico con funciones de pérdida generales, siempre que la función
de pérdida de rango esté acotada.
h H, |LS(h) − LD(h)| ≤ .
El siguiente lema simple establece que siempre que la muestra sea (/2)representativa,
Se garantiza que la regla de aprendizaje de ERM arrojará una buena hipótesis.
donde la primera y la tercera desigualdad se deben a la suposición de que S es representativa
2
(Definición 4.1) y la segunda desigualdad se cumple ya que hS es un
predictor de ERM.
El lema anterior implica que para asegurar que la regla ERM sea agnóstica
estudiante de PAC, es suficiente mostrar que con una probabilidad de al menos 1 − δ sobre el
elección aleatoria de un conjunto de entrenamiento, será un conjunto de entrenamiento representativo. El
la condición de convergencia uniforme formaliza este requisito.
definición 4.3 (Convergencia Uniforme) Decimos que una clase de hipótesis H tiene
la propiedad de convergencia uniforme (wrt un dominio Z y una función de pérdida) si
existe una función mUC H : (0, 1)2 → N tal que para todo , δ (0, 1) y
para toda distribución de probabilidad D sobre Z, si S es una muestra de m ≥ mUC H (, d)
ejemplos dibujados iid según D, entonces, con probabilidad de al menos 1 − δ, S
es representante.
corolario 4.4 Si una clase H tiene la propiedad de convergencia uniforme con una
función mUC H entonces la clase es agnósticamente PAC aprendible con el ejemplo com
plexidad mH(, δ) ≤ mUC H (/2, δ). Además, en ese caso, el paradigma ERMH
es un aprendiz exitoso de PAC agnóstico para H.
En vista del Corolario 4.4, la afirmación de que toda clase de hipótesis finita es agnóstica
PAC aprendible seguirá una vez que establezcamos que la convergencia uniforme se mantiene para
una clase finita de hipótesis.
Para mostrar que se cumple la convergencia uniforme, seguimos un argumento de dos pasos, similar
a la derivación en el Capítulo 2. El primer paso aplica el límite de unión mientras que el
El segundo paso emplea una medida de desigualdad de concentración. Ahora explicamos estos
dos pasos en detalle.
Arregla algo de, δ. Necesitamos encontrar un tamaño de muestra m que garantice que para cualquier
Escribiendo
lema 4.5 (Desigualdad de Hoeffding) Sea θ1, . . . , θm sea una secuencia de iid variables
aleatorias y suponga que para todo i, E[θi ] = µ y P[a ≤ θi ≤ b] = 1. Entonces, para cualquier > 0
metro
PAG
1
θi − µ > ≤ 2 exp −2 m 2
/(ba)
2 .
metro
yo=1
además suponga que el rango de es [0, 1] y por lo tanto θi [0, 1]. Obtenemos por tanto que
metro
yo=1
(4.2)
Combinando esto con la Ecuación (4.1) se obtiene
2
re metro({S : h H, |LS(h) − LD(h)| > }) ≤ 2 exp −2 m
h H
= 2 |H| exp −2 m
2 .
Finalmente, si elegimos
log(2|H|/δ) m
≥22
entonces
corolario 4.6 Sea H una clase finita de hipótesis, sea Z un dominio y sea : H × Z → [0, 1] una
función de pérdida. Entonces, H disfruta de la convergencia uniforme
propiedad con complejidad muestral
log(2|H|/δ) 2
mUC(, δ) ≤ .
H 2
Además, la clase es agnósticamente PAC aprendible usando el algoritmo ERM con complejidad
de muestra
2 log(2|H|/δ)
mH(, δ) ≤ mUC (/2, δ) ≤ .
H 2
Observación 4.1 (El “truco de la discretización”) Si bien el corolario anterior solo se aplica a las
clases de hipótesis finitas, existe un truco simple que nos permite obtener una muy buena
estimación de la complejidad de la muestra práctica de las clases de hipótesis infinitas.
Considere una clase de hipótesis que está parametrizada por d parámetros. Por ejemplo, sean
X = R, Y = {±1} y la clase de hipótesis, H, funciones de la forma hθ(x) = signo(x − θ). Es decir,
cada hipótesis está parametrizada por un parámetro, θ R, y la hipótesis genera 1 para todas
las instancias mayores que θ y genera −1 para instancias menores que θ. Esta es una clase
de hipótesis de un tamaño infinito. Sin embargo, si vamos a aprender esta clase de hipótesis
en la práctica, usando una computadora, probablemente mantendremos números reales
usando representación de punto flotante, digamos, de 64 bits. De ello se deduce que, en la
práctica, nuestra clase de hipótesis está parametrizada por el conjunto de escalares que se
pueden representar utilizando un número de punto flotante de 64 bits. Hay como máximo 264
de esos números; por lo tanto, el tamaño real de nuestra clase de hipótesis es como máximo
264. Más generalmente, si nuestra clase de hipótesis está parametrizada por d números, en la
práctica aprendemos una clase de hipótesis de tamaño como máximo 264d . Aplicando el
Corolario 4.6 obtenemos que la complejidad muestral de tales
Machine Translated by Google
4.3 Resumen
Si la propiedad de convergencia uniforme se cumple para una clase de hipótesis H, entonces en la mayoría de los casos
casos, los riesgos empíricos de las hipótesis en H representarán fielmente su verdadero
riesgos La convergencia uniforme es suficiente para la capacidad de aprendizaje de PAC agnóstico utilizando el ERM
regla. Hemos demostrado que las clases de hipótesis finitas disfrutan de la convergencia uniforme
propiedad y, por lo tanto, son agnósticos PAC aprendibles.
Las clases de funciones para las que se cumple la propiedad de convergencia uniforme también son
llamadas clases GlivenkoCantelli, nombradas así por Valery Ivanovich Glivenko y
Francesco Paolo Cantelli, que demostró el primer resultado de convergencia uniforme en
la década de 1930 Véase (Dudley, Gine & Zinn 1991). Vapnik estudió a fondo la relación entre la convergencia
uniforme y la capacidad de aprendizaje; consulte (Vapnik 1992,
Vapnik 1995, Vapnik 1998). De hecho, como veremos más adelante en el Capítulo 6, el teorema fundamental de
la teoría del aprendizaje establece que en problemas de clasificación binaria,
La convergencia uniforme no solo es una condición suficiente para la capacidad de aprendizaje, sino que también es
una condición necesaria. Este no es el caso para problemas de aprendizaje más generales.
(ver (ShalevShwartz, Shamir, Srebro & Sridharan 2010)).
4.5 Ejercicios
PAG
[LD(A(S)) > ] < δ
S Dm
2.
límite mi [LD(A(S))] = 0
m→∞ S Dm
Machine Translated by Google
4.5 Ejercicios 59
En el Capítulo 2 vimos que, a menos que uno sea cuidadoso, los datos de entrenamiento
pueden confundir al alumno y resultar en un sobreajuste. Para superar este problema,
restringimos el espacio de búsqueda a alguna clase de hipótesis H. Tal clase de hipótesis
puede verse como un reflejo de algún conocimiento previo que el alumno tiene sobre la tarea,
la creencia de que uno de los miembros de la clase H es un bajo nivel. modelo de error para la tarea. Para
Por ejemplo, en nuestro problema del sabor de las papayas, sobre la base de nuestra
experiencia previa con otras frutas, podemos suponer que algún rectángulo en el plano color
dureza predice (al menos aproximadamente) el sabor de la papaya.
¿Es realmente necesario ese conocimiento previo para el éxito del aprendizaje? ¿Quizás
existe algún tipo de alumno universal, es decir, un alumno que no tiene conocimientos previos
sobre una determinada tarea y está listo para ser desafiado por cualquier tarea? Profundicemos
en este punto. Una tarea de aprendizaje específica se define por una distribución desconocida
D sobre X × Y, donde el objetivo del alumno es encontrar un predictor h : X → Y, cuyo riesgo,
LD(h), sea lo suficientemente pequeño. Por lo tanto, la pregunta es si existe un algoritmo de
aprendizaje A y un tamaño de conjunto de entrenamiento m, tal que para cada distribución D,
si A recibe m iid ejemplos de D, existe una alta probabilidad de que genere un predictor h que
tiene un riesgo bajo.
La primera parte de este capítulo aborda formalmente esta cuestión. El teorema de No
Free Lunch establece que no existe tal alumno universal. Para ser más precisos, el teorema
establece que para las tareas de predicción de clasificación binaria, para cada alumno existe
una distribución en la que falla. Decimos que el alumno falla si, al recibir iid ejemplos de esa
distribución, es probable que su hipótesis de salida tenga un gran riesgo, digamos, ≥ 0.3,
mientras que para la misma distribución, existe otro alumno que generará una hipótesis con
un pequeño riesgo. En otras palabras, el teorema establece que ningún alumno puede tener
éxito en todas las tareas que se pueden aprender: cada alumno tiene tareas en las que falla,
mientras que otros alumnos tienen éxito.
Por lo tanto, al abordar un problema de aprendizaje particular, definido por alguna
distribución D, deberíamos tener algún conocimiento previo sobre D. Un tipo de dicho
conocimiento previo es que D proviene de alguna familia de distribuciones paramétricas específicas.
Estudiaremos el aprendizaje bajo tales supuestos más adelante en el Capítulo 24. Otro tipo
de conocimiento previo sobre D, que asumimos al definir el modelo de aprendizaje PAC, es
que existe h en alguna clase de hipótesis predefinida H, tal que LD(h) = 0. Un tipo más suave
de conocimiento previo sobre D es asumir que minh H LD(h) es pequeño. En cierto sentido,
esta suposición más débil sobre D es un requisito previo para usar el
modelo PAC agnóstico, en el que requerimos que el riesgo de la hipótesis de salida no sea mucho
mayor que minh H LD(h).
En la segunda parte de este capítulo estudiamos las ventajas y desventajas de utilizar una clase
de hipótesis como medio para formalizar el conocimiento previo. Descomponemos el error de un
algoritmo ERM sobre una clase H en dos componentes. El primer componente refleja la calidad de
nuestro conocimiento previo, medido por el riesgo mínimo de una hipótesis en nuestra clase de
hipótesis, minh H LD(h). Este componente también se denomina error de aproximación, o el sesgo
del algoritmo para elegir una hipótesis de H. El segundo componente es el error por sobreajuste,
que depende del tamaño o la complejidad de la clase H y se denomina error de estimación. . Estos
dos términos implican una compensación entre elegir una H más compleja (que puede disminuir el
sesgo pero aumenta el riesgo de sobreajuste) o una H menos compleja (que podría aumentar el
sesgo pero disminuye el sobreajuste potencial).
En esta parte demostramos que no existe un aprendiz universal. Hacemos esto demostrando que
ningún alumno puede tener éxito en todas las tareas de aprendizaje, como se formaliza en el
siguiente teorema:
teorema 5.1 (NoFreeLunch) Sea A cualquier algoritmo de aprendizaje para la tarea de clasificación
binaria con respecto a la pérdida 0 − 1 sobre un dominio X . Sea m cualquier número menor que |X
|/2, que representa el tamaño de un conjunto de entrenamiento. Entonces, existe una distribución D
sobre X × {0, 1} tal que:
Este teorema establece que para cada alumno, existe una tarea en la que falla, aunque esa
tarea pueda ser aprendida con éxito por otro alumno. De hecho, un alumno exitoso trivial en este
caso sería un alumno de ERM con la clase de hipótesis H = {f}, o más generalmente, ERM con
respecto a cualquier clase de hipótesis finita que contenga f y cuyo tamaño satisfaga la ecuación m
≥ 8 log (7|H|/6) (ver Corolario 2.3).
62 La compensación de sesgocomplejidad
1/|C| si y = fi(x)
Di({(x, y)}) =
0 de lo contrario.
,
Claramente, esto significa que para cada algoritmo A que recibe un conjunto de
entrenamiento de m ejemplos de X × {0, 1} existe una función f : X → {0, 1} y una distribución
D sobre X × {0, 1}, tal que LD(f) = 0 y
Es fácil comprobar que lo anterior es suficiente para demostrar que P[LD(A (S)) ≥ 1/8] ≥
1/7, que es lo que necesitamos probar (ver Ejercicio 1).
Pasamos ahora a probar que la Ecuación (5.1) se cumple. Hay k = (2m) m secuencias
posibles de m ejemplos de C. Denote estas secuencias por S1, . . . , sk.
i
Además, si Sj = (x1, . . . , xm) denotamos por S en j la secuencia que contiene las instancias
i
Sj etiquetada por la función fi , es decir, S la j = ((x1, fi(x1)), . . . ,(xm, fi(xm))). Si
i
. . . , S Si k ,
distribución es Di entonces los posibles conjuntos de entrenamiento que A puede recibir1 ,son
y todos estos conjuntos de entrenamiento tienen la misma probabilidad de ser muestreados. Por lo tanto,
k
1 i
mi [LDi (A(S))] = LDi (A(S )). (5.3)
S Dm yo k j
j=1
Usando los hechos de que el "máximo" es mayor que el "promedio" y que el "promedio" es
mayor que el "mínimo", tenemos
k T k
1 i 1 1 i
máximo LDi (A(S j )) ≥ LDi (A(S j ))
i [T] k ti k
j=1 =1 j=1
k T
1 1 i
=
T
LDi (A(Sj ))
kj =1 yo=1
T
1 i
≥ min LDi (A(S j )). (5.4)
j [k] ti =1
A continuación, fije algo de j [k]. Denote Sj = (x1, . . . , xm) y sea v1, . . . , vp ser los
ejemplos en C que no aparecen en Sj . Claramente, p ≥ m. Por lo tanto, por cada
Machine Translated by Google
1
LDi (h) = 2m 1[h(x)=fi(x)]
x C
1
pag
≥ 1[h(vr)=fi(vr)]
2m
r=1
1
pag
≥ 1[h(vr)=fi(vr)]. (5.5)
2p r=1
Por eso,
T T
1 1 1
pag
i
T
LDi (A(S j )) ≥ T 1[A(Si )(vr)=fi(vr)]
yo=1 yo=1
2p r=1 j
T
1 1
pag
=
1[A(Si )(vr)=fi(vr)]
2p r=1 T yo=1
j
T
1 1
≥ ∙ min (5.6)
2 T 1[A(Si j )(vr)=fi(vr)].
r [p] yo=1
A continuación, fije algunos r [p]. Podemos particionar todas las funciones en f1, . . . , fT en T /2
pares disjuntos, donde para un par (fi , fi ) tenemos que para todo c C, fi(c) = fi (c) si y sólo si c = vr.
yo
Como para tal par debemos tener S, se sigue que j =Sj,
cuyos rendimientos
T
1 1
= .
T 1[A(Si j )(vr)=fi(vr)] 2
yo=1
Combinando esto con la Ecuación (5.6), la Ecuación (5.4) y la Ecuación (5.3), obtenemos que la
Ecuación (5.1) se cumple, lo que concluye nuestra prueba.
corolario 5.2 Sea X un conjunto de dominio infinito y sea H el conjunto de todas las
funciones desde X hasta {0, 1}. Entonces, H no se puede aprender en PAC.
Machine Translated by Google
64 La compensación de sesgocomplejidad
Prueba Asuma, a modo de contradicción, que la clase es aprendible. Elija algunos < 1/8 y δ < 1/7.
Según la definición de capacidad de aprendizaje de PAC, debe haber algún algoritmo de aprendizaje
A y un número entero m = m(, δ), tal que para cualquier distribución de generación de datos sobre X
× {0, 1}, si para alguna función f : X → {0, 1}, LD(f) = 0, entonces con probabilidad mayor que 1 − δ
cuando A se aplica a muestras S de tamaño m, generada iid por D, LD(A( S)) ≤ . Sin embargo,
aplicando el teorema NoFreeLunch, ya que |X | > 2m, para todo algoritmo de aprendizaje (y en
particular para el algoritmo A), existe una distribución D tal que con probabilidad mayor que 1/7 > δ,
LD( A(S)) > 1/8 > que conduce a la contradicción deseada.
,
¿Cómo podemos prevenir tales fallas? Podemos escapar de los peligros previstos por el teorema
de NoFreeLunch utilizando nuestro conocimiento previo sobre una tarea de aprendizaje específica,
para evitar las distribuciones que nos harán fallar al aprender esa tarea.
Tal conocimiento previo puede expresarse restringiendo nuestra clase de hipótesis.
Pero, ¿cómo debemos elegir una buena clase de hipótesis? Por un lado, queremos creer que
esta clase incluye la hipótesis que no tiene ningún error (en el entorno PAC), o al menos que el error
más pequeño que puede lograr una hipótesis de esta clase es bastante pequeño (en el entorno
agnóstico). configuración). Por otro lado, acabamos de ver que no podemos simplemente elegir la
clase más rica: la clase de todas las funciones sobre el dominio dado. Esta compensación se analiza
en la siguiente sección.
Para responder a esta pregunta, descomponemos el error de un predictor ERMH en dos componentes
de la siguiente manera. Sea hS una hipótesis ERMH . Entonces, podemos escribir
DL(hS) = aplicación
+est donde : aplicación
= min LD(h), est = LD(hS)−app. (5.7) h H
• El error de aproximación: el riesgo mínimo alcanzable por un predictor en la clase de hipótesis. Este
término mide cuánto riesgo tenemos porque nos restringimos a una clase específica, es decir,
cuánto sesgo inductivo tenemos. El error de aproximación no depende del tamaño de la
muestra y está determinado por la clase de hipótesis elegida. Ampliar la clase de hipótesis
puede disminuir el error de aproximación.
1
De hecho, siempre incluye el error del predictor óptimo de Bayes (ver el Capítulo 3),
el error mínimo pero inevitable, debido al posible no determinismo del mundo en este
modelo. A veces, en la literatura, el término error de aproximación no se
refiere a minh H LD(h), sino al exceso de error sobre el predictor óptimo de Bayes,
a saber, minh H LD(h) − Bayes.
Machine Translated by Google
Dado que nuestro objetivo es minimizar el riesgo total, nos enfrentamos a una
compensación, llamada compensación de la complejidad del sesgo. Por un lado, elegir H
como una clase muy rica disminuye el error de aproximación, pero al mismo tiempo puede
aumentar el error de estimación, ya que una H rica puede conducir a un sobreajuste. Por otro
lado, elegir H para que sea un conjunto muy pequeño reduce el error de estimación pero
puede aumentar el error de aproximación o, en otras palabras, puede conducir a un ajuste
insuficiente. Por supuesto, una gran opción para H es la clase que contiene solo un
clasificador: el clasificador óptimo de Bayes. Pero el clasificador óptimo de Bayes depende
de la distribución subyacente D, que no conocemos (de hecho, el aprendizaje habría sido innecesario si hubiéramos conocido D)
La teoría del aprendizaje estudia qué tan rico podemos hacer H manteniendo un error de
estimación razonable. En muchos casos, la investigación empírica se centra en diseñar
buenas clases de hipótesis para un determinado dominio. Aquí, “bueno” significa clases para
las cuales el error de aproximación no sería excesivamente alto. La idea es que aunque no
seamos expertos y no sepamos cómo construir el clasificador óptimo, todavía tenemos un
conocimiento previo del problema específico que nos ocupa, lo que nos permite diseñar
clases de hipótesis para las cuales tanto el error de aproximación como el de estimación error
no son demasiado grandes. Volviendo a nuestro ejemplo de las papayas, no sabemos
exactamente cómo el color y la dureza de una papaya predicen su sabor, pero sabemos que
la papaya es una fruta y, sobre la base de experiencias previas con otras frutas, conjeturamos
que un rectángulo en el el espacio colordureza puede ser un buen predictor.
5.3 Resumen
El teorema NoFreeLunch establece que no hay un alumno universal. Cada alumno tiene
que ser específico para alguna tarea y usar algún conocimiento previo sobre esa tarea, para
tener éxito. Hasta ahora, hemos modelado nuestro conocimiento previo restringiendo nuestra
hipótesis de salida para que sea miembro de una clase de hipótesis elegida.
Al elegir esta clase de hipótesis, nos enfrentamos a una compensación entre una clase más
grande o más compleja que es más probable que tenga un pequeño error de aproximación y
una clase más restringida que garantizaría que el error de estimación
Machine Translated by Google
66
La compensación de sesgocomplejidad
ser pequeño En el próximo capítulo estudiaremos con más detalle el comportamiento del error de
estimación. En el Capítulo 7 discutiremos formas alternativas de expresar el conocimiento previo.
(Wolpert y Macready, 1997) demostraron varios teoremas de noalmuerzo gratis para la optimización,
pero estos son bastante diferentes del teorema que demostramos aquí. El teorema que demostramos
aquí está estrechamente relacionado con los límites inferiores en la teoría de VC, como estudiaremos
en el próximo capítulo.
5.5 Ejercicios
1. Demuestre que la Ecuación (5.2) es suficiente para demostrar que P[LD(A(S)) ≥ 1/8] ≥ 1/7.
Pista: Sea θ una variable aleatoria que recibe valores en [0, 1] y cuya expectativa satisface E[θ] ≥
1/4. Usa el Lema B.1 para mostrar que P[θ ≥ 1/8] ≥ 1/7.
2. Suponga que se le pide que diseñe un algoritmo de aprendizaje para predecir si los pacientes van
a sufrir un ataque al corazón. Las características relevantes del paciente a las que el algoritmo
puede tener acceso incluyen la presión arterial (PA), el índice de masa corporal (IMC), la edad (A),
el nivel de actividad física (P) y los ingresos (I).
Tienes que elegir entre dos algoritmos; el primero elige un rectángulo alineado con el eje en
el espacio de dos dimensiones que abarcan las características BP y BMI y el otro elige un
rectángulo alineado con el eje en el espacio de cinco dimensiones que abarcan todas las
características anteriores.
1. Explique los pros y los contras de cada opción.
2. Explique cómo afectará la cantidad de muestras de capacitación etiquetadas disponibles
tu elección.
3. Demostrar que si |X | ≥ km para un entero positivo k ≥ 2, entonces podemos reemplazar
k−1 2k
6 La dimensión VC
Nuestro objetivo actual es determinar qué clases H se pueden aprender en PAC y caracterizar
exactamente la complejidad de la muestra de aprendizaje de una clase de hipótesis determinada.
Hasta ahora hemos visto que las clases finitas se pueden aprender, pero que la clase de todas
las funciones (sobre un dominio de tamaño infinito) no lo es. ¿Qué hace que una clase se pueda
aprender y la otra no? ¿Se pueden aprender las clases de tamaño infinito y, de ser así, qué
determina la complejidad de su muestra?
Comenzamos el capítulo mostrando que las clases infinitas pueden aprenderse y, por lo tanto,
la finitud de la clase de hipótesis no es una condición necesaria para la capacidad de aprendizaje.
Luego presentamos una caracterización notablemente nítida de la familia de clases aprendibles
en la configuración de la clasificación de valores binarios con la pérdida de cero a uno. Esta
caracterización fue descubierta por primera vez por Vladimir Vapnik y Alexey Chervonenkis en
1970 y se basa en una noción combinatoria llamada dimensión Vapnik Chervonenkis (dimensión
VC). Definimos formalmente la dimensión VC, brindamos varios ejemplos y luego establecemos
el teorema fundamental de la teoría del aprendizaje estadístico, que integra los conceptos de
capacidad de aprendizaje, dimensión VC, la regla ERM y convergencia uniforme.
En el Capítulo 4 vimos que las clases finitas se pueden aprender y, de hecho, la complejidad de
la muestra de una clase de hipótesis está limitada por el logaritmo de su tamaño. Para mostrar
que el tamaño de la clase de hipótesis no es la caracterización correcta de su complejidad de
muestra, primero presentamos un ejemplo simple de una clase de hipótesis de tamaño infinito
que se puede aprender.
Ejemplo 6.1 Sea H el conjunto de funciones umbral sobre la recta real, a saber, H = {ha : a R},
donde ha : R → {0, 1} es una función tal que ha(x) = 1[x <a] .
Para recordar al lector, 1[x<a] es 1 si x < a y 0 en caso contrario. Claramente, H es de infinito
68 La dimensión VC
tamaño. Sin embargo, el siguiente lema muestra que H es aprendible en el modelo PAC usando
el algoritmo ERM.
Lema 6.1 Sea H la clase de umbrales como se definió anteriormente. Entonces, H es PAC
aprendible, usando la regla ERM, con una complejidad de muestra de mH(, δ) ≤ log(2/δ)/.
Demostración Sea a un umbral tal que la hipótesis h (x) = 1[x<a] alcanza LD(h ) = 0. Sea Dx la
distribución marginal sobre el dominio X y sea a0 < a < a1 tal que
masa masa
un 0 a a1
PAG
[LD(hS) > ] ≤ P [b0 < a0 b1 > a1],
S Dm S Dm
PAG
[LD(hS) > ] ≤ P [b0 < a0] + P [b1 > a1]. (6.1)
S Dm S Dm S Dm
El evento b0 < a0 sucede si y solo si todos los ejemplos en S no están en el intervalo (a0, a ),
cuya masa de probabilidad se define como , a saber,
PAG
[b0 < a0] = P [ (x, y) S, x (a0, a )] = (1 − ) metro − metro. ≤ mi
S Dm S Dm
Dado que suponemos m > log(2/δ)/, se deduce que la ecuación es como mucho δ/2.
De la misma manera es fácil ver que PS Dm[b1 > a1] ≤ δ/2. Combinando con la Ecuación (6.1)
concluimos nuestra prueba.
6.2 La dimensión VC
Vemos, por lo tanto, que mientras la finitud de H es una condición suficiente para la capacidad
de aprendizaje, no es una condición necesaria. Como mostraremos, una propiedad llamada
dimensión VC de una clase de hipótesis proporciona la caracterización correcta de su capacidad
de aprendizaje. Para motivar la definición de la dimensión VC, recordemos el teorema NoFree
Lunch (Teorema 5.1) y su demostración. Allí hemos demostrado que sin
Machine Translated by Google
6.2 La dimensión VC 69
Ejemplo 6.2 Sea H la clase de funciones de umbral sobre R. Tome un conjunto C = {c1}.
Ahora, si tomamos a = c1 + 1, entonces tenemos ha(c1) = 1, y si tomamos a = c1 − 1,
entonces tenemos ha(c1) = 0. Por lo tanto, HC es el conjunto de todas las funciones de C
a {0, 1}, y H rompe a C. Ahora tome un conjunto C = {c1, c2}, donde c1 ≤ c2.
Ningún h H puede dar cuenta del etiquetado (0, 1), porque cualquier umbral que asigne
la etiqueta 0 a c1 también debe asignar la etiqueta 0 a c2 . Por lo tanto, no todas las
funciones de C a {0, 1} están incluidas en HC ; por tanto, C no es fragmentado por H.
Volviendo a la construcción de una distribución adversaria como en la demostración del
teorema NoFreeLunch (Teorema 5.1), vemos que siempre que algún conjunto C es
fragmentado por H, el adversario no está restringido por H, ya que puede construir una
distribución sobre C basada en cualquier función objetivo de C a {0, 1}, mientras se
mantiene la suposición de realizabilidad. Esto produce inmediatamente:
corolario 6.4 Sea H una clase de hipótesis de funciones de X a {0, 1}. Sea m el tamaño del
conjunto de entrenamiento. Suponga que existe un conjunto C X de tamaño 2m que es
fragmentado por H. Entonces, para cualquier algoritmo de aprendizaje A, existe una
distribución D sobre X × {0, 1} y un predictor h H tal que LD ( h) = 0 pero con probabilidad
de al menos 1/7 sobre la elección de S Dm tenemos que LD(A(S)) ≥ 1/8.
Machine Translated by Google
70 La dimensión VC
El corolario 6.4 nos dice que si H rompe algún conjunto C de tamaño 2m, entonces no podemos
aprender H usando m ejemplos. Intuitivamente, si H rompe un conjunto C y recibimos una muestra que
contiene la mitad de las instancias de C, las etiquetas de estas instancias no nos dan información sobre
las etiquetas del resto de las instancias en C: todas las etiquetas posibles del resto de las instancias
puede ser explicada por alguna hipótesis en H. Filosóficamente,
definición 6.5 (dimensión VC) La dimensión VC de una clase de hipótesis H, denotada VCdim(H), es el
tamaño máximo de un conjunto C X que puede ser fragmentado por H. Si H puede fragmentar
conjuntos de tamaño arbitrariamente grande, decir que H tiene una dimensión VC infinita.
teorema 6.6 Sea H una clase de dimensión VC infinita. Entonces, H no se puede aprender en PAC.
Prueba Dado que H tiene una dimensión VC infinita, para cualquier conjunto de entrenamiento de
tamaño m, existe un conjunto fragmentado de tamaño 2m, y la afirmación se deriva del Corolario 6.4.
Veremos más adelante en este capítulo que lo contrario también es cierto: una dimensión VC finita
garantiza la capacidad de aprendizaje. Por lo tanto, la dimensión VC caracteriza la capacidad de
aprendizaje del PAC. Pero antes de profundizar en más teoría, primero mostramos varios ejemplos.
6.3 Ejemplos
En esta sección calculamos la dimensión VC de varias clases de hipótesis. Para mostrar que VCdim(H)
= d necesitamos demostrar que
6.3 Ejemplos 71
6.3.2 Intervalos
Sea H la clase de intervalos sobre R, a saber, H = {ha,b : a, b R, a < b}, donde ha,b : R → {0,
1} es una función tal que ha,b (x) = 1[x (a,b)]. Tome el conjunto C = {1, 2}. Entonces, H destruye
a C (asegúrese de entender por qué) y, por lo tanto, VCdim(H) ≥ 2. Ahora tome un conjunto
arbitrario C = {c1, c2, c3} y suponga sin pérdida de generalidad que c1 ≤ c2 ≤ c3. Entonces, el
etiquetado (1, 0, 1) no puede obtenerse por un intervalo y, por lo tanto, H no fragmenta a C. Por lo
tanto, concluimos que VCdim(H) = 2.
H = {h(a1,a2,b1,b2) : a1 ≤ a2 y b1 ≤ b2}
dónde
1 si a1 ≤ x1 ≤ a2 y b1 ≤ x2 ≤ b2
h(a1,a2,b1,b2)(x1, x2) = (6.2)
0 de lo contrario
c1
c4 c5 c2
c3
Figura 6.1 Izquierda: 4 puntos que están fragmentados por rectángulos alineados con el eje. Derecha: cualquier
rectángulo alineado con el eje no puede etiquetar c5 con 0 y el resto de los puntos con 1.
Machine Translated by Google
72 La dimensión VC
Sea H una clase finita. Entonces, claramente, para cualquier conjunto C tenemos |HC | ≤ |H| y por
lo tanto C no puede romperse si |H| < 2 |C| . Esto implica que VCdim(H) ≤ log2 (|H|). Esto muestra
que la capacidad de aprendizaje PAC de clases finitas se deriva de la declaración más general de
la capacidad de aprendizaje PAC de clases con dimensión VC finita, que veremos en la siguiente
sección. Tenga en cuenta, sin embargo, que la dimensión VC de una clase finita H puede ser
significativamente menor que log2 (|H|). Por ejemplo, sea X = {1, . . . , k}, para algún entero k, y
considere la clase de funciones de umbral (como se define en el Ejemplo 6.2). Entonces, |H| = k
pero VCdim(H) = 1. Dado que k puede ser arbitrariamente grande, la brecha entre log2 (|H|) y
VCdim(H) puede ser arbitrariamente grande.
En los ejemplos anteriores, la dimensión VC resultó ser igual al número de parámetros que definen
la clase de hipótesis. Si bien este suele ser el caso, no siempre es cierto. Considere, por ejemplo,
el dominio X = R, y la clase de hipótesis H = {hθ : θ R} donde hθ : X → {0, 1} está definida por
hθ(x) = 0.5 sin(θx). Es posible probar que VCdim(H) = ∞, es decir, para cada d, uno puede
encontrar d puntos que son fragmentados por H (ver Ejercicio 8).
teorema 6.7 (El teorema fundamental del aprendizaje estadístico) Sea H una clase de hipótesis de
funciones de un dominio X a {0, 1} y sea la función de pérdida la pérdida 0 − 1. Entonces los
siguientes son equivalentes:
teorema 6.8 (El teorema fundamental del aprendizaje estadístico – Versión cuantitativa) Sea H
una clase de hipótesis de funciones desde un dominio X hasta {0, 1} y sea la función de pérdida la
pérdida 0 − 1. Suponga que VCdim(H) = d < ∞.
Entonces, existen constantes absolutas C1, C2 tales que:
Machine Translated by Google
d + log(1/δ) d + log(1/δ)
C1 ≤ mH(, 2δ) ≤ C2 2
74 La dimensión VC
definición 6.9 (Función de crecimiento) Sea H una clase de hipótesis. Entonces la función
de crecimiento de H, denotada por τH : N → N, se define como
τH(m) = máx. HC _
C X :|C|=m
Lema 6.10 (SauerShelahPerles) Sea H una clase de hipótesis con VCdim(H) ≤ d < ∞.
d
Entonces, para todo m, τH(m) ≤ i . En particular,
metro
La razón por la cual la Ecuación (6.3) es suficiente para probar el lema es que si VCdim(H) ≤ d
entonces ningún conjunto cuyo tamaño sea mayor que d es fragmentado por H y por lo tanto
d
metro
d
Cuando m > d + 1 el lado derecho del anterior es como máximo (em/d) (ver
Lema A.5 del Apéndice A).
Nos queda probar la Ecuación (6.3) y lo hacemos usando un argumento inductivo.
Para m = 1, no importa cuál sea H, ambos lados de la Ecuación (6.3) son iguales a 1 o
ambos lados son iguales a 2 (siempre se considera que el conjunto vacío está fragmentado
por H). Suponga que la ecuación (6.3) se cumple para conjuntos de tamaño k < m y
demostrémosla para conjuntos de tamaño m. Fijar H y C = {c1, . . . , cm}. Denota C =
{c2, . . . , cm} y además, definir los siguientes dos conjuntos:
Es fácil comprobar que |HC | = |Y0| + |Y1|. Además, como Y0 = HC , usando el supuesto
de inducción (aplicado sobre H y C ) tenemos que
h(c2), . . . , h(cm)},
es decir, H contiene pares de hipótesis que concuerdan en C y difieren en c1. Usando esta definición,
es claro que si H rompe un conjunto B C entonces también rompe el conjunto B {c1} y
viceversa. Combinando esto con el hecho de que Y1 = H y usando la suposición inductiva (ahora
C
aplicada sobre H y C) obtenemos que
En esta sección demostramos que si H tiene un tamaño efectivo pequeño, entonces disfruta de la
propiedad de convergencia uniforme. Formalmente,
teorema 6.11 Sea H una clase y sea τH su función de crecimiento. Entonces, para todo D y todo δ
(0, 1), con probabilidad de al menos 1 − δ sobre la elección de S Dm tenemos
4 + log(τH(2m))
|LD(h) − LS(h)| ≤ δ √ .
2m
Demostración del teorema 6.7 Basta probar que si la dimensión VC es finita, entonces se cumple la
propiedad de convergencia uniforme. Probaremos que 16 d log(2e/d) (δ)
16d 16d
mUC
H (, δ) ≤ 4 (δ) + .
2 registro
2 2
(δ)
d
Del lema de Sauer tenemos que para m > d, τH(2m) ≤ (2em/d) esto con el Teorema . Combinatorio
6.11 obtenemos que con probabilidad de al menos 1 − δ,
4 + registro de d (2em/d)
|LS(h) − LD(h)| ≤ δ √ .
2m
1 2d registro (2em/d)
|LS(h) − LD(h)| ≤ d .
metro
Machine Translated by Google
76 La dimensión VC
Las manipulaciones algebraicas estándar (ver Lema A.2 en el Apéndice A) muestran que una condición
suficiente para que se cumpla lo anterior es que
2d 2d 4 d log(2e/d) +
m≥4 registro
.
2
(δ) (δ) 2 (δ) 2
4 + log(τH(2m))
mi 2m |LD(h) − LS(h)| ≤ sup √ . (6.4)
S Dm h H
Dado que la variable aleatoria suph H |LD(h) − LS(h)| es no negativa, la demostración del teorema se
sigue directamente de la anterior usando la desigualdad de Markov (ver Sección B.1).
Para acotar el lado izquierdo de la Ecuación (6.4), primero observamos que para todo es un
h H, podemos reescribir LD(h) = ES Dm[LS (h)], donde S = z muestra iid z
1 , . . . , metro
y el hecho de que la expectativa superior sea menor que la expectativa de los rendimientos superiores
1 metro
= mi ((h, z
cenar i ) − (h, zi)) .
S,S Dm h H metro
yo=1
(6.5)
Machine Translated by Google
La expectativa en el lado derecho es sobre una elección de dos muestras iid S = z1, . . . , zm y S =
z Dado que todos estos vectores de1 ,2m
. . . , se
m. zeligen iid, nada cambiará si reemplazamos el nombre
del vector aleatorio zi con el nombre del vector aleatorio z i . Si lo hacemos, en lugar del término ((h,
z en la Ecuación (6.5) tendremos el término −((h, z cada σ {±1} m tenemos que la i )−(h, zi))
Ecuación (6.5) es igual a i ) − (h, zi)). Se sigue que para
metro
1
mi sup σi((h, z i ) − (h, zi))
S,S Dm h Hm yo=1
Dado que esto se cumple para cada σ {±1} m, también se cumple si muestreamos cada
componente de σ uniformemente al azar de la distribución uniforme sobre {±1}, denotada como U±.
Por lo tanto, la Ecuación (6.5) también es igual a
metro
1
mi E sup σi((h, z i ) − (h, zi)) ,
σ Um
± S,S Dm h Hm yo=1
1
mi mi sup σi((h, z i ) − (h, zi)) .
S,S Dm σ Um ± h Hm yo=1
1
E sup σi((h, z i ) − (h, zi))
σ Um± h Hm yo=1
metro
1
=E máx σi((h, z i ) − (h, zi)) .
σ Um
± h HC m yo=1
1 metro
Fijamos algo de h HC y denotamos θh metro yo=1 σi((h, z i )−(h, zi)). Dado que E[θh] = 0
= y θh es un promedio de variables independientes, cada una de las cuales toma valores en [−1, 1],
tenemos por la desigualdad de Hoeffding que para todo ρ > 0,
Finalmente, el Lema A.4 del Apéndice A nos dice que lo anterior implica
4 + log(|HC |) |θh| ≤
E máx √ 2m .
h HC
4 + log(τH(2m))
mi cenar |LD(h) − LS(h)| ≤ √ 2m .
S Dm h H
Machine Translated by Google
78 La dimensión VC
6.6 Resumen
6.8 Ejercicios
6.8 Ejercicios 79
X
2. Hat−most−k = {h {0, 1} : |{x : h(x) = 1}| ≤ k o |{x : h(x) = 0}| ≤k}.
3. Sea X el hipercubo booleano {0, 1} n. Para un conjunto I {1, 2, . . . , n} definimos una
función de paridad hI como sigue. En un vector binario x = (x1, x2, . . . , xn) {0, 1} n,
hI (x) = mod xi 2 .
i I
d
|A| .
|HA| ≤ |{B A : H rompe B}| ≤
i
yo=0
Muestre que hay casos en los que las dos desigualdades anteriores son estrictas (es
decir, el ≤ puede ser reemplazado por <) y casos en los que pueden ser reemplazados
por igualdades. Demuestre las cuatro combinaciones de = y <.
5. Dimensión VC de rectángulos alineados con el eje en R d : Dejar Hd ser la clase de . rec
d
rectángulos alineados con el eje Ya hemos visto que VCdim(H2 rec) = 4.
en R Demuestre que, en general, VCdim(Hd rec) = 2d.
6. VCdimensión de conjunciones booleanas: Sea Hd ser la clase de booleano
estafa
conjunciones sobre las variables x1, . . . , xd (d ≥ 2). Ya sabemos que esta clase es
finita y por lo tanto (agnóstica) PAC aprendeble. En esta pregunta calculamos
VCdim(Hd con).
1. Demuestre que |Hd con| d + 1.
≤ 3 2. Concluya que VCdim(H) ≤ d log 3.
3. Demuestre que Hd
estafarompe el conjunto de vectores unitarios {ei : i ≤ d}.
0 yo = j
i, j [d + 1], hi(cj ) =
1 de lo contrario
80 La dimensión VC
H = {x → sen(θx) : θ R}
s si x [a, b]
ha,b,s(x) =
−s si x / [a, b]
Calcular VCdim(H).
10. Sea H una clase de funciones de X a {0, 1}.
1. Demuestre que si VCdim(H) ≥ d, para cualquier d, entonces para alguna distribución de probabilidad
ción D sobre X × {0, 1}, para cada tamaño de muestra, m,
re metro
mi [LD(A(S))] ≥ min DL(h) +
S Dm h H 2d
6.8 Ejercicios 81
1. Demuestra que
Sugerencia: tome un conjunto de k ejemplos y suponga que la clase sindical los destruye. Por
lo tanto, la clase union puede producir todos los 2k posibles etiquetados en estos ejemplos.
Use el lema de Sauer para mostrar que la clase sindical no puede producir más que etiquetas
rkd. Por lo tanto, 2k < rkd . Ahora usa el Lema A.2.
12. Clases de Dudley: en esta pregunta discutimos un marco algebraico para definir clases de
conceptos sobre R n y mostramos una conexión entre la dimensión VC de tales clases y sus
propiedades algebraicas. Dada una función → R definimos la función correspondiente, POS(f)(x)
= 1[f(x)>0]. Para f : R n una clase F de funciones con valores reales definimos una clase
correspondiente de funciones POS(F) = {POS(f) : f F}. Decimos que una familia, F, de funciones
de valor real es linealmente cerrada si para toda f, g Fyr R, (f + rg) F (donde la suma y
la multiplicación escalar de funciones se definen puntualmente, a saber , para todo x R n, (f +
rg)(x) = f(x) + rg(x)). Tenga en cuenta que si una familia de funciones es linealmente cerrada,
podemos verla como un espacio vectorial sobre los reales. Para
definitivamente
3. Muestre que cada una de las siguientes clases se puede representar como un Dudley
clase:
de grado ≤ d, a saber,
d
PAG
norte
= {hp : p es un polinomio de grado ≤ d en las variables x1, . . . , xn},
Machine Translated by Google
82 La dimensión VC
donde, para x = (x1. . . . , xn), hp(x) = 1[p(x)≥0] (el grado de un polinomio multivariable
es la suma máxima de exponentes variables sobre todos
3 2
2 de sus términos. Por ejemplo, el grado de p(x) = 3x 1x 2 1. + 4x3x 7 es 5).
Utilice la representación de Dudley para calcular la dimensión VC de la clase de todos
d clase P 1 los polinomios de grado d sobre R.
2. Demuestre que la clase de todos los clasificadores polinómicos sobre R tiene una
dimensión VC infinita.
3. Utilice la representación de Dudley para calcular la dimensión VC de (en función de d
d clase P y n).
norte
Machine Translated by Google
Las nociones de capacidad de aprendizaje de PAC discutidas hasta ahora en el libro permiten que los
tamaños de muestra dependan de los parámetros de precisión y confianza, pero son uniformes con
respecto a la regla de etiquetado y la distribución de datos subyacente. En consecuencia, las clases que
se pueden aprender en ese sentido están limitadas (deben tener una dimensión VC finita, como establece
el Teorema 6.7). En este capítulo consideramos nociones más relajadas y débiles de capacidad de
aprendizaje. Discutimos la utilidad de tales nociones y proporcionamos una caracterización de las clases
de conceptos que se pueden aprender usando estas definiciones.
Comenzamos esta discusión definiendo una noción de "capacidad de aprendizaje no uniforme" que
permite que el tamaño de la muestra dependa de la hipótesis con la que se compara al alumno. Luego
proporcionamos una caracterización de la capacidad de aprendizaje no uniforme y mostramos que la
capacidad de aprendizaje no uniforme es una relajación estricta de la capacidad de aprendizaje PAC agnóstica.
También mostramos que una condición suficiente para la capacidad de aprendizaje no uniforme es que
H sea una unión contable de clases de hipótesis, cada una de las cuales disfruta de la propiedad de
convergencia uniforme. Estos resultados se probarán en la Sección 7.2 mediante la introducción de un
nuevo paradigma de aprendizaje, que se denomina Minimización de riesgos estructurales (SRM). En la
Sección 7.3 especificamos el paradigma SRM para clases de hipótesis contables, que produce el
paradigma Longitud mínima de descripción (MDL). El paradigma MDL da una justificación formal a un
principio filosófico de inducción llamado la navaja de Oc cam. A continuación, en la Sección 7.4
presentamos la consistencia como una noción aún más débil de capacidad de aprendizaje. Finalmente,
discutimos el significado y la utilidad de las diferentes nociones de capacidad de aprendizaje.
La “capacidad de aprendizaje no uniforme” permite que el tamaño de la muestra no sea uniforme con
respecto a las diferentes hipótesis con las que compite el alumno. Decimos que una hipótesis h es (, δ)
competitiva con otra hipótesis h si, con probabilidad mayor que (1 − δ),
LD(h) ≤ LD(h ) + .
con un riesgo bajo en comparación con el riesgo mínimo alcanzado por las hipótesis de nuestra clase
(en el caso agnóstico). Por lo tanto, el tamaño de la muestra depende únicamente de la precisión
y parámetros de confianza. En la capacidad de aprendizaje no uniforme, sin embargo, permitimos que el
el tamaño de la muestra debe ser de la forma mH(, δ, h); es decir, depende también de la h con
que estamos compitiendo. Formalmente,
definición 7.1 Una clase de hipótesis H es aprendible de manera no uniforme si existe una
algoritmo de aprendizaje, A, y una función mNUL H : (0, 1)2×H → N tal que, para todo
,δ (0, 1) y para todo h H, si m ≥ mNUL H (, δ, h) entonces para toda distribución
D, con probabilidad de al menos 1 − δ sobre la elección de S Dm, se cumple que
LD(A(S)) ≤ LD(h) + .
En este punto, podría ser útil recordar la definición de aprendizaje PAC agnóstico
habilidad (Definición 3.3):
Una clase de hipótesis H es agnósticamente PAC aprendible si existe un algoritmo de aprendizaje, A,
y una función mH : (0, 1)2 → N tal que, para todo , δ (0, 1) y
para toda distribución D, si m ≥ mH(, δ), entonces con probabilidad de al menos 1 − δ
sobre la elección de S Dm se cumple que
LD(A(S)) ≤ LD(h) + .
teorema 7.2 Una clase de hipótesis H de clasificadores binarios es aprendible de manera no uniforme
si y solo si es una unión contable de hipótesis aprendibles PAC agnósticas
clases
teorema 7.3 Sea H una clase de hipótesis que puede escribirse como un
unión de clases de hipótesis, H = n N Hn, donde cada Hn disfruta del uniforme
propiedad de convergencia. Entonces, H es aprendible de manera no uniforme.
Prueba del teorema 7.2 Primero suponga que H = n N Hn donde cada Hn es agnóstico
PAC aprendible. Utilizando el teorema fundamental del aprendizaje estadístico, se
se sigue que cada Hn tiene la propiedad de convergencia uniforme. Por lo tanto, usando
Del teorema 7.3 obtenemos que H es aprendible no uniforme.
Para la otra dirección, suponga que H es aprendible no uniforme usando algún
algoritmo A. Para todo n N, sea Hn = {h H : mNUL H (1/8, 1/7, h) ≤ n}.
Claramente, H = n NHn. Además, usando la definición de mNUL lo sabemos
H
para cualquier distribución D que satisfaga el supuesto de realizabilidad con respecto a
Hn, con probabilidad de al menos 6/7 sobre S Dn tenemos que LD(A(S)) ≤ 1/8.
Usando el teorema fundamental del aprendizaje estadístico, esto implica que la dimensión VC de Hn
debe ser finita y, por lo tanto, Hn es agnóstico PAC aprendible.
El siguiente ejemplo muestra que la capacidad de aprendizaje no uniforme es una relajación estricta
de la capacidad de aprendizaje del PAC agnóstico; es decir, hay clases de hipótesis que son
no uniformes aprendibles pero no agnósticos PAC aprendibles.
Hasta ahora, hemos codificado nuestro conocimiento previo especificando una clase de hipótesis
H, que creemos que incluye un buen predictor para la tarea de aprendizaje en cuestión.
Otra forma más de expresar nuestro conocimiento previo es especificando preferencias sobre
hipótesis dentro de H. En el paradigma de Minimización de Riesgo Estructural (SRM),
lo hacemos suponiendo primero que H se puede escribir como H = n N
hn y luego
especificando una función de peso, w : N → [0, 1], que asigna un peso a cada
clase de hipótesis, Hn, tal que un peso más alto refleja una preferencia más fuerte
para la clase de hipótesis. En esta sección discutimos cómo aprender con tales conocimientos previos.
conocimiento. En la siguiente sección, describimos un par de factores de ponderación importantes.
esquemas, incluida la longitud mínima de descripción.
Machine Translated by Google
Concretamente, sea H una clase de hipótesis que puede escribirse como H = n N Hn.
Por ejemplo, H puede ser la clase de todos los clasificadores polinómicos donde cada Hn es
la clase de clasificadores polinómicos de grado n (ver Ejemplo 7.1). Suponga que para
cada n, la clase Hn disfruta de la propiedad de convergencia uniforme (ver Definición 4.3
en el Capítulo 4) con una función de complejidad de muestra mUC hn (, δ). Definamos también
la función : N × (0, 1) → (0, 1) por
norte
∞
Sea w : N → [0, 1] una función tal que n=1 w(n) ≤ 1. Nos referimos a w como
una función de peso sobre las clases de hipótesis H1, H2, . . .. Tal función de peso
puede reflejar la importancia que el alumno atribuye a cada clase de hipótesis,
o alguna medida de la complejidad de diferentes clases de hipótesis. Si H es finito
unión de N clases de hipótesis, uno puede simplemente asignar el mismo peso de 1/N a
todas las clases de hipótesis. Esta ponderación igual no corresponde a ninguna preferencia a priori
a cualquier clase de hipótesis. Por supuesto, si uno cree (como conocimiento previo) que un
cierta clase de hipótesis es más probable que contenga la función objetivo correcta,
entonces se le debe asignar un peso mayor, reflejando este conocimiento previo. Cuando
H es una unión infinita (contable) de clases de hipótesis, una ponderación uniforme es
no es posible, pero muchos otros esquemas de ponderación pueden funcionar. Por ejemplo, uno puede
6
elija w(n) = o w(n) = π2n2
2−n. Más adelante en este capítulo proporcionaremos otra
manera conveniente de definir funciones de ponderación usando lenguajes de descripción.
La regla SRM sigue un enfoque de "minimización limitada". Esto significa que
el objetivo del paradigma es encontrar una hipótesis que minimice un cierto superior
ligado al riesgo real. El límite que la regla SRM desea minimizar es
dado en el siguiente teorema.
∞
teorema 7.4 Sea w : N → [0, 1] una función tal que H sea una clase de n=1 w(n) ≤ 1. Sea
hipótesis que puede escribirse como H = n N Hn, donde para cada n,
Hn satisface la propiedad de convergencia uniforme con una función de complejidad de muestra
mUC
Hn . Dejar norte ser como se define en la Ecuación (7.1). Entonces, para todo δ (0, 1) y
distribución D, con probabilidad de al menos 1 − δ sobre la elección de S Dm, la
El siguiente límite se cumple (simultáneamente) para cada n Nyh Hn.
1 − δ se cumple que
Prueba Para cada n definir δn = w(n)δ. Aplicando el supuesto de que la convergencia uniforme
se cumple para todo n con la tasa dada en la Ecuación (7.2), obtenemos que si fijamos n de
antemano, entonces con una probabilidad de al menos 1 − δn sobre la elección de S Dm,
Denotar
El paradigma SRM busca h que minimice este límite, como se formaliza en el siguiente
pseudocódigo:
conocimiento previo: H
= Hn donde Hn tiene convergencia uniforme con mUC Hn w : N → [0,
norte 1]
donde w(n) ≤ 1 como en la Ecuación norte
A diferencia del paradigma ERM discutido en capítulos anteriores, ya no solo nos preocupamos
por el riesgo empírico, LS(h), sino que estamos dispuestos a cambiar parte de nuestro sesgo
hacia un riesgo empírico bajo con un sesgo hacia clases para las cuales n(h)( m, w(n(h))∙δ) es
menor, en aras de un menor error de estimación.
A continuación, mostramos que el paradigma SRM se puede utilizar para el aprendizaje no
uniforme de cada clase, que es una unión contable de clases de hipótesis convergentes de
manera uniforme.
teorema 7.5 Sea H una clase de hipótesis tal que H = Hn, donde cada Hn tiene la
n N
propiedad de
convergencia uniforme con complejidad muestral mUC Hn . Sea w : N → [0, 1] tal que w(n)
= n2π2 .
6
Entonces, H se puede aprender de manera no uniforme usando la regla SRM con tasa
mNUL (, δ, h) ≤ mUC /2 ,
H Hn(h) 6δ (πn(h))2 .
Machine Translated by Google
Lo anterior es válido en particular para la hipótesis A(S) devuelta por la regla SRM. Por la
definición de SRM obtenemos que
LD(A(S)) ≤ min LS(h ) + n(h)(m, w(n(h ))δ) ≤ LS(h) + n(h)(m, w(n(h)) δ).
h
Combinando todo lo anterior obtenemos que LD(A(S)) ≤ LD(h) + concluye , que estafa
nuestra demostración.
2 log(2n)
mNUL (, δ, h) − mUChn (/2, δ) ≤ 4C .
H 2
el índice de la primera clase en la que reside h. Ese costo aumenta con el índice.
de la clase, lo que puede interpretarse como un reflejo del valor de conocer un buen orden de
prioridad sobre las hipótesis en H.
Sea H una clase de hipótesis contable. Entonces, podemos escribir H como {hn} contable. Por la
de clases singleton, a saber, H = (Lema 4.5), cada n N unión de desigualdades de Hoeffding
clase singleton tiene la propiedad de convergencia uniforme con tasa log(2/δ) mUC(, δ) = n dada
en la
Ecuación (7.1) . Por lo tanto, la función 2 2
log(2/δ) y la regla SRM se convierte en
se convierte en n(m, δ) = 2m
− log(w(n)) + log(2/δ) 2m
argmín LS(h) + .
hn H
De manera equivalente, podemos pensar en w como una función de H a [0, 1], y luego la regla SRM
se convierte en
− log(w(h)) + log(2/δ) 2m
argmín LS(h) + .
h H
De ello se deduce que en este caso, el conocimiento previo está únicamente determinado por el
peso que le asignamos a cada hipótesis. Asignamos pesos más altos a las hipótesis que creemos
que tienen más probabilidades de ser correctas, y en el algoritmo de aprendizaje preferimos las
hipótesis que tienen pesos más altos.
En esta sección analizamos una forma particularmente conveniente de definir una función de
ponderación sobre H, que se deriva de la extensión de las descripciones dadas a las hipótesis.
Al tener una clase de hipótesis, uno puede preguntarse cómo describimos o representamos cada
hipótesis en la clase. Naturalmente, arreglamos algo de lenguaje de descripción. Puede ser inglés,
un lenguaje de programación o algún conjunto de fórmulas matemáticas. En cualquiera de estos
idiomas, una descripción consta de cadenas finitas de símbolos (o caracteres) extraídas de algún
alfabeto fijo. Ahora formalizaremos estas nociones.
Sea H la clase de hipótesis que deseamos describir. Fijar un conjunto finito Σ de símbolos (o
"caracteres"), que llamamos alfabeto. Para ser concretos, dejamos Σ = {0, 1}. Una cadena es una
secuencia finita de símbolos de Σ; por ejemplo, σ = (0, 1, 1, 1, 0) es una cadena de longitud 5.
Denotamos por |σ| la longitud de una cuerda.
El conjunto de todas las cadenas de longitud finita se denota Σ . Un lenguaje de descripción para
H es una función d : H → Σ , asignando cada miembro h de H a una cadena d(h). d(h) es
llamada “la descripción de h”, y su longitud se denota por |h|.
Exigiremos que los lenguajes de descripción estén libres de prefijos; es decir, para cada h
distinta, h, d(h) no es un prefijo de d(h). Es decir, no permitimos que ninguna cadena d(h) sea
exactamente la primera |h| símbolos de cualquier cadena más larga d(h). Las colecciones de
cadenas sin prefijo disfrutan de la siguiente propiedad combinatoria:
Machine Translated by Google
Lema 7.6 (Desigualdad de Kraft) Si S {0, 1} es un conjunto de cadenas sin prefijo, entonces
≤ 1.
12|
σ| σ S
Prueba Defina una distribución de probabilidad sobre los miembros de S como sigue: Lance
repetidamente una moneda no sesgada, con caras etiquetadas con 0 y 1, hasta que la secuencia
de resultados sea un miembro de S; en ese momento, deténgase. Para cada σ S, sea P(σ) la
probabilidad de que este proceso genere la cadena σ. Tenga en cuenta que dado que S no tiene
prefijo, para cada σ S, si los resultados del lanzamiento de la moneda siguen los bits de σ, nos
detendremos solo una vez que la secuencia de resultados sea igual a σ. Obtenemos por tanto
1
que, para todo σ S, P(σ) = 2 |σ| . Dado que las probabilidades suman como máximo 1, nuestra
prueba está concluida.
teorema 7.7 Sea H una clase de hipótesis y sea d : H → {0, 1} un lenguaje de descripción
libre de prefijos para H. Entonces, para cada tamaño de muestra, m, cada parámetro de
confianza, δ > 0, y cada distribución de probabilidad , D, con probabilidad mayor que 1 − δ
sobre la elección de S Dm tenemos que,
|h| + ln(2/δ)
h H, LD(h) ≤ LS(h) + ,
2m
Prueba Elija w(h) = 1/2 |h| , apliqueel Teorema 7.4 con n(m, δ) = observe que ln(2/δ)
2m ,
y
Como fue el caso con el Teorema 7.4, este resultado sugiere un paradigma de aprendizaje
para H: dado un conjunto de entrenamiento, S, busque una hipótesis h H que minimice el
|h|+ln(2/δ)
límite, LS(h) + 2m . En particular, sugiere compensar el riesgo empírico por ahorrar en la
longitud de la descripción. Esto produce el paradigma de aprendizaje de longitud mínima de
descripción.
conocimiento previo:
H es una clase de hipótesis contable
H se describe mediante un lenguaje sin prefijos sobre {0, 1}
Para todo h H, |h| es la longitud de la representación de h entrada:
Un conjunto de entrenamiento S Dm, confianza δ
|h|+ln(2/δ)
salida: h argminh H LS(h) + 2m
Ejemplo 7.3 Sea H la clase de todos los predictores que pueden implementarse usando algún
lenguaje de programación, digamos, C++. Representemos cada programa usando el
Machine Translated by Google
cadena binaria obtenida al ejecutar el comando gzip en el programa (esto produce un lenguaje de
descripción sin prefijos sobre el alfabeto {0, 1}). Entonces, |h| es simplemente la longitud (en bits) de
la salida de gzip cuando se ejecuta en el programa C++ correspondiente a h.
El teorema 7.7 sugiere que, teniendo dos hipótesis que comparten el mismo riesgo empírico, el
verdadero riesgo de la que tiene una descripción más corta puede estar acotado por un valor más
bajo. Por lo tanto, se puede considerar que este resultado transmite un mensaje filosófico:
Una explicación corta (es decir, una hipótesis que tiene una extensión corta) tiende a ser más
válida que una explicación larga.
Este es un principio bien conocido, llamado la navaja de Occam, en honor a William de Ockham, un
lógico inglés del siglo XIV, quien se cree que fue el primero en expresarlo explícitamente. Aquí,
proporcionamos una posible justificación de este principio. La desigualdad del Teorema 7.7 muestra
que cuanto más compleja es una hipótesis h (en el sentido de tener una descripción más larga),
mayor es el tamaño de la muestra que debe ajustarse para garantizar que tiene un riesgo real
pequeño, LD(h) .
A primera vista, nuestro reclamo de la navaja de afeitar Occam puede parecer algo problemático.
En el contexto en el que se suele invocar el principio de la navaja de Occam en la ciencia, el
lenguaje según el cual se mide la complejidad es un lenguaje natural, mientras que aquí podemos
considerar cualquier lenguaje de descripción abstracto arbitrario. Supongamos que tenemos dos
hipótesis tales que |h | es mucho menor que |h|. Por el resultado anterior, si ambos tienen el mismo
error en un conjunto de entrenamiento dado, S, entonces el verdadero error de h puede ser mucho
,
mayor que el verdadero error de h, por lo que se debe preferir h sobre h. Sin embargo, podríamos
haber elegido un lenguaje de descripción diferente, por ejemplo, uno que asigne una cadena de
longitud 3 a h y una cadena de longitud 100000 a h.
De repente, parece que uno debería preferir la h sobre la h. Pero estos son los mismos h y h para
los que argumentamos hace dos oraciones que h debería ser preferible. ¿Dónde está el truco aquí?
La noción de capacidad de aprendizaje se puede relajar aún más al permitir que los tamaños de
muestra necesarios dependan no solo de , δ y h, sino también de la distribución de probabilidad de
generación de datos subyacente D (que se utiliza para generar la muestra de entrenamiento y
determinar el riesgo) . Este tipo de garantía de desempeño está capturado por la noción de
consistencia1 de una regla de aprendizaje.
LD(A(S)) ≤ LD(h) + .
La noción de consistencia es, por supuesto, una relajación de nuestra noción previa de
capacidad de aprendizaje no uniforme. Claramente, si un algoritmo aprende de manera no uniforme
una clase H, también es universalmente consistente para esa clase. La relajación es estricta en el
sentido de que hay reglas de aprendizaje consistentes que no son exitosas para los estudiantes
no uniformes. Por ejemplo, el algoritmo Memorizar definido en el Ejemplo 7.4 más adelante es
universalmente consistente para la clase de todos los clasificadores binarios sobre N. Sin embargo,
como hemos argumentado antes, esta clase no se puede aprender de manera no uniforme.
Intuitivamente, no es obvio que el algoritmo Memorize deba verse como un aprendiz, ya que
carece del aspecto de generalización, es decir, de usar datos observados para predecir las
etiquetas de ejemplos no vistos. El hecho de que Memorize sea un algoritmo consistente para la
clase de todas las funciones sobre cualquier conjunto de dominios contables genera dudas sobre
la utilidad de las garantías de consistencia. Además, el lector perspicaz puede notar que el "mal
aprendiz" que presentamos en el Capítulo 2,
2 Formalmente, asumimos que Z está dotado de algún álgebra sigma de subconjuntos Ω, y por “todas las
distribuciones” nos referimos a todas las distribuciones de probabilidad que tienen Ω contenido
en su familia asociada de subconjuntos medibles.
Machine Translated by Google
Hemos dado tres definiciones de capacidad de aprendizaje y ahora discutimos su utilidad. Como
suele ser el caso, la utilidad de una definición matemática depende de para qué la necesitemos. Por
lo tanto, enumeramos varios objetivos posibles que pretendemos lograr al definir la capacidad de
aprendizaje y discutimos la utilidad de las diferentes definiciones a la luz de estos objetivos.
¿Cuántos ejemplos se requieren para ser tan buenos como la mejor hipótesis
en H?
Al abordar un problema de aprendizaje, una pregunta natural es cuántos ejemplos necesitamos
recopilar para aprenderlo. Aquí, el aprendizaje de PAC da una respuesta nítida. Sin embargo, tanto
para el aprendizaje no uniforme como para la consistencia, no sabemos de antemano cuántos
ejemplos se requieren para aprender H. En el aprendizaje no uniforme, este número depende de la
mejor hipótesis en H, y en la consistencia también depende de la distribución subyacente. En este
sentido, el aprendizaje PAC es la única definición útil de capacidad de aprendizaje. Por otro lado, se
debe tener en cuenta que incluso si el error de estimación del predictor que aprendemos es pequeño,
su riesgo aún puede ser grande si H tiene un gran error de aproximación. Entonces, para la pregunta
"¿Cuántos ejemplos se requieren para ser tan buenos como el predictor óptimo de Bayes?" incluso
las garantías de PAC no nos brindan una respuesta clara. Esto refleja el hecho de que la utilidad del
aprendizaje de PAC depende de la calidad de nuestro conocimiento previo.
Las garantías de PAC también nos ayudan a comprender qué debemos hacer a continuación si
nuestro algoritmo de aprendizaje arroja una hipótesis con un gran riesgo, ya que podemos acotar la
parte del error que proviene del error de estimación y, por lo tanto, saber cuánto del error se atribuye
a la aproximación. error. Si el error de aproximación es grande, sabemos que debemos usar una clase
de hipótesis diferente. De manera similar, si falla un algoritmo no uniforme, podemos considerar una
función de ponderación diferente sobre (subconjuntos de) hipótesis. Sin embargo, cuando un algoritmo
consistente falla, no sabemos si esto se debe al error de estimación o al error de aproximación.
Además, incluso si estamos seguros de que tenemos un problema con la estimación
Machine Translated by Google
término de error, no sabemos cuántos ejemplos más se necesitan para que el error de
estimación sea pequeño.
Es fácil ver que el riesgo empírico disminuye a medida que aumentamos el grado.
Por lo tanto, si elegimos que H sea la clase de todos los polinomios hasta el grado 10,
entonces la regla ERM con respecto a esta clase generaría un polinomio de 10 grados y se
sobreajustaría. Por otro lado, si elegimos una clase de hipótesis demasiado pequeña,
digamos, polinomios hasta el grado 2, entonces el ERM sufriría un ajuste insuficiente (es
decir, un gran error de aproximación). En contraste, podemos usar la regla SRM en el
conjunto de todos los polinomios, mientras ordenamos los subconjuntos de H según su grado,
y esto producirá un polinomio de tercer grado ya que la combinación de su riesgo empírico y
el límite de su error de estimación es el pequeñísimo. En otras palabras, la regla SRM nos
permite seleccionar el modelo adecuado sobre la base de los propios datos. El precio que
pagamos por esta flexibilidad (además de un ligero aumento del error de estimación en
relación con el aprendizaje de PAC en el grado óptimo) es que no sabemos en
Machine Translated by Google
Recuerde que el teorema NoFreeLunch (Teorema 5.1 del Capítulo 5) implica que ningún algoritmo
puede aprender la clase de todos los clasificadores en un dominio infinito.
En contraste, en este capítulo vimos que el algoritmo Memorizar es consistente con respecto a la
clase de todos los clasificadores sobre un dominio infinito contable. Para entender por qué estos dos
enunciados no se contradicen, primero recordemos el enunciado formal del teorema de NoFreeLunch.
Sea X un dominio infinito contable y sea Y = {±1}. El teorema de NoFreeLunch implica lo siguiente:
Para cualquier algoritmo, A, y un tamaño de conjunto de entrenamiento, m, existe una distribución
sobre X y una función h : X → Y, tal que si A
Machine Translated by Google
obtendrá una muestra de ejemplos de entrenamiento m iid, etiquetados por h , entonces es probable que A
devuelve un clasificador con un error mayor.
La consistencia de Memorize implica lo siguiente: Para cada distribución sobre X y una función de
etiquetado h : X → Y, existe un tamaño de conjunto de entrenamiento m (que depende de la distribución
y de h ) tal que si Memorize recibe al menos m ejemplos es probable que devuelva un clasificador con
un pequeño error.
Vemos que en el teorema NoFreeLunch, primero fijamos el tamaño del conjunto de entrenamiento
y luego encontramos una distribución y una función de etiquetado que son malas para este tamaño del
conjunto de entrenamiento. Por el contrario, en las garantías de consistencia, primero fijamos la función
de distribución y etiquetado, y solo entonces encontramos un tamaño de conjunto de entrenamiento que
sea suficiente para aprender esta función particular de distribución y etiquetado.
7.6 Resumen
7.8 Ejercicios
|h| + ln(2/δ)
hS arg min LS(h) + ,
h H 2m
donde S es una muestra de tamaño m. Para cualquier B > 0, sea HB = {h H : |h| ≤B},
y definir
LD(A(S)) ≤ LD(h) + .
{h H : mNUL(0.1, 0.1, h) ≤ n}. Demuestre que cada clase Hn tiene una dimensión VC finita.
2. Demostrar que si una clase H se puede aprender de manera no uniforme, entonces hay clases
de modo que H =
n N Hn Hn y, para todo n N, VCdim(Hn) es finito.
3. Sea H una clase que fragmenta un conjunto infinito. Entonces, para toda sucesión Hn, existe
de clases (Hn : n N) tales que H = que n N
algún n para
VCdim(Hn) = ∞.
Sugerencia: Dada una clase H que fragmenta un conjunto infinito K, y una secuencia de clases
(Hn : n N), cada una con una dimensión VC finita, comience definiendo subconjuntos Kn
K tales que, para todo n, |Kn | > VCdim(Hn) y para cualquier n = m, Kn ∩ Km = . Ahora,
escoja para cada Kn una función fn : Kn → {0, 1} tal que ninguna h Hn concuerde con fn
en el dominio Kn. Finalmente, defina f : X → {0, 1} combinando estos fn y demuestre que f
H \ Hn . n N
4. Construya una clase H1 de funciones desde el intervalo unitario [0, 1] hasta {0, 1} que se pueda
aprender de manera no uniforme pero que no se pueda aprender con PAC.
5. Construya una clase H2 de funciones desde el intervalo unitario [0, 1] hasta {0, 1} que no se
pueda aprender de manera no uniforme.
6. En esta pregunta, deseamos mostrar que el algoritmo Memorizar es un aprendiz constante para
cada clase de funciones (con valores binarios) en cualquier dominio contable.
Sea X un dominio contable y sea D una distribución de probabilidad sobre X .
1. Sea {xi : i N} una enumeración de los elementos de X tal que para todo
yo ≤ j, D({xi}) ≤ D({xj}). Pruebalo
D({xi}) = 0.
limn→∞
i≥n
7.8 Ejercicios 99
3. Demostrar que para todo η > 0, si n es tal que D({xi}) < η para todo i > n, entonces para
todo m N,
PAG
[ xi : (D({xi}) > η y xi / S)] ≤ ne−ηm.
S Dm
PAG
[D({x : x / S}) > ] < δ.
S Dm
Hasta ahora en el libro hemos estudiado la perspectiva estadística del aprendizaje, es decir,
cuántas muestras se necesitan para aprender. En otras palabras, nos enfocamos en la cantidad
de información que requiere el aprendizaje. Sin embargo, cuando se considera el aprendizaje
automático, los recursos computacionales también juegan un papel importante en la
determinación de la complejidad de una tarea: es decir, la cantidad de computación involucrada
para llevar a cabo una tarea de aprendizaje. Una vez que el alumno dispone de una muestra
de entrenamiento suficiente, se deben realizar algunos cálculos para extraer una hipótesis o
averiguar la etiqueta de una instancia de prueba determinada. Estos recursos computacionales
son cruciales en cualquier aplicación práctica de aprendizaje automático. Nos referimos a estos
dos tipos de recursos como la complejidad de la muestra y la complejidad computacional. En
este capítulo, dirigimos nuestra atención a la complejidad computacional del aprendizaje.
La complejidad computacional del aprendizaje debe verse en el contexto más amplio de la
complejidad computacional de las tareas algorítmicas generales. Esta área ha sido ampliamente
investigada; véase, por ejemplo, (Sipser 2006). Los comentarios introductorios que siguen
resumen las ideas básicas de esa teoría general que son más relevantes para nuestra discusión.
número de bits en su representación). Para las tareas de aprendizaje automático, la noción de tamaño
de entrada no es tan clara. Un algoritmo tiene como objetivo detectar algún patrón en un conjunto de
datos y solo puede acceder a muestras aleatorias de esos datos.
Comenzamos el capítulo discutiendo este tema y definimos la complejidad computacional del
aprendizaje. Para estudiantes avanzados, también proporcionamos una definición formal detallada.
Luego pasamos a considerar la complejidad computacional de implementar la regla ERM. Primero
damos varios ejemplos de clases de hipótesis en las que la regla ERM se puede implementar de
manera eficiente y luego consideramos algunos casos en los que, aunque la clase se puede aprender
de manera eficiente, la implementación de ERM es computacionalmente difícil. De ello se deduce que
la dificultad de implementar ERM no implica la dificultad de aprender. Finalmente, discutimos
brevemente cómo se puede mostrar la dificultad de una tarea de aprendizaje determinada, es decir,
que ningún algoritmo de aprendizaje puede resolverla de manera eficiente.
Recuerde que un algoritmo de aprendizaje tiene acceso a un dominio de ejemplos, Z, una clase de
hipótesis, H, una función de pérdida, y un conjunto de ejemplos de entrenamiento de Z que se
muestrean iid de acuerdo con una distribución desconocida D. Parámetros dados, δ , el algoritmo debe
generar una hipótesis h tal que con una probabilidad de al menos 1 − δ,
1. Dada una función f : (0, 1)2 → N, una tarea de aprendizaje (Z, H, ), y un algoritmo de
aprendizaje A, decimos que A resuelve la tarea de aprendizaje en el tiempo O(f) si existe
algún número constante c, tal que para cada distribución de probabilidad D
Machine Translated by Google
sobre Z, y de entrada, δ (0, 1), cuando A tiene acceso a las muestras generadas iid
por D,
• A termina después de realizar como máximo operaciones cf(, δ)
• La salida de A, denominada hA, se puede aplicar para predecir la etiqueta de un nuevo
ejemplo mientras se realizan como máximo operaciones cf(, δ)
• La salida de A probablemente sea aproximadamente correcta; es decir, con probabilidad de al
menos 1 − δ (sobre las muestras aleatorias que recibe A), LD(hA) ≤
minh H LD(h ) +
2. Considere una secuencia de problemas de aprendizaje, (Zn, Hn, n)∞ n=1, donde problema m
está definida por un dominio Zn, una clase de hipótesis Hn y una función de pérdida norte.
Decimos que A es un algoritmo eficiente con respecto a una secuencia (Zn, Hn, n)
si su tiempo de ejecución es O(p(n, 1/, 1/δ)) para algún polinomio p.
Dada una clase de hipótesis H, la regla ERMH es quizás el aprendizaje más natural
paradigma. Además, para los problemas de clasificación binaria vimos que si el aprendizaje
es del todo posible, es posible con la regla ERM. En esta sección discutimos el
complejidad computacional de implementar la regla ERM para varias hipótesis
clases
Dada una clase de hipótesis, H, un conjunto de dominios Z y una función de pérdida que , el corre
responde a la regla ERMH se pueden definir de la siguiente manera:
Machine Translated by Google
Esta sección estudia el tiempo de ejecución de la implementación de la regla ERM para varios
Ejemplos de tareas de aprendizaje.
Un enfoque directo para implementar la regla ERM sobre una clase de hipótesis finita es realizar
una búsqueda exhaustiva. Es decir, para cada h H calculamos el riesgo empírico, LS(h), y devolvemos
una hipótesis que minimiza el riesgo empírico. Suponiendo que la evaluación de (h, z) en un solo
ejemplo toma una cantidad de tiempo constante, k, el tiempo de ejecución de esta búsqueda exhaustiva
se convierte en k|H|m, donde m es el tamaño del conjunto de entrenamiento. Si dejamos que m sea el
límite superior de la complejidad de la muestra mencionada, entonces el tiempo de ejecución se
convierte en k|H|c log(c|H|/δ)/c .
La dependencia lineal del tiempo de ejecución del tamaño de H hace que este enfoque sea ineficiente
(y poco realista) para clases grandes. Formalmente, si definimos una secuencia de problemas (Zn, Hn,
n)∞ tal que log(|Hn|) = n, entonces
n=1 el enfoque de búsqueda exhaustiva produce un tiempo de ejecución
exponencial. En el ejemplo de los programas C++, si Hn es el conjunto de funciones que puede
implementar un programa C++ escrito en un máximo de n bits de código, entonces el tiempo de ejecución
crece exponencialmente con n, lo que implica que el enfoque de búsqueda exhaustiva no es realista
para el uso práctico. . De hecho, este problema es una de las razones por las que estamos tratando con
otras clases de hipótesis, como las clases de predictores lineales, que encontraremos en el próximo
capítulo, y no solo nos centramos en las clases finitas.
Hn = {h(a1,...,an,b1,...,bn) : i, ai ≤ bi}
dónde
1 si i, xi [ai , bi ]
h(a1,...,an,b1,...,bn)(x, y) = (8.1)
0 de lo contrario
Por otro lado, vale la pena notar que, si fijamos una clase de hipótesis específica, digamos,
rectángulos alineados con el eje en alguna dimensión fija, n, entonces existen algoritmos de
aprendizaje eficientes para esta clase. En otras palabras, hay aprendices PAC agnósticos exitosos
que ejecutan polinomios en el tiempo en 1/ y 1/δ (pero su dependencia de la dimensión n no es
polinomial).
Para ver esto, recuerde la implementación de la regla ERM que presentamos para el caso
realizable, de donde se sigue que un rectángulo alineado con el eje está determinado por 2n
ejemplos como máximo. Por lo tanto, dado un conjunto de entrenamiento de tamaño m, podemos
realizar una búsqueda exhaustiva sobre todos los subconjuntos del conjunto de entrenamiento de
tamaño máximo de 2n ejemplos y construir un rectángulo a partir de cada subconjunto. Entonces, podemos elegir
Machine Translated by Google
Sea Hn sea la clase de todas las conjunciones booleanas sobre {0, 1} n. El tamaño de es
C C
Hn como máximo 3n + 1 (ya que en una fórmula de conjunción, cada elemento de x aparece,
o aparece con un signo de negación, o no aparece en absoluto, y también tenemos la fórmula
de todo negativo). Por lo tanto, la complejidad de la muestra para aprender Hn utilizando
C la
regla ERM es como mucho n log(3/δ)/.
Sea Hn sea la clase de hipótesis de todas las fórmulas DNF de 3 términos. El tamaño
3DNF
de Hn es como máximo 33n. Por lo tanto, la complejidad de la muestra para usando
3DNF 3DNF
aprender Hn la regla ERM es como mucho 3n log(3/δ)/.
Sin embargo, desde la perspectiva computacional, este problema de aprendizaje es difícil.
Se ha demostrado (ver (Pitt & Valiant 1988, Kearns et al. 1994)) que a menos que RP = NP, no existe
un algoritmo de tiempo polinomial que aprenda adecuadamente una secuencia de problemas de
aprendizaje DNF de 3 términos en los que la dimensión de la n El problema es n. Por "correctamente"
queremos decir que el algoritmo debe generar una hipótesis que es una fórmula DNF de 3 términos.
En particular, dado que ERMHn genera una fórmula DNF de 3 términos, es un buen alumno y, por lo
3DNF
tanto, es difícil implementarlo. La prueba utiliza una reducción del problema de coloración de 3
gráficos al problema de PAC que aprende DNF de 3 términos. La técnica detallada se da en el
Ejercicio 3. Ver también (Kearns & Vazirani 1994, Sección 1.4).
En la sección anterior vimos que es imposible implementar la regla ERM de manera eficiente para la
clase Hn de fórmulas 3DNF. En esta sección mostramos que es posible aprender esta clase de
3DNF
manera eficiente, pero usando ERM con respecto a una clase más grande.
el algoritmo puede devolver una hipótesis que no pertenece a la clase de hipótesis original; de ahí el
nombre de aprendizaje “independiente de la representación”. Hacemos hincapié en que, en la mayoría
de las situaciones, devolver una hipótesis con buena capacidad predictiva es lo que realmente nos
interesa hacer.
Comenzamos notando que debido a que se distribuye sobre , cada fórmula DNF de 3 términos
se puede reescribir como
A1 A2 A3 = (u v w)
u A1,v A2,w A3
3
A continuación, definamos: ψ : {0, 1} n tal
→que
{0, 1}
para
(2n)cada triplete de literales u, v, w hay una variable
en el rango de ψ que indica si u v w es verdadero o falso.
3
Entonces, para cada fórmula 3DNF sobre {0, 1} n hay una conjunción sobre {0, 1} (2n) con la misma ,
tabla de verdad. Dado que asumimos que los datos son realizables, podemos resolver el problema
3
ERM con respecto a la clase de conjunciones sobre {0, 1} (2n) .
Además, la complejidad muestral de aprender la clase de conjunciones en el log(1/δ)/. Por lo tanto, el
el espacio dimensional superior es como máximo3 tiempo de ejecución total de
n este enfoque es polinomial en n.
Intuitivamente, la idea es la siguiente. Empezamos con una clase de hipótesis para las que el
aprendizaje es difícil. Cambiamos a otra representación donde la clase de hipótesis es más grande
que la clase original pero tiene más estructura, lo que permite una búsqueda de ERM más eficiente.
En la nueva representación, resolver el problema ERM es fácil.
Acabamos de demostrar que la dificultad computacional de implementar ERMH no implica que tal
clase H no se pueda aprender. ¿Cómo podemos probar que un problema de aprendizaje es
computacionalmente difícil?
Un enfoque es confiar en supuestos criptográficos. En cierto sentido, la criptografía es lo opuesto
al aprendizaje. En el aprendizaje, tratamos de descubrir alguna regla subyacente a los ejemplos que
vemos, mientras que en la criptografía, el objetivo es asegurarse de que nadie pueda descubrir algún
secreto, a pesar de tener acceso.
Machine Translated by Google
a alguna información parcial al respecto. En ese sentido intuitivo de alto nivel, los
resultados sobre la seguridad criptográfica de algún sistema se traducen en resultados
sobre la imposibilidad de aprender de alguna tarea correspondiente. Lamentablemente,
actualmente no hay forma de probar que un protocolo criptográfico no se puede romper.
Incluso la suposición común de P = NP no es suficiente para eso (aunque se puede
demostrar que es necesario para los escenarios criptográficos más comunes). El enfoque
común para probar que los protocolos criptográficos son seguros es comenzar con
algunas suposiciones criptográficas. Cuanto más se utilizan como base para la criptografía,
más fuerte es nuestra creencia de que realmente se cumplen (o, al menos, que los
algoritmos que los refutarán son difíciles de encontrar).
Ahora describimos brevemente la idea básica de cómo deducir la dureza de la
capacidad de aprendizaje a partir de suposiciones criptográficas. Muchos sistemas
criptográficos se basan en la suposición de que existe una función unidireccional. En
términos generales, una función unidireccional es una función f : {0, 1} n → {0, 1} n (más
formalmente, es una secuencia de funciones, una para cada dimensión n) que es fácil de
calcular pero es difícil a en vert. Más formalmente, f se puede calcular en tiempo poli(n)
pero para cualquier algoritmo de tiempo polinómico aleatorio A, y para cada polinomio p(∙),
1
P[f(A(f(x))) = f(x)] < p(n) ,
la clase de funciones que pueden calcularse mediante pequeños circuitos booleanos no se puede
aprender de manera eficiente, incluso en el caso realizable.
8.5 Resumen
La dificultad de implementar la regla ERM para varias clases de hipótesis naturales ha motivado
el desarrollo de métodos de aprendizaje alternativos, que discutiremos en la siguiente parte de
este libro.
Valiant (1984) introdujo el modelo de aprendizaje PAC eficiente en el que se requiere que el tiempo
de ejecución del algoritmo sea polinomial en 1/, 1/δ y el tamaño de representación de las hipótesis
en la clase. En Kearns y Vazirani (1994) se proporciona una discusión detallada y notas
bibliográficas completas.
8.7 Ejercicios
suponga que tal hipótesis puede calcularse dados estos O(n) ejemplos en el tiempo O(n), y que
el riesgo empírico de cada una de esas hipótesis puede evaluarse en el tiempo O(mn). Por
ejemplo, si Hn es la clase de rectángulos alineados con el eje en R n, vimos que es posible
encontrar una hipótesis ERM en el caso realizable que se define por un máximo de 2n ejemplos.
Demuestre que en tales casos, es posible encontrar una hipótesis ERM para Hn en el caso
irrealizable en el tiempo O(mn mO(n) ).
3. En este ejercicio, presentamos varias clases para las cuales encontrar un clasificador ERM es
computacionalmente difícil. Primero, presentamos la clase de semiespacios ndimensionales,
HSn, para un dominio X = R n. Esta es la clase de todas las funciones de la forma hw,b(x) =
sign(w, x + b) donde w, x R n, w, x es su producto interno, y b R. Ver descripción detallada
en el Capítulo 9.
1. Muestre que ERMH sobre la clase H = HSn de predictores lineales es computacionalmente
difícil. Más precisamente, consideramos la secuencia de problemas en los que la dimensión n
crece linealmente y el número de ejemplos m se establece como algo constante por n.
Sugerencia: puede probar la dureza mediante una reducción del siguiente problema:
m×n y b m
Max FS: Dado un sistema de desigualdades lineales, Ax > b con A R
R (es decir, un sistema de m desigualdades lineales en n variables, x = (x1, . . . , xn)),
encuentre un subsistema que contenga tantas desigualdades como sea posible que tenga
una solución (tal subsistema se llama factible).
Se ha demostrado (Sankaran 1993) que el problema Max FS es NPdifícil.
Demuestre que cualquier algoritmo que encuentre una hipótesis ERMHSn para cualquier
muestra de entrenamiento S (R n × {+1, −1}) m puede usarse para resolver el problema
Max FS de tamaño m, n. Sugerencia: defina una aplicación que transforme desigualdades
lineales en n variables en puntos etiquetados en R n, y una aplicación que transforme vectores
en R n en semiespacios, de modo que un vector w satisfaga una desigualdad q si y solo si el
punto etiquetado que corresponde a q se clasifica correctamente por el semiespacio
correspondiente a w. Concluya que el problema de minimización de riesgo empírico para
semiespacios también en NPdifícil (es decir, si se puede resolver en un polinomio de tiempo
en el tamaño de muestra, m, y la dimensión euclidiana, n, entonces todos los problemas en la
clase NP se pueden resolver resuelto en tiempo polinomial). Sea la clase de todas las
semiespacios en R n. En este k intersecciones de kmuchos lineales 2. Sea X = R n y Hn
ejercicio, queremos mostrar que ERMHn es supuestamente difícil para todo k ≥ 3. es com
k
Precisamente, consideramos una secuencia de problemas donde k ≥ 3 es una constante y n
crece linealmente. El tamaño del conjunto de entrenamiento, m, también crece linealmente
con n.
Con este objetivo, considere el problema de coloración k para gráficos, definido de la siguiente
manera:
Dada una gráfica G = (V, E), y un número k, determine si existe una función f : V → {1 . . .
k} de modo que para todo (u, v) E, f(u) = f(v).
Se sabe que el problema de la coloración de k es NPdifícil para cada k ≥ 3 (Karp 1972).
Machine Translated by Google
1. Demostrar que si existe algún h Hn k que tiene cero error sobre S(G)
entonces G es kcoloreable.
Pista: Sea h = hj sea un clasificador ERM en Hn sobre kS. Defina una coloración
kj=1
de V estableciendo f(vi) como el mínimo j tal que hj (ei) = −1.
Usa el hecho de que los semiespacios son conjuntos convexos para mostrar que no puede
ser cierto que dos vértices que están conectados por una arista tengan el mismo color.
definición 8.2 La clase de complejidad Polinomio aleatorio (RP) El tiempo es la clase de todos los
problemas de decisión (es decir, problemas en los que en cualquier caso uno tiene que averiguar
si la respuesta es SÍ o NO) para los que existe un algoritmo probabilístico (es decir, , el algoritmo
puede lanzar monedas al azar mientras se ejecuta) con estas propiedades: • En cualquier instancia
de entrada, el algoritmo se ejecuta en tiempo
polinomial en la entrada
tamaño.
1
La constante 1/2 en la definición se puede reemplazar por cualquier constante en (0, 1).
Machine Translated by Google
mayor que RP. En particular, se cree que los problemas NPdifíciles no pueden resolverse
mediante un algoritmo de tiempo polinómico aleatorio. •
Demostrar que si una clase H es apropiadamente PAC aprendible por un algoritmo de tiempo
polinomial, entonces el problema ERMH está en la clase RP. En particular, esto implica
que siempre que el problema ERMH sea NPdifícil (por ejemplo, la clase de intersecciones
de semiespacios discutida en el ejercicio anterior), entonces, a menos que NP = RP, no
existe un algoritmo de aprendizaje PAC propio del tiempo polinomial para H.
Parte II