Está en la página 1de 116

Machine Translated by Google

Comprender el aprendizaje automático:


De la teoría a los algoritmos

c 2014 por Shai Shalev­Shwartz y Shai Ben­David

Publicado en 2014 por Cambridge University Press.

Esta copia es solo para uso personal. No para distribucion.


No publicar. Enlace a: http://
www.cs.huji.ac.il/~shais/UnderstandingMachineLearning

Tenga en cuenta: esta copia es casi, pero no del todo, idéntica a la versión impresa del libro.
En particular, los números de página no son idénticos (pero los números de sección son los
mismos).
Machine Translated by Google
Machine Translated by Google

Comprender el aprendizaje automático

El aprendizaje automático es una de las áreas de la informática de más rápido crecimiento,


con aplicaciones de largo alcance. El objetivo de este libro de texto es introducir
el aprendizaje automático y los paradigmas algorítmicos que ofrece, de manera basada
en principios. El libro proporciona una extensa descripción teórica de la
ideas fundamentales que subyacen al aprendizaje automático y las matemáticas
derivaciones que transforman estos principios en algoritmos prácticos. Después de una
presentación de los conceptos básicos del campo, el libro cubre una amplia
variedad de temas centrales que no han sido tratados en libros de texto anteriores. Estos
incluyen una discusión de la complejidad computacional de
el aprendizaje y los conceptos de convexidad y estabilidad; importantes paradigmas
algorítmicos que incluyen descenso de gradiente estocástico, redes neuronales,
y aprendizaje de resultados estructurados; y conceptos teóricos emergentes tales como
el enfoque PAC­Bayes y los límites basados en la compresión. Diseñado para
un curso de pregrado avanzado o de posgrado inicial, el texto hace
los fundamentos y algoritmos del aprendizaje automático accesibles para estudiantes y
lectores no expertos en estadística, informática, matemáticas,
e ingeniería.

Shai Shalev­Shwartz es profesora adjunta en la Escuela de Informática


Ciencias e Ingeniería en la Universidad Hebrea, Israel.

Shai Ben­David es profesor en la Escuela de Informática de la


Universidad de Waterloo, Canadá.
Machine Translated by Google

COMPRENSIÓN
APRENDIZAJE AUTOMÁTICO

De Teoría a
Algoritmos

Shai Shalev­Shwartz
La Universidad Hebrea, Jerusalén

Shai Ben­David
Universidad de Waterloo, Canadá
Machine Translated by Google

32 Avenida de las Américas, Nueva York, NY 10013­2473, EE. UU.

Cambridge University Press es parte de la Universidad de Cambridge.

Promueve la misión de la Universidad mediante la difusión del conocimiento en la búsqueda de la educación, el


aprendizaje y la investigación en los más altos niveles internacionales de excelencia.

www.cambridge.org
Información sobre este título: www.cambridge.org/9781107057135

c Shai Shalev­Shwartz y Shai Ben­David 2014

Esta publicación tiene derechos de autor. Sujeto a excepción legal y a las


disposiciones de los acuerdos de licencia colectiva relevantes, no se puede realizar
ninguna reproducción de ninguna parte sin el permiso por escrito de Cambridge
University Press.

Publicado por primera vez en 2014

Impreso en los Estados Unidos de América

Un registro de catálogo para esta publicación está disponible en la Biblioteca Británica.

Catalogación de la Biblioteca del Congreso en datos de publicación

ISBN 978­1­107­05713­5 Tapa dura

Cambridge University Press no se hace responsable de la persistencia o precisión de las URL de los sitios
web de Internet externos o de terceros a los que se hace referencia en esta publicación, y no garantiza que
el contenido de dichos sitios web sea, o siga siendo, exacto o apropiado.
Machine Translated by Google

Triple­S dedica el libro a triple­M


Machine Translated by Google

viii

Prefacio

El término aprendizaje automático se refiere a la detección automatizada de patrones significativos en


los datos. En las últimas dos décadas se ha convertido en una herramienta común en casi cualquier
tarea que requiera la extracción de información de grandes conjuntos de datos. Estamos rodeados de
una tecnología basada en el aprendizaje automático: los motores de búsqueda aprenden cómo
brindarnos los mejores resultados (mientras colocan anuncios rentables), el software antispam aprende
a filtrar nuestros mensajes de correo electrónico y las transacciones con tarjeta de crédito están
protegidas por un software que aprende cómo para detectar fraudes. Las cámaras digitales aprenden
a detectar rostros y las aplicaciones inteligentes de asistencia personal en los teléfonos inteligentes
aprenden a reconocer los comandos de voz. Los automóviles están equipados con sistemas de
prevención de accidentes que se construyen utilizando algoritmos de aprendizaje automático. El
aprendizaje automático también se usa ampliamente en aplicaciones científicas como la bioinformática, la medicina y la astronomía.
Una característica común de todas estas aplicaciones es que, a diferencia de los usos más
tradicionales de las computadoras, en estos casos, debido a la complejidad de los patrones que deben
detectarse, un programador humano no puede proporcionar una especificación explícita y detallada
de cómo tales tareas deben ser ejecutadas. Tomando el ejemplo de seres inteligentes, muchas de
nuestras habilidades se adquieren o refinan aprendiendo de nuestra experiencia (en lugar de seguir
instrucciones explícitas que se nos dan). Las herramientas de aprendizaje automático se ocupan de
dotar a los programas de la capacidad de "aprender" y adaptarse.

El primer objetivo de este libro es proporcionar una introducción rigurosa, pero fácil de seguir, a los
conceptos principales que subyacen al aprendizaje automático: ¿Qué es el aprendizaje?
¿Cómo puede aprender una máquina? ¿Cómo cuantificamos los recursos necesarios para aprender
un concepto dado? ¿Es siempre posible aprender? ¿Podemos saber si el proceso de aprendizaje tuvo
éxito o fracasó?
El segundo objetivo de este libro es presentar varios algoritmos clave de aprendizaje automático.
Elegimos presentar algoritmos que, por un lado, se utilizan con éxito en la práctica y, por otro lado,
brindan un amplio espectro de diferentes técnicas de aprendizaje. Además, prestamos especial
atención a los algoritmos apropiados para el aprendizaje a gran escala (también conocido como "Big
Data"), ya que en los últimos años, nuestro mundo se ha vuelto cada vez más "digitalizado" y la
cantidad de datos disponibles para el aprendizaje está aumentando drásticamente. Como resultado,
en muchas aplicaciones los datos son abundantes y el tiempo de cálculo es el principal cuello de
botella. Por lo tanto, cuantificamos explícitamente tanto la cantidad de datos como la cantidad de
tiempo de cálculo necesarios para aprender un concepto dado.

El libro está dividido en cuatro partes. La primera parte pretende dar una respuesta inicial rigurosa
a las cuestiones fundamentales del aprendizaje. Describimos una generalización del modelo de
aprendizaje Probablemente aproximadamente correcto (PAC) de Valiant, que es una primera respuesta
sólida a la pregunta "¿qué es aprender?". Describimos las reglas de aprendizaje de Minimización de
riesgos empíricos (ERM), Minimización de riesgos estructurales (SRM) y Longitud mínima de
descripción (MDL), que muestran "cómo puede aprender una máquina". Cuantificamos la cantidad de
datos necesarios para el aprendizaje usando las reglas ERM, SRM y MDL y mostramos cómo el
aprendizaje puede fallar al derivar
Machine Translated by Google

viii

un teorema de "no­almuerzo gratis". También discutimos cuánto tiempo de cálculo se


requiere para el aprendizaje. En la segunda parte del libro describimos varios algoritmos de
aprendizaje. Para algunos de los algoritmos, primero presentamos un principio de
aprendizaje más general y luego mostramos cómo el algoritmo sigue el principio. Mientras
que las dos primeras partes del libro se enfocan en el modelo PAC, la tercera parte amplía
el alcance al presentar una variedad más amplia de modelos de aprendizaje. Finalmente, la
última parte del libro está dedicada a la teoría avanzada.
Hicimos un intento de mantener el libro lo más autónomo posible. Sin embargo, se
supone que el lector se siente cómodo con las nociones básicas de probabilidad, álgebra
lineal, análisis y algoritmos. Las primeras tres partes del libro están destinadas a estudiantes
de posgrado de primer año en informática, ingeniería, matemáticas o estadística. También
puede ser accesible para estudiantes de pregrado con la formación adecuada. Los capítulos
más avanzados pueden ser utilizados por investigadores que deseen obtener una
comprensión teórica más profunda.

Agradecimientos

El libro se basa en los cursos de Introducción al aprendizaje automático impartidos por Shai
Shalev­Shwartz en la Universidad Hebrea y por Shai Ben­David en la Universidad de
Waterloo. El primer borrador del libro surgió de las notas de clase del curso impartido en la
Universidad Hebrea por Shai Shalev­Shwartz durante 2010­2013. Agradecemos mucho la
ayuda de Ohad Shamir, quien se desempeñó como TA para el curso en 2010, y de Alon
Gonen, quien se desempeñó como TA para el curso en 2011­2013. Ohad y Alon prepararon
algunas notas de lectura y muchos de los ejercicios. Alon, a quien estamos en deuda por su
ayuda durante toda la realización del libro, también ha preparado un manual de solución.

Estamos profundamente agradecidos por el trabajo más valioso de Dana Rubinstein.


Dana ha corregido y editado científicamente el manuscrito, transformándolo de capítulos
basados en conferencias en un texto fluido y coherente.
Un agradecimiento especial a Amit Daniely, quien nos ayudó con una lectura cuidadosa
de la parte avanzada del libro y también escribió el capítulo avanzado sobre capacidad de
aprendizaje multiclase. También estamos agradecidos por los miembros de un club de
lectura de libros en Jerusalén que leyeron cuidadosamente y criticaron constructivamente
cada línea del manuscrito. Los miembros del club de lectura son: Maya Alroy, Yossi Arje
vani, Aharon Birnbaum, Alon Cohen, Alon Gonen, Roi Livni, Ofer Meshi, Dan Rosenbaum,
Dana Rubinstein, Shahar Somin, Alon Vinnikov y Yoav Wald.
También nos gustaría agradecer a Gal Elidan, Amir Globerson, Nika Haghtalab, Shie
Mannor, Amnon Shashua, Nati Srebro y Ruth Urner por sus útiles debates.

Shai Shalev­Shwartz, Jerusalén, Israel


Shai Ben­David, Waterloo, Canadá
Machine Translated by Google

Contenido

Prefacio página vii

1 Introducción 19
1.1 ¿Qué es el aprendizaje? 19
1.2 ¿Cuándo necesitamos el aprendizaje automático? 21
1.3 Tipos de aprendizaje 1.4 22
Relaciones con otros campos 24
1.5 Cómo leer este libro 25
1.5.1 Posibles planes de cursos basados en este libro 26
1.6 Notación 27

Parte I Fundamentos 31

2 Un comienzo suave 33
2.1 Un modelo formal: el marco de aprendizaje estadístico 2.2 Minimización 33
empírica del riesgo 2.2.1 Algo puede salir 35
mal: sobreajuste 2.3 Minimización empírica del riesgo con 35
sesgo inductivo 2.3.1 Clases de hipótesis finitas 2.4 Ejercicios 36
37
41

3 Un modelo de aprendizaje formal 43


3.1 Aprendizaje PAC 3.2 43
Un modelo de aprendizaje más general 3.2.1 44
Liberación del supuesto de realizabilidad: PAC agnóstico
Aprendizaje 45
3.2.2 El alcance de los problemas de aprendizaje modelados 47
3.3 Resumen 3.4 49
Comentarios bibliográficos 3.5 50
Ejercicios 50

4 Aprendizaje a través de la convergencia uniforme 54


4.1 La convergencia uniforme es suficiente para la capacidad de aprendizaje 54
4.2 Las clases finitas son aptas para el aprendizaje del PAC agnóstico 55

Entendiendo el aprendizaje automático, c 2014 por Shai Shalev­Shwartz y Shai Ben­David


Publicado en 2014 por Cambridge University Press.
Solo para uso personal. No para distribucion. No publicar.
Enlace a http://www.cs.huji.ac.il/~shais/UnderstandingMachineLearning
Machine Translated by Google

X Contenido

4.3 Resumen 4.4 58

Comentarios bibliográficos 4.5 Ejercicios 58


58

5 El equilibrio entre el sesgo y la complejidad 60


5.1 El teorema de no comer gratis 61

5.1.1 No­Free­Lunch y conocimiento previo 5.2 63


Descomposición de errores 5.3 64

Resumen 5.4 sesenta y cinco

Comentarios bibliográficos 5.5 Ejercicios 66


66

6 La dimensión VC 67
6.1 Las clases de tamaño infinito se pueden aprender 67
6.2 La dimensión VC 68
6.3 Ejemplos 70
6.3.1 Funciones de umbral 70
6.3.2 Intervalos 6.3.3 71

Rectángulos alineados con el eje 6.3.4 71


Clases finitas 6.3.5 Dimensión 72
VC y número de parámetros 72

6.4 El teorema fundamental del aprendizaje PAC 6.5 Prueba del 72


teorema 6.7 73
6.5.1 Lema de Sauer y función de crecimiento 73

6.5.2 Convergencia Uniforme para Clases de Tamaño Efectivo Pequeño 75

6.6 Resumen 6.7 78

Comentarios bibliográficos 6.8 78


Ejercicios 78

7 Capacidad de aprendizaje no 83

uniforme 7.1 Capacidad de aprendizaje 83

no uniforme 7.1.1 Caracterización de la capacidad de aprendizaje 84


no uniforme 7.2 Minimización del riesgo estructural 85

7.3 Longitud mínima de descripción y navaja de Occam 89


7.3.1 Navaja de Occam 91

7.4 Otras nociones de capacidad de aprendizaje: consistencia 7.5 92

Discusión de las diferentes nociones de capacidad de aprendizaje 7.5.1 93


Revisión del teorema de no­almuerzo gratis 95

7.6 Resumen 7.7 96

Comentarios bibliográficos 7.8 Ejercicios 97


97

8 El tiempo de ejecución del 100

aprendizaje 8.1 Complejidad computacional del aprendizaje 101


Machine Translated by Google

Contenido xi

8.1.1 Definición formal* 102


8.2 Implementando la regla ERM 8.2.1 103
Clases finitas 104
8.2.2 Rectángulos alineados con el eje 105
8.2.3 Conjunciones booleanas 8.2.4 106
Aprendizaje de 3 términos DNF 8.3 107
Eficientemente aprendible, pero no por un ERM adecuado 8.4 107
Dificultad de aprendizaje* 8.5 108
Resumen 8.6 110
Comentarios bibliográficos 8.7 110
Ejercicios 110

Parte II De la teoría a los algoritmos 115

9 Predictores lineales 117


9.1 Medios espacios 118
9.1.1 Programación lineal para la clase de semiespacios 9.1.2 119
Perceptrón para semiespacios 9.1.3 La 120
dimensión VC de semiespacios 9.2 Regresión lineal 122
9.2.1 Mínimos cuadrados 123
9.2.2 Regresión lineal para 124
tareas de regresión polinomial 9.3 Regresión logística 9.4 Resumen 9.5 125
Comentarios bibliográficos 9.6 126
Ejercicios 128
128
128

10 Impulso 130
10.1 Capacidad de aprendizaje 131
débil 10.1.1 Implementación eficiente de ERM para tocones de decisión 133
10.2 AdaBoost 134
10.3 Combinaciones lineales de hipótesis base 10.3.1 La 137
dimensión VC de L(B, T) 139
10.4 AdaBoost para reconocimiento facial 10.5 140
Resumen 10.6 141
Comentarios bibliográficos 10.7 141
Ejercicios 142

11 Selección y validación del modelo 11.1 144


Selección del modelo mediante SRM 11.2 145
Validación 11.2.1 146
Conjunto de retención 146
11.2.2 Validación para la selección del modelo 147
11.2.3 La curva de selección de modelo 148
Machine Translated by Google

xi Contenido

11.2.4 Validación cruzada de k­fold 149


11.2.5 Dividir tren­validación­prueba 150
11.3 Qué hacer si falla el aprendizaje 11.4 151
Resumen 11.5 154
Ejercicios 154

12 Problemas de aprendizaje convexos 156


12.1 Convexidad, Lipschitzness y Suavidad 12.1.1 Convexidad 156
12.1.2 Lipschitzness 156
12.1.3 Suavidad 160
162
12.2 Problemas de aprendizaje convexos 163
12.2.1 Capacidad de aprendizaje de problemas de aprendizaje 164
convexos 12.2.2 Problemas de aprendizaje convexo­Lipschitz/de límite suave 166
12.3 Funciones de pérdida sustitutas 167
12.4 Resumen 12.5 168
Comentarios bibliográficos 12.6 169
Ejercicios 169

13 Regularización y estabilidad 13.1 171


Minimización de pérdida regularizada 13.1.1 171
Regresión de cresta 13.2 Las 172
reglas estables no se ajustan en exceso 173
13.3 La regularización de Tikhonov como estabilizador 174
13.3.1 Pérdida de Lipschitz 176
13.3.2 Pérdida uniforme y no negativa 13.4 177
Control del equilibrio entre ajuste y estabilidad 13.5 Resumen 178
13.6 Comentarios 180
bibliográficos 13.7 Ejercicios 180
181

14 Descenso de gradiente estocástico 184


14.1 Descenso de gradiente 185
14.1.1 Análisis de GD para funciones de Lipschitz convexas 14.2 186
Subgradientes 14.2.1 188
Cálculo de subgradientes 14.2.2 189
Subgradientes de funciones de Lipschitz 14.2.3 190
Descenso de subgradiente 14.3 190
Descenso de gradiente estocástico (SGD) 191
14.3.1 Análisis de SGD para funciones convexas con límites de Lipschitz 191
14.4 Variantes 193
14.4.1 Agregar un paso de proyección 193
14.4.2 Tamaño de paso variable 194
14.4.3 Otras técnicas de promedio 195
Machine Translated by Google

Contenido XIII

14.4.4 Funciones fuertemente convexas* 195


14.5 Aprendizaje con SGD 196
14.5.1 SGD para la minimización de riesgos 196
14.5.2 Análisis de SGD para problemas de aprendizaje convexo­suave 198
14.5.3 SGD para minimización de pérdidas regularizada 199
14.6 Resumen 200
14.7 Comentarios bibliográficos 200
14.8 Ejercicios 201

15 Máquinas de vectores de 202


soporte 15.1 Margen y Hard­SVM 202
15.1.1 El caso homogéneo 15.1.2 205
La complejidad de la muestra de Hard­SVM 205
15.2 Regularización de normas y Soft­SVM 206
15.2.1 La complejidad de la muestra de Soft­SVM 208
15.2.2 Margen y límites basados en normas versus dimensión 15.2.3 208
La pérdida de rampa* 15.3 209
Condiciones de optimización y "vectores de soporte"* 15.4 210
Dualidad* 15.5 211
Implementación de Soft­SVM usando SGD 15.6 212
Resumen 15.7 213
Comentarios bibliográficos 15.8 213
Ejercicios 214

dieciséis Métodos del núcleo 215


16.1 Incrustaciones en espacios de funciones 215
16.2 El truco del núcleo 217
16.2.1 Kernels como forma de expresar conocimientos previos 221
16.2.2 Caracterización de las funciones del kernel* 222
16.3 Implementando Soft­SVM con Kernels 16.4 222
Resumen 16.5 224
Comentarios bibliográficos 16.6 225
Ejercicios 225

17 Problemas multiclase, de clasificación y de predicción compleja 17.1 227


Uno contra todos y todos los pares 227
17.2 Predictores multiclase lineales 230
17.2.1 Cómo construir Ψ 17.2.2 230
Clasificación sensible al costo 232
17.2.3 ERM 232
17.2.4 Pérdida de articulación 233
generalizada 17.2.5 SVM y SGD multiclase 234
17.3 Predicción de salida estructurada 17.4 236
Clasificación 238
Machine Translated by Google

xiv Contenido

17.4.1 Predictores lineales para la clasificación 240


17.5 Clasificación bipartita y medidas de rendimiento multivariadas 243
17.5.1 Predictores lineales para clasificación bipartita 245
17.6 Resumen 17.7 247
Comentarios bibliográficos 17.8 247
Ejercicios 248

18 Árboles de decisión 250


18.1 Complejidad de la muestra 251
18.2 Algoritmos de árboles de decisión 252
18.2.1 Implementaciones de la medida de ganancia 18.2.2 253
Poda 18.2.3 Reglas 254
de división basadas en umbrales para características de valor real 255
18.3 Bosques aleatorios 255
18.4 Resumen 18.5 256
Comentarios bibliográficos 18.6 256
Ejercicios 256

19 Vecino más cercano 258


19.1 k Vecinos más cercanos 19.2 258
Análisis 19.2.1 Un 259
límite de generalización para la regla 1­NN 260
19.2.2 La “maldición de la dimensionalidad” 263
19.3 Implementación eficiente* 19.4 264
Resumen 19.5 264
Comentarios bibliográficos 19.6 264
Ejercicios 265

20 Redes neuronales 268


20.1 Redes neuronales de avance 269
20.2 Aprendizaje de redes neuronales 270
20.3 El poder expresivo de las redes neuronales 271
20.3.1 Intuición geométrica 273
20.4 La complejidad de la muestra de las redes neuronales 20.5 274
El tiempo de ejecución de las redes neuronales de aprendizaje 276
20.6 SGD y retropropagación 20.7 Resumen 277
20.8 Comentarios 281
bibliográficos 20.9 Ejercicios 281
282

Parte III Modelos de aprendizaje adicionales 285

21 Aprendizaje en línea 287


21.1 Clasificación en línea en el caso realizable 288
Machine Translated by Google

Contenido XV

21.1.1 Aprendizaje en línea 21.2 290


Clasificación en línea en el caso irrealizable 294
21.2.1 Mayoría ponderada 21.3 295
Optimización convexa en línea 21.4 El 300
algoritmo del perceptrón en línea 21.5 Resumen 301
21.6 Comentarios 304
bibliográficos 21.7 Ejercicios 305
305

22 Agrupamiento 307
22.1 Algoritmos de agrupamiento basados en vínculos 310
22.2 Agrupamientos de minimización de k­medias y otros costos 22.2.1 311
El algoritmo de k­medias 22.3 313
Agrupamiento espectral 22.3.1 315
Corte de gráficos 22.3.2 315
Cortes de gráficos relajados y laplacianos de gráficos 22.3.3 315
Agrupamiento espectral no normalizado 22.4 Cuello 317
de botella de información * 22.5 Una 317
visión de alto nivel del agrupamiento 22.6 318
Resumen 22.7 320
Comentarios bibliográficos 22.8 320
Ejercicios 320

23 Reducción de dimensionalidad 323


23.1 Análisis de componentes principales (PCA) 324
23.1.1 Una solución más eficiente para el caso dm 326
23.1.2 Implementación y demostración 23.2 326
Proyecciones aleatorias 23.3 329
Detección comprimida 23.3.1 330
Pruebas* 23.4 333
¿PCA o detección comprimida? 338
23.5 Resumen 23.6 338
Comentarios bibliográficos 23.7 339
Ejercicios 339

24 Modelos Generativos 342


24.1 Estimador de máxima verosimilitud 343
24.1.1 Estimación de máxima verosimilitud para corridas continuas
variables dom 344
24.1.2 Máxima Verosimilitud y Minimización del Riesgo Empírico 24.1.3 Análisis 345
de Generalización 24.2 Naive Bayes 345
24.3 Análisis 347
Discriminante Lineal 24.4 Variables Latentes 347
y el Algoritmo EM 348
Machine Translated by Google

xvi Contenido

24.4.1 EM como algoritmo de maximización alternativo 24.4.2 EM 350

para mezcla de gaussianas (medias k blandas) 352


24.5 Razonamiento bayesiano 353
24.6 Resumen 24.7 355
Comentarios bibliográficos 24.8 355
Ejercicios 356

25 Selección y generación de características 357


25.1 Selección de funciones 358
25.1.1 Filtros 359
25.1.2 Enfoques de selección codiciosos 25.1.3 360
Normas que inducen escasez 25.2 363
Manipulación y normalización de características 365
25.2.1 Ejemplos de transformaciones de funciones 25.3 367
Aprendizaje de funciones 368
25.3.1 Aprendizaje de diccionarios mediante codificadores automáticos 368
25.4 Resumen 25.5 370
Comentarios bibliográficos 25.6 371
Ejercicios 371

Parte IV Teoría Avanzada 373

26 Complejidades de Rademacher 375


26.1 La complejidad de Rademacher 26.1.1 375
Cálculo de Rademacher 26.2 379
Complejidad de clases lineales de Rademacher 26.3 Límites 382
de generalización para SVM 383
26.4 Límites de generalización para predictores con 26.5 Comentarios 1 Norma 386
bibliográficos bajos 386

27 Números de cobertura 388


27.1 Cobertura 388
27.1.1 Propiedades 388
27.2 De la cobertura a la complejidad de Rademacher mediante el encadenamiento 389
27.3 Comentarios bibliográficos 391

28 Prueba del teorema fundamental de la teoría del aprendizaje 28.1 El límite 392
superior para el caso agnóstico 28.2 El límite inferior para el 392
caso agnóstico 28.2.1 Demostrar que m(, δ) ≥ 0,5 log(1/(4δ))/ 393

2 28.2.2 Demostrar Que m(, 1/8) ≥ 8d/2 28.3 La cota superior del 393

caso realizable 28.3.1 De ­Nets a PAC Learnability 395


398
401
Machine Translated by Google

Contenido xvii

29 Capacidad de aprendizaje 402


multiclase 29.1 La dimensión de Natarajan 402
29.2 El teorema fundamental multiclase 403
29.2.1 Sobre la demostración del teorema 29.3 403
29.3 Cálculo de la dimensión de Natarajan 29.3.1 Clases 404
basadas en uno contra todos 404
29.3.2 Reducciones generales de multiclase a binario 29.3.3 405
Predictores multiclase lineales 405
29.4 Sobre buenos y malos ERM 406
29.5 Comentarios bibliográficos 29.6 408
Ejercicios 409

30 Límites de compresión 30.1 410


Límites de compresión 30.2 410
Ejemplos 30.2.1 412
Rectángulos alineados con ejes 30.2.2 412
Semiespacios 30.2.3 412
Separación de polinomios 30.2.4 413
Separación con margen 30.3 Comentarios 414
bibliográficos 414

31 PAC­Bayes 415
31.1 Límites de PAC­Bayes 31.2 415
Comentarios bibliográficos 31.3 417
Ejercicios 417

Apéndice A Lemas técnicos 419

Apéndice B Medir Concentración 422

Apéndice C Álgebra lineal 430

notas 435
Referencias 437
Índice 447
Machine Translated by Google
Machine Translated by Google

1 Introducción

El tema de este libro es el aprendizaje automático o, como lo llamaremos más a menudo,


Machine Learning (ML). Es decir, deseamos programar computadoras para que puedan
"aprender" de la entrada disponible para ellas. En términos generales, el aprendizaje es el
proceso de convertir la experiencia en experiencia o conocimiento. La entrada a un algoritmo
de aprendizaje son datos de entrenamiento, que representan experiencia, y la salida es algo de
experiencia, que generalmente toma la forma de otro programa de computadora que puede
realizar alguna tarea. Buscando una comprensión formal­matemática de este concepto,
tendremos que ser más explícitos sobre lo que queremos decir con cada uno de los términos
involucrados: ¿Cuáles son los datos de entrenamiento a los que accederán nuestros programas?
¿Cómo se puede automatizar el proceso de aprendizaje? ¿Cómo podemos evaluar el éxito de
tal proceso (es decir, la calidad del resultado de un programa de aprendizaje)?

1.1 ¿Qué es el aprendizaje?

Comencemos por considerar un par de ejemplos del aprendizaje natural de los animales.
Algunos de los problemas más fundamentales en ML ya surgen en ese contexto, con el que
todos estamos familiarizados.
Timidez ante el cebo: las ratas aprenden a evitar los cebos venenosos: cuando las ratas
encuentran alimentos con un aspecto u olor novedosos, primero comen cantidades muy
pequeñas y la alimentación posterior dependerá del sabor del alimento y su efecto fisiológico.
Si el alimento produce un efecto nocivo, el nuevo alimento a menudo se asociará con la
enfermedad y, en consecuencia, las ratas no lo comerán. Claramente, hay un mecanismo de
aprendizaje en juego aquí: el animal usó la experiencia pasada con algún alimento para adquirir
experiencia en la detección de la seguridad de este alimento. Si la experiencia pasada con la
comida fue etiquetada negativamente, el animal predice que también tendrá un efecto negativo
cuando la encuentre en el futuro.
Inspirándonos en el ejemplo anterior de aprendizaje exitoso, demostremos una tarea típica
de aprendizaje automático. Supongamos que nos gustaría programar una máquina que aprenda
a filtrar correos electrónicos no deseados. Una solución ingenua sería aparentemente similar a
la forma en que las ratas aprenden a evitar los cebos venenosos. La máquina simplemente
memorizará todos los correos electrónicos anteriores que el usuario humano haya etiquetado
como correo no deseado. Cuando llega un nuevo correo electrónico, la máquina lo busca en el conjunto

Comprender el aprendizaje automático, c 2014 por Shai Shalev­Shwartz y Shai Ben­David


Publicado en 2014 por Cambridge University Press.
Solo para uso personal. No para distribucion. No publicar.
Enlace a http://www.cs.huji.ac.il/~shais/UnderstandingMachineLearning
Machine Translated by Google

20 Introducción

de correos electrónicos no deseados anteriores. Si coincide con uno de ellos, será desechado. De lo contrario,
se moverá a la carpeta de la bandeja de entrada del usuario.

Si bien el enfoque anterior de "aprendizaje por memorización" a veces es útil, carece de un aspecto
importante de los sistemas de aprendizaje: la capacidad de etiquetar mensajes de correo electrónico no vistos.
Un estudiante exitoso debe poder progresar de ejemplos individuales a una generalización más amplia. Esto
también se conoce como razonamiento inductivo o inferencia inductiva. En el ejemplo de la timidez ante el cebo
presentado anteriormente, después de que las ratas encuentran un ejemplo de cierto tipo de alimento, aplican
su actitud hacia él en ejemplos nuevos e invisibles de alimentos de olor y sabor similares. Para lograr la
generalización en la tarea de filtrado de spam, el alumno puede escanear los correos electrónicos vistos
anteriormente y extraer un conjunto de palabras cuya aparición en un mensaje de correo electrónico sea
indicativa de spam. Luego, cuando llega un nuevo correo electrónico, la máquina puede verificar si una de las
palabras sospechosas aparece en él y predecir su etiqueta en consecuencia. Dicho sistema podría potencialmente
predecir correctamente la etiqueta de los correos electrónicos no vistos.

Sin embargo, el razonamiento inductivo podría llevarnos a conclusiones falsas. Para ilustrar esto,
consideremos nuevamente un ejemplo del aprendizaje animal.
Superstición de las palomas: En un experimento realizado por el psicólogo BF Skinner,
colocó un grupo de palomas hambrientas en una jaula. A la jaula se le había acoplado un mecanismo automático
que entregaba comida a las palomas a intervalos regulares sin referencia alguna al comportamiento de las aves.
Las palomas hambrientas dieron la vuelta a la jaula, y cuando se entregó la comida por primera vez, encontró a
cada paloma ocupada en alguna actividad (picotear, girar la cabeza, etc.). La llegada del alimento reforzaba la
acción específica de cada ave y, en consecuencia, cada ave tendía a dedicar más tiempo a esa misma acción.
Eso, a su vez, aumentó la posibilidad de que la próxima entrega aleatoria de alimentos encontrara a cada ave
involucrada nuevamente en esa actividad. Lo que resulta es una cadena de eventos que refuerza la asociación
de las palomas de la entrega del alimento con cualquier acción fortuita que hayan estado realizando cuando fue
entregado por primera vez. Posteriormente continúan realizando estas mismas acciones con diligencia.1

¿Qué distingue a los mecanismos de aprendizaje que resultan en superstición del aprendizaje útil? Esta
pregunta es crucial para el desarrollo de aprendices automáticos.
Si bien los estudiantes humanos pueden confiar en el sentido común para filtrar conclusiones de aprendizaje
aleatorias sin sentido, una vez que exportamos la tarea de aprender a una máquina, debemos proporcionar
principios nítidos bien definidos que protegerán al programa de llegar a conclusiones sin sentido o inútiles. El
desarrollo de tales principios es un objetivo central de la teoría del aprendizaje automático.

Entonces, ¿qué hizo que el aprendizaje de las ratas fuera más exitoso que el de las palomas?
Como primer paso para responder a esta pregunta, echemos un vistazo más de cerca al fenómeno de la timidez
ante el cebo en las ratas.
La timidez del cebo revisada: las ratas no logran adquirir el condicionamiento entre la comida y la descarga
eléctrica o entre el sonido y las náuseas: el mecanismo de la timidez del cebo en

1
Ver: http://psychclassics.yorku.ca/Skinner/Pigeon
Machine Translated by Google

1.2 ¿Cuándo necesitamos el aprendizaje automático? 21

las ratas resultan ser más complejas de lo que cabría esperar. En experimentos llevados a cabo
por García (García & Koelling 1996), se demostró que si el estímulo desagradable que sigue al
consumo de alimentos se reemplaza por, digamos, una descarga eléctrica (en lugar de náuseas),
entonces no se produce ningún condicionamiento. Incluso después de repetidos ensayos en los
que el consumo de algún alimento va seguido de la administración de descargas eléctricas
desagradables, las ratas no tienden a evitar ese alimento. Una falla similar del condicionamiento
ocurre cuando la característica del alimento que implica náuseas (como el gusto o el olfato) se
reemplaza por una señal vocal. Las ratas parecen tener algún conocimiento previo "incorporado"
que les dice que, si bien la correlación temporal entre la comida y las náuseas puede ser causal,
es poco probable que exista una relación causal entre el consumo de alimentos y las descargas
eléctricas o entre los sonidos y las náuseas.

Concluimos que una característica distintiva entre el aprendizaje de la timidez del cebo y la
superstición de la paloma es la incorporación de conocimientos previos que sesgan el mecanismo
de aprendizaje. Esto también se conoce como polarización inductiva. Las palomas del experimento
están dispuestas a adoptar cualquier explicación sobre la aparición de comida.
Sin embargo, las ratas "saben" que la comida no puede causar una descarga eléctrica y que es
poco probable que la presencia simultánea de ruido con alguna comida afecte el valor nutricional
de esa comida. El proceso de aprendizaje de las ratas está sesgado hacia la detección de algún
tipo de patrones mientras se ignoran otras correlaciones temporales entre eventos.
Resulta que la incorporación de conocimientos previos, que sesga el proceso de aprendizaje, es
inevitable para el éxito de los algoritmos de aprendizaje (esto se establece y demuestra formalmente
como el "teorema de No­Free­Lunch" en el Capítulo 5) . El desarrollo de herramientas para expresar
la experiencia en el dominio, traducirlo en un sesgo de aprendizaje y cuantificar el efecto de dicho
sesgo en el éxito del aprendizaje es un tema central de la teoría del aprendizaje automático. En
términos generales, cuanto más sólidos sean los conocimientos previos (o las suposiciones previas)
con los que uno comienza el proceso de aprendizaje, más fácil es aprender de otros ejemplos. Sin
embargo, cuanto más fuertes son estos supuestos previos, menos flexible es el aprendizaje: está
sujeto, a priori, al compromiso con estos supuestos. Discutiremos estos temas explícitamente en el
Capítulo 5.

1.2 ¿Cuándo necesitamos el aprendizaje automático?

¿Cuándo necesitamos el aprendizaje automático en lugar de programar directamente nuestras


computadoras para realizar la tarea en cuestión? Dos aspectos de un problema dado pueden
requerir el uso de programas que aprenden y mejoran en base a su “experiencia”: la complejidad
del problema y la necesidad de adaptabilidad.

Tareas que son demasiado complejas para programar.

• Tareas realizadas por animales/humanos: existen numerosas tareas que los seres
humanos realizamos de manera rutinaria, pero nuestra introspección sobre cómo
las hacemos no es lo suficientemente elaborada como para extraer un buen resultado.
Machine Translated by Google

22 Introducción

programa definido. Ejemplos de tales tareas incluyen la conducción, el reconocimiento de


voz y la comprensión de imágenes. En todas estas tareas, los programas de aprendizaje
automático de última generación, programas que "aprenden de su experiencia", logran
resultados bastante satisfactorios, una vez expuestos a suficientes ejemplos de capacitación.
• Tareas más allá de las capacidades humanas: otra
amplia familia de tareas que se benefician de las técnicas de aprendizaje automático están
relacionadas con el análisis de conjuntos de datos muy grandes y complejos: datos
astronómicos, convertir archivos médicos en conocimiento médico, predicción meteorológica,
análisis de datos genómicos, Buscadores web, y comercio electrónico.

Con más y más datos grabados digitalmente disponibles, se vuelve obvio que hay tesoros
de información significativa enterrados en archivos de datos que son demasiado grandes y
demasiado complejos para que los humanos puedan entenderlos. Aprender a detectar
patrones significativos en conjuntos de datos grandes y complejos es un campo prometedor
en el que la combinación de programas que aprenden con la capacidad de memoria casi
ilimitada y la velocidad de procesamiento cada vez mayor de las computadoras abre nuevos
horizontes.

Adaptabilidad. Una característica limitante de las herramientas programadas es su rigidez: una vez que el
programa se ha escrito e instalado, permanece sin cambios.
Sin embargo, muchas tareas cambian con el tiempo o de un usuario a otro.
Las herramientas de aprendizaje automático (programas cuyo comportamiento se adapta a sus
datos de entrada) ofrecen una solución a tales problemas; son, por naturaleza, adaptables a los
cambios en el entorno con el que interactúan. Las aplicaciones exitosas típicas del aprendizaje
automático para tales problemas incluyen programas que decodifican texto escrito a mano, donde
un programa fijo puede adaptarse a las variaciones entre la escritura a mano de diferentes usuarios;
programas de detección de correo no deseado, que se adaptan automáticamente a los cambios
en la naturaleza de los correos electrónicos no deseados; y programas de reconocimiento de voz.

1.3 Tipos de aprendizaje

El aprendizaje es, por supuesto, un dominio muy amplio. En consecuencia, el campo del aprendizaje
automático se ha ramificado en varios subcampos que se ocupan de diferentes tipos de tareas de aprendizaje.
Brindamos una taxonomía aproximada de los paradigmas de aprendizaje, con el objetivo de brindar una
perspectiva de dónde se ubica el contenido de este libro dentro del amplio campo del aprendizaje automático.

Describimos cuatro parámetros a lo largo de los cuales se pueden clasificar los paradigmas de aprendizaje.

Supervisado frente a no supervisado Dado que el aprendizaje implica una interacción entre el alumno y el
entorno, se pueden dividir las tareas de aprendizaje de acuerdo con la naturaleza de esa
interacción. La primera distinción a tener en cuenta es la diferencia entre aprendizaje supervisado
y no supervisado. como un
Machine Translated by Google

1.3 Tipos de aprendizaje 23

ejemplo ilustrativo, considere la tarea de aprender a detectar correo electrónico no deseado


versus la tarea de detección de anomalías. Para la tarea de detección de spam,
consideramos una configuración en la que el alumno recibe correos electrónicos de
capacitación para los que se proporciona la etiqueta spam/no spam. Sobre la base de
dicha formación, el alumno debe idear una regla para etiquetar un mensaje de correo
electrónico recién llegado. Por el contrario, para la tarea de detección de anomalías, todo
lo que el alumno obtiene como entrenamiento es una gran cantidad de mensajes de correo
electrónico (sin etiquetas) y la tarea del alumno es detectar mensajes "inusuales".
De manera más abstracta, viendo el aprendizaje como un proceso de "usar la
experiencia para adquirir experiencia", el aprendizaje supervisado describe un escenario
en el que la "experiencia", un ejemplo de capacitación, contiene información importante
(por ejemplo, las etiquetas de spam/no spam) que falta en los "ejemplos de prueba"
invisibles a los que se aplicará la experiencia aprendida. En este escenario, la experiencia
adquirida tiene como objetivo predecir esa información faltante para los datos de prueba.
En tales casos, podemos pensar en el entorno como un maestro que "supervisa" al alumno
brindándole información adicional (etiquetas). En el aprendizaje no supervisado, sin
embargo, no hay distinción entre datos de entrenamiento y de prueba. El alumno procesa
los datos de entrada con el objetivo de generar algún resumen o versión comprimida de
esos datos. La agrupación de un conjunto de datos en subconjuntos de objetos similares
es un ejemplo típico de tal tarea.

También existe un entorno de aprendizaje intermedio en el que, si bien los ejemplos


de entrenamiento contienen más información que los ejemplos de prueba, se requiere que
el alumno prediga aún más información para los ejemplos de prueba. Por ejemplo, se
puede tratar de aprender una función de valor que describa para cada posición de un
tablero de ajedrez el grado en que la posición de las blancas es mejor que la de las
negras. Sin embargo, la única información disponible para el alumno en el momento del
entrenamiento son las posiciones que ocurrieron durante los juegos de ajedrez reales,
etiquetadas por quién finalmente ganó ese juego. Dichos marcos de aprendizaje se
investigan principalmente bajo el título de aprendizaje por refuerzo.
Estudiantes activos frente a estudiantes pasivos Los paradigmas de aprendizaje pueden variar según
el papel que desempeñe el estudiante. Distinguimos entre estudiantes “activos” y “pasivos”.
Un alumno activo interactúa con el entorno en el momento del entrenamiento, por ejemplo,
planteando consultas o realizando experimentos, mientras que un alumno pasivo solo
observa la información proporcionada por el entorno (o el profesor) sin influir ni dirigirla.
Tenga en cuenta que el aprendiz de un filtro de spam suele ser pasivo: espera que los
usuarios marquen los correos electrónicos que les llegan. En un entorno activo, uno
podría imaginar pedir a los usuarios que etiqueten correos electrónicos específicos elegidos
por el alumno, o incluso redactados por el alumno, para mejorar lo que
es comprensión de
el correo no deseado es

Utilidad del maestro Cuando uno piensa en el aprendizaje humano, en un bebé en casa o en un
estudiante en la escuela, el proceso a menudo involucra a un maestro servicial, que está
tratando de alimentar al alumno con la información más útil.
Machine Translated by Google

24 Introducción

útil para lograr el objetivo de aprendizaje. Por el contrario, cuando un científico aprende
sobre la naturaleza, el medio ambiente, que desempeña el papel de maestro, puede
considerarse pasivo: las manzanas caen, las estrellas brillan y la lluvia cae sin tener en
cuenta las necesidades del alumno. Modelamos tales escenarios de aprendizaje
postulando que los datos de entrenamiento (o la experiencia del alumno) son generados
por algún proceso aleatorio. Este es el bloque de construcción básico en la rama del
"aprendizaje estadístico". Finalmente, el aprendizaje también ocurre cuando la entrada del
alumno es generada por un "maestro" adversario. Este puede ser el caso en el ejemplo del
filtrado de spam (si el creador de spam hace un esfuerzo por engañar al diseñador del filtro
de spam) o en el aprendizaje de detección de fraude.
Uno también usa un modelo de maestro contradictorio como el peor de los casos, cuando
no se puede asumir con seguridad una configuración más suave. Si puede aprender contra
un maestro adversario, tiene la garantía de tener éxito interactuando con cualquier maestro
extraño.

Protocolo de aprendizaje en línea versus por lotes El último parámetro que mencionamos es la
distinción entre situaciones en las que el alumno tiene que responder en línea, a lo largo
del proceso de aprendizaje, y entornos en los que el alumno tiene que utilizar la experiencia
adquirida solo después de tener la oportunidad de procesar grandes cantidades. de datos.
Por ejemplo, un corredor de bolsa tiene que tomar decisiones diarias, en base a la
experiencia acumulada hasta el momento. Puede convertirse en un experto con el tiempo,
pero podría haber cometido errores costosos en el proceso. Por el contrario, en muchos
entornos de minería de datos, el alumno, el minero de datos, tiene grandes cantidades de
datos de entrenamiento para jugar antes de tener que sacar conclusiones.

En este libro discutiremos sólo un subconjunto de los posibles paradigmas de aprendizaje.


Nuestro enfoque principal es el aprendizaje por lotes estadístico supervisado con un aprendiz pasivo
(por ejemplo, tratando de aprender cómo generar pronósticos de pacientes, basados en grandes
archivos de registros de pacientes que se recopilaron de forma independiente y ya están etiquetados
por el destino de los pacientes registrados ). También discutiremos brevemente el aprendizaje en
línea y el aprendizaje por lotes no supervisado (en particular, la agrupación).

1.4 Relaciones con otros campos

Como campo interdisciplinario, el aprendizaje automático comparte hilos comunes con los campos
matemáticos de la estadística, la teoría de la información, la teoría de juegos y la optimización. Es,
naturalmente, un subcampo de la informática, ya que nuestro objetivo es programar máquinas para
que aprendan. En cierto sentido, el aprendizaje automático puede verse como una rama de la IA
(inteligencia artificial), ya que, después de todo, la capacidad de convertir la experiencia en pericia
o de detectar patrones significativos en datos sensoriales complejos es la piedra angular de la
inteligencia humana (y animal). inteligencia. Sin embargo, se debe tener en cuenta que, a diferencia
de la IA tradicional, el aprendizaje automático no intenta crear una imitación automatizada del
comportamiento inteligente, sino más bien utilizar las fortalezas y
Machine Translated by Google

1.5 Cómo leer este libro 25

Habilidades especiales de las computadoras para complementar la inteligencia humana, a menudo


realizando tareas que están mucho más allá de las capacidades humanas. Por ejemplo, la capacidad
de escanear y procesar enormes bases de datos permite que los programas de aprendizaje automático
detecten patrones que están fuera del alcance de la percepción humana.
El componente de experiencia, o capacitación, en el aprendizaje automático a menudo se refiere a
datos que se generan aleatoriamente. La tarea del aprendiz es procesar estos ejemplos generados al
azar para sacar conclusiones válidas para el entorno del que se eligen estos ejemplos. Esta
descripción del aprendizaje automático destaca su estrecha relación con las estadísticas. De hecho,
hay mucho en común entre las dos disciplinas, tanto en términos de objetivos como de técnicas
utilizadas. Hay, sin embargo, algunas diferencias significativas de énfasis; si a un médico se le ocurre
la hipótesis de que existe una correlación entre el tabaquismo y las enfermedades cardíacas, el papel
del estadístico es ver muestras de pacientes y verificar la validez de esa hipótesis (esta es la tarea
estadística común de la prueba de hipótesis). Por el contrario, el aprendizaje automático tiene como
objetivo utilizar los datos recopilados de muestras de pacientes para llegar a una descripción de las
causas de la enfermedad cardíaca.

La esperanza es que las técnicas automatizadas puedan descubrir patrones significativos (o hipótesis)
que el observador humano puede haber pasado por alto.
A diferencia de las estadísticas tradicionales, en el aprendizaje automático en general, y en este
libro en particular, las consideraciones algorítmicas juegan un papel importante. El aprendizaje
automático se trata de la ejecución del aprendizaje por medio de computadoras; por lo tanto, los
problemas algorítmicos son fundamentales. Desarrollamos algoritmos para realizar las tareas de
aprendizaje y nos preocupamos por su eficiencia computacional. Otra diferencia es que, si bien la
estadística suele estar interesada en el comportamiento asintótico (como la convergencia de las
estimaciones estadísticas basadas en muestras a medida que los tamaños de las muestras crecen
hasta el infinito), la teoría del aprendizaje automático se centra en los límites de las muestras finitas.
Es decir, dado el tamaño de las muestras disponibles, la teoría del aprendizaje automático tiene como
objetivo determinar el grado de precisión que un alumno puede esperar sobre la base de dichas muestras.
Hay más diferencias entre estas dos disciplinas, de las cuales mencionaremos sólo una más aquí.
Mientras que en estadística es común trabajar bajo la suposición de ciertos modelos de datos
predeterminados (como asumir la normalidad de las distribuciones de generación de datos o la
linealidad de las dependencias funcionales), en el aprendizaje automático el énfasis está en trabajar
bajo una "distribución­ libre”, donde el alumno asume lo menos posible sobre la naturaleza de la
distribución de datos y permite que el algoritmo de aprendizaje determine qué modelos se aproximan
mejor al proceso de generación de datos. Una discusión precisa de este tema requiere algunos
preliminares técnicos, y volveremos a ello más adelante en el libro, y en particular en el Capítulo 5.

1.5 Cómo leer este libro

La primera parte del libro proporciona los principios teóricos básicos que subyacen al aprendizaje
automático (ML). En cierto sentido, esta es la base sobre la cual el resto
Machine Translated by Google

26 Introducción

del libro está construido. Esta parte podría servir como base para un minicurso sobre los
fundamentos teóricos de ML.
La segunda parte del libro presenta los enfoques algorítmicos más utilizados para el aprendizaje
automático supervisado. Un subconjunto de estos capítulos también se puede usar para introducir
el aprendizaje automático en un curso general de IA para estudiantes de informática, matemáticas
o ingeniería.
La tercera parte del libro amplía el alcance de la discusión de la clasificación estadística a
otros modelos de aprendizaje. Cubre el aprendizaje en línea, el aprendizaje no supervisado, la
reducción de la dimensionalidad, los modelos generativos y el aprendizaje de características.
La cuarta parte del libro, Teoría avanzada, está dirigida a lectores interesados en la
investigación y proporciona las técnicas matemáticas más técnicas que sirven para analizar e
impulsar el campo del aprendizaje automático teórico.

Los Apéndices proporcionan algunas herramientas técnicas utilizadas en el libro. En particular,


enumeramos los resultados básicos de la concentración de medidas y el álgebra lineal.
Algunas secciones están marcadas con un asterisco, lo que significa que están dirigidas a
estudiantes más avanzados. Cada capítulo se concluye con una lista de ejercicios. Se proporciona
un manual de solución en el sitio web del curso.

1.5.1 Posibles planes de cursos basados en este libro

Un curso de introducción de 14 semanas para estudiantes graduados:

1. Capítulos 2–4.
2. Capítulo 9 (sin el cálculo de VC).
3. Capítulos 5 y 6 (sin pruebas).
4. Capítulo 10.
5. Capítulos 7, 11 (sin pruebas).
6. Capítulos 12, 13 (con algunas de las pruebas más fáciles).
7. Capítulo 14 (con algunas de las pruebas más fáciles).
8. Capítulo 15.
9. Capítulo 16.
10. Capítulo 18.
11. Capítulo 22.
12. Capítulo 23 (sin pruebas para detección comprimida).
13. Capítulo 24.
14. Capítulo 25.

Un curso avanzado de 14 semanas para estudiantes graduados:

1. Capítulos 26, 27. 2.


(continuación)
3. Capítulos 6, 28.
4. Capítulo 7.
5. Capítulo 31.
Machine Translated by Google

1.6 Notación 27

6. Capítulo 30.
7. Capítulos 12, 13.
8. Capítulo 14.
9. Capítulo 8.
10. Capítulo 17.
11. Capítulo 29.
12. Capítulo 19.
13. Capítulo 20.
14. Capítulo 21.

1.6 Notación

La mayor parte de la notación que usamos a lo largo del libro es estándar o se define en el
acto. En esta sección describimos nuestras convenciones principales y proporcionamos una
tabla que resume nuestra notación (Tabla 1.1). Se anima al lector a saltarse esta sección y
volver a ella si durante la lectura del libro alguna notación no está clara.

Denotamos escalares y objetos abstractos con letras minúsculas (por ejemplo, x y λ).
A menudo, nos gustaría enfatizar que algún objeto es un vector y luego usamos letras en
negrita (por ejemplo, x y λ). El i­ésimo elemento de un vector x se denota por xi . Usamos
letras mayúsculas para denotar matrices, conjuntos y secuencias. El significado debe ser
claro por el contexto. Como veremos en un momento, la entrada de un algoritmo de
aprendizaje es una secuencia de ejemplos de entrenamiento. Denotamos por z un ejemplo
abstracto y por S = z1, . . . , zm una secuencia de m ejemplos. Históricamente, a menudo se
hace referencia a S como un conjunto de entrenamiento; sin embargo, siempre supondremos
que S es una secuencia en lugar de un conjunto. Una secuencia de m vectores se denota por x1, . . . , xm.
El i­ésimo elemento de xt se denota por xt,i.
A lo largo del libro, hacemos uso de nociones básicas de probabilidad. Denotamos por D
una distribución sobre algún conjunto,2 por ejemplo, Z. Usamos la notación z D para
denotar que z se muestrea de acuerdo con D. Dada una variable aleatoria f : Z → R, su valor
esperado se denota por Ez D[f(z)]. A veces usamos la forma abreviada E[f] cuando la
dependencia de z es clara por el contexto. Para f : Z → {verdadero, falso} también usamos
Pz D[f(z)] para denotar D({z : f(z) = verdadero}). En el próximo capítulo también
introduciremos la notación Dm para denotar la probabilidad sobre Z m inducida por el
muestreo (z1, . . . , zm) donde cada punto zi se muestrea de D independientemente de los
otros puntos.
En general, hemos hecho un esfuerzo por evitar la notación asintótica. Sin embargo,
ocasionalmente lo usamos para aclarar los resultados principales. En particular, dadas f : R
→ R+ y g : R → R+ escribimos f = O(g) si existen x0, α R+ tales que para todo x > x0
tenemos f(x) ≤ αg(x). Escribimos f = o(g) si para todo α > 0 existe
2
Para ser matemáticamente preciso, D debería definirse sobre alguna σ­álgebra de subconjuntos de Z.
El usuario que no esté familiarizado con la teoría de la medida puede omitir las pocas notas al pie y
comentarios sobre definiciones y suposiciones de mensurabilidad más formales.
Machine Translated by Google

28 Introducción

Tabla 1.1 Resumen de la notación


símbolo significado

R el conjunto de los numeros reales


Rd el conjunto de vectores d­dimensionales sobre R
R+ el conjunto de números reales no negativos
N el conjunto de los números naturales

O, o, Θ, ω, Ω, O˜ notación asintótica (ver texto)


1 función de indicador [expresión booleana] (es igual a 1 si la expresión es verdadera y 0 ow)
[a]+ = máx{0, a}
[n] el conjunto {1, . . . , n} (para n N)
x, v, w Vectores de columna
xi, vi, wi el i­ésimo elemento de un vector
= d
x,v xivi (producto interno)
yo=1

x2 o x = x, x (la 2 norma de x)
= d
x1 yo=1 |xi| (la 1 norma de x)
x∞ = maxi |xi| (la norma ∞ de x)
x0 el número de elementos distintos de cero de x
A R d,k ad × k matriz sobre R
A la transpuesta de A
Ay, j el (i, j) elemento de A
d
XX la matriz d × d A st Ai,j = xixj (donde x R )
x1, . . . , x m una secuencia de m vectores
xi,j el j­ésimo elemento del i­ésimo vector en la secuencia
w(1) , . . . , w(t) los valores de un vector w durante un algoritmo iterativo
w i(t) el i­ésimo elemento del vector w(t)
X dominio de instancias (un conjunto)
etiquetas de dominio (un conjunto)

Dominio de ejemplos YZ (un conjunto)


Clase de hipótesis H (un conjunto)
: H × Z → R+ función de pérdida
D una distribución sobre algún conjunto (generalmente sobre Z o sobre X)
D(A) la probabilidad de un conjunto A Z según D
z D muestreo z según D
S = z1, . . . , zm una secuencia de m ejemplos
S Dm muestreo S = z1, . . . , zm iid según D
P, E probabilidad y expectativa de una variable aleatoria
Pz D[f(z)] = D({z : f(z) = verdadero}) para f : Z → {verdadero, falso}
Ez D[f(z)] expectativa de la variable aleatoria f : Z → R
N(µ, C) f Distribución gaussiana con expectativa µ y covarianza C
(x) f la derivada de una función f : R → R en x
(x) la segunda derivada de una función f : R → R en x
∂f(w) d
la derivada parcial de una función f : R → R at w wrt wi
∂wi
f(w) el gradiente de una función f : R d → R en w
d
∂f(w) el conjunto diferencial de una función f : R → R en w
minx C f(x) = min{f(x) : x C} (valor mínimo de f sobre C)
maxx C f(x) = max{f(x) : x C} (valor máximo de f sobre C)
argminx C f(x) el conjunto {x C : f(x) = minz C f(z)}
argmaxx C f(x) log el conjunto {x C : f(x) = maxz C f(z)}
el logaritmo natural
Machine Translated by Google

1.6 Notación 29

x0 tal que para todo x > x0 tenemos f(x) ≤ αg(x). Escribimos f = Ω(g) si existen x0, α R+
tales que para todo x > x0 tenemos f(x) ≥ αg(x). La notación f = ω(g) se define de manera
análoga. La notación f = Θ(g) significa que f = O(g) y g = O(f). Finalmente, la notación f =
O˜(g) significa que existe k N tal que f(x) = O(g(x) logk (g(x))).

El producto interno entre los vectores x y w se denota por x, w. Siempre que no


especificamos el espacio vectorial asumimos que es el euclidiano d­dimensional i=1 xiwi . La
d
x, w = w2 = w, w. Omitimos norma euclidiana (o 2) de un vector w es el espacio y luego
el subíndice de la norma 2 cuando está claro de las normas p , wp = ( |wi | y w∞ = maxi |wi |.
el contexto. También usamos otros i |wi | p ) 1/p, y en particular
w1 = i
Usamos la notación minx C f(x) para denotar el valor mínimo del conjunto {f(x) : x C}.
Para ser matemáticamente más precisos, deberíamos usar infx C f(x) siempre que no se
pueda alcanzar el mínimo. Sin embargo, en el contexto de este libro, la distinción entre ínfimo
y mínimo suele tener poco interés. Por lo tanto, para simplificar la presentación, a veces
usamos la notación min incluso cuando inf es más adecuada. Una observación análoga se
aplica a max versus sup.
Machine Translated by Google
Machine Translated by Google

Parte I

Cimientos
Machine Translated by Google
Machine Translated by Google

2 Un comienzo suave

Comencemos nuestro análisis matemático mostrando cómo se puede lograr un aprendizaje exitoso
en un entorno relativamente simplificado. Imagina que acabas de llegar a una pequeña isla del
Pacífico. Pronto descubrirá que las papayas son un ingrediente importante en la dieta local. Sin
embargo, nunca antes has probado las papayas. Tienes que aprender a predecir si una papaya que
ves en el mercado es sabrosa o no.
Primero, debe decidir en qué características de una papaya debe basarse su predicción. Sobre la
base de su experiencia previa con otras frutas, decide utilizar dos características: el color de la
papaya, que va desde el verde oscuro, pasando por el naranja y el rojo hasta el marrón oscuro, y la
suavidad de la papaya, que va desde dura como una piedra hasta blanda. Su entrada para calcular
su regla de predicción es una muestra de papayas que ha examinado en busca de color y suavidad
y luego las ha probado y ha descubierto si estaban sabrosas o no. Analicemos esta tarea como una
demostración de las consideraciones involucradas en los problemas de aprendizaje.

Nuestro primer paso es describir un modelo formal destinado a capturar tales tareas de
aprendizaje.

2.1 Un modelo formal: el marco de aprendizaje estadístico

• La entrada del alumno: En el entorno de aprendizaje estadístico básico, el alumno tiene


acceso a lo siguiente: –
Conjunto de dominio: un conjunto arbitrario, X . Este es el conjunto de objetos que podemos
desear etiquetar. Por ejemplo, en el problema de aprendizaje de la papaya
mencionado antes, el conjunto de dominios será el conjunto de todas las papayas.
Por lo general, estos puntos de dominio estarán representados por un vector de
características (como el color y la suavidad de la papaya). También nos referimos a
los puntos de dominio como instancias ya X como espacio de instancias.
– Conjunto de etiquetas: para nuestra discusión actual, restringiremos el conjunto de etiquetas
para que sea un conjunto de dos elementos, generalmente {0, 1} o {−1, +1}. Denote
con Y nuestro conjunto de posibles etiquetas. Para nuestro ejemplo de papayas, sea
Y {0, 1}, donde 1 representa ser sabroso y 0 significa no ser sabroso.
– Datos de entrenamiento: S = ((x1, y1). . .(xm, ym)) es una secuencia finita de pares en X ×
Y: es decir, una secuencia de puntos de dominio etiquetados. Esta es la entrada a la
que tiene acceso el alumno (como un conjunto de papayas que han sido

Comprender el aprendizaje automático, c 2014 por Shai Shalev­Shwartz y Shai Ben­David


Publicado en 2014 por Cambridge University Press.
Solo para uso personal. No para distribucion. No publicar.
Enlace a http://www.cs.huji.ac.il/~shais/UnderstandingMachineLearning
Machine Translated by Google

34 Un comienzo suave

probado y su color, suavidad y sabor). Dichos ejemplos etiquetados a menudo


se denominan ejemplos de entrenamiento. A veces también nos referimos a S
1
como un
conjunto de entrenamiento. • La salida del alumno: Se solicita al alumno que genere una
regla de predicción, h : X → Y. Esta función también se denomina predictor, hipótesis
o clasificador. El predictor se puede utilizar para predecir la etiqueta de nuevos puntos de dominio.
En nuestro ejemplo de papayas, es una regla que nuestro alumno empleará para
predecir si las futuras papayas que examine en el mercado de agricultores serán
sabrosas o no. Usamos la notación A(S) para denotar la hipótesis de que un algoritmo
de aprendizaje, A, regresa al recibir la secuencia de entrenamiento S. • Un modelo
simple de generación de datos Ahora explicamos cómo se generan los datos de entrenamiento.
Primero, asumimos que las instancias (las papayas que encontramos) son generadas
por alguna distribución de probabilidad (en este caso, representando el ambiente).
Denotemos esa distribución de probabilidad sobre X por D. Es importante notar que no
asumimos que el estudiante sabe algo acerca de esta distribución. Para el tipo de
tareas de aprendizaje que analizamos, podría ser cualquier distribución de probabilidad
arbitraria. En cuanto a las etiquetas, en la discusión actual asumimos que existe alguna
función de etiquetado "correcta", f : X → Y, y que yi = f(xi) para todo i. Esta suposición
se relajará en el próximo capítulo. La función de etiquetado es desconocida para el
alumno. De hecho, esto es justo lo que el alumno está tratando de averiguar. En
resumen, cada par en los datos de entrenamiento S se genera muestreando primero
un punto xi de acuerdo con D y luego etiquetándolo con f. • Medidas de éxito: Definimos
el error de un clasificador como la
probabilidad de que no prediga la etiqueta correcta en un punto de datos aleatorio generado
por la distribución subyacente antes mencionada. Es decir, el error de h es la
probabilidad de sacar una instancia aleatoria x, según la distribución D, tal que h(x) no
es igual a f(x).

Formalmente, dado un subconjunto de dominio,2 A X , la distribución de probabilidad,


D, asigna un número, D(A), que determina qué tan probable es observar un punto x
A. En muchos casos, nos referimos a A como un evento y lo expresamos usando una
función π : X → {0, 1}, es decir, A = {x X : π(x) = 1}. En ese caso, también usamos
la notación Px D[π(x)] para expresar D(A).
Definimos el error de una regla de predicción, h : X → Y, como

=P
definitivamente definitivamente

LD,f (h) x D [h(x) = f(x)] = D({x : h(x) = f(x)}). (2.1)

Es decir, el error de tal h es la probabilidad de elegir aleatoriamente un ejemplo x para


el cual h(x) = f(x). El subíndice (D, f) indica que el error se mide con respecto a la
distribución de probabilidad D y la
1 A pesar de la notación de "conjunto", S es una secuencia. En particular, el mismo ejemplo puede
aparecer dos veces en S y algunos algoritmos pueden tener en cuenta el orden de los ejemplos en S.
2 Estrictamente hablando, deberíamos ser más cuidadosos y exigir que A sea miembro de alguna σ­
álgebra de subconjuntos de X, sobre los cuales se define D. Definiremos formalmente
nuestros supuestos de mensurabilidad en el próximo capítulo.
Machine Translated by Google

2.2 Minimización empírica del riesgo 35

correcta función de etiquetado f. Omitimos este subíndice cuando está claro por el contexto.
L(D,f)(h) tiene varios nombres sinónimos, como el error de generalización, el riesgo o el
verdadero error de h, y usaremos estos nombres indistintamente a lo largo del libro. Usamos
la letra L para el error, ya que vemos este error como la pérdida del alumno. Más adelante
también hablaremos
otras formulaciones posibles de tal pérdida.

• Una nota sobre la información disponible para el alumno El alumno es


ciego a la distribución subyacente D sobre el mundo ya la función de etiquetado f. En nuestro
ejemplo de papayas, acabamos de llegar a una nueva isla y no tenemos idea de cómo se
distribuyen las papayas y cómo predecir su sabor. La única forma en que el alumno puede
interactuar con el entorno es observando el conjunto de entrenamiento.

En la siguiente sección describimos un paradigma de aprendizaje simple para el anterior


configurar y analizar su rendimiento.

2.2 Minimización empírica del riesgo

Como se mencionó anteriormente, un algoritmo de aprendizaje recibe como entrada un conjunto


de entrenamiento S, muestreado de una distribución desconocida D y etiquetado por alguna función
objetivo f, y debe generar un predictor hS : X → Y (el subíndice S enfatiza el hecho de que el
predictor de salida depende de S). El objetivo del algoritmo es encontrar hS que minimice el error
con respecto a las incógnitas D y f.
Dado que el alumno no sabe qué son D y f, el verdadero error no está directamente disponible
para el alumno. Una noción útil de error que puede ser calculada por el alumno es el error de
entrenamiento: el error en el que incurre el clasificador sobre la muestra de entrenamiento:

definitivamente

= |{i [m] : h(xi) = yi}|


LS(h) , (2.2)
metro

donde [m] = {1, . . . , m}.


Los términos error empírico y riesgo empírico a menudo se usan indistintamente.
por este error.
Dado que la muestra de capacitación es la instantánea del mundo que está disponible para el
alumno, tiene sentido buscar una solución que funcione bien con esos datos.
Este paradigma de aprendizaje (crear un predictor h que minimice LS(h)) se denomina Minimización
empírica del riesgo o ERM para abreviar.

2.2.1 Algo puede salir mal: sobreajuste

Aunque la regla ERM parece muy natural, sin tener cuidado, este enfoque puede fallar
miserablemente.
Para demostrar tal fracaso, volvamos al problema de aprender a
Machine Translated by Google

36 Un comienzo suave

predecir el sabor de una papaya en base a su suavidad y color. Considere una muestra como se
muestra a continuación:

Suponga que la distribución de probabilidad D es tal que las instancias se distribuyen uniformemente
dentro del cuadrado gris y la función de etiquetado, f, determina que la etiqueta sea 1 si la instancia
está dentro del cuadrado azul interior y 0 en caso contrario. El área del cuadrado gris en la imagen es
2 y el área del cuadrado azul es 1.
Considere el siguiente predictor:

yi si i [m] st xi = x
hS(x) = (2.3)
0 de lo contrario.

Si bien este predictor puede parecer bastante artificial, en el Ejercicio 1 mostramos una representación
natural usando polinomios. Claramente, no importa cuál sea la muestra, LS(hS) = 0, y por lo tanto
este predictor puede ser elegido por un algoritmo ERM (es una de las hipótesis de mínimo costo
empírico; ningún clasificador puede tener un error menor). Por otro lado, el verdadero error de
cualquier clasificador que predice la etiqueta 1 solo en un número finito de instancias es, en este caso,
1/2. Así, LD(hS) = 1/2.
Hemos encontrado un predictor cuyo desempeño en el conjunto de entrenamiento es excelente, pero
su desempeño en el “mundo” real es muy pobre. Este fenómeno se llama sobreajuste. Intuitivamente,
el sobreajuste ocurre cuando nuestra hipótesis se ajusta "demasiado bien" a los datos de
entrenamiento (tal vez como la experiencia cotidiana de que una persona que proporciona una
explicación perfecta y detallada de cada una de sus acciones puede despertar sospechas).

2.3 Minimización empírica del riesgo con sesgo inductivo

Acabamos de demostrar que la regla ERM podría conducir a un sobreajuste. En lugar de renunciar al
paradigma ERM, buscaremos formas de rectificarlo. Buscaremos condiciones bajo las cuales haya
una garantía de que ERM no se sobreajuste, es decir, condiciones bajo las cuales cuando el predictor
de ERM tiene un buen desempeño con respecto a los datos de entrenamiento, también es muy
probable que funcione bien sobre la distribución de datos subyacente.

Una solución común es aplicar la regla de aprendizaje de ERM en un espacio de búsqueda


restringido. Formalmente, el alumno debe elegir de antemano (antes de ver los datos) un conjunto de
predictores. Este conjunto se denomina clase de hipótesis y se denota por H. Cada h H es una
función que se asigna de X a Y. Para una clase H dada y una muestra de entrenamiento, S, el alumno
de ERMH usa la regla ERM para elegir un predictor h H,
Machine Translated by Google

2.3 Minimización empírica del riesgo con sesgo inductivo 37

con el menor error posible sobre S. Formalmente,

ERMH(S) argmin LS(h),


h H

donde argmin representa el conjunto de hipótesis en H que alcanzan el valor mínimo de LS(h)
sobre H. Al restringir al alumno a elegir un predictor de H, lo inclinamos hacia un conjunto
particular de predictores. Tales restricciones a menudo se denominan sesgo inductivo. Dado
que la elección de tal restricción está determinada
antes de que el alumno vea los datos de entrenamiento, idealmente debería basarse en algún
conocimiento previo sobre el problema que se va a aprender. Por ejemplo, para el problema de
predicción del sabor a papaya, podemos elegir la clase H como el conjunto de predictores que
están determinados por rectángulos alineados en el eje (en el espacio determinado por las
coordenadas de color y suavidad). Más adelante mostraremos que se garantiza que ERMH
sobre esta clase no sobreajustará. Por otro lado, el ejemplo de sobreajuste que hemos visto
anteriormente demuestra que elegir H como una clase de predictores que incluye todas las
funciones que asignan el valor 1 a un conjunto finito de puntos de dominio no es suficiente para
garantizar que ERMH no sobreajustado
Una pregunta fundamental en la teoría del aprendizaje es sobre qué clases de hipótesis el
aprendizaje ERMH no dará como resultado un sobreajuste. Estudiaremos esta cuestión más
adelante en el libro.
Intuitivamente, elegir una clase de hipótesis más restringida nos protege mejor contra el
sobreajuste, pero al mismo tiempo puede causarnos un sesgo inductivo más fuerte. Volveremos
a esta compensación fundamental más adelante.

2.3.1 Clases de hipótesis finitas


El tipo más simple de restricción en una clase es imponer un límite superior a su tamaño (es
decir, el número de predictores h en H). En esta sección, mostramos que si H es una clase
finita, ERMH no se sobreajustará, siempre que se base en una muestra de entrenamiento
suficientemente grande (este requisito de tamaño dependerá del tamaño de H).
Limitar al alumno a las reglas de predicción dentro de una clase de hipótesis finita puede
considerarse una restricción razonablemente leve. Por ejemplo, H puede ser el conjunto de
todos los predictores que puede implementar un programa C++ escrito en un máximo de 109
bits de código. En nuestro ejemplo de papayas, mencionamos previamente la clase de
rectángulos alineados con el eje. Si bien esta es una clase infinita, si discretizamos la
representación de números reales, por ejemplo, usando una representación de punto flotante
de 64 bits, la clase de hipótesis se convierte en una clase finita.
Analicemos ahora el desempeño de la regla de aprendizaje ERMH suponiendo que H es una
clase finita. Para una muestra de entrenamiento, S, etiquetada de acuerdo con alguna f : X →
Y, sea hS el resultado de aplicar ERMH a S, a saber,

hS argmin LS(h). (2.4)


h H

En este capítulo, hacemos la siguiente suposición simplificadora (que se relajará en el


próximo capítulo).
Machine Translated by Google

38 Un comienzo suave

definición 2.1 (El Supuesto de Realizabilidad) Existe h H st


L(D,f)(h ) = 0. Tenga en cuenta que esta suposición implica que con probabilidad 1 sobre muestras
aleatorias, S, donde las instancias de S se muestrean de acuerdo con D y están etiquetadas por f,
tenemos LS(h ) = 0.

El supuesto de realizabilidad implica que para cada hipótesis ERM tenemos que3 LS(hS) = 0. Sin
embargo, estamos interesados en el verdadero riesgo de hS, L(D,f)(hS), más que en su riesgo
empírico.
Claramente, cualquier garantía sobre el error con respecto a la distribución subyacente, D, para un
algoritmo que tiene acceso solo a una muestra S debe depender de la relación entre D y S. La
suposición común en el aprendizaje automático estadístico es que la muestra de entrenamiento S se
genera muestreando puntos de la distribución D independientemente unos de otros. Formalmente,

• La suposición iid: los ejemplos en el conjunto de entrenamiento se distribuyen de manera


independiente e idéntica (iid) de acuerdo con la distribución D. Es decir, cada xi en S se
muestrea recientemente de acuerdo con D y luego se etiqueta de acuerdo con la función de
etiquetado, f. Denotamos esta suposición por S Dm donde m es el tamaño de S, y Dm
denota la probabilidad sobre m­tuplas inducida al aplicar D para elegir cada elemento de la
tupla independientemente de los otros miembros de la tupla.

Intuitivamente, el conjunto de entrenamiento S es una ventana a través de la cual el


alumno obtiene información parcial sobre la distribución D sobre el mundo y la función de
etiquetado, f. Cuanto más grande sea la muestra, más probable es que refleje con mayor
precisión la distribución y el etiquetado utilizados para generarla.

Dado que L(D,f)(hS) depende del conjunto de entrenamiento, S, y ese conjunto de entrenamiento
se elige mediante un proceso aleatorio, existe aleatoriedad en la elección del predictor hS y, en
consecuencia, en el riesgo L(D, f)(hS). Formalmente, decimos que es una variable aleatoria. No es
realista esperar que, con total certeza, S sea suficiente para dirigir al alumno hacia un buen clasificador
(desde el punto de vista de D), ya que siempre existe alguna probabilidad de que los datos de
entrenamiento muestreados sean muy poco representativos de los datos subyacentes. D. Si volvemos
al ejemplo de la degustación de papaya, siempre hay alguna (pequeña) posibilidad de que todas las
papayas que hemos probado no fueran sabrosas, a pesar de que, digamos, el 70% de las papayas
en nuestra isla son sabrosos En tal caso, ERMH(S) puede ser la función constante que etiqueta cada
papaya como “no sabrosa” (y tiene un error del 70% sobre la verdadera distribución de papayas en la
isla). Por lo tanto, abordaremos la probabilidad de muestrear un conjunto de entrenamiento para el
cual L(D,f)(hS) no sea demasiado grande. Por lo general, denotamos la probabilidad de obtener una
muestra no representativa por δ y llamamos (1 − δ) el parámetro de confianza de nuestra predicción.

Además de eso, dado que no podemos garantizar una predicción de etiquetas perfecta,
introducimos otro parámetro para la calidad de la predicción, el parámetro de precisión,

3
Hablando matemáticamente, esto se cumple con probabilidad 1. Para simplificar la presentación,
a veces omitimos el especificador "con probabilidad 1".
Machine Translated by Google

2.3 Minimización empírica del riesgo con sesgo inductivo 39

comúnmente denotado por . Interpretamos el evento L(D,f)(hS) > como una falla del alumno,
mientras que si L(D,f)(hS) ≤ vemos la salida del algoritmo como un predictor aproximadamente
correcto. Por lo tanto (fijando alguna función de etiquetado f : X → Y), estamos interesados en
acotar por arriba la probabilidad de muestrear m­tuplas de instancias que conducirán al fracaso del
alumno. Formalmente, sean S|x = (x1, . . . , xm) las instancias del conjunto de entrenamiento. Nos
gustaría un límite superior

D m({S|x : L(D,f)(hS) > }).

Sea HB el conjunto de hipótesis “malas”, es decir,

HB = {h H : L(D,f)(h) > }.

Además, deja

METRO = {S|x : h HB, LS(h) = 0}

sea el conjunto de muestras engañosas: es decir, para cada S|x M, hay una hipótesis "mala", h
HB, que parece una hipótesis "buena" en S|x. Ahora, recuerda que nos gustaría acotar la
probabilidad del evento L(D,f)(hS) > . Pero, dado que el supuesto de realizabilidad implica que
LS(hS) = 0, se sigue que el evento L(D,f)(hS) > solo puede ocurrir si para alguna h HB tenemos
LS(h) = 0. En otras Es decir, este evento solo ocurrirá si nuestra muestra está en el conjunto de
muestras engañosas, M. Formalmente, hemos demostrado que

{S|x : L(D,f)(hS) > } METRO .

Tenga en cuenta que podemos reescribir M como

METRO =
{S|x : LS(h) = 0}. (2.5)
h HB

Por eso,

re m({S|x : L(D,f)(hS) > }) ≤ Dm(M) = re m( h HB {S|x : LS(h) = 0}). (2.6)

Luego, hacemos un límite superior del lado derecho de la ecuación anterior usando el
límite de unión: una propiedad básica de las probabilidades.

lema 2.2 (Union Bound) Para cualesquiera dos conjuntos A, B y una distribución D tenemos

D(A B) ≤ D(A) + D(B).

Aplicando el límite de unión al lado derecho de la Ecuación (2.6) se obtiene

re metro({S|x : L(D,f)(hS) > }) ≤ D m({S|x : LS(h) = 0}). (2.7)


h HB

A continuación, liguemos cada sumando del lado derecho del anterior en igualdad. Fijar alguna
hipótesis “mala” h HB. El evento LS(h) = 0 es equivalente
Machine Translated by Google

40 Un comienzo suave

al evento i, h(xi) = f(xi). Dado que los ejemplos en el conjunto de entrenamiento se muestrean
iid, obtenemos que

re m({S|x : LS(h) = 0}) = re m({S|x : i, h(xi) = f(xi)})


metro

= D({xi : h(xi) = f(xi)}). (2.8)


yo=1

Para cada muestra individual de un elemento del conjunto de entrenamiento tenemos

D({xi : h(xi) = yi}) = 1 − L(D,f)(h) ≤ 1 − ,

donde la última desigualdad se sigue del hecho de que h HB. Combinando la ecuación

anterior con la Ecuación (2.8) y usando la desigualdad 1 − ≤ e se obtiene que para todo nosotros

h HB,

re metro({S|x : LS(h) = 0}) ≤ (1 − ) metro ≤ mi −m. (2.9)

Combinando esta ecuación con la Ecuación (2.7) concluimos que

−m
D m({S|x : L(D,f)(hS) > }) ≤ |HB| mi ≤ |H| mi ­ m.

En la figura 2.1 se muestra una ilustración gráfica que explica cómo usamos el límite de unión .

Figura 2.1 Cada punto en el círculo grande representa una posible m­tupla de instancias.
Cada óvalo coloreado representa el conjunto de m­tuplas "engañosas" de instancias para algún
predictor "malo" h HB. El ERM puede sobreajustarse potencialmente siempre que obtenga
un conjunto de entrenamiento engañoso S. Es decir, para algún h HB tenemos LS(h) = 0.
La ecuación (2.9) garantiza que para cada mala hipótesis individual, h HB, como máximo (1 − ) m­
fracción de los conjuntos de entrenamiento sería engañosa. En particular, cuanto más grande es m,
más pequeño se vuelve cada uno de estos óvalos de colores. El límite de unión formaliza el hecho de
que el área que representa los conjuntos de entrenamiento que son engañosos con respecto a algún
h HB (es decir, los conjuntos de entrenamiento en M) es como máximo la suma de las áreas de los
óvalos coloreados. Por lo tanto, está acotado por |HB| veces el tamaño máximo de un óvalo de color.
Cualquier muestra S fuera de los óvalos coloreados no puede causar un sobreajuste de la regla ERM.

corolario 2.3 Sea H una clase finita de hipótesis. Sea δ (0, 1) y > 0
Machine Translated by Google

2.4 Ejercicios 41

y sea m un entero que satisfaga

log(|H|/δ) m
≥ .

Entonces, para cualquier función de etiquetado, f, y para cualquier distribución, D, para la cual se
cumple el supuesto de realizabilidad (es decir, para alguna h H, L(D,f)(h) = 0), con probabilidad de
al menos 1 − δ sobre la elección de una muestra iid S de tamaño m, tenemos que para cada hipótesis
ERM, hS, se cumple que

L(D,f)(hS) ≤ .

El corolario anterior nos dice que para una m suficientemente grande, la regla ERMH sobre una
clase de hipótesis finita será probablemente (con confianza 1−δ) aproximadamente (hasta un error de )
correcta. En el próximo capítulo definimos formalmente el modelo de aprendizaje Probablemente
Aproximadamente Correcto (PAC).

2.4 Ejercicios

1. Sobreajuste de coincidencia de polinomios: hemos demostrado que el predictor definido en la


Ecuación (2.3) conduce a sobreajuste. Si bien este predictor parece muy poco natural, el objetivo
de este ejercicio es mostrar que se puede describir como un polinomio con umbral. Es decir,
demuestre que dado un conjunto de entrenamiento S = {(xi , f(xi))} m (R × {0, 1}) m, existe un
d
polinomio pS talyo=1
que hS(x) = 1 si y solo si pS(x) ≥ 0, donde hS es como se define en la Ecuación
(2.3).
De ello se deduce que aprender la clase de todos los polinomios con umbral utilizando la regla
ERM puede conducir a un sobreajuste.
2. Sea H una clase de clasificadores binarios sobre un dominio X. Sea D una incógnita y sea f la
distribución sobre X , hipótesis objetivo en H. Fijar algo de h H.
Muestre que el valor esperado de LS(h) sobre la elección de S|x es igual a L(D,f)(h), a saber,

mi
[LS(h)] = L(D,f)(h).
S|x Dm

3. Rectángulos alineados al eje: Un clasificador de rectángulo alineado al eje en el plano es un


clasificador que asigna el valor 1 a un punto si y solo si está dentro de un rectángulo determinado.
Formalmente, dados los números reales a1 ≤ b1, a2 ≤ b2, defina el clasificador h(a1,b1,a2,b2) por

1 si a1 ≤ x1 ≤ b1 y a2 ≤ x2 ≤ b2
h(a1,b1,a2,b2)(x1, x2) = . (2.10)
0 de lo contrario

La clase de todos los rectángulos alineados con el eje en el plano se define como

H2rec = {h(a1,b1,a2,b2) : a1 ≤ b1 y a2 ≤ b2}.

Tenga en cuenta que esta es una clase de hipótesis de tamaño infinito. A lo largo de este ejercicio
nos basamos en el supuesto de realizabilidad.
Machine Translated by Google

42 Un comienzo suave

1. Sea A el algoritmo que devuelve el rectángulo más pequeño que encierra todos los ejemplos positivos
en el conjunto de entrenamiento. Demuestre que A es un ERM. 4 log(4/δ)
2. Muestre que si A recibe un conjunto de entrenamiento de tamaño ≥ entonces, con una probabilidad
de al menos 1 − δ, devuelve una hipótesis con un error de como máximo .
Sugerencia: arregle alguna distribución D sobre X , sea R = R(a 2,b a b 2 ) sea el recto 1 , 1 ,

ángulo que genera las etiquetas, y sea f la hipótesis correspondiente.


Sea a1 ≥ a un número
1 tal que la masa de probabilidad (con respecto a 2 ) sea exactamente /4. De
a D) del rectángulo R1 = R(a 1 , a1, a b1, a2,2 , manera similar, sea b
b2 sean números tales que las masas de probabilidad de los rectángulos R2 = R(b1, b
exactamente /4. 1 , un2 , b2 ), R3 = R(a b
1, 1, 2 , a2), R4 = R(a a1 , b 1 , b2,2b) son todos
Sea R(S) sea el rectángulo devuelto por A. Vea la ilustración en la Figura 2.2.

R
­
+
+ D(S)

+ ­

+
R1

Figura 2.2 Rectángulos alineados con el eje.

• Demuestre que R(S) R .


• Muestre que si S contiene ejemplos (positivos) en todos los rectángulos R1, R2, R3, R4,
entonces la hipótesis devuelta por A tiene un error de al menos
mayoría .

• Para cada i {1, . . . , 4}, límite superior de la probabilidad de que S no


contienen un ejemplo de Ri . • Usar el
límite de unión para concluir el argumento.
d
3. Repita la pregunta anterior para la clase de rectángulos alineados con el eje en R 4. Demuestre .

que el tiempo de ejecución de aplicar el algoritmo A mencionado anteriormente es


polinomio en d, 1/ y en log(1/δ).
Machine Translated by Google

3 Un modelo de aprendizaje formal

En este capítulo definimos nuestro principal modelo de aprendizaje formal: el aprendizaje PAC.
modelo y sus extensiones. Consideraremos otras nociones de capacidad de aprendizaje en el
Capítulo 7.

3.1 Aprendizaje PAC

En el capítulo anterior hemos demostrado que para una clase finita de hipótesis, si el
La regla ERM con respecto a esa clase se aplica en un entrenamiento suficientemente grande
muestra (cuyo tamaño es independiente de la distribución subyacente o el etiquetado
función), entonces la hipótesis de salida será probablemente aproximadamente correcta.
De manera más general, ahora definimos el aprendizaje Probablemente Aproximadamente Correcto (PAC).

definición 3.1 (capacidad de aprendizaje de PAC) Una clase de hipótesis H es aprendible de PAC
si existe una función mH : (0, 1)2 → N y un algoritmo de aprendizaje con el
propiedad: Para toda , y δ (0, 1), para toda distribución D sobre X siguiente ,
para cada función de etiquetado f : X → {0, 1}, si se cumple la suposición realizable
con respecto a H, D, f, entonces cuando se ejecuta el algoritmo de aprendizaje en m ≥
mH(, δ) iid ejemplos generados por D y etiquetados por f, el algoritmo devuelve
una hipótesis h tal que, con probabilidad de al menos 1 − δ (sobre la elección de
los ejemplos), L(D,f)(h) ≤ .

La definición de capacidad de aprendizaje probablemente aproximadamente correcta contiene dos


parámetros de aproximación. El parámetro de precisión determina qué tan lejos
El clasificador de salida puede ser del óptimo (esto corresponde a "aproximadamente correcto"), y
un parámetro de confianza δ que indica qué tan probable es que el clasificador cumpla con ese
requisito de precisión (corresponde a la parte "probablemente"
de “PAC”). Bajo el modelo de acceso a datos que estamos investigando, estas aproximaciones son
inevitables. Dado que el conjunto de entrenamiento se genera aleatoriamente, no
siempre puede haber una pequeña posibilidad de que no sea informativo (por ejemplo, siempre
existe la posibilidad de que el conjunto de entrenamiento contenga solo una
punto de dominio, muestreado una y otra vez). Además, incluso cuando estamos
la suerte de obtener una muestra de entrenamiento que representa fielmente a D, porque
es solo una muestra finita, siempre puede haber algunos detalles finos de D que fallan

Entendiendo el aprendizaje automático, c 2014 por Shai Shalev­Shwartz y Shai Ben­David


Publicado en 2014 por Cambridge University Press.
Solo para uso personal. No para distribucion. No publicar.
Enlace a http://www.cs.huji.ac.il/~shais/UnderstandingMachineLearning
Machine Translated by Google

44 Un modelo de aprendizaje formal

reflejar. Nuestro parámetro de precisión, , permite "perdonar" al clasificador del alumno por
cometer errores menores.

Complejidad de la muestra
La función mH : (0, 1)2 → N determina la complejidad de la muestra de aprendizaje H: es decir,
cuántos ejemplos se requieren para garantizar una solución probablemente aproximadamente
correcta. La complejidad de la muestra es una función de los parámetros de precisión () y confianza
(δ). También depende de las propiedades de la clase de hipótesis H; por ejemplo, para una clase
finita mostramos que la complejidad de la muestra depende del tamaño logarítmico de H.

Tenga en cuenta que si H es aprendible por PAC, hay muchas funciones mH que satisfacen los
requisitos dados en la definición de capacidad de aprendizaje por PAC. Por lo tanto, para ser
precisos, definiremos la complejidad muestral del aprendizaje de H como la “función mínima”, en
el sentido de que para cualquier , δ, mH(, δ ) es el número entero mínimo que satisface los
requisitos del aprendizaje PAC con precisión y confianza δ.
Recordemos ahora la conclusión del análisis de clases de hipótesis finitas
del capitulo anterior. Se puede reformular diciendo:

corolario 3.2 Cada clase de hipótesis finita es PAC aprendible con complejidad de muestra

registro(|H|/δ)
mH(, δ) ≤ .

Hay infinitas clases que también se pueden aprender (ver, por ejemplo, el Ejercicio 3). Más
adelante mostraremos que lo que determina la capacidad de aprendizaje PAC de una clase no es
su finitud sino una medida combinatoria llamada dimensión VC.

3.2 Un modelo de aprendizaje más general

El modelo que acabamos de describir se puede generalizar fácilmente, de modo que se pueda
aplicar a un ámbito más amplio de tareas de aprendizaje. Consideramos generalizaciones en dos
aspectos:

Eliminación de la suposición de realizabilidad Hemos


requerido que el algoritmo de aprendizaje tenga éxito en un par de distribución de datos D y
función de etiquetado f siempre que se cumpla la suposición de realizabilidad. Para tareas
prácticas de aprendizaje, esta suposición puede ser demasiado fuerte (¿podemos realmente
garantizar que hay un rectángulo en el espacio de color­dureza que determina completamente qué
papayas son sabrosas?). En la siguiente subsección, describiremos el modelo PAC agnóstico en
el que se renuncia a esta suposición de realizabilidad.
Machine Translated by Google

3.2 Un modelo de aprendizaje más general 45

Problemas de aprendizaje más allá de la clasificación binaria


La tarea de aprendizaje que hemos estado discutiendo hasta ahora tiene que ver con predecir
una etiqueta binaria para un ejemplo dado (como ser sabroso o no). Sin embargo, muchas
tareas de aprendizaje toman una forma diferente. Por ejemplo, uno puede desear predecir un
número de valor real (digamos, la temperatura mañana a las 9:00 p. m.) o una etiqueta
seleccionada de un conjunto finito de etiquetas (como el tema de la historia principal en el
periódico de mañana). Resulta que nuestro análisis del aprendizaje se puede extender
fácilmente a tales y muchos otros escenarios al permitir una variedad de funciones de pérdida.
Discutiremos eso en la Sección 3.2.2 más adelante.

3.2.1 Liberando el Supuesto de Realizabilidad – Aprendizaje Agnóstico PAC


Un modelo más realista para la distribución de generación de datos Recuerde
que el supuesto de realizabilidad requiere que exista h H tal que Px D[h (x) = f(x)] = 1. En
muchos problemas prácticos, este supuesto no se cumple . Además, tal vez sea más realista
no asumir que las etiquetas están completamente determinadas por las características que
medimos en los elementos de entrada (en el caso de las papayas, es plausible que dos papayas
del mismo color y suavidad tengan un sabor diferente). A continuación, relajamos la suposición
de realizabilidad reemplazando la "función de etiquetado objetivo" con una noción más flexible,
una distribución generadora de etiquetas de datos.

Formalmente, de ahora en adelante, sea D una distribución de probabilidad sobre X × Y,


donde, como antes, X es nuestro conjunto de dominios e Y es un conjunto de etiquetas
(usualmente consideraremos Y = {0, 1}). Es decir, D es una distribución conjunta sobre puntos
de dominio y etiquetas. Uno puede ver tal distribución como compuesta de dos partes: una
distribución Dx sobre puntos de dominio no etiquetados (a veces llamada distribución marginal)
y una probabilidad condicional sobre etiquetas para cada punto de dominio, D((x, y)|x). En el
ejemplo de la papaya, Dx determina la probabilidad de encontrar una papaya cuyo color y
dureza caen en algún dominio de valores de color­dureza, y la probabilidad condicional es la
probabilidad de que una papaya con el color y la dureza representados por x sea sabrosa. De
hecho, tal modelado permite que dos papayas que comparten el mismo color y dureza
pertenezcan a diferentes categorías de sabor.

El empírico y el error verdadero revisado Para una


distribución de probabilidad, D, sobre X × Y, uno puede medir la probabilidad de que h cometa
un error cuando los puntos etiquetados se extraen al azar de acuerdo con D. Redefinimos el
error verdadero (o riesgo) de una regla de predicción h para ser

= PAG [h(x) = y] (x,y)


definitivamente definitivamente

DL(h) D = D({(x, y) : h(x) = y}). (3.1)

Nos gustaría encontrar un predictor, h, para el cual se minimice ese error.


Sin embargo, el alumno no conoce los datos que generan D. A lo que sí tiene acceso el alumno
son los datos de entrenamiento, S. La definición del riesgo empírico
Machine Translated by Google

46 Un modelo de aprendizaje formal

permanece igual que antes, es decir,

= |{i [m] : h(xi) = yi}|


LS(h)
definitivamente

.
metro

Dado S, un estudiante puede calcular LS(h) para cualquier función h : X → {0, 1}. Tenga en cuenta
que LS(h) = LD(uniforme sobre S)(h).

El objetivo
Deseamos encontrar alguna hipótesis, h : X → Y, que (probablemente aproximadamente) minimice
el riesgo real, LD(h).

El predictor óptimo de Bayes.


Dada cualquier distribución de probabilidad D sobre X × {0, 1}, la mejor función de predicción de
etiquetas de X a {0, 1} será

1 si P[y = 1|x] ≥ 1/2


fD(x) =
0 de lo contrario

Es fácil comprobar (ver Ejercicio 7) que para toda distribución de probabilidad D, el predictor
óptimo de Bayes fD es óptimo, en el sentido de que ningún otro clasificador, g : X → {0, 1} tiene un
error menor. Es decir, para todo clasificador g, LD(fD) ≤ LD(g).
Desafortunadamente, dado que no conocemos D, no podemos utilizar este predictor óptimo fD.
A lo que el alumno tiene acceso es a la muestra de capacitación. Ahora podemos presentar la
definición formal de capacidad de aprendizaje PAC agnóstico, que es una extensión natural de la
definición de capacidad de aprendizaje PAC a la configuración de aprendizaje más realista e
irrealizable que acabamos de discutir.
Claramente, no podemos esperar que el algoritmo de aprendizaje encuentre una hipótesis cuyo
error sea menor que el mínimo error posible, el del predictor de Bayes.

Además, como demostraremos más adelante, una vez que no hacemos suposiciones previas
sobre la distribución de generación de datos, no se puede garantizar que ningún algoritmo encuentre
un predictor que sea tan bueno como el óptimo de Bayes. En cambio, requerimos que el algoritmo
de aprendizaje encuentre un predictor cuyo error no sea mucho mayor que el mejor error posible de
un predictor en alguna clase de hipótesis de referencia dada.
Por supuesto, la fuerza de tal requisito depende de la elección de esa clase de hipótesis.

definición 3.3 (Aprendebilidad PAC agnóstica) Una hipótesis clase H es aprendible PAC agnóstica
si existe una función mH : (0, 1)2 → N y un algoritmo de aprendizaje con la siguiente propiedad:
Para cada , δ (0, 1) y para cada distribución D sobre X ×Y, cuando se ejecuta el algoritmo de
aprendizaje en m ≥ mH(, δ) iid ejemplos generados por D, el algoritmo devuelve una hipótesis h tal
que, con probabilidad de al menos 1 − δ (sobre la elección de los m ejemplos de entrenamiento),

DL(h) ≤ min LD(h) + .


h H
Machine Translated by Google

3.2 Un modelo de aprendizaje más general 47

Claramente, si se mantiene el supuesto de realizabilidad, el aprendizaje PAC agnóstico proporciona


la misma garantía que el aprendizaje PAC. En ese sentido, el aprendizaje PAC agnóstico generaliza la
definición de aprendizaje PAC. Cuando la suposición de realizabilidad no se cumple, ningún alumno
puede garantizar un error arbitrariamente pequeño. Sin embargo, bajo la definición de aprendizaje PAC
agnóstico, un alumno aún puede declarar el éxito si su error no es mucho mayor que el mejor error
alcanzable por un predictor de la clase H.
Esto contrasta con el aprendizaje PAC, en el que se requiere que el alumno logre un pequeño error en
términos absolutos y no en relación con el mejor error que puede lograr la clase de hipótesis.

3.2.2 El alcance de los problemas de aprendizaje modelados

A continuación, ampliamos nuestro modelo para que pueda aplicarse a una amplia variedad de tareas
de aprendizaje. Consideremos algunos ejemplos de diferentes tareas de aprendizaje.

• Clasificación Multiclase Nuestra clasificación no tiene por qué ser binaria.


Tomemos, por ejemplo, la tarea de clasificación de documentos: Deseamos diseñar un programa
que sea capaz de clasificar documentos dados según temas (por ejemplo, noticias, deportes,
biología, medicina). Un algoritmo de aprendizaje para tal tarea tendrá acceso a ejemplos de
documentos clasificados correctamente y, sobre la base de estos ejemplos, debe generar un
programa que pueda tomar como entrada un nuevo documento y generar una clasificación de
temas para ese documento. Aquí, el conjunto de dominios es el conjunto de todos los documentos
potenciales. Una vez más, normalmente representaríamos los documentos mediante un conjunto
de características que podrían incluir recuentos de diferentes palabras clave en el documento,
así como otras características posiblemente relevantes, como el tamaño del documento o su
origen. El conjunto de etiquetas en esta tarea será el conjunto de posibles temas del documento
(por lo que Y será un conjunto finito grande). Una vez que determinamos nuestro dominio y
conjuntos de etiquetas, los otros componentes de nuestro marco lucen exactamente igual que
en el ejemplo de cata de papaya; Nuestra muestra de entrenamiento será una secuencia finita
de pares (vector de características, etiqueta), la salida del alumno será una función del conjunto
de dominio al conjunto de etiquetas y, finalmente, para nuestra medida de éxito, podemos usar
la probabilidad, sobre (documento, tema) pares, del evento que nuestro predictor sugiere una
etiqueta incorrecta.

• Regresión En esta tarea, uno desea encontrar algún patrón simple en los datos: una relación funcional
entre los componentes X e Y de los datos. Por ejemplo, uno desea encontrar una función lineal
que prediga mejor el peso de un bebé al nacer sobre la base de medidas de ultrasonido de la
circunferencia de la cabeza, la circunferencia abdominal y la longitud del fémur. Aquí, nuestro
conjunto de dominios X es un subconjunto de R (las tres mediciones de ultrasonido) y el conjunto
de "etiquetas"

Y, es el conjunto de los números reales (el peso en gramos). En este contexto, es más adecuado
llamar a Y el conjunto objetivo. Nuestros datos de entrenamiento, así como la salida del alumno,
son como antes (una secuencia finita de pares (x, y) y una función de X a Y respectivamente).
Sin embargo, nuestra medida del éxito es
Machine Translated by Google

48 Un modelo de aprendizaje formal

diferente. Podemos evaluar la calidad de una función de hipótesis, h : X → Y, por la


diferencia cuadrática esperada entre las etiquetas verdaderas y sus valores predichos, a
saber,

= mi (h(x) − y) (x,y) .
definitivamente
2
DL(h) D (3.2)

Para dar cabida a una amplia gama de tareas de aprendizaje generalizamos nuestro formalismo
de la medida del éxito de la siguiente manera:

Funciones de pérdida generalizada


Dado cualquier conjunto H (que juega el papel de nuestras hipótesis o modelos) y algún dominio Z
sea cualquier función de H×Z al conjunto de números reales no negativos,
: H × Z → R+.
Llamamos a tales funciones funciones de pérdida.
Tenga en cuenta que para los problemas de predicción, tenemos que Z = X × Y. Sin embargo,
nuestra noción de la función de pérdida se generaliza más allá de las tareas de predicción y, por lo
tanto, permite que Z sea cualquier dominio de ejemplos (por ejemplo, en tareas de aprendizaje no
supervisadas como el descrito en el Capítulo 22, Z no es un producto de un dominio de instancia y
un dominio de etiqueta).
Ahora definimos la función de riesgo como la pérdida esperada de un clasificador, h H, con
respecto a una distribución de probabilidad D sobre Z, a saber,

=Ez D [(h, z)].


definitivamente

DL(h) (3.3)

Es decir, consideramos la expectativa de la pérdida de h sobre objetos z elegidos al azar de


acuerdo con D. De manera similar, definimos el riesgo empírico como la pérdida esperada sobre
una muestra dada S = (z1, . . . , zm ) Zm , a saber,

1
metro

LS(h) =
definitivamente

(h, zi). (3.4)


metro = 1

Las funciones de pérdida utilizadas en los ejemplos anteriores de clasificación y regresión


Las tareas de sión son las siguientes:

• Pérdida 0–1: Aquí, nuestra variable aleatoria z oscila sobre el conjunto de pares X × Y y la función
de pérdida es

=
definitivamente 0 si h(x) = y 1 si
0−1(h,(x, y))
h(x) = y

Esta función de pérdida se utiliza en problemas de clasificación binaria o multiclase.


Cabe señalar que, para una variable aleatoria, α, tomando los valores {0, 1}, Eα D[α] =
Pα D[α = 1]. En consecuencia, para esta función de pérdida, las definiciones de LD(h)
dadas en la Ecuación (3.3) y la Ecuación (3.1) coinciden. • Square Loss: aquí,
nuestra variable aleatoria z oscila sobre el conjunto de pares X × Y
y la función de pérdida es

.
definitivamente
2

cuadrado(h,(x, y)) = (h(x) − y)


Machine Translated by Google

3.3 Resumen 49

Esta función de pérdida se utiliza en problemas de regresión.

Más adelante veremos más ejemplos de instanciaciones útiles de funciones de pérdida.

Para resumir, definimos formalmente la capacidad de aprendizaje de PAC agnóstico para funciones de
pérdida generales.

definición 3.4 (Aprendebilidad PAC agnóstica para funciones generales de pérdida) Una clase de
hipótesis H es aprendible PAC agnóstica con respecto a un conjunto Z y una función de pérdida: H
× Z → R+, si existe una función mH: (0 , 1 ) 2 → N δ (0, 1) y un algoritmo de aprendizaje con la
propiedad: Para cada , y para cada distribución D sobre Z, cuando se ejecuta el siguiente
algoritmo de aprendizaje en m ≥ mH(, δ) iid ejemplos generados por D, el algoritmo devuelve h
H tal que, con probabilidad de al menos 1 − δ (sobre la elección de los m ejemplos de entrenamiento),

DL(h) ≤ min LD(h) + ,


h H

donde LD(h) = Ez D[(h, z)].

Observación 3.1 (Una nota sobre la mensurabilidad*) En la definición anterior, para cada h H,
vemos la función (h, ∙) : Z → R+ como una variable aleatoria y definimos LD(h) como el valor
esperado de esta variable aleatoria. Para eso, necesitamos exigir que la función (h, ∙) sea medible.
Formalmente, asumimos que existe un σ­álgebra de subconjuntos de Z, sobre el cual se define la
probabilidad D, y que la preimagen de cada segmento inicial en R+ está en esta σ­álgebra. En el
caso específico de clasificación binaria con pérdida 0−1, el álgebra σ es sobre X × {0, 1} y nuestra
suposición de es equivalente a la suposición de que para cada h, el conjunto {(x, h(x )) : x X}
está en el σ­álgebra.

Observación 3.2 (Aprendizaje propio versus independiente de la representación*) En la definición


anterior, requerimos que el algoritmo devuelva una hipótesis de H. En algunas situaciones, H es un
subconjunto de un conjunto H y la función de pérdida puede extenderse
, naturalmente a Sea una
función de H × Z a los reales. En este caso, podemos permitir que el algoritmo devuelva una
hipótesis h H siempre que satisfaga el requisito LD(h ) ≤ minh , + . Permitir que el
H LD(h)
algoritmo genere una hipótesis a partir de H se denomina aprendizaje independiente de la
representación, mientras que el aprendizaje adecuado ocurre cuando el algoritmo debe generar
una hipótesis a partir de H. El aprendizaje independiente de la representación a veces se denomina
"aprendizaje inadecuado", aunque no hay nada inadecuado en el aprendizaje independiente de la
representación. .

3.3 Resumen
En este capítulo definimos nuestro principal modelo de aprendizaje formal: el aprendizaje PAC. El
modelo básico se basa en el supuesto de realizabilidad, mientras que la variante agnóstica no
Machine Translated by Google

50 Un modelo de aprendizaje formal

no impone ninguna restricción a la distribución subyacente sobre los ejemplos. También


generalizamos el modelo PAC a funciones de pérdida arbitrarias. A veces nos referiremos al
modelo más general simplemente como aprendizaje PAC, omitiendo el prefijo "agnóstico" y
dejando que el lector deduzca cuál es la función de pérdida subyacente a partir del contexto.
Cuando nos gustaría enfatizar que estamos tratando con la configuración PAC original,
mencionamos que se mantiene la suposición de realizabilidad. En el Capítulo 7 discutiremos otras
nociones de capacidad de aprendizaje.

3.4 Comentarios bibliográficos

Nuestra definición más general de aprendizaje PAC agnóstico con funciones generales de
pérdida sigue los trabajos de Vladimir Vapnik y Alexey Chervonenkis (Vapnik & Chervonenkis
1971). En particular, seguimos el marco general de aprendizaje de Vapnik (Vapnik 1982, Vapnik
1992, Vapnik 1995, Vapnik 1998).
El aprendizaje PAC fue introducido por Valiant (1984). Valiant fue nombrado ganador del
Premio Turing 2010 por la introducción del modelo PAC. La definición de Valiant requiere que la
complejidad de la muestra sea polinomial en 1/ y en 1/δ, así como en el tamaño de representación
de las hipótesis en la clase (ver también Kearns & Vazirani (1994)). Como veremos en el Capítulo
6, si un problema se puede aprender en PAC, entonces la complejidad de la muestra depende
polinómicamente de 1/ y log(1/δ).
La definición de Valiant también requiere que el tiempo de ejecución del algoritmo de aprendizaje
sea polinomial en estas cantidades. Por el contrario, elegimos distinguir entre el aspecto estadístico
del aprendizaje y el aspecto computacional del aprendizaje. Desarrollaremos el aspecto
computacional más adelante en el Capítulo 8, donde presentamos el modelo completo de
aprendizaje PAC de Valiant. Por razones explicativas, usamos el término aprendizaje PAC incluso
cuando ignoramos el aspecto del tiempo de ejecución del aprendizaje.
Finalmente, la formalización del aprendizaje PAC agnóstico se debe a Haussler (1992).

3.5 Ejercicios

1. Monotonicidad de la complejidad de la muestra: Sea H una clase de hipótesis para una tarea
de clasificación binaria. Suponga que H es aprendible en PAC y su complejidad de muestra
viene dada por mH(∙, ∙). Demuestre que mH es monótonamente no creciente en cada uno de
sus parámetros. Es decir, demuestre que dado δ (0, 1), y dado 0 < 1 ≤ 2 < 1, tenemos que
mH(1, δ) ≥ mH(2, δ). De manera similar, demuestre que dado (0, 1), y dado 0 < δ1 ≤ δ2 <
1, tenemos que mH(, δ1) ≥ mH(, δ2).
2. Sea X un dominio discreto, y sea HSingleton = {hz : z X} {h −}, donde hz es la función
para cada z X , definida por hz(x) = 1 si x = z y hz(x) = 0 si x = z. h − es simplemente la
hipótesis totalmente negativa, es decir, x X, h −(x) = 0.
La suposición de realizabilidad aquí implica que la hipótesis verdadera f etiqueta negativamente
todos los ejemplos en el dominio, quizás excepto uno.
Machine Translated by Google

3.5 Ejercicios 51

1. Describa un algoritmo que implemente la regla ERM para aprender HSingleton en la


configuración realizable.
2. Demostrar que HSingleton se puede aprender en PAC. Proporcione un límite superior en el
complejidad de la muestra.
2 3. Sea X = R , Y = {0, 1}, y sea H la clase de círculos concéntricos en el plano, es decir, H
= {hr : r R+}, donde hr(x) = 1[x≤r] . Demuestre que H es PAC aprendible (suponga
realizabilidad) y que su complejidad muestral está limitada por

registro (1/δ)
mH(, δ) ≤ .

4. En esta pregunta, estudiamos la clase de hipótesis de las conjunciones booleanas definidas


d
de la siguiente manera. El espacio de instancia es X = {0, 1} y el conjunto de etiquetas es Y =
toma el literal sobre las variables {0, 1}. Una xd es una función booleana simple que
x1, . . . , forma f(x) ,= xi para algún i [d], o f(x) = 1−xi para algún i [d]. Usamos la notación
¯xi como abreviatura de 1−xi . Una conjunción es cualquier producto de literales.
En lógica booleana, el producto se denota con el signo . Por ejemplo, la función h(x) = x1 ∙
(1 − x2) se escribe como x1 x¯2.
Consideramos la clase de hipótesis de todas las conjunciones de literales sobre las d
variables. La conjunción vacía se interpreta como la hipótesis totalmente positiva (es decir, la
función que devuelve h(x) = 1 para todo x). La conjunción x1 x¯1 (y de manera similar
cualquier conjunción que involucre un literal y su negación) se permite e interpreta como la
hipótesis totalmente negativa (es decir, la conjunción que devuelve h(x) = 0 para todo x).
Suponemos realizabilidad: es decir, suponemos que existe una conjunción booleana que
genera las etiquetas. Así, cada ejemplo (x, y) X × Y consiste en una asignación a las d
variables booleanas x1, . . . , xd, y su valor de verdad (0 para falso y 1 para verdadero).

Por ejemplo, sea d = 3 y suponga que la verdadera conjunción es x1 x¯2.


Entonces, el conjunto de entrenamiento S podría contener las siguientes instancias:

((1, 1, 1), 0),((1, 0, 1), 1),((0, 1, 0), 0)((1, 0, 0), 1).

Demuestre que la clase de hipótesis de todas las conjunciones sobre d variables es


PAC aprendible y limite su complejidad de muestra. Proponga un algoritmo que implemente
la regla ERM, cuyo tiempo de ejecución sea polinomial en d∙m.
5. Sea X un dominio y sean D1, D2, . . . , Dm sea una secuencia de distribuciones sobre X . Sea
H una clase finita de clasificadores binarios sobre X y sea f H.
Supongamos que estamos obteniendo una muestra S de m ejemplos, de modo que las
instancias son independientes pero no están distribuidas de manera idéntica; la i­ésima
instancia se muestrea de Di y luego yi se establece en f(xi). Sea D¯m el promedio, es decir,
D¯m = (D1 + ∙ ∙ ∙ + Dm)/m.

Fijar un parámetro de precisión (0, 1). Muestra esa

P h H st L(D¯m,f) (h) > y L(S,f)(h) = 0 ≤ |H|e −m.


Machine Translated by Google

52 Un modelo de aprendizaje formal

Sugerencia: use la desigualdad media aritmética geométrica.


6. Sea H una clase de hipótesis de clasificadores binarios. Muestre que si H es agnóstico PAC
aprendible, entonces H es agnóstico PAC aprendible también. Además, si A es un estudiante
exitoso de PAC agnóstico para H, entonces A también es un estudiante exitoso de PAC para
H.
7. (*) El predictor óptimo de Bayes: Muestre que para toda distribución de probabilidad D, el
predictor óptimo de Bayes fD es óptimo, en el sentido de que para todo clasificador g de X a
{0, 1}, LD(fD) ≤ LD (gramo).
8. (*) Decimos que un algoritmo de aprendizaje A es mejor que B con respecto a algún
distribución de probabilidad, D, si

LD(A(S)) ≤ LD(B(S))

para todas las muestras S (X ×{0, 1}) m. Decimos que un algoritmo de aprendizaje A es
mejor que B, si es mejor que B con respecto a todas las distribuciones de probabilidad D sobre
X × {0, 1}.
1. Un predictor de etiqueta probabilística es una función que asigna a cada punto de dominio
un valor de probabilidad xa, h(x) [0, 1], que determina la probabilidad de predecir la
etiqueta 1. Es decir, dado tal h y una entrada , x, la etiqueta para x se predice lanzando
una moneda con sesgo h(x) hacia cara y prediciendo 1 si la moneda sale cara. Formalmente,
definimos un predictor de etiqueta probabilística como una función, h : X → [0, 1]. La
pérdida de tal h en un ejemplo (x, y) se define como |h(x) − y|, que es exactamente la
probabilidad de que la predicción de h no sea igual a y. Tenga en cuenta que si h es
determinista, es decir, devuelve valores en {0, 1}, entonces |h(x) − y| = 1[h(x)=y] .

Demuestre que para cada distribución generadora de datos D sobre X × {0, 1}, el predictor
óptimo de Bayes tiene el riesgo más pequeño (con la función de pérdida (h,(x, y)) = |h(x)
−y|, entre todos los posibles predictores de etiquetas, incluidos los probabilísticos).

2. Sea X un dominio y {0, 1} un conjunto de etiquetas. Demuestre que para toda distribución D
sobre X × {0, 1}, existe un algoritmo de aprendizaje AD que es mejor que cualquier otro
algoritmo de aprendizaje con respecto a D.
3. Demostrar que para cada algoritmo de aprendizaje A existe una distribución de probabilidad,
D, y un algoritmo de aprendizaje B tal que A no es mejor que B frente a D.

9. Considere una variante del modelo PAC en la que hay dos oráculos de ejemplo: uno que
genera ejemplos positivos y otro que genera ejemplos negativos, ambos de acuerdo con la
distribución subyacente D en X. Formalmente, dada una función objetivo f : X → {0, 1}, sea D+
la distribución sobre X + = {x X : f(x) = 1} definida por D+(A) = D(A)/D (X +), para todo A
X +. De manera similar, D− es la distribución sobre X − inducida por D.

La definición de capacidad de aprendizaje de PAC en el modelo de dos oráculos es la


misma que la definición estándar de capacidad de aprendizaje de PAC, excepto que aquí el
alumno tiene acceso a m+ H(, δ) iid ejemplos de D+ y m−(, δ) iid ejemplos de D −. El objetivo
del alumno es generar h st con una probabilidad de al menos 1−δ (sobre la elección
Machine Translated by Google

3.5 Ejercicios 53

de los dos conjuntos de entrenamiento, y posiblemente sobre las decisiones no deterministas


tomadas por el algoritmo de aprendizaje), tanto L(D+,f)(h) ≤ como L(D−,f)(h) ≤ .
1. (*) Demuestre que si H es PAC aprendible (en el modelo estándar de un solo oráculo),
entonces H es PAC aprendible en el modelo de dos oráculos.
2. (**) Definir h + como la hipótesis siempre positiva y h − como la hipótesis siempre negativa.
Suponga que h +, h− H. Demuestre que si H es PAC aprendible en el modelo de dos
oráculos, entonces H es PAC aprendible en el modelo estándar de un oráculo.
Machine Translated by Google

4 Aprendizaje a través de la convergencia uniforme

El primer modelo de aprendizaje formal que hemos discutido fue el modelo PAC.
En el Capítulo 2 , hemos demostrado que bajo el supuesto de realizabilidad, cualquier clase de
hipótesis finita es aprendible por PAC. En este capítulo, desarrollaremos una herramienta general,
la convergencia uniforme, y la aplicaremos para mostrar que cualquier clase finita se puede
aprender en el modelo PAC agnóstico con funciones de pérdida generales, siempre que la función
de pérdida de rango esté acotada.

4.1 La convergencia uniforme es suficiente para la capacidad de aprendizaje

La idea detrás de la condición de aprendizaje discutida en este capítulo es muy simple.


Recuerde que, dada una clase de hipótesis, H, el paradigma de aprendizaje de ERM funciona de
la siguiente manera: al recibir una muestra de entrenamiento, S, el alumno evalúa el riesgo (o
error) de cada h en H en la muestra dada y genera un miembro de H que minimiza este riesgo
empírico. La esperanza es que una h que minimice el riesgo empírico con respecto a S sea un
minimizador de riesgo (o tenga un riesgo cercano al mínimo) con respecto a la verdadera
distribución de probabilidad de los datos también. Para eso, basta con asegurar que los riesgos
empíricos de todos los miembros de H sean buenas aproximaciones de su verdadero riesgo. Dicho
de otra manera, necesitamos que uniformemente sobre todas las hipótesis en la clase de hipótesis,
el riesgo empírico sea cercano al riesgo real, como se formaliza a continuación.

definición 4.1 (muestra ­representativa) Un conjunto de entrenamiento S se llama ­representativo (wrt


dominio Z, clase de hipótesis H, función de pérdida , y distribución D) si

h H, |LS(h) − LD(h)| ≤ .

El siguiente lema simple establece que siempre que la muestra sea (/2)­representativa,
Se garantiza que la regla de aprendizaje de ERM arrojará una buena hipótesis.

lema 4.2 Suponga que un conjunto de entrenamiento S 2 ­representante (dominio wrt


es Z, clase de hipótesis H, función de pérdida , y distribución D). Entonces, cualquier salida de
ERMH(S), es decir, cualquier hS argminh H LS(h), satisface

LD(hS) ≤ min LD(h) + .


h H

Comprender el aprendizaje automático, c 2014 por Shai Shalev­Shwartz y Shai Ben­David


Publicado en 2014 por Cambridge University Press.
Solo para uso personal. No para distribucion. No publicar.
Enlace a http://www.cs.huji.ac.il/~shais/UnderstandingMachineLearning
Machine Translated by Google

4.2 Las clases finitas son agnósticas PAC aprendibles 55

Prueba Para todo h H,

LD(hS) ≤ LS(hS) + ≤ LS(h) + ≤ DL(h) + + = DL(h) + ,


2 2 22

­
donde la primera y la tercera desigualdad se deben a la suposición de que S es representativa
2
(Definición 4.1) y la segunda desigualdad se cumple ya que hS es un
predictor de ERM.

El lema anterior implica que para asegurar que la regla ERM sea agnóstica
estudiante de PAC, es suficiente mostrar que con una probabilidad de al menos 1 − δ sobre el
elección aleatoria de un conjunto de entrenamiento, será un conjunto de entrenamiento representativo. El
la condición de convergencia uniforme formaliza este requisito.

definición 4.3 (Convergencia Uniforme) Decimos que una clase de hipótesis H tiene
la propiedad de convergencia uniforme (wrt un dominio Z y una función de pérdida) si
existe una función mUC H : (0, 1)2 → N tal que para todo , δ (0, 1) y
para toda distribución de probabilidad D sobre Z, si S es una muestra de m ≥ mUC H (, d)
ejemplos dibujados iid según D, entonces, con probabilidad de al menos 1 − δ, S
es ­representante.

Similar a la definición de complejidad de la muestra para el aprendizaje de PAC, la función


mUC mide la complejidad de la muestra (mínima) para obtener la propiedad de convergencia
uniforme H , es decir, cuántos ejemplos necesitamos para asegurar que con
probabilidad de al menos 1 − δ la muestra sería ­representativa.
El término uniforme aquí se refiere a tener un tamaño de muestra fijo que funcione para todos
miembros de H y sobre todas las posibles distribuciones de probabilidad sobre el dominio.
El siguiente corolario se deriva directamente del Lema 4.2 y la definición de
convergencia uniforme.

corolario 4.4 Si una clase H tiene la propiedad de convergencia uniforme con una
función mUC H entonces la clase es agnósticamente PAC aprendible con el ejemplo com
plexidad mH(, δ) ≤ mUC H (/2, δ). Además, en ese caso, el paradigma ERMH
es un aprendiz exitoso de PAC agnóstico para H.

4.2 Las clases finitas son agnósticas PAC aprendibles

En vista del Corolario 4.4, la afirmación de que toda clase de hipótesis finita es agnóstica
PAC aprendible seguirá una vez que establezcamos que la convergencia uniforme se mantiene para
una clase finita de hipótesis.
Para mostrar que se cumple la convergencia uniforme, seguimos un argumento de dos pasos, similar
a la derivación en el Capítulo 2. El primer paso aplica el límite de unión mientras que el
El segundo paso emplea una medida de desigualdad de concentración. Ahora explicamos estos
dos pasos en detalle.
Arregla algo de, δ. Necesitamos encontrar un tamaño de muestra m que garantice que para cualquier

D, con probabilidad de al menos 1 − δ de la elección de S = (z1, . . . , zm) muestreada


Machine Translated by Google

56 Aprendizaje a través de la convergencia uniforme

iid de D tenemos que para todo h H, |LS(h) − LD(h)| ≤ . Eso es,

re metro({S : h H, |LS(h) − LD(h)| ≤ }) ≥ 1 − δ.

De manera equivalente, necesitamos demostrar que

re metro({S : h H, |LS(h) − LD(h)| > }) < δ.

Escribiendo

{S : h H, |LS(h) − LD(h)| > } = h H{S : |LS(h) − LD(h)| > },

y aplicando el límite de unión (Lema 2.2) obtenemos

re metro({S : h H, |LS(h) − LD(h)| > }) ≤ D m({S : |LS(h) − LD(h)| > }).


h H
(4.1)
Nuestro segundo paso será argumentar que cada sumando del lado derecho de esta
desigualdad es lo suficientemente pequeño (para una m suficientemente grande). Es decir,
mostraremos que para cualquier hipótesis fija, h, (que se elige de antemano antes del muestreo
del conjunto de entrenamiento), la brecha entre los riesgos verdadero y empírico, |LS(h) − LD(h )
| , es probable que sea pequeño.
1 metro
Recuerde que LD(h) = Ez D[(h, z)] y que LS(h) = metro yo=1
(h, zi). Como
cada zi se muestrea iid de D, el valor esperado de la variable aleatoria (h, zi) es LD(h). Por la
linealidad de la expectativa, se deduce que LD(h) es también el valor esperado de LS(h). Por lo
tanto, la cantidad |LD(h)−LS(h)| es la desviación de la variable aleatoria LS(h) de su expectativa.
Por lo tanto, necesitamos mostrar que la medida de LS(h) se concentra alrededor de su valor
esperado.
Un hecho estadístico básico, la ley de los grandes números, establece que cuando m tiende a
infinito, los promedios empíricos convergen a su verdadera expectativa. Esto es cierto para LS(h),
ya que es el promedio empírico de m iid variables aleatorias. Sin embargo, dado que la ley de los
grandes números es solo un resultado asintótico, no proporciona información sobre la brecha
entre el error estimado empíricamente y su valor real para cualquier tamaño de muestra finito
dado.
En su lugar, utilizaremos una medida de desigualdad de concentración debida a Hoeffding, que
cuantifica la brecha entre los promedios empíricos y su valor esperado.

lema 4.5 (Desigualdad de Hoeffding) Sea θ1, . . . , θm sea una secuencia de iid variables
aleatorias y suponga que para todo i, E[θi ] = µ y P[a ≤ θi ≤ b] = 1. Entonces, para cualquier > 0

metro

PAG
1
θi − µ > ≤ 2 exp −2 m 2
/(b­a)
2 .
metro

yo=1

La demostración se encuentra en el Apéndice B.


Volviendo a nuestro problema, sea θi la variable aleatoria (h, zi). Como h es fijo y z1, . . . , zm
se muestrean iid, se sigue que θ1, . . . , θm también son variables aleatorias iid. Además, LS(h) =
1 metro
θi y LD(h) = µ. Nos deja metro yo=1
Machine Translated by Google

4.2 Las clases finitas son agnósticas PAC aprendibles 57

además suponga que el rango de es [0, 1] y por lo tanto θi [0, 1]. Obtenemos por tanto que

metro

re m({S : |LS(h) − LD(h)| > }) = PAGS


1
θi − µ > ≤ 2 exp −2 m 2 .
metro

yo=1
(4.2)
Combinando esto con la Ecuación (4.1) se obtiene

2
re metro({S : h H, |LS(h) − LD(h)| > }) ≤ 2 exp −2 m
h H

= 2 |H| exp −2 m
2 .

Finalmente, si elegimos
log(2|H|/δ) m
≥22

entonces

re metro({S : h H, |LS(h) − LD(h)| > }) ≤ δ.

corolario 4.6 Sea H una clase finita de hipótesis, sea Z un dominio y sea : H × Z → [0, 1] una
función de pérdida. Entonces, H disfruta de la convergencia uniforme
propiedad con complejidad muestral

log(2|H|/δ) 2
mUC(, δ) ≤ .
H 2

Además, la clase es agnósticamente PAC aprendible usando el algoritmo ERM con complejidad
de muestra

2 log(2|H|/δ)
mH(, δ) ≤ mUC (/2, δ) ≤ .
H 2

Observación 4.1 (El “truco de la discretización”) Si bien el corolario anterior solo se aplica a las
clases de hipótesis finitas, existe un truco simple que nos permite obtener una muy buena
estimación de la complejidad de la muestra práctica de las clases de hipótesis infinitas.
Considere una clase de hipótesis que está parametrizada por d parámetros. Por ejemplo, sean
X = R, Y = {±1} y la clase de hipótesis, H, funciones de la forma hθ(x) = signo(x − θ). Es decir,
cada hipótesis está parametrizada por un parámetro, θ R, y la hipótesis genera 1 para todas
las instancias mayores que θ y genera −1 para instancias menores que θ. Esta es una clase
de hipótesis de un tamaño infinito. Sin embargo, si vamos a aprender esta clase de hipótesis
en la práctica, usando una computadora, probablemente mantendremos números reales
usando representación de punto flotante, digamos, de 64 bits. De ello se deduce que, en la
práctica, nuestra clase de hipótesis está parametrizada por el conjunto de escalares que se
pueden representar utilizando un número de punto flotante de 64 bits. Hay como máximo 264
de esos números; por lo tanto, el tamaño real de nuestra clase de hipótesis es como máximo
264. Más generalmente, si nuestra clase de hipótesis está parametrizada por d números, en la
práctica aprendemos una clase de hipótesis de tamaño como máximo 264d . Aplicando el
Corolario 4.6 obtenemos que la complejidad muestral de tales
Machine Translated by Google

58 Aprendizaje a través de la convergencia uniforme

las clases están delimitadas por .128d+2 log(2/δ)


Este límite
2 superior de la complejidad de la muestra tiene la deficiencia de

depender de la representación específica de la realidad.


números utilizados por nuestra máquina. En el Capítulo 6 presentaremos una forma rigurosa
analizar la complejidad muestral de clases de hipótesis de tamaño infinito. Sin embargo, el truco de la discretización
se puede utilizar para obtener una estimación aproximada de la muestra.
complejidad en muchas situaciones prácticas.

4.3 Resumen

Si la propiedad de convergencia uniforme se cumple para una clase de hipótesis H, entonces en la mayoría de los casos
casos, los riesgos empíricos de las hipótesis en H representarán fielmente su verdadero
riesgos La convergencia uniforme es suficiente para la capacidad de aprendizaje de PAC agnóstico utilizando el ERM
regla. Hemos demostrado que las clases de hipótesis finitas disfrutan de la convergencia uniforme
propiedad y, por lo tanto, son agnósticos PAC aprendibles.

4.4 Comentarios bibliográficos

Las clases de funciones para las que se cumple la propiedad de convergencia uniforme también son
llamadas clases Glivenko­Cantelli, nombradas así por Valery Ivanovich Glivenko y
Francesco Paolo Cantelli, que demostró el primer resultado de convergencia uniforme en
la década de 1930 Véase (Dudley, Gine & Zinn 1991). Vapnik estudió a fondo la relación entre la convergencia
uniforme y la capacidad de aprendizaje; consulte (Vapnik 1992,
Vapnik 1995, Vapnik 1998). De hecho, como veremos más adelante en el Capítulo 6, el teorema fundamental de
la teoría del aprendizaje establece que en problemas de clasificación binaria,
La convergencia uniforme no solo es una condición suficiente para la capacidad de aprendizaje, sino que también es
una condición necesaria. Este no es el caso para problemas de aprendizaje más generales.
(ver (Shalev­Shwartz, Shamir, Srebro & Sridharan 2010)).

4.5 Ejercicios

1. En este ejercicio, mostramos que el requisito (, δ) sobre la convergencia de


errores en nuestras definiciones de aprendizaje PAC, es, de hecho, bastante cercano a un requisito de
apariencia más simple sobre promedios (o expectativas). probar que el
siguientes dos afirmaciones son equivalentes (para cualquier algoritmo de aprendizaje A, cualquier
distribución de probabilidad D, y cualquier función de pérdida cuyo rango sea [0, 1]):
1. Por cada , δ > 0, existe m(, δ) tal que m ≥ m(, δ)

PAG
[LD(A(S)) > ] < δ
S Dm
2.

límite mi [LD(A(S))] = 0
m→∞ S Dm
Machine Translated by Google

4.5 Ejercicios 59

(donde ES Dm denota la expectativa sobre muestras S de tamaño m).


2. Funciones de pérdida acotadas: En el Corolario 4.6 asumimos que el rango de la función
de pérdida es [0, 1]. Demuestre que si el rango de la función de pérdida es [a, b] entonces
la complejidad de la muestra satisface
2
2 log(2|H|/δ)(b − a)
mH(, δ) ≤ mUC (/2, .
H δ) ≤ 2
Machine Translated by Google

5 La compensación entre el sesgo y la complejidad

En el Capítulo 2 vimos que, a menos que uno sea cuidadoso, los datos de entrenamiento
pueden confundir al alumno y resultar en un sobreajuste. Para superar este problema,
restringimos el espacio de búsqueda a alguna clase de hipótesis H. Tal clase de hipótesis
puede verse como un reflejo de algún conocimiento previo que el alumno tiene sobre la tarea,
la creencia de que uno de los miembros de la clase H es un bajo nivel. ­modelo de error para la tarea. Para
Por ejemplo, en nuestro problema del sabor de las papayas, sobre la base de nuestra
experiencia previa con otras frutas, podemos suponer que algún rectángulo en el plano color­
dureza predice (al menos aproximadamente) el sabor de la papaya.
¿Es realmente necesario ese conocimiento previo para el éxito del aprendizaje? ¿Quizás
existe algún tipo de alumno universal, es decir, un alumno que no tiene conocimientos previos
sobre una determinada tarea y está listo para ser desafiado por cualquier tarea? Profundicemos
en este punto. Una tarea de aprendizaje específica se define por una distribución desconocida
D sobre X × Y, donde el objetivo del alumno es encontrar un predictor h : X → Y, cuyo riesgo,
LD(h), sea lo suficientemente pequeño. Por lo tanto, la pregunta es si existe un algoritmo de
aprendizaje A y un tamaño de conjunto de entrenamiento m, tal que para cada distribución D,
si A recibe m iid ejemplos de D, existe una alta probabilidad de que genere un predictor h que
tiene un riesgo bajo.
La primera parte de este capítulo aborda formalmente esta cuestión. El teorema de No­
Free Lunch establece que no existe tal alumno universal. Para ser más precisos, el teorema
establece que para las tareas de predicción de clasificación binaria, para cada alumno existe
una distribución en la que falla. Decimos que el alumno falla si, al recibir iid ejemplos de esa
distribución, es probable que su hipótesis de salida tenga un gran riesgo, digamos, ≥ 0.3,
mientras que para la misma distribución, existe otro alumno que generará una hipótesis con
un pequeño riesgo. En otras palabras, el teorema establece que ningún alumno puede tener
éxito en todas las tareas que se pueden aprender: cada alumno tiene tareas en las que falla,
mientras que otros alumnos tienen éxito.
Por lo tanto, al abordar un problema de aprendizaje particular, definido por alguna
distribución D, deberíamos tener algún conocimiento previo sobre D. Un tipo de dicho
conocimiento previo es que D proviene de alguna familia de distribuciones paramétricas específicas.
Estudiaremos el aprendizaje bajo tales supuestos más adelante en el Capítulo 24. Otro tipo
de conocimiento previo sobre D, que asumimos al definir el modelo de aprendizaje PAC, es
que existe h en alguna clase de hipótesis predefinida H, tal que LD(h) = 0. Un tipo más suave
de conocimiento previo sobre D es asumir que minh H LD(h) es pequeño. En cierto sentido,
esta suposición más débil sobre D es un requisito previo para usar el

Comprender el aprendizaje automático, c 2014 por Shai Shalev­Shwartz y Shai Ben­David


Publicado en 2014 por Cambridge University Press.
Solo para uso personal. No para distribucion. No publicar.
Enlace a http://www.cs.huji.ac.il/~shais/UnderstandingMachineLearning
Machine Translated by Google

5.1 El teorema de no comer gratis 61

modelo PAC agnóstico, en el que requerimos que el riesgo de la hipótesis de salida no sea mucho
mayor que minh H LD(h).
En la segunda parte de este capítulo estudiamos las ventajas y desventajas de utilizar una clase
de hipótesis como medio para formalizar el conocimiento previo. Descomponemos el error de un
algoritmo ERM sobre una clase H en dos componentes. El primer componente refleja la calidad de
nuestro conocimiento previo, medido por el riesgo mínimo de una hipótesis en nuestra clase de
hipótesis, minh H LD(h). Este componente también se denomina error de aproximación, o el sesgo
del algoritmo para elegir una hipótesis de H. El segundo componente es el error por sobreajuste,
que depende del tamaño o la complejidad de la clase H y se denomina error de estimación. . Estos
dos términos implican una compensación entre elegir una H más compleja (que puede disminuir el
sesgo pero aumenta el riesgo de sobreajuste) o una H menos compleja (que podría aumentar el
sesgo pero disminuye el sobreajuste potencial).

5.1 El teorema de no comer gratis

En esta parte demostramos que no existe un aprendiz universal. Hacemos esto demostrando que
ningún alumno puede tener éxito en todas las tareas de aprendizaje, como se formaliza en el
siguiente teorema:

teorema 5.1 (No­Free­Lunch) Sea A cualquier algoritmo de aprendizaje para la tarea de clasificación
binaria con respecto a la pérdida 0 − 1 sobre un dominio X . Sea m cualquier número menor que |X
|/2, que representa el tamaño de un conjunto de entrenamiento. Entonces, existe una distribución D
sobre X × {0, 1} tal que:

1. Existe una función f : X → {0, 1} con LD(f) = 0.


2. Con probabilidad de al menos 1/7 sobre la elección de S Dm tenemos que LD(A(S)) ≥ 1/8.

Este teorema establece que para cada alumno, existe una tarea en la que falla, aunque esa
tarea pueda ser aprendida con éxito por otro alumno. De hecho, un alumno exitoso trivial en este
caso sería un alumno de ERM con la clase de hipótesis H = {f}, o más generalmente, ERM con
respecto a cualquier clase de hipótesis finita que contenga f y cuyo tamaño satisfaga la ecuación m
≥ 8 log (7|H|/6) (ver Corolario 2.3).

Prueba Sea C un subconjunto de X de tamaño 2m. La intuición de la prueba es que cualquier


algoritmo de aprendizaje que observe solo la mitad de las instancias en C no tiene información
sobre cuáles deberían ser las etiquetas del resto de las instancias en C.
Por lo tanto, existe una “realidad”, es decir, alguna función objetivo f, que contradiría las etiquetas
que A(S) predice en las instancias no observadas en C.
Tenga en cuenta que hay T = 22m funciones posibles de C a {0, 1}. Denote estas funciones por
f1, . . . , ft . Para cada una de estas funciones, sea Di una distribución sobre
Machine Translated by Google

62 La compensación de sesgo­complejidad

C × {0, 1} definido por

1/|C| si y = fi(x)
Di({(x, y)}) =
0 de lo contrario.

Es decir, la probabilidad de elegir un par (x, y) es 1/|C| si la etiqueta y es de hecho la


verdadera etiqueta de acuerdo con fi , y la probabilidad es 0 si y = fi(x). Claramente, LDi (fi)
= 0.
Mostraremos que para cada algoritmo, A, que recibe un conjunto de entrenamiento de
m ejemplos de C × {0, 1} y devuelve una función A(S) : C → {0, 1}, se cumple que

máx mi [LDi (A(S))] ≥ 1/4. (5.1)


i [T] S Dmi

,
Claramente, esto significa que para cada algoritmo A que recibe un conjunto de
entrenamiento de m ejemplos de X × {0, 1} existe una función f : X → {0, 1} y una distribución
D sobre X × {0, 1}, tal que LD(f) = 0 y

mi [LD(A (S))] ≥ 1/4. (5.2)


S Dm

Es fácil comprobar que lo anterior es suficiente para demostrar que P[LD(A (S)) ≥ 1/8] ≥
1/7, que es lo que necesitamos probar (ver Ejercicio 1).
Pasamos ahora a probar que la Ecuación (5.1) se cumple. Hay k = (2m) m secuencias
posibles de m ejemplos de C. Denote estas secuencias por S1, . . . , sk.
i
Además, si Sj = (x1, . . . , xm) denotamos por S en j la secuencia que contiene las instancias
i
Sj etiquetada por la función fi , es decir, S la j = ((x1, fi(x1)), . . . ,(xm, fi(xm))). Si
i
. . . , S Si k ,
distribución es Di entonces los posibles conjuntos de entrenamiento que A puede recibir1 ,son
y todos estos conjuntos de entrenamiento tienen la misma probabilidad de ser muestreados. Por lo tanto,

k
1 i
mi [LDi (A(S))] = LDi (A(S )). (5.3)
S Dm yo k j
j=1

Usando los hechos de que el "máximo" es mayor que el "promedio" y que el "promedio" es
mayor que el "mínimo", tenemos
k T k
1 i 1 1 i
máximo LDi (A(S j )) ≥ LDi (A(S j ))
i [T] k ti k
j=1 =1 j=1
k T
1 1 i
=
T
LDi (A(Sj ))
kj =1 yo=1

T
1 i
≥ min LDi (A(S j )). (5.4)
j [k] ti =1

A continuación, fije algo de j [k]. Denote Sj = (x1, . . . , xm) y sea v1, . . . , vp ser los
ejemplos en C que no aparecen en Sj . Claramente, p ≥ m. Por lo tanto, por cada
Machine Translated by Google

5.1 El teorema de no comer gratis 63

función h : C → {0, 1} y cada i tenemos

1
LDi (h) = 2m 1[h(x)=fi(x)]
x C

1
pag

≥ 1[h(vr)=fi(vr)]
2m
r=1
1
pag

≥ 1[h(vr)=fi(vr)]. (5.5)
2p r=1

Por eso,
T T
1 1 1
pag

i
T
LDi (A(S j )) ≥ T 1[A(Si )(vr)=fi(vr)]
yo=1 yo=1
2p r=1 j

T
1 1
pag

=
1[A(Si )(vr)=fi(vr)]
2p r=1 T yo=1
j

T
1 1
≥ ∙ min (5.6)
2 T 1[A(Si j )(vr)=fi(vr)].
r [p] yo=1

A continuación, fije algunos r [p]. Podemos particionar todas las funciones en f1, . . . , fT en T /2
pares disjuntos, donde para un par (fi , fi ) tenemos que para todo c C, fi(c) = fi (c) si y sólo si c = vr.
yo
Como para tal par debemos tener S, se sigue que j =Sj,

1[A(Si )j(vr)=fi(vr)] + 1[A(Si (vr)=fi (vr)] = 1, )


j

cuyos rendimientos
T
1 1
= .
T 1[A(Si j )(vr)=fi(vr)] 2
yo=1

Combinando esto con la Ecuación (5.6), la Ecuación (5.4) y la Ecuación (5.3), obtenemos que la
Ecuación (5.1) se cumple, lo que concluye nuestra prueba.

5.1.1 Sin Almuerzo Gratis y Conocimientos Previos

¿Cómo se relaciona el resultado No­Free­Lunch con la necesidad de conocimiento previo?


Consideremos un predictor ERM sobre la clase de hipótesis H de todas las funciones f
desde X hasta {0, 1}. Esta clase representa la falta de conocimiento previo: todas las
funciones posibles, desde el dominio hasta el conjunto de etiquetas, se consideran buenas
candidatas. De acuerdo con el teorema No­Free­Lunch, cualquier algoritmo que elija su
salida a partir de hipótesis en H, y en particular el predictor ERM, fallará en alguna tarea de aprendizaje.
Por lo tanto, esta clase no se puede aprender en PAC, como se formaliza en el siguiente corolario:

corolario 5.2 Sea X un conjunto de dominio infinito y sea H el conjunto de todas las
funciones desde X hasta {0, 1}. Entonces, H no se puede aprender en PAC.
Machine Translated by Google

64 La compensación de sesgo­complejidad

Prueba Asuma, a modo de contradicción, que la clase es aprendible. Elija algunos < 1/8 y δ < 1/7.
Según la definición de capacidad de aprendizaje de PAC, debe haber algún algoritmo de aprendizaje
A y un número entero m = m(, δ), tal que para cualquier distribución de generación de datos sobre X
× {0, 1}, si para alguna función f : X → {0, 1}, LD(f) = 0, entonces con probabilidad mayor que 1 − δ
cuando A se aplica a muestras S de tamaño m, generada iid por D, LD(A( S)) ≤ . Sin embargo,
aplicando el teorema No­Free­Lunch, ya que |X | > 2m, para todo algoritmo de aprendizaje (y en
particular para el algoritmo A), existe una distribución D tal que con probabilidad mayor que 1/7 > δ,
LD( A(S)) > 1/8 > que conduce a la contradicción deseada.
,

¿Cómo podemos prevenir tales fallas? Podemos escapar de los peligros previstos por el teorema
de No­Free­Lunch utilizando nuestro conocimiento previo sobre una tarea de aprendizaje específica,
para evitar las distribuciones que nos harán fallar al aprender esa tarea.
Tal conocimiento previo puede expresarse restringiendo nuestra clase de hipótesis.
Pero, ¿cómo debemos elegir una buena clase de hipótesis? Por un lado, queremos creer que
esta clase incluye la hipótesis que no tiene ningún error (en el entorno PAC), o al menos que el error
más pequeño que puede lograr una hipótesis de esta clase es bastante pequeño (en el entorno
agnóstico). configuración). Por otro lado, acabamos de ver que no podemos simplemente elegir la
clase más rica: la clase de todas las funciones sobre el dominio dado. Esta compensación se analiza
en la siguiente sección.

5.2 Descomposición de errores

Para responder a esta pregunta, descomponemos el error de un predictor ERMH en dos componentes
de la siguiente manera. Sea hS una hipótesis ERMH . Entonces, podemos escribir

DL(hS) = aplicación
+est donde : aplicación
= min LD(h), est = LD(hS)−app. (5.7) h H

• El error de aproximación: el riesgo mínimo alcanzable por un predictor en la clase de hipótesis. Este
término mide cuánto riesgo tenemos porque nos restringimos a una clase específica, es decir,
cuánto sesgo inductivo tenemos. El error de aproximación no depende del tamaño de la
muestra y está determinado por la clase de hipótesis elegida. Ampliar la clase de hipótesis
puede disminuir el error de aproximación.

Bajo el supuesto de realizabilidad, el error de aproximación es cero. En


En el caso agnóstico, sin embargo, el error de aproximación puede ser grande.1

1
De hecho, siempre incluye el error del predictor óptimo de Bayes (ver el Capítulo 3),
el error mínimo pero inevitable, debido al posible no determinismo del mundo en este
modelo. A veces, en la literatura, el término error de aproximación no se
refiere a minh H LD(h), sino al exceso de error sobre el predictor óptimo de Bayes,
a saber, minh H LD(h) − Bayes.
Machine Translated by Google

5.3 Resumen sesenta y cinco

• El error de estimación: la diferencia entre el error de aproximación y el error logrado por el


predictor ERM. El error de estimación se produce porque el riesgo empírico (es decir,
el error de entrenamiento) es sólo una estimación del riesgo real y, por tanto, el
predictor que minimiza el riesgo empírico es sólo una estimación del predictor que
minimiza el riesgo real.
La calidad de esta estimación depende del tamaño del conjunto de entrenamiento
y del tamaño o complejidad de la clase de hipótesis. Como hemos mostrado, para
finita de hipótesis, est pliegues incrementos (logarítmicos) con |H| y de una clase
con m. Podemos pensar en el tamaño de H como una medida de su complejidad.
En capítulos futuros definiremos otras medidas de complejidad de las clases de
hipótesis.

Dado que nuestro objetivo es minimizar el riesgo total, nos enfrentamos a una
compensación, llamada compensación de la complejidad del sesgo. Por un lado, elegir H
como una clase muy rica disminuye el error de aproximación, pero al mismo tiempo puede
aumentar el error de estimación, ya que una H rica puede conducir a un sobreajuste. Por otro
lado, elegir H para que sea un conjunto muy pequeño reduce el error de estimación pero
puede aumentar el error de aproximación o, en otras palabras, puede conducir a un ajuste
insuficiente. Por supuesto, una gran opción para H es la clase que contiene solo un
clasificador: el clasificador óptimo de Bayes. Pero el clasificador óptimo de Bayes depende
de la distribución subyacente D, que no conocemos (de hecho, el aprendizaje habría sido innecesario si hubiéramos conocido D)
La teoría del aprendizaje estudia qué tan rico podemos hacer H manteniendo un error de
estimación razonable. En muchos casos, la investigación empírica se centra en diseñar
buenas clases de hipótesis para un determinado dominio. Aquí, “bueno” significa clases para
las cuales el error de aproximación no sería excesivamente alto. La idea es que aunque no
seamos expertos y no sepamos cómo construir el clasificador óptimo, todavía tenemos un
conocimiento previo del problema específico que nos ocupa, lo que nos permite diseñar
clases de hipótesis para las cuales tanto el error de aproximación como el de estimación error
no son demasiado grandes. Volviendo a nuestro ejemplo de las papayas, no sabemos
exactamente cómo el color y la dureza de una papaya predicen su sabor, pero sabemos que
la papaya es una fruta y, sobre la base de experiencias previas con otras frutas, conjeturamos
que un rectángulo en el el espacio color­dureza puede ser un buen predictor.

5.3 Resumen
El teorema No­Free­Lunch establece que no hay un alumno universal. Cada alumno tiene
que ser específico para alguna tarea y usar algún conocimiento previo sobre esa tarea, para
tener éxito. Hasta ahora, hemos modelado nuestro conocimiento previo restringiendo nuestra
hipótesis de salida para que sea miembro de una clase de hipótesis elegida.
Al elegir esta clase de hipótesis, nos enfrentamos a una compensación entre una clase más
grande o más compleja que es más probable que tenga un pequeño error de aproximación y
una clase más restringida que garantizaría que el error de estimación
Machine Translated by Google

66
La compensación de sesgo­complejidad

ser pequeño En el próximo capítulo estudiaremos con más detalle el comportamiento del error de
estimación. En el Capítulo 7 discutiremos formas alternativas de expresar el conocimiento previo.

5.4 Comentarios bibliográficos

(Wolpert y Macready, 1997) demostraron varios teoremas de no­almuerzo gratis para la optimización,
pero estos son bastante diferentes del teorema que demostramos aquí. El teorema que demostramos
aquí está estrechamente relacionado con los límites inferiores en la teoría de VC, como estudiaremos
en el próximo capítulo.

5.5 Ejercicios

1. Demuestre que la Ecuación (5.2) es suficiente para demostrar que P[LD(A(S)) ≥ 1/8] ≥ 1/7.
Pista: Sea θ una variable aleatoria que recibe valores en [0, 1] y cuya expectativa satisface E[θ] ≥
1/4. Usa el Lema B.1 para mostrar que P[θ ≥ 1/8] ≥ 1/7.

2. Suponga que se le pide que diseñe un algoritmo de aprendizaje para predecir si los pacientes van
a sufrir un ataque al corazón. Las características relevantes del paciente a las que el algoritmo
puede tener acceso incluyen la presión arterial (PA), el índice de masa corporal (IMC), la edad (A),
el nivel de actividad física (P) y los ingresos (I).
Tienes que elegir entre dos algoritmos; el primero elige un rectángulo alineado con el eje en
el espacio de dos dimensiones que abarcan las características BP y BMI y el otro elige un
rectángulo alineado con el eje en el espacio de cinco dimensiones que abarcan todas las
características anteriores.
1. Explique los pros y los contras de cada opción.
2. Explique cómo afectará la cantidad de muestras de capacitación etiquetadas disponibles
tu elección.
3. Demostrar que si |X | ≥ km para un entero positivo k ≥ 2, entonces podemos reemplazar
k−1 2k

el límite inferior de 1/4 en el teorema No­Free­Lunch with Es decir, sea A un = 12



1 2k .
algoritmo de aprendizaje para la tarea de clasificación binaria. Sea m cualquier número menor que
|X |/k, que representa el tamaño de un conjunto de entrenamiento. Entonces, existe una distribución
D sobre X × {0, 1} tal que: • Existe una función f : X → {0, 1} con LD(f)
= 0. • ES Dm[LD(A(S ))] ≥

12
1 2k .
Machine Translated by Google

6 La dimensión VC

En el capítulo anterior, descomponemos el error de la regla ERMH en error de aproximación y


error de estimación. El error de aproximación depende del ajuste de nuestro conocimiento previo
(como se refleja en la elección de la clase de hipótesis H) a la distribución desconocida
subyacente. Por el contrario, la definición de capacidad de aprendizaje de PAC requiere que el
error de estimación esté acotado uniformemente en todas las distribuciones.

Nuestro objetivo actual es determinar qué clases H se pueden aprender en PAC y caracterizar
exactamente la complejidad de la muestra de aprendizaje de una clase de hipótesis determinada.
Hasta ahora hemos visto que las clases finitas se pueden aprender, pero que la clase de todas
las funciones (sobre un dominio de tamaño infinito) no lo es. ¿Qué hace que una clase se pueda
aprender y la otra no? ¿Se pueden aprender las clases de tamaño infinito y, de ser así, qué
determina la complejidad de su muestra?
Comenzamos el capítulo mostrando que las clases infinitas pueden aprenderse y, por lo tanto,
la finitud de la clase de hipótesis no es una condición necesaria para la capacidad de aprendizaje.
Luego presentamos una caracterización notablemente nítida de la familia de clases aprendibles
en la configuración de la clasificación de valores binarios con la pérdida de cero a uno. Esta
caracterización fue descubierta por primera vez por Vladimir Vapnik y Alexey Chervonenkis en
1970 y se basa en una noción combinatoria llamada dimensión Vapnik Chervonenkis (dimensión
VC). Definimos formalmente la dimensión VC, brindamos varios ejemplos y luego establecemos
el teorema fundamental de la teoría del aprendizaje estadístico, que integra los conceptos de
capacidad de aprendizaje, dimensión VC, la regla ERM y convergencia uniforme.

6.1 Las clases de tamaño infinito se pueden aprender

En el Capítulo 4 vimos que las clases finitas se pueden aprender y, de hecho, la complejidad de
la muestra de una clase de hipótesis está limitada por el logaritmo de su tamaño. Para mostrar
que el tamaño de la clase de hipótesis no es la caracterización correcta de su complejidad de
muestra, primero presentamos un ejemplo simple de una clase de hipótesis de tamaño infinito
que se puede aprender.

Ejemplo 6.1 Sea H el conjunto de funciones umbral sobre la recta real, a saber, H = {ha : a R},
donde ha : R → {0, 1} es una función tal que ha(x) = 1[x <a] .
Para recordar al lector, 1[x<a] es 1 si x < a y 0 en caso contrario. Claramente, H es de infinito

Comprender el aprendizaje automático, c 2014 por Shai Shalev­Shwartz y Shai Ben­David


Publicado en 2014 por Cambridge University Press.
Solo para uso personal. No para distribucion. No publicar.
Enlace a http://www.cs.huji.ac.il/~shais/UnderstandingMachineLearning
Machine Translated by Google

68 La dimensión VC

tamaño. Sin embargo, el siguiente lema muestra que H es aprendible en el modelo PAC usando
el algoritmo ERM.

Lema 6.1 Sea H la clase de umbrales como se definió anteriormente. Entonces, H es PAC
aprendible, usando la regla ERM, con una complejidad de muestra de mH(, δ) ≤ log(2/δ)/.

Demostración Sea a un umbral tal que la hipótesis h (x) = 1[x<a] alcanza LD(h ) = 0. Sea Dx la
distribución marginal sobre el dominio X y sea a0 < a < a1 tal que

[x (a0, a)] = PAG [x (a , a1)] = .


Px Dx _ x Dx

masa masa

un 0 a a1

(Si Dx(−∞, a ) ≤ establecemos a0 = −∞ y de manera similar para a1). Dado un conjunto de


entrenamiento S, sea b0 = max{x : (x, 1) S} y b1 = min{x : (x, 0) S} (si ningún ejemplo en S
es positivo establecemos b0 = −∞ y si ningún ejemplo en S es negativo establecemos b1 = ∞).
Sea bS un umbral correspondiente a una hipótesis ERM, hS, lo que implica que bS (b0, b1).
Por lo tanto, una condición suficiente para LD(hS) ≤ es que tanto b0 ≥ a0 como b1 ≤ a1. En otras
palabras,

PAG
[LD(hS) > ] ≤ P [b0 < a0 b1 > a1],
S Dm S Dm

y usando la unión acotada podemos acotar lo anterior por

PAG
[LD(hS) > ] ≤ P [b0 < a0] + P [b1 > a1]. (6.1)
S Dm S Dm S Dm

El evento b0 < a0 sucede si y solo si todos los ejemplos en S no están en el intervalo (a0, a ),
cuya masa de probabilidad se define como , a saber,

PAG
[b0 < a0] = P [ (x, y) S, x (a0, a )] = (1 − ) metro − metro. ≤ mi
S Dm S Dm

Dado que suponemos m > log(2/δ)/, se deduce que la ecuación es como mucho δ/2.
De la misma manera es fácil ver que PS Dm[b1 > a1] ≤ δ/2. Combinando con la Ecuación (6.1)
concluimos nuestra prueba.

6.2 La dimensión VC

Vemos, por lo tanto, que mientras la finitud de H es una condición suficiente para la capacidad
de aprendizaje, no es una condición necesaria. Como mostraremos, una propiedad llamada
dimensión VC de una clase de hipótesis proporciona la caracterización correcta de su capacidad
de aprendizaje. Para motivar la definición de la dimensión VC, recordemos el teorema No­Free
Lunch (Teorema 5.1) y su demostración. Allí hemos demostrado que sin
Machine Translated by Google

6.2 La dimensión VC 69

restringiendo la clase de hipótesis, para cualquier algoritmo de aprendizaje, un adversario


puede construir una distribución para la cual el algoritmo de aprendizaje funcionará
pobremente, mientras que hay otro algoritmo de aprendizaje que tendrá éxito en la misma
distribución. Para hacerlo, el adversario usó un conjunto finito C X y consideró una
familia de distribuciones que se concentran en elementos de C. Cada distribución fue
derivado de una función objetivo "verdadera" de C a {0, 1}. Para hacer fallar cualquier
algoritmo, el adversario usó el poder de elegir una función objetivo del conjunto de todas
las funciones posibles de C a {0, 1}.
Al considerar la capacidad de aprendizaje del PAC de una clase de hipótesis H, el
adversario está restringido a construir distribuciones para las cuales alguna hipótesis h
H logra un riesgo cero. Dado que estamos considerando distribuciones que se concentran
en elementos de C, debemos estudiar cómo se comporta H en C, lo que lleva a la siguiente
definición.

definición 6.2 (Restricción de H a C) Sea H una clase de funciones de X a {0, 1} y sea C =


{c1, . . . , cm} X . La restricción de H a C es el conjunto de funciones de C a {0, 1} que
se puede derivar de H. Es decir,

HC = {(h(c1), . . . , h(cm)) : h H},

donde representamos cada función de C a {0, 1} como un vector en {0, 1} |C| .

Si la restricción de H a C es el conjunto de todas las funciones de C a {0, 1}, entonces


decimos que H rompe el conjunto C. Formalmente:

definición 6.3 (Destrucción) Una clase de hipótesis H destruye un conjunto finito C X si


la restricción de H a C es el conjunto de todas las funciones de C a {0, 1}. Es decir, |HC | =
2|C| .

Ejemplo 6.2 Sea H la clase de funciones de umbral sobre R. Tome un conjunto C = {c1}.
Ahora, si tomamos a = c1 + 1, entonces tenemos ha(c1) = 1, y si tomamos a = c1 − 1,
entonces tenemos ha(c1) = 0. Por lo tanto, HC es el conjunto de todas las funciones de C
a {0, 1}, y H rompe a C. Ahora tome un conjunto C = {c1, c2}, donde c1 ≤ c2.
Ningún h H puede dar cuenta del etiquetado (0, 1), porque cualquier umbral que asigne
la etiqueta 0 a c1 también debe asignar la etiqueta 0 a c2 . Por lo tanto, no todas las
funciones de C a {0, 1} están incluidas en HC ; por tanto, C no es fragmentado por H.
Volviendo a la construcción de una distribución adversaria como en la demostración del
teorema No­Free­Lunch (Teorema 5.1), vemos que siempre que algún conjunto C es
fragmentado por H, el adversario no está restringido por H, ya que puede construir una
distribución sobre C basada en cualquier función objetivo de C a {0, 1}, mientras se
mantiene la suposición de realizabilidad. Esto produce inmediatamente:

corolario 6.4 Sea H una clase de hipótesis de funciones de X a {0, 1}. Sea m el tamaño del
conjunto de entrenamiento. Suponga que existe un conjunto C X de tamaño 2m que es
fragmentado por H. Entonces, para cualquier algoritmo de aprendizaje A, existe una
distribución D sobre X × {0, 1} y un predictor h H tal que LD ( h) = 0 pero con probabilidad
de al menos 1/7 sobre la elección de S Dm tenemos que LD(A(S)) ≥ 1/8.
Machine Translated by Google

70 La dimensión VC

El corolario 6.4 nos dice que si H rompe algún conjunto C de tamaño 2m, entonces no podemos
aprender H usando m ejemplos. Intuitivamente, si H rompe un conjunto C y recibimos una muestra que
contiene la mitad de las instancias de C, las etiquetas de estas instancias no nos dan información sobre
las etiquetas del resto de las instancias en C: todas las etiquetas posibles del resto de las instancias
puede ser explicada por alguna hipótesis en H. Filosóficamente,

Si alguien puede explicar cada fenómeno, sus explicaciones no valen nada.

Esto nos lleva directamente a la definición de la dimensión VC.

definición 6.5 (dimensión VC) La dimensión VC de una clase de hipótesis H, denotada VCdim(H), es el
tamaño máximo de un conjunto C X que puede ser fragmentado por H. Si H puede fragmentar
conjuntos de tamaño arbitrariamente grande, decir que H tiene una dimensión VC infinita.

Por lo tanto , una consecuencia directa del Corolario 6.4 es:

teorema 6.6 Sea H una clase de dimensión VC infinita. Entonces, H no se puede aprender en PAC.

Prueba Dado que H tiene una dimensión VC infinita, para cualquier conjunto de entrenamiento de
tamaño m, existe un conjunto fragmentado de tamaño 2m, y la afirmación se deriva del Corolario 6.4.

Veremos más adelante en este capítulo que lo contrario también es cierto: una dimensión VC finita
garantiza la capacidad de aprendizaje. Por lo tanto, la dimensión VC caracteriza la capacidad de
aprendizaje del PAC. Pero antes de profundizar en más teoría, primero mostramos varios ejemplos.

6.3 Ejemplos

En esta sección calculamos la dimensión VC de varias clases de hipótesis. Para mostrar que VCdim(H)
= d necesitamos demostrar que

1. Existe un conjunto C de tamaño d que es fragmentado por H.

2. Todo conjunto C de tamaño d + 1 no es fragmentado por H.

6.3.1 Funciones de umbral


Sea H la clase de funciones de umbral sobre R. Recuerde el Ejemplo 6.2, donde hemos demostrado
que para un conjunto arbitrario C = {c1}, H destruye a C; por lo tanto, VCdim(H) ≥ 1. También hemos
demostrado que para un conjunto arbitrario C = {c1, c2} donde c1 ≤ c2, H no fragmenta a C. Por lo tanto,
concluimos que VCdim(H) = 1.
Machine Translated by Google

6.3 Ejemplos 71

6.3.2 Intervalos

Sea H la clase de intervalos sobre R, a saber, H = {ha,b : a, b R, a < b}, donde ha,b : R → {0,
1} es una función tal que ha,b (x) = 1[x (a,b)]. Tome el conjunto C = {1, 2}. Entonces, H destruye
a C (asegúrese de entender por qué) y, por lo tanto, VCdim(H) ≥ 2. Ahora tome un conjunto
arbitrario C = {c1, c2, c3} y suponga sin pérdida de generalidad que c1 ≤ c2 ≤ c3. Entonces, el
etiquetado (1, 0, 1) no puede obtenerse por un intervalo y, por lo tanto, H no fragmenta a C. Por lo
tanto, concluimos que VCdim(H) = 2.

6.3.3 Rectángulos alineados con el eje

Sea H la clase de rectángulos alineados al eje, formalmente:

H = {h(a1,a2,b1,b2) : a1 ≤ a2 y b1 ≤ b2}

dónde

1 si a1 ≤ x1 ≤ a2 y b1 ≤ x2 ≤ b2
h(a1,a2,b1,b2)(x1, x2) = (6.2)
0 de lo contrario

Mostraremos a continuación que VCdim(H) = 4. Para probar esto, necesitamos encontrar un


conjunto de 4 puntos que sean fragmentados por H, y demostrar que ningún conjunto de 5 puntos
puede ser fragmentado por H. Hallar un conjunto de 4 puntos que se rompen es fácil (ver Figura
2
6.1). Ahora, considere cualquier conjunto C R de 5 puntos. En C, tome un punto más a la
izquierda (cuya primera coordenada es la más pequeña en C), un punto más a la derecha (la
primera coordenada es la más grande), un punto más bajo (la segunda coordenada es la más
pequeña) y un punto más alto (la segunda coordenada es la más grande ). Sin pérdida de
generalidad, denótese C = {c1, . . . , c5} y sea c5 el punto que no fue seleccionado. Ahora, defina el
etiquetado (1, 1, 1, 1, 0). Es imposible obtener este etiquetado por un rectángulo alineado al eje. De
hecho, dicho rectángulo debe contener c1, . . . , c4; pero en este caso el rectángulo también contiene
c5 , porque sus coordenadas están dentro de los intervalos definidos por los puntos seleccionados.
Entonces, C no es fragmentado por H, y por lo tanto VCdim(H) = 4.

c1

c4 c5 c2

c3

Figura 6.1 Izquierda: 4 puntos que están fragmentados por rectángulos alineados con el eje. Derecha: cualquier
rectángulo alineado con el eje no puede etiquetar c5 con 0 y el resto de los puntos con 1.
Machine Translated by Google

72 La dimensión VC

6.3.4 Clases finitas

Sea H una clase finita. Entonces, claramente, para cualquier conjunto C tenemos |HC | ≤ |H| y por
lo tanto C no puede romperse si |H| < 2 |C| . Esto implica que VCdim(H) ≤ log2 (|H|). Esto muestra
que la capacidad de aprendizaje PAC de clases finitas se deriva de la declaración más general de
la capacidad de aprendizaje PAC de clases con dimensión VC finita, que veremos en la siguiente
sección. Tenga en cuenta, sin embargo, que la dimensión VC de una clase finita H puede ser
significativamente menor que log2 (|H|). Por ejemplo, sea X = {1, . . . , k}, para algún entero k, y
considere la clase de funciones de umbral (como se define en el Ejemplo 6.2). Entonces, |H| = k
pero VCdim(H) = 1. Dado que k puede ser arbitrariamente grande, la brecha entre log2 (|H|) y
VCdim(H) puede ser arbitrariamente grande.

6.3.5 VC­Dimensión y el Número de Parámetros

En los ejemplos anteriores, la dimensión VC resultó ser igual al número de parámetros que definen
la clase de hipótesis. Si bien este suele ser el caso, no siempre es cierto. Considere, por ejemplo,
el dominio X = R, y la clase de hipótesis H = {hθ : θ R} donde hθ : X → {0, 1} está definida por
hθ(x) = 0.5 sin(θx). Es posible probar que VCdim(H) = ∞, es decir, para cada d, uno puede
encontrar d puntos que son fragmentados por H (ver Ejercicio 8).

6.4 El teorema fundamental del aprendizaje PAC

Ya hemos demostrado que una clase de dimensión VC infinita no se puede aprender. La


declaración inversa también es cierta, lo que lleva al teorema fundamental de la teoría del
aprendizaje estadístico:

teorema 6.7 (El teorema fundamental del aprendizaje estadístico) Sea H una clase de hipótesis de
funciones de un dominio X a {0, 1} y sea la función de pérdida la pérdida 0 − 1. Entonces los
siguientes son equivalentes:

1. H tiene la propiedad de convergencia uniforme.


2. Cualquier regla de ERM es un aprendiz de PAC agnóstico exitoso para H.
3. H es agnóstico PAC aprendible.
4. H es PAC aprendible.
5. Cualquier regla de ERM es un buen aprendiz de PAC para H.
6. H tiene una dimensión VC finita.

La demostración del teorema se da en la siguiente sección.


La dimensión VC no solo caracteriza la capacidad de aprendizaje del PAC; incluso determina
la complejidad de la muestra.

teorema 6.8 (El teorema fundamental del aprendizaje estadístico – Versión cuantitativa) Sea H
una clase de hipótesis de funciones desde un dominio X hasta {0, 1} y sea la función de pérdida la
pérdida 0 − 1. Suponga que VCdim(H) = d < ∞.
Entonces, existen constantes absolutas C1, C2 tales que:
Machine Translated by Google

6.5 Prueba del teorema 6.7 73

1. H tiene la propiedad de convergencia uniforme con complejidad muestral

d + log(1/δ) d + log(1/δ) ≤ mUC (, δ) ≤ C2


C1 2 H 2

2. H es agnóstico PAC aprendible con complejidad de muestra

d + log(1/δ) d + log(1/δ)
C1 ≤ mH(, 2δ) ≤ C2 2

3. H es PAC aprendible con complejidad de muestra

d + log(1/δ) d log(1/) + log(1/δ) ≤ mH(, δ) ≤ C2 C1

La demostración de este teorema se da en el Capítulo 28.


Observación 6.3 Enunciamos el teorema fundamental para las tareas de clasificación binaria.
Un resultado similar es válido para algunos otros problemas de aprendizaje, como la regresión
con la pérdida absoluta o la pérdida al cuadrado. Sin embargo, el teorema no se cumple para
todas las tareas de aprendizaje. En particular, la capacidad de aprendizaje a veces es posible
aunque la propiedad de convergencia uniforme no se cumpla (veremos un ejemplo en el
Capítulo 13, Ejercicio 2). Además, en algunas situaciones, la regla ERM falla pero la
capacidad de aprendizaje es posible con otras reglas de aprendizaje.

6.5 Prueba del teorema 6.7

Ya vimos que 1 → 2 en el Capítulo 4. Las implicaciones 2 → 3 y 3 → 4 son triviales y también


lo es 2 → 5. Las implicaciones 4 → 6 y 5 → 6 se derivan del teorema de No­Free­Lunch. La
parte difícil es demostrar que 6 → 1. La demostración se basa en dos afirmaciones principales:

• Si VCdim(H) = d, entonces aunque H sea infinito, al restringirlo a un conjunto finito C X ).


Es decir, el tamaño de HC, crece
su tamaño
polinómicamente
“efectivo”, |HC
en |,lugar
es solo d
de exponencialmente
O(|C| con |
C|. Esta afirmación a menudo se conoce como el lema de Sauer, pero Shelah y Perles
también la han establecido y probado de forma independiente. La declaración formal
se da en la Sección 6.5.1 más adelante. • En la Sección 4 hemos demostrado que las
clases de hipótesis finitas
disfrutan de la propiedad de convergencia uniforme. Más adelante, en la Sección 6.5.2 ,
generalizamos este resultado y mostramos que la convergencia uniforme se cumple
siempre que la clase de hipótesis tenga un “tamaño efectivo pequeño”. Por “tamaño
efectivo pequeño” nos referimos a clases para las cuales |HC | crece polinomialmente
con |C|.

6.5.1 Lema de Sauer y la función de crecimiento

Definimos la noción de fragmentación considerando la restricción de H a un conjunto finito de


instancias. La función de crecimiento mide el tamaño "efectivo" máximo de H en un conjunto
de m ejemplos. Formalmente:
Machine Translated by Google

74 La dimensión VC

definición 6.9 (Función de crecimiento) Sea H una clase de hipótesis. Entonces la función
de crecimiento de H, denotada por τH : N → N, se define como

τH(m) = máx. HC _
C X :|C|=m

En palabras, τH(m) es el número de funciones diferentes de un conjunto C de tamaño


m a {0, 1} que se pueden obtener restringiendo H a C.

Obviamente, si VCdim(H) = d entonces para cualquier m ≤ d tenemos τH(m) = 2m.


En tales casos, H induce todas las funciones posibles de C a {0, 1}. El hermoso lema
siguiente, propuesto independientemente por Sauer, Shelah y Perles, muestra que
cuando m se vuelve más grande que la dimensión VC, la función de crecimiento
aumenta polinomialmente en lugar de exponencialmente con m.

Lema 6.10 (Sauer­Shelah­Perles) Sea H una clase de hipótesis con VCdim(H) ≤ d < ∞.
d
Entonces, para todo m, τH(m) ≤ i . En particular,
metro

yo=0 si m > d + 1 entonces


d .
τH(m) ≤ (em/día)

Prueba del Lema de Sauer * Para


probar el lema es suficiente probar la siguiente afirmación más fuerte: Para cualquier
C = {c1, . . . , cm} tenemos

H, |HC | ≤ |{B C : H rompe B}|. (6.3)

La razón por la cual la Ecuación (6.3) es suficiente para probar el lema es que si VCdim(H) ≤ d
entonces ningún conjunto cuyo tamaño sea mayor que d es fragmentado por H y por lo tanto
d
metro

|{B C : H rompe B}| ≤ .


i
yo=0

d
Cuando m > d + 1 el lado derecho del anterior es como máximo (em/d) (ver
Lema A.5 del Apéndice A).
Nos queda probar la Ecuación (6.3) y lo hacemos usando un argumento inductivo.
Para m = 1, no importa cuál sea H, ambos lados de la Ecuación (6.3) son iguales a 1 o
ambos lados son iguales a 2 (siempre se considera que el conjunto vacío está fragmentado
por H). Suponga que la ecuación (6.3) se cumple para conjuntos de tamaño k < m y
demostrémosla para conjuntos de tamaño m. Fijar H y C = {c1, . . . , cm}. Denota C =
{c2, . . . , cm} y además, definir los siguientes dos conjuntos:

Y0 = {(y2, . . . , ym) : (0, y2, . . . , ym) HC (1, y2, . . . , ym) HC },


y

Y1 = {(y2, . . . , ym) : (0, y2, . . . , ym) HC (1, y2, . . . , ym) HC }.

Es fácil comprobar que |HC | = |Y0| + |Y1|. Además, como Y0 = HC , usando el supuesto
de inducción (aplicado sobre H y C ) tenemos que

|A0| = |CH | ≤ |{B C : H rompe B}| = |{B C : c1 B H rompe B}|.


Machine Translated by Google

6.5 Prueba del teorema 6.7 75

Luego, define H H como

H = {h H: h H st (1 − h (c1), h (c2), . . . , h (cm)) = (h(c1),

h(c2), . . . , h(cm)},

es decir, H contiene pares de hipótesis que concuerdan en C y difieren en c1. Usando esta definición,
es claro que si H rompe un conjunto B C entonces también rompe el conjunto B {c1} y
viceversa. Combinando esto con el hecho de que Y1 = H y usando la suposición inductiva (ahora
C
aplicada sobre H y C) obtenemos que

|Y1| = |H C | ≤ |{B C : H rompe B}| = |{B C : H rompe B {c1}}| = |{B C : c1 B H

rompe B}| ≤ |{B C : c1 B H rompe B}|.

En general, hemos demostrado que

|CH | = |Y0| + |Y1| ≤ |

{B C : c1 B H rompe B}| + |{B C : c1 B H rompe B}|

= |{B C : H rompe B}|,

lo que concluye nuestra prueba.

6.5.2 Convergencia Uniforme para Clases de Tamaño Efectivo Pequeño

En esta sección demostramos que si H tiene un tamaño efectivo pequeño, entonces disfruta de la
propiedad de convergencia uniforme. Formalmente,

teorema 6.11 Sea H una clase y sea τH su función de crecimiento. Entonces, para todo D y todo δ
(0, 1), con probabilidad de al menos 1 − δ sobre la elección de S Dm tenemos

4 + log(τH(2m))
|LD(h) − LS(h)| ≤ δ √ .
2m

Antes de demostrar el teorema, primero concluyamos la demostración del teorema 6.7.

Demostración del teorema 6.7 Basta probar que si la dimensión VC es finita, entonces se cumple la
propiedad de convergencia uniforme. Probaremos que 16 d log(2e/d) (δ)
16d 16d
mUC
H (, δ) ≤ 4 (δ) + .
2 registro
2 2
(δ)
d
Del lema de Sauer tenemos que para m > d, τH(2m) ≤ (2em/d) esto con el Teorema . Combinatorio
6.11 obtenemos que con probabilidad de al menos 1 − δ,

4 + registro de d (2em/d)
|LS(h) − LD(h)| ≤ δ √ .
2m

Por simplicidad suponga que d log(2em/d) ≥ 4; por eso,

1 2d registro (2em/d)
|LS(h) − LD(h)| ≤ d .
metro
Machine Translated by Google

76 La dimensión VC

Para asegurar que lo anterior es como mucho necesitamos que

2d log(m) 2 d log(2e/d) m ≥ + (δ)


.
(δ) 2 2

Las manipulaciones algebraicas estándar (ver Lema A.2 en el Apéndice A) muestran que una condición
suficiente para que se cumpla lo anterior es que

2d 2d 4 d log(2e/d) +
m≥4 registro
.
2
(δ) (δ) 2 (δ) 2

Observación 6.4 El límite superior de mUC H


Derivamos en la demostración que el teorema
6.7 no es lo más ajustado posible. En el Capítulo 28 se puede encontrar un análisis más estricto que
produce los límites dados en el Teorema 6.8 .

Demostración del Teorema 6.11 *


Comenzaremos demostrando que

4 + log(τH(2m))
mi 2m |LD(h) − LS(h)| ≤ sup √ . (6.4)
S Dm h H

Dado que la variable aleatoria suph H |LD(h) − LS(h)| es no negativa, la demostración del teorema se
sigue directamente de la anterior usando la desigualdad de Markov (ver Sección B.1).

Para acotar el lado izquierdo de la Ecuación (6.4), primero observamos que para todo es un
h H, podemos reescribir LD(h) = ES Dm[LS (h)], donde S = z muestra iid z
1 , . . . , metro

adicional. Por lo tanto,

mi cenar |LD(h) − LS(h)| = mi cenar mi LS (h) ­ LS (h) .


S Dm h H S Dm h H S Dm

Una generalización de la desigualdad triangular produce

mi [LS (h) − LS(h)] ≤ E |LS (h) − LS(h)|,


S Dm S Dm

y el hecho de que la expectativa superior sea menor que la expectativa de los rendimientos superiores

Cup |LS (h) − LS(h)| ≤ mi sorber |LS (h) − LS(h)|.


h H S Dm S Dm h H

Formalmente, las dos desigualdades anteriores se derivan de la desigualdad de Jensen. Combinando


todo lo que obtenemos

mi cenar |LD(h) − LS(h)| ≤ mi cenar |LS (h) − LS(h)|


S Dm h H S,S Dm h H

1 metro

= mi ((h, z
cenar i ) − (h, zi)) .
S,S Dm h H metro

yo=1

(6.5)
Machine Translated by Google

6.5 Prueba del teorema 6.7 77

La expectativa en el lado derecho es sobre una elección de dos muestras iid S = z1, . . . , zm y S =
z Dado que todos estos vectores de1 ,2m
. . . , se
m. zeligen iid, nada cambiará si reemplazamos el nombre

del vector aleatorio zi con el nombre del vector aleatorio z i . Si lo hacemos, en lugar del término ((h,
z en la Ecuación (6.5) tendremos el término −((h, z cada σ {±1} m tenemos que la i )−(h, zi))
Ecuación (6.5) es igual a i ) − (h, zi)). Se sigue que para

metro

1
mi sup σi((h, z i ) − (h, zi))
S,S Dm h Hm yo=1

Dado que esto se cumple para cada σ {±1} m, también se cumple si muestreamos cada
componente de σ uniformemente al azar de la distribución uniforme sobre {±1}, denotada como U±.
Por lo tanto, la Ecuación (6.5) también es igual a
metro

1
mi E sup σi((h, z i ) − (h, zi)) ,
σ Um
± S,S Dm h Hm yo=1

y por la linealidad de la expectativa también es igual


metro

1
mi mi sup σi((h, z i ) − (h, zi)) .
S,S Dm σ Um ± h Hm yo=1

A continuación, fije S , y sean C las instancias que aparecen en S y S . Entonces nosotros


y S puede tomar el supremo solo sobre h HC . Por lo tanto,
metro

1
E sup σi((h, z i ) − (h, zi))
σ Um± h Hm yo=1
metro

1
=E máx σi((h, z i ) − (h, zi)) .
σ Um
± h HC m yo=1

1 metro

Fijamos algo de h HC y denotamos θh metro yo=1 σi((h, z i )−(h, zi)). Dado que E[θh] = 0
= y θh es un promedio de variables independientes, cada una de las cuales toma valores en [−1, 1],
tenemos por la desigualdad de Hoeffding que para todo ρ > 0,

P[|θh| > ρ] ≤ 2 Exp −2 metro ρ2 .

Aplicando el límite de unión sobre h HC , obtenemos que para cualquier ρ > 0,

P máx |θh| > ρ ≤ 2 |HC | Exp −2 metro ρ2 .


h HC

Finalmente, el Lema A.4 del Apéndice A nos dice que lo anterior implica

4 + log(|HC |) |θh| ≤
E máx √ 2m .
h HC

Combinando todo con la definición de τH, hemos demostrado que

4 + log(τH(2m))
mi cenar |LD(h) − LS(h)| ≤ √ 2m .
S Dm h H
Machine Translated by Google

78 La dimensión VC

6.6 Resumen

El teorema fundamental de la teoría del aprendizaje caracteriza la capacidad de aprendizaje de PAC de


Clases de clasificadores binarios que utilizan la dimensión VC. La dimensión VC de una clase
es una propiedad combinatoria que denota el tamaño de muestra máximo que se puede
destrozado por la clase. El teorema fundamental establece que una clase es PAC aprendeble si y solo
si su dimensión VC es finita y especifica la complejidad de la muestra
necesarios para el aprendizaje de PAC. El teorema también muestra que si un problema es del todo
aprendible, entonces la convergencia uniforme se mantiene y, por lo tanto, el problema es aprendible
utilizando la regla ERM.

6.7 Comentarios bibliográficos

La definición de la dimensión VC y su relación con la capacidad de aprendizaje y con la uniformidad


la convergencia se debe al trabajo seminal de Vapnik & Chervonenkis (1971). El
relación con la definición de capacidad de aprendizaje PAC se debe a Blumer, Ehrenfeucht,
Haussler y Warmuth (1989).
Se han propuesto varias generalizaciones de la dimensión VC. Por ejemplo, la dimensión de
destrucción de grasa caracteriza la capacidad de aprendizaje de alguna regresión
(Kearns, Schapire & Sellie 1994, Alon, Ben­David, Cesa­Bianchi &
Haussler 1997, Bartlett, Long y Williamson 1994, Anthony y Bartlet 1999), y
la dimensión Natarajan caracteriza la capacidad de aprendizaje de algunos aprendizaje multiclase
problemas (Natarajan 1989). Sin embargo, en general, no hay equivalencia entre
aprendizaje y convergencia uniforme. Ver (Shalev­Shwartz, Shamir, Srebro &
Sridharan 2010, Daniely, Sabato, Ben­David y Shalev­Shwartz 2011).
El lema de Sauer ha sido probado por Sauer en respuesta a un problema de Erdos
(Sauer 1972). Shelah (con Perles) lo demostró como un lema útil para la teoría de Shelah
de modelos estables (Shelah 1972). Gil Kalai nos cuenta1 que en algún momento posterior, Benjy
Weiss le preguntó a Perles sobre tal resultado en el contexto de la teoría ergódica, y
Perles, que olvidó que lo había probado una vez, lo volvió a probar. Vapnik y
Chervonenkis demostró el lema en el contexto de la teoría del aprendizaje estadístico.

6.8 Ejercicios

1. Muestre la siguiente propiedad de monotonicidad de la dimensión VC: Por cada dos


clases de hipótesis si H H entonces VCdim(H ) ≤ VCdim(H).
2. Dado un conjunto de dominio finito, X y un número
, k ≤ |X |, calcule el VC
dimensión de cada una de las siguientes clases (y pruebe sus afirmaciones):
1. HX X
= {h
=k {0, 1} : |{x : h(x) = 1}| =k}. Es decir, el conjunto de todas las funciones
que asignan el valor 1 a exactamente k elementos de X .
1
http://gilkalai.wordpress.com/2008/09/28/
extremal­combinatorics­iii­algunos­teoremas­básicos
Machine Translated by Google

6.8 Ejercicios 79

X
2. Hat−most−k = {h {0, 1} : |{x : h(x) = 1}| ≤ k o |{x : h(x) = 0}| ≤k}.
3. Sea X el hipercubo booleano {0, 1} n. Para un conjunto I {1, 2, . . . , n} definimos una
función de paridad hI como sigue. En un vector binario x = (x1, x2, . . . , xn) {0, 1} n,

hI (x) = mod xi 2 .
i I

(Es decir, hI calcula la paridad de bits en I.) ¿Cuál es la dimensión VC de la clase de


todas esas funciones de paridad, Hn­paridad = {hI : I {1, 2, . . . , n}}?
4. Probamos el lema de Sauer demostrando que para cada clase H de dimensión finita
VC d, y cada subconjunto A del dominio,

d
|A| .
|HA| ≤ |{B A : H rompe B}| ≤
i
yo=0

Muestre que hay casos en los que las dos desigualdades anteriores son estrictas (es
decir, el ≤ puede ser reemplazado por <) y casos en los que pueden ser reemplazados
por igualdades. Demuestre las cuatro combinaciones de = y <.
5. Dimensión VC de rectángulos alineados con el eje en R d : Dejar Hd ser la clase de . rec
d
rectángulos alineados con el eje Ya hemos visto que VCdim(H2 rec) = 4.
en R Demuestre que, en general, VCdim(Hd rec) = 2d.
6. VC­dimensión de conjunciones booleanas: Sea Hd ser la clase de booleano
estafa

conjunciones sobre las variables x1, . . . , xd (d ≥ 2). Ya sabemos que esta clase es
finita y por lo tanto (agnóstica) PAC aprendeble. En esta pregunta calculamos
VCdim(Hd con).
1. Demuestre que |Hd con| d + 1.
≤ 3 2. Concluya que VCdim(H) ≤ d log 3.
3. Demuestre que Hd
estafarompe el conjunto de vectores unitarios {ei : i ≤ d}.

4. (**) Demostrar que VCdim(Hd con) ≤ d.


Sugerencia: suponga por contradicción que existe un conjunto C = {c1, . . . , cd+1}
que es destrozado por Hd estafa.
Let h1, . . . , hd+1 sean hipótesis en Hd que satisfagan
estafa

0 yo = j
i, j [d + 1], hi(cj ) =
1 de lo contrario

Para cada i [d + 1], hi (o más exactamente, la conjunción que corresponde a


hi) contiene algún literal que es falso en cii y verdadero en cj para cada j = i. Use el
principio de Pigeonhole para mostrar que debe haber un par i < j ≤ d + 1 tal que j
use el mismo xk y use ese hecho para i
y derivar una contradicción a los requisitos de
las conjunciones hi , hj .
5. Considere la clase Hd de conjunciones booleanas monótonas sobre {0, 1} d .
mcon
Monotonicidad aquí significa que las conjunciones no contienen negaciones.
Machine Translated by Google

80 La dimensión VC

Como en Hd, la conjunción vacía se interpreta como la hipótesis totalmente positiva.


estafa,

Aumentamos Hd mcon con la hipótesis totalmente negativa h −. Espectáculo


que VCdim(Hd mcon) = d.
7. Hemos demostrado que para una hipótesis finita clase H, VCdim(H) ≤ log(|H|).
Sin embargo, esto es solo un límite superior. La dimensión VC de una clase puede ser mucho
menor que eso:

1. Encuentra un ejemplo de una clase H de funciones sobre el intervalo real X = [0, 1]


tal que H es infinito mientras que VCdim(H) = 1.
2. Dé un ejemplo de una hipótesis finita clase H sobre el dominio X = [0, 1], donde VCdim(H)
= log2 (|H|).
8. (*) A menudo ocurre que la dimensión VC de una clase de hipótesis es igual (o puede estar
limitada por arriba) al número de parámetros que se deben establecer para definir cada
hipótesis en la clase. Por ejemplo, si H es la clase de eje, entonces VCdim(H) = 2d, que es
d
utilizados para definir un , igual al número de rectángulos alineados en R de los parámetros
d
rectángulo en R que no siempre es así. Veremos que . Aquí hay un ejemplo que muestra
una clase de hipótesis puede ser muy compleja e incluso no aprendible, aunque tenga un
pequeño número de parámetros.

Considere el dominio X = R, y la clase de hipótesis

H = {x → sen(θx) : θ R}

(aquí, tomamos −1 = 0). Demuestre que VCdim(H) = ∞.


Sugerencia: hay más de una manera de probar el resultado requerido. Una opción es
aplicando el siguiente lema: Si 0.x1x2x3 . . ., es la expansión binaria de x (0, 1), entonces
para cualquier número natural m, sin(2mπx) = (1 − xm), siempre que k ≥ m st xk = 1.

9. Sea H la clase de intervalos con signo, es decir, H =


{ha,b,s : a ≤ b, s {−1, 1}} donde

s si x [a, b]
ha,b,s(x) =
−s si x / [a, b]

Calcular VCdim(H).
10. Sea H una clase de funciones de X a {0, 1}.
1. Demuestre que si VCdim(H) ≥ d, para cualquier d, entonces para alguna distribución de probabilidad
ción D sobre X × {0, 1}, para cada tamaño de muestra, m,
re ­ metro
mi [LD(A(S))] ≥ min DL(h) +
S Dm h H 2d

Sugerencia: utilice el ejercicio 3 del capítulo 5.


2. Demuestre que para cada H que se puede aprender en PAC, VCdim(H) < ∞. (Observe que
esta es la implicación 3 → 6 en el Teorema 6.7.)
11. VC de unión: Sea H1, . . . , Hr ser clases de hipótesis sobre algún conjunto de dominio fijo X .
Sea d = maxi VCdim(Hi) y suponga por simplicidad que d ≥ 3.
Machine Translated by Google

6.8 Ejercicios 81

1. Demuestra que

VCdim ( r i=1Hi) ≤ 4d log(2d) + 2 log(r) .

Sugerencia: tome un conjunto de k ejemplos y suponga que la clase sindical los destruye. Por
lo tanto, la clase union puede producir todos los 2k posibles etiquetados en estos ejemplos.
Use el lema de Sauer para mostrar que la clase sindical no puede producir más que etiquetas
rkd. Por lo tanto, 2k < rkd . Ahora usa el Lema A.2.

2. (*) Demostrar que para r = 2 se cumple que

VCdim (H1 H2) ≤ 2d + 1.

12. Clases de Dudley: en esta pregunta discutimos un marco algebraico para definir clases de
conceptos sobre R n y mostramos una conexión entre la dimensión VC de tales clases y sus
propiedades algebraicas. Dada una función → R definimos la función correspondiente, POS(f)(x)
= 1[f(x)>0]. Para f : R n una clase F de funciones con valores reales definimos una clase
correspondiente de funciones POS(F) = {POS(f) : f F}. Decimos que una familia, F, de funciones
de valor real es linealmente cerrada si para toda f, g Fyr R, (f + rg) F (donde la suma y
la multiplicación escalar de funciones se definen puntualmente, a saber , para todo x R n, (f +
rg)(x) = f(x) + rg(x)). Tenga en cuenta que si una familia de funciones es linealmente cerrada,
podemos verla como un espacio vectorial sobre los reales. Para

definitivamente

g : R n → R y una familia de funciones F, sea F +g Las clases de = {f + g : f F}. función


hipótesis que tienen una representación como POS(F + g) para algún espacio vectorial de
funciones F y alguna función g se denominan clases de Dudley.
1. Muestre que para cada g : R n → R y cada espacio vectorial de funciones F como se definió
anteriormente, VCdim(POS(F + g)) = VCdim(POS(F)).
2. (**) Para toda familia linealmente cerrada de funciones reales F, la dimensión VC de la clase
correspondiente POS(F) es igual a la dimensión lineal de F (como espacio vectorial).
Sugerencia: Sea f1, . . . , fd sea una base para el espacio vectorial F. Considere el mapeo x
aR d
→ (f1(x), . . . , fd(x)) (de R n ). Tenga en cuenta que este mapeo induce una correspondencia
entre funciones sobre R n de la forma POS(f) y semiespacios lineales homogéneos en R (la
d
dimensión VC de la clase de semiespacios lineales homogéneos se analiza en el Capítulo 9).

3. Muestre que cada una de las siguientes clases se puede representar como un Dudley
clase:

1. La clase HSn de semiespacios sobre R n (ver Capítulo 9).


2. La clase HHSn de todos los semiespacios homogéneos sobre R n (ver Capítulo 9).
3. La clase Bd de todas las funciones definidas por bolas (abiertas) en R re . Utilizar el
Representación de Dudley para calcular la dimensión VC de esta clase.
d 4. Sea P denota la clase de funciones definidas por desigualdades polinómicas
norte

de grado ≤ d, a saber,

d
PAG
norte
= {hp : p es un polinomio de grado ≤ d en las variables x1, . . . , xn},
Machine Translated by Google

82 La dimensión VC

donde, para x = (x1. . . . , xn), hp(x) = 1[p(x)≥0] (el grado de un polinomio multivariable
es la suma máxima de exponentes variables sobre todos
3 2
2 de sus términos. Por ejemplo, el grado de p(x) = 3x 1x 2 1. + 4x3x 7 es 5).
Utilice la representación de Dudley para calcular la dimensión VC de la clase de todos
d clase P 1 los polinomios de grado d sobre R.
2. Demuestre que la clase de todos los clasificadores polinómicos sobre R tiene una
dimensión VC infinita.
3. Utilice la representación de Dudley para calcular la dimensión VC de (en función de d
d clase P y n).
norte
Machine Translated by Google

7 Capacidad de aprendizaje no uniforme

Las nociones de capacidad de aprendizaje de PAC discutidas hasta ahora en el libro permiten que los
tamaños de muestra dependan de los parámetros de precisión y confianza, pero son uniformes con
respecto a la regla de etiquetado y la distribución de datos subyacente. En consecuencia, las clases que
se pueden aprender en ese sentido están limitadas (deben tener una dimensión VC finita, como establece
el Teorema 6.7). En este capítulo consideramos nociones más relajadas y débiles de capacidad de
aprendizaje. Discutimos la utilidad de tales nociones y proporcionamos una caracterización de las clases
de conceptos que se pueden aprender usando estas definiciones.

Comenzamos esta discusión definiendo una noción de "capacidad de aprendizaje no uniforme" que
permite que el tamaño de la muestra dependa de la hipótesis con la que se compara al alumno. Luego
proporcionamos una caracterización de la capacidad de aprendizaje no uniforme y mostramos que la
capacidad de aprendizaje no uniforme es una relajación estricta de la capacidad de aprendizaje PAC agnóstica.
También mostramos que una condición suficiente para la capacidad de aprendizaje no uniforme es que
H sea una unión contable de clases de hipótesis, cada una de las cuales disfruta de la propiedad de
convergencia uniforme. Estos resultados se probarán en la Sección 7.2 mediante la introducción de un
nuevo paradigma de aprendizaje, que se denomina Minimización de riesgos estructurales (SRM). En la
Sección 7.3 especificamos el paradigma SRM para clases de hipótesis contables, que produce el
paradigma Longitud mínima de descripción (MDL). El paradigma MDL da una justificación formal a un
principio filosófico de inducción llamado la navaja de Oc cam. A continuación, en la Sección 7.4
presentamos la consistencia como una noción aún más débil de capacidad de aprendizaje. Finalmente,
discutimos el significado y la utilidad de las diferentes nociones de capacidad de aprendizaje.

7.1 Capacidad de aprendizaje no uniforme

La “capacidad de aprendizaje no uniforme” permite que el tamaño de la muestra no sea uniforme con
respecto a las diferentes hipótesis con las que compite el alumno. Decimos que una hipótesis h es (, δ)­
competitiva con otra hipótesis h si, con probabilidad mayor que (1 − δ),

LD(h) ≤ LD(h ) + .

En la capacidad de aprendizaje de PAC, esta noción de "competitividad" no es muy útil, ya que


estamos buscando una hipótesis con un riesgo absolutamente bajo (en el caso realizable) o

Comprender el aprendizaje automático, c 2014 por Shai Shalev­Shwartz y Shai Ben­David


Publicado en 2014 por Cambridge University Press.
Solo para uso personal. No para distribucion. No publicar.
Enlace a http://www.cs.huji.ac.il/~shais/UnderstandingMachineLearning
Machine Translated by Google

84 Capacidad de aprendizaje no uniforme

con un riesgo bajo en comparación con el riesgo mínimo alcanzado por las hipótesis de nuestra clase
(en el caso agnóstico). Por lo tanto, el tamaño de la muestra depende únicamente de la precisión
y parámetros de confianza. En la capacidad de aprendizaje no uniforme, sin embargo, permitimos que el
el tamaño de la muestra debe ser de la forma mH(, δ, h); es decir, depende también de la h con
que estamos compitiendo. Formalmente,

definición 7.1 Una clase de hipótesis H es aprendible de manera no uniforme si existe una
algoritmo de aprendizaje, A, y una función mNUL H : (0, 1)2×H → N tal que, para todo
,δ (0, 1) y para todo h H, si m ≥ mNUL H (, δ, h) entonces para toda distribución
D, con probabilidad de al menos 1 − δ sobre la elección de S Dm, se cumple que

LD(A(S)) ≤ LD(h) + .

En este punto, podría ser útil recordar la definición de aprendizaje PAC agnóstico
habilidad (Definición 3.3):
Una clase de hipótesis H es agnósticamente PAC aprendible si existe un algoritmo de aprendizaje, A,
y una función mH : (0, 1)2 → N tal que, para todo , δ (0, 1) y
para toda distribución D, si m ≥ mH(, δ), entonces con probabilidad de al menos 1 − δ
sobre la elección de S Dm se cumple que

LD(A(S)) ≤ min LD(h) + .


h H

Nótese que esto implica que para todo h H

LD(A(S)) ≤ LD(h) + .

En ambos tipos de capacidad de aprendizaje, requerimos que la hipótesis de salida sea


(, δ)­competitiva con todas las demás hipótesis de la clase. Pero la diferencia
entre estas dos nociones de capacidad de aprendizaje está la cuestión de si la muestra
el tamaño m puede depender de la hipótesis h con la que se compara el error de A(S).
Tenga en cuenta que esa capacidad de aprendizaje no uniforme es una relajación de la capacidad de
aprendizaje del PAC agnóstico. Es decir, si una clase es agnóstica PAC aprendible, entonces también es no uniforme.
aprendible

7.1.1 Caracterización de la capacidad de aprendizaje no uniforme

Nuestro objetivo ahora es caracterizar la capacidad de aprendizaje no uniforme. En el capitulo anterior


hemos encontrado una caracterización nítida de las clases aprendibles de PAC, al mostrar
que una clase de clasificadores binarios es agnóstica PAC aprendible si y solo si su dimensión VC es
finita. En el siguiente teorema encontramos una caracterización diferente
para clases aprendibles no uniformes para la tarea de clasificación binaria.

teorema 7.2 Una clase de hipótesis H de clasificadores binarios es aprendible de manera no uniforme
si y solo si es una unión contable de hipótesis aprendibles PAC agnósticas
clases

La demostración del teorema 7.2 se basa en el siguiente resultado de interés independiente:


Machine Translated by Google

7.2 Minimización de riesgos estructurales 85

teorema 7.3 Sea H una clase de hipótesis que puede escribirse como un
unión de clases de hipótesis, H = n N Hn, donde cada Hn disfruta del uniforme
propiedad de convergencia. Entonces, H es aprendible de manera no uniforme.

Recuerde que en el Capítulo 4 mostramos que la convergencia uniforme es suficiente


para la capacidad de aprendizaje de PAC agnóstico. El teorema 7.3 generaliza este resultado a una
capacidad de aprendizaje no uniforme. La demostración de este teorema se dará en la siguiente sección por
introduciendo un nuevo paradigma de aprendizaje. Pasamos ahora a demostrar el Teorema 7.2.

Prueba del teorema 7.2 Primero suponga que H = n N Hn donde cada Hn es agnóstico
PAC aprendible. Utilizando el teorema fundamental del aprendizaje estadístico, se
se sigue que cada Hn tiene la propiedad de convergencia uniforme. Por lo tanto, usando
Del teorema 7.3 obtenemos que H es aprendible no uniforme.
Para la otra dirección, suponga que H es aprendible no uniforme usando algún
algoritmo A. Para todo n N, sea Hn = {h H : mNUL H (1/8, 1/7, h) ≤ n}.
Claramente, H = n NHn. Además, usando la definición de mNUL lo sabemos
H
para cualquier distribución D que satisfaga el supuesto de realizabilidad con respecto a
Hn, con probabilidad de al menos 6/7 sobre S Dn tenemos que LD(A(S)) ≤ 1/8.
Usando el teorema fundamental del aprendizaje estadístico, esto implica que la dimensión VC de Hn
debe ser finita y, por lo tanto, Hn es agnóstico PAC aprendible.

El siguiente ejemplo muestra que la capacidad de aprendizaje no uniforme es una relajación estricta
de la capacidad de aprendizaje del PAC agnóstico; es decir, hay clases de hipótesis que son
no uniformes aprendibles pero no agnósticos PAC aprendibles.

Ejemplo 7.1 Considere un problema de clasificación binaria con el dominio de instancia


siendo X = R. Para todo n N sea Hn la clase de clasificadores polinómicos de
grado n; es decir, Hn es el conjunto de todos los clasificadores de la forma h(x) = sign(p(x))
donde p : R → R es un polinomio de grado n. Sea H = n N Hn. Por lo tanto, H es
la clase de todos los clasificadores polinómicos sobre R. Es fácil verificar que VCdim(H) =
∞ mientras VCdim(Hn) = n + 1 (ver Ejercicio 12). Por lo tanto, H no es aprendible por PAC,
mientras que, sobre la base del teorema 7.3, H se puede aprender de manera no uniforme.

7.2 Minimización de Riesgos Estructurales

Hasta ahora, hemos codificado nuestro conocimiento previo especificando una clase de hipótesis
H, que creemos que incluye un buen predictor para la tarea de aprendizaje en cuestión.
Otra forma más de expresar nuestro conocimiento previo es especificando preferencias sobre
hipótesis dentro de H. En el paradigma de Minimización de Riesgo Estructural (SRM),
lo hacemos suponiendo primero que H se puede escribir como H = n N
hn y luego
especificando una función de peso, w : N → [0, 1], que asigna un peso a cada
clase de hipótesis, Hn, tal que un peso más alto refleja una preferencia más fuerte
para la clase de hipótesis. En esta sección discutimos cómo aprender con tales conocimientos previos.
conocimiento. En la siguiente sección, describimos un par de factores de ponderación importantes.
esquemas, incluida la longitud mínima de descripción.
Machine Translated by Google

86 Capacidad de aprendizaje no uniforme

Concretamente, sea H una clase de hipótesis que puede escribirse como H = n N Hn.
Por ejemplo, H puede ser la clase de todos los clasificadores polinómicos donde cada Hn es
la clase de clasificadores polinómicos de grado n (ver Ejemplo 7.1). Suponga que para
cada n, la clase Hn disfruta de la propiedad de convergencia uniforme (ver Definición 4.3
en el Capítulo 4) con una función de complejidad de muestra mUC hn (, δ). Definamos también
la función : N × (0, 1) → (0, 1) por
norte

n(m, δ) = min{ (0, 1) : mUC hn (, δ) ≤ m}. (7.1)

En palabras, tenemos un tamaño de muestra fijo m, y estamos interesados en el más bajo


límite superior posible en la brecha entre los riesgos empíricos y reales alcanzable por
utilizando una muestra de m ejemplos.
De las definiciones de convergencia uniforme se sigue que para todo norte,

m y δ, con probabilidad de al menos 1 − δ sobre la elección de S Dm tenemos


eso

h Hn, |LD(h) − LS(h)| ≤ n(m, δ). (7.2)


Sea w : N → [0, 1] una función tal que n=1 w(n) ≤ 1. Nos referimos a w como
una función de peso sobre las clases de hipótesis H1, H2, . . .. Tal función de peso
puede reflejar la importancia que el alumno atribuye a cada clase de hipótesis,
o alguna medida de la complejidad de diferentes clases de hipótesis. Si H es finito
unión de N clases de hipótesis, uno puede simplemente asignar el mismo peso de 1/N a
todas las clases de hipótesis. Esta ponderación igual no corresponde a ninguna preferencia a priori
a cualquier clase de hipótesis. Por supuesto, si uno cree (como conocimiento previo) que un
cierta clase de hipótesis es más probable que contenga la función objetivo correcta,
entonces se le debe asignar un peso mayor, reflejando este conocimiento previo. Cuando
H es una unión infinita (contable) de clases de hipótesis, una ponderación uniforme es
no es posible, pero muchos otros esquemas de ponderación pueden funcionar. Por ejemplo, uno puede
6
elija w(n) = o w(n) = π2n2
2−n. Más adelante en este capítulo proporcionaremos otra
manera conveniente de definir funciones de ponderación usando lenguajes de descripción.
La regla SRM sigue un enfoque de "minimización limitada". Esto significa que
el objetivo del paradigma es encontrar una hipótesis que minimice un cierto superior
ligado al riesgo real. El límite que la regla SRM desea minimizar es
dado en el siguiente teorema.


teorema 7.4 Sea w : N → [0, 1] una función tal que H sea una clase de n=1 w(n) ≤ 1. Sea
hipótesis que puede escribirse como H = n N Hn, donde para cada n,
Hn satisface la propiedad de convergencia uniforme con una función de complejidad de muestra
mUC
Hn . Dejar norte ser como se define en la Ecuación (7.1). Entonces, para todo δ (0, 1) y
distribución D, con probabilidad de al menos 1 − δ sobre la elección de S Dm, la
El siguiente límite se cumple (simultáneamente) para cada n Nyh Hn.

|LD(h) − LS(h)| ≤ n(m, w(n) ∙ δ).

Por tanto, para todo δ (0, 1) y distribución D, con probabilidad de al menos


Machine Translated by Google

7.2 Minimización de riesgos estructurales 87

1 − δ se cumple que

h H, LD(h) ≤ LS(h) + min n:h Hn n(m, w(n) ∙ δ). (7.3)

Prueba Para cada n definir δn = w(n)δ. Aplicando el supuesto de que la convergencia uniforme
se cumple para todo n con la tasa dada en la Ecuación (7.2), obtenemos que si fijamos n de
antemano, entonces con una probabilidad de al menos 1 − δn sobre la elección de S Dm,

h Hn, |LD(h) − LS(h)| ≤ n(m, δn).

Aplicando el límite de unión sobre n = 1, 2, . . ., obtenemos que con probabilidad de w(n) ≥ 1 − δ,


norte
δn = 1 − δ norte
lo anterior se cumple para todo n, que al menos 1 −
concluye nuestra demostración.

Denotar

n(h) = min{n : h Hn}, (7.4)

y entonces la Ecuación (7.3) implica que

LD(h) ≤ LS(h) + n(h)(m, w(n(h)) ∙ δ).

El paradigma SRM busca h que minimice este límite, como se formaliza en el siguiente
pseudocódigo:

Minimización de Riesgos Estructurales (SRM)

conocimiento previo: H
= Hn donde Hn tiene convergencia uniforme con mUC Hn w : N → [0,
norte 1]
donde w(n) ≤ 1 como en la Ecuación norte

norte (7.1) ; n(h) como en la Ecuación (7.4) define:


entrada: conjunto de entrenamiento S Dm,
confianza δ salida: h argminh H LS(h) + n(h)(m, w(n(h)) ∙ δ)

A diferencia del paradigma ERM discutido en capítulos anteriores, ya no solo nos preocupamos
por el riesgo empírico, LS(h), sino que estamos dispuestos a cambiar parte de nuestro sesgo
hacia un riesgo empírico bajo con un sesgo hacia clases para las cuales n(h)( m, w(n(h))∙δ) es
menor, en aras de un menor error de estimación.
A continuación, mostramos que el paradigma SRM se puede utilizar para el aprendizaje no
uniforme de cada clase, que es una unión contable de clases de hipótesis convergentes de
manera uniforme.

teorema 7.5 Sea H una clase de hipótesis tal que H = Hn, donde cada Hn tiene la
n N
propiedad de
convergencia uniforme con complejidad muestral mUC Hn . Sea w : N → [0, 1] tal que w(n)
= n2π2 .
6
Entonces, H se puede aprender de manera no uniforme usando la regla SRM con tasa

mNUL (, δ, h) ≤ mUC /2 ,
H Hn(h) 6δ (πn(h))2 .
Machine Translated by Google

88 Capacidad de aprendizaje no uniforme

Prueba Sea A el algoritmo SRM con respecto a la función de ponderación w.


Para todo h H, , y δ, sea m ≥ mUC (, w(n(h))δ). Usando el hecho de que Hn(h) w(n) = 1,
podemos aplicar el Teorema 7.4 para obtener eso, con una probabilidad de al menos
norte

1 − δ sobre la elección de S Dm, tenemos que para todo h H,

LD(h ) ≤ LS(h ) + n(h)(m, w(n(h ))δ).

Lo anterior es válido en particular para la hipótesis A(S) devuelta por la regla SRM. Por la
definición de SRM obtenemos que

LD(A(S)) ≤ min LS(h ) + n(h)(m, w(n(h ))δ) ≤ LS(h) + n(h)(m, w(n(h)) δ).
h

Finalmente, si m ≥ mUC (/2, w(n(h))δ) entonces claramente n(h)(m, w(n(h))δ) ≤ /2. En la


adición de Hn(h) , de la propiedad de convergencia uniforme de cada Hn tenemos que con
probabilidad de más de 1 − δ,

LS(h) ≤ LD(h) + /2.

Combinando todo lo anterior obtenemos que LD(A(S)) ≤ LD(h) + concluye , que estafa
nuestra demostración.

Nótese que el teorema anterior también prueba el Teorema 7.3.

Observación 7.2 (No­Free­Lunch for Nonuniforme Learnability) Hemos demostrado que


cualquier unión contable de clases de dimensión VC finita es no uniformemente aprendible.
, la clase de todas las funciones
Resulta que, para cualquier conjunto de dominio infinito, X,
con valores binarios sobre X, no es una unión contable de clases de dimensión VC finita.
Dejamos la prueba de esta afirmación como un ejercicio (no trivial) (ver Ejercicio 5). De ello
se deduce que, en cierto sentido, el teorema de que no hay almuerzo gratis se cumple
también para el aprendizaje no uniforme: es decir, siempre que el dominio no sea finito, no
existe ningún alumno no uniforme con respecto a la clase de todos los clasificadores binarios
deterministas (aunque para cada clasificador de este tipo existe un algoritmo trivial que lo
aprende – ERM con respecto a la clase de hipótesis que contiene solo este clasificador).
Es interesante comparar el resultado de capacidad de aprendizaje no uniforme dado en
el orema 7.5 con la tarea del PAC agnóstico que aprende cualquier Hn específico por
separado. El conocimiento previo, o sesgo, de un estudiante no uniforme para H es más
débil: está buscando un modelo en toda la clase H, en lugar de centrarse en un Hn
específico. El costo de este debilitamiento del conocimiento previo es el aumento en la
complejidad de la muestra necesaria para competir con cualquier h Hn específico. Para
una evaluación concreta de esta brecha, considere la tarea de clasificación binaria con pérdida cero­uno.
Suponga que para todo n, VCdim(Hn) = n. Dado que mUChn(donde
(, δ) =CCn
es+log(1/δ)
el contenido
2 que
aparece en el teorema 6.8), un cálculo sencillo muestra que

2 log(2n)
mNUL (, δ, h) − mUChn (/2, δ) ≤ 4C .
H 2

Es decir, el costo de relajar el conocimiento previo del alumno de un Hn específico que


contiene el objetivo h a una unión contable de clases depende del logaritmo de
Machine Translated by Google

7.3 Longitud mínima de descripción y navaja de Occam 89

el índice de la primera clase en la que reside h. Ese costo aumenta con el índice.
de la clase, lo que puede interpretarse como un reflejo del valor de conocer un buen orden de
prioridad sobre las hipótesis en H.

7.3 Longitud mínima de descripción y navaja de Occam

Sea H una clase de hipótesis contable. Entonces, podemos escribir H como {hn} contable. Por la
de clases singleton, a saber, H = (Lema 4.5), cada n N unión de desigualdades de Hoeffding
clase singleton tiene la propiedad de convergencia uniforme con tasa log(2/δ) mUC(, δ) = n dada
en la
Ecuación (7.1) . Por lo tanto, la función 2 2
log(2/δ) y la regla SRM se convierte en
se convierte en n(m, δ) = 2m

− log(w(n)) + log(2/δ) 2m
argmín LS(h) + .
hn H

De manera equivalente, podemos pensar en w como una función de H a [0, 1], y luego la regla SRM
se convierte en

− log(w(h)) + log(2/δ) 2m
argmín LS(h) + .
h H

De ello se deduce que en este caso, el conocimiento previo está únicamente determinado por el
peso que le asignamos a cada hipótesis. Asignamos pesos más altos a las hipótesis que creemos
que tienen más probabilidades de ser correctas, y en el algoritmo de aprendizaje preferimos las
hipótesis que tienen pesos más altos.
En esta sección analizamos una forma particularmente conveniente de definir una función de
ponderación sobre H, que se deriva de la extensión de las descripciones dadas a las hipótesis.
Al tener una clase de hipótesis, uno puede preguntarse cómo describimos o representamos cada
hipótesis en la clase. Naturalmente, arreglamos algo de lenguaje de descripción. Puede ser inglés,
un lenguaje de programación o algún conjunto de fórmulas matemáticas. En cualquiera de estos
idiomas, una descripción consta de cadenas finitas de símbolos (o caracteres) extraídas de algún
alfabeto fijo. Ahora formalizaremos estas nociones.

Sea H la clase de hipótesis que deseamos describir. Fijar un conjunto finito Σ de símbolos (o
"caracteres"), que llamamos alfabeto. Para ser concretos, dejamos Σ = {0, 1}. Una cadena es una
secuencia finita de símbolos de Σ; por ejemplo, σ = (0, 1, 1, 1, 0) es una cadena de longitud 5.
Denotamos por |σ| la longitud de una cuerda.
El conjunto de todas las cadenas de longitud finita se denota Σ . Un lenguaje de descripción para
H es una función d : H → Σ , asignando cada miembro h de H a una cadena d(h). d(h) es
llamada “la descripción de h”, y su longitud se denota por |h|.
Exigiremos que los lenguajes de descripción estén libres de prefijos; es decir, para cada h
distinta, h, d(h) no es un prefijo de d(h). Es decir, no permitimos que ninguna cadena d(h) sea
exactamente la primera |h| símbolos de cualquier cadena más larga d(h). Las colecciones de
cadenas sin prefijo disfrutan de la siguiente propiedad combinatoria:
Machine Translated by Google

90 Capacidad de aprendizaje no uniforme

Lema 7.6 (Desigualdad de Kraft) Si S {0, 1} es un conjunto de cadenas sin prefijo, entonces

≤ 1.
12|
σ| σ S

Prueba Defina una distribución de probabilidad sobre los miembros de S como sigue: Lance
repetidamente una moneda no sesgada, con caras etiquetadas con 0 y 1, hasta que la secuencia
de resultados sea un miembro de S; en ese momento, deténgase. Para cada σ S, sea P(σ) la
probabilidad de que este proceso genere la cadena σ. Tenga en cuenta que dado que S no tiene
prefijo, para cada σ S, si los resultados del lanzamiento de la moneda siguen los bits de σ, nos
detendremos solo una vez que la secuencia de resultados sea igual a σ. Obtenemos por tanto
1
que, para todo σ S, P(σ) = 2 |σ| . Dado que las probabilidades suman como máximo 1, nuestra
prueba está concluida.

A la luz de la desigualdad de Kraft, cualquier lenguaje de descripción sin prefijos de una


clase de hipótesis, H, da lugar a una función de ponderación w sobre esa clase de hipótesis;
1
simplemente estableceremos
w(h) = 2 | h | . Esta observación arroja inmediatamente lo siguiente:

teorema 7.7 Sea H una clase de hipótesis y sea d : H → {0, 1} un lenguaje de descripción
libre de prefijos para H. Entonces, para cada tamaño de muestra, m, cada parámetro de
confianza, δ > 0, y cada distribución de probabilidad , D, con probabilidad mayor que 1 − δ
sobre la elección de S Dm tenemos que,

|h| + ln(2/δ)
h H, LD(h) ≤ LS(h) + ,
2m

donde |h| es la longitud de d(h).

Prueba Elija w(h) = 1/2 |h| , apliqueel Teorema 7.4 con n(m, δ) = observe que ln(2/δ)
2m ,
y

ln(2|h| ) = |h| ln(2) < |h|.

Como fue el caso con el Teorema 7.4, este resultado sugiere un paradigma de aprendizaje
para H: dado un conjunto de entrenamiento, S, busque una hipótesis h H que minimice el
|h|+ln(2/δ)
límite, LS(h) + 2m . En particular, sugiere compensar el riesgo empírico por ahorrar en la
longitud de la descripción. Esto produce el paradigma de aprendizaje de longitud mínima de
descripción.

Longitud mínima de descripción (MDL)

conocimiento previo:
H es una clase de hipótesis contable
H se describe mediante un lenguaje sin prefijos sobre {0, 1}
Para todo h H, |h| es la longitud de la representación de h entrada:
Un conjunto de entrenamiento S Dm, confianza δ
|h|+ln(2/δ)
salida: h argminh H LS(h) + 2m

Ejemplo 7.3 Sea H la clase de todos los predictores que pueden implementarse usando algún
lenguaje de programación, digamos, C++. Representemos cada programa usando el
Machine Translated by Google

7.3 Longitud mínima de descripción y navaja de Occam 91

cadena binaria obtenida al ejecutar el comando gzip en el programa (esto produce un lenguaje de
descripción sin prefijos sobre el alfabeto {0, 1}). Entonces, |h| es simplemente la longitud (en bits) de
la salida de gzip cuando se ejecuta en el programa C++ correspondiente a h.

7.3.1 La navaja de Occam

El teorema 7.7 sugiere que, teniendo dos hipótesis que comparten el mismo riesgo empírico, el
verdadero riesgo de la que tiene una descripción más corta puede estar acotado por un valor más
bajo. Por lo tanto, se puede considerar que este resultado transmite un mensaje filosófico:

Una explicación corta (es decir, una hipótesis que tiene una extensión corta) tiende a ser más
válida que una explicación larga.

Este es un principio bien conocido, llamado la navaja de Occam, en honor a William de Ockham, un
lógico inglés del siglo XIV, quien se cree que fue el primero en expresarlo explícitamente. Aquí,
proporcionamos una posible justificación de este principio. La desigualdad del Teorema 7.7 muestra
que cuanto más compleja es una hipótesis h (en el sentido de tener una descripción más larga),
mayor es el tamaño de la muestra que debe ajustarse para garantizar que tiene un riesgo real
pequeño, LD(h) .
A primera vista, nuestro reclamo de la navaja de afeitar Occam puede parecer algo problemático.
En el contexto en el que se suele invocar el principio de la navaja de Occam en la ciencia, el
lenguaje según el cual se mide la complejidad es un lenguaje natural, mientras que aquí podemos
considerar cualquier lenguaje de descripción abstracto arbitrario. Supongamos que tenemos dos
hipótesis tales que |h | es mucho menor que |h|. Por el resultado anterior, si ambos tienen el mismo
error en un conjunto de entrenamiento dado, S, entonces el verdadero error de h puede ser mucho
,
mayor que el verdadero error de h, por lo que se debe preferir h sobre h. Sin embargo, podríamos
haber elegido un lenguaje de descripción diferente, por ejemplo, uno que asigne una cadena de
longitud 3 a h y una cadena de longitud 100000 a h.
De repente, parece que uno debería preferir la h sobre la h. Pero estos son los mismos h y h para
los que argumentamos hace dos oraciones que h debería ser preferible. ¿Dónde está el truco aquí?

De hecho, no existe una diferencia de generalizabilidad inherente entre las hipótesis.


El aspecto crucial aquí es el orden de dependencia entre la elección inicial del idioma (o la
preferencia sobre las hipótesis) y el conjunto de entrenamiento. Como sabemos por el límite básico
de Hoeffding (ecuación (4.2)), si nos comprometemos con cualquier hipótesis antes de ver los
datos, entonces tenemos garantizado un término de error de estimación bastante pequeño LD(h) ≤
ln(2/δ)
LS(h) + 2m . Elegir un lenguaje de descripción (o, de manera equivalente, alguna ponderación de
hipótesis) es una forma débil de comprometerse con una hipótesis.
En lugar de comprometernos con una sola hipótesis, repartimos nuestro compromiso entre muchos.
Mientras se haga independientemente de la muestra de entrenamiento, nuestro límite de
generalización se mantiene. Así como la elección de una sola hipótesis para ser evaluada por una
muestra puede ser arbitraria, también lo es la elección del lenguaje de descripción.
Machine Translated by Google

92 Capacidad de aprendizaje no uniforme

7.4 Otras nociones de capacidad de aprendizaje: consistencia

La noción de capacidad de aprendizaje se puede relajar aún más al permitir que los tamaños de
muestra necesarios dependan no solo de , δ y h, sino también de la distribución de probabilidad de
generación de datos subyacente D (que se utiliza para generar la muestra de entrenamiento y
determinar el riesgo) . Este tipo de garantía de desempeño está capturado por la noción de
consistencia1 de una regla de aprendizaje.

definición 7.8 (Consistencia) Sea Z un conjunto de dominio, sea P un conjunto de distribuciones de


probabilidad sobre Z y sea H una clase de hipótesis. Una regla de aprendizaje A es consistente
con respecto a H y P si existe una función : (0, 1)2 × H × P → N tal que, para todo , mCON δ (0,
de al menos
1), todo
1 − hδ sobre
H , ytodo
H (,Dδ, h, P,
D)sientonces
m ≥ mNULconlaprobabilidad
elección de S Dm se cumple que

LD(A(S)) ≤ LD(h) + .

Si P es el conjunto de todas las distribuciones,2 decimos que A es universalmente consistente con


respecto a H.

La noción de consistencia es, por supuesto, una relajación de nuestra noción previa de
capacidad de aprendizaje no uniforme. Claramente, si un algoritmo aprende de manera no uniforme
una clase H, también es universalmente consistente para esa clase. La relajación es estricta en el
sentido de que hay reglas de aprendizaje consistentes que no son exitosas para los estudiantes
no uniformes. Por ejemplo, el algoritmo Memorizar definido en el Ejemplo 7.4 más adelante es
universalmente consistente para la clase de todos los clasificadores binarios sobre N. Sin embargo,
como hemos argumentado antes, esta clase no se puede aprender de manera no uniforme.

Ejemplo 7.4 Considere el algoritmo de predicción de clasificación Memorizar definido de la siguiente


manera. El algoritmo memoriza los ejemplos de entrenamiento y, dado un punto de prueba x,
predice la etiqueta mayoritaria entre todas las instancias etiquetadas de x que existen en la muestra
de entrenamiento (y alguna etiqueta predeterminada fija si no aparece ninguna instancia de x en el
conjunto de entrenamiento). Es posible mostrar (vea el Ejercicio 6) que el algoritmo Memorizar es
universalmente consistente para cada dominio contable X y un conjunto finito de etiquetas Y (con
la pérdida cero­uno).

Intuitivamente, no es obvio que el algoritmo Memorize deba verse como un aprendiz, ya que
carece del aspecto de generalización, es decir, de usar datos observados para predecir las
etiquetas de ejemplos no vistos. El hecho de que Memorize sea un algoritmo consistente para la
clase de todas las funciones sobre cualquier conjunto de dominios contables genera dudas sobre
la utilidad de las garantías de consistencia. Además, el lector perspicaz puede notar que el "mal
aprendiz" que presentamos en el Capítulo 2,

1 En la literatura, la consistencia a menudo se define usando la noción de convergencia en probabilidad


(correspondiente a consistencia débil) o convergencia casi segura (correspondiente a consistencia fuerte).

2 Formalmente, asumimos que Z está dotado de algún álgebra sigma de subconjuntos Ω, y por “todas las
distribuciones” nos referimos a todas las distribuciones de probabilidad que tienen Ω contenido
en su familia asociada de subconjuntos medibles.
Machine Translated by Google

7.5 Discusión de las diferentes nociones de capacidad de aprendizaje 93

que condujo al sobreajuste, es de hecho el algoritmo Memorizar. En la siguiente sección discutimos la


importancia de las diferentes nociones de capacidad de aprendizaje y revisamos el teorema de No­
Free­Lunch a la luz de las diferentes definiciones de capacidad de aprendizaje.

7.5 Discutir las diferentes nociones de capacidad de aprendizaje

Hemos dado tres definiciones de capacidad de aprendizaje y ahora discutimos su utilidad. Como
suele ser el caso, la utilidad de una definición matemática depende de para qué la necesitemos. Por
lo tanto, enumeramos varios objetivos posibles que pretendemos lograr al definir la capacidad de
aprendizaje y discutimos la utilidad de las diferentes definiciones a la luz de estos objetivos.

¿Cuál es el riesgo de la hipótesis aprendida?


El primer objetivo posible de derivar garantías de rendimiento en un ritmo de algoritmo de aprendizaje
es limitar el riesgo del predictor de salida. Aquí, tanto el aprendizaje PAC como el aprendizaje no
uniforme nos dan un límite superior del verdadero riesgo de la hipótesis aprendida en función de su
riesgo empírico. Las garantías de consistencia no proporcionan tal límite. Sin embargo, siempre es
posible estimar el riesgo del predictor de salida utilizando un conjunto de validación (como se describirá
en el Capítulo 11).

¿Cuántos ejemplos se requieren para ser tan buenos como la mejor hipótesis
en H?
Al abordar un problema de aprendizaje, una pregunta natural es cuántos ejemplos necesitamos
recopilar para aprenderlo. Aquí, el aprendizaje de PAC da una respuesta nítida. Sin embargo, tanto
para el aprendizaje no uniforme como para la consistencia, no sabemos de antemano cuántos
ejemplos se requieren para aprender H. En el aprendizaje no uniforme, este número depende de la
mejor hipótesis en H, y en la consistencia también depende de la distribución subyacente. En este
sentido, el aprendizaje PAC es la única definición útil de capacidad de aprendizaje. Por otro lado, se
debe tener en cuenta que incluso si el error de estimación del predictor que aprendemos es pequeño,
su riesgo aún puede ser grande si H tiene un gran error de aproximación. Entonces, para la pregunta
"¿Cuántos ejemplos se requieren para ser tan buenos como el predictor óptimo de Bayes?" incluso
las garantías de PAC no nos brindan una respuesta clara. Esto refleja el hecho de que la utilidad del
aprendizaje de PAC depende de la calidad de nuestro conocimiento previo.

Las garantías de PAC también nos ayudan a comprender qué debemos hacer a continuación si
nuestro algoritmo de aprendizaje arroja una hipótesis con un gran riesgo, ya que podemos acotar la
parte del error que proviene del error de estimación y, por lo tanto, saber cuánto del error se atribuye
a la aproximación. error. Si el error de aproximación es grande, sabemos que debemos usar una clase
de hipótesis diferente. De manera similar, si falla un algoritmo no uniforme, podemos considerar una
función de ponderación diferente sobre (subconjuntos de) hipótesis. Sin embargo, cuando un algoritmo
consistente falla, no sabemos si esto se debe al error de estimación o al error de aproximación.
Además, incluso si estamos seguros de que tenemos un problema con la estimación
Machine Translated by Google

94 Capacidad de aprendizaje no uniforme

término de error, no sabemos cuántos ejemplos más se necesitan para que el error de
estimación sea pequeño.

¿Cómo aprender? ¿Cómo expresar conocimientos previos?


Tal vez el aspecto más útil de la teoría del aprendizaje es dar una respuesta a la pregunta de
“cómo aprender”. La definición de aprendizaje PAC produce la limitación del aprendizaje (a
través del teorema No­Free­Lunch) y la necesidad de conocimiento previo. Nos brinda una
forma nítida de codificar el conocimiento previo al elegir una clase de hipótesis, y una vez
que se hace esta elección, tenemos una regla de aprendizaje genérica: ERM. La definición
de capacidad de aprendizaje no uniforme también ofrece una forma nítida de codificar el
conocimiento previo al especificar pesos sobre (subconjuntos de) hipótesis de H. Una vez
que se hace esta elección, nuevamente tenemos una regla de aprendizaje genérica: SRM.
La regla SRM también es ventajosa en tareas de selección de modelos, donde el conocimiento previo es parcial.
Elaboramos la selección de modelos en el Capítulo 11 y aquí damos un breve ejemplo.
Considere el problema de ajustar un polinomio unidimensional a los datos; es decir,
nuestro objetivo es aprender una función, h : R → R, y como conocimiento previo consideramos
la clase de hipótesis de los polinomios. Sin embargo, es posible que no estemos seguros de
qué grado d daría los mejores resultados para nuestro conjunto de datos: un grado pequeño
podría no ajustarse bien a los datos (es decir, tendrá un gran error de aproximación), mientras
que un grado alto podría provocar un sobreajuste ( es decir, tendrá un gran error de estimación).
A continuación mostramos el resultado de ajustar un polinomio de grados 2, 3 y 10 al mismo
conjunto de entrenamiento.

grado 2 grado 3 grado 10

Es fácil ver que el riesgo empírico disminuye a medida que aumentamos el grado.
Por lo tanto, si elegimos que H sea la clase de todos los polinomios hasta el grado 10,
entonces la regla ERM con respecto a esta clase generaría un polinomio de 10 grados y se
sobreajustaría. Por otro lado, si elegimos una clase de hipótesis demasiado pequeña,
digamos, polinomios hasta el grado 2, entonces el ERM sufriría un ajuste insuficiente (es
decir, un gran error de aproximación). En contraste, podemos usar la regla SRM en el
conjunto de todos los polinomios, mientras ordenamos los subconjuntos de H según su grado,
y esto producirá un polinomio de tercer grado ya que la combinación de su riesgo empírico y
el límite de su error de estimación es el pequeñísimo. En otras palabras, la regla SRM nos
permite seleccionar el modelo adecuado sobre la base de los propios datos. El precio que
pagamos por esta flexibilidad (además de un ligero aumento del error de estimación en
relación con el aprendizaje de PAC en el grado óptimo) es que no sabemos en
Machine Translated by Google

7.5 Discusión de las diferentes nociones de capacidad de aprendizaje 95

avance cuántos ejemplos se necesitan para competir con la mejor hipótesis en H.

A diferencia de las nociones de capacidad de aprendizaje PAC y capacidad de aprendizaje no


uniforme, la definición de consistencia no produce un paradigma de aprendizaje natural o una forma
de codificar el conocimiento previo. De hecho, en muchos casos no es necesario ningún conocimiento
previo. Por ejemplo, vimos que incluso el algoritmo Memorizar, que intuitivamente no debería llamarse
algoritmo de aprendizaje, es un algoritmo consistente para cualquier clase definida sobre un dominio
contable y un conjunto de etiquetas finito. Esto sugiere que la consistencia es un requisito muy débil.

¿Qué algoritmo de aprendizaje deberíamos preferir?


Se puede argumentar que aunque la consistencia es un requisito débil, es deseable que un algoritmo
de aprendizaje sea consistente con respecto al conjunto de todas las funciones de X a Y, lo que nos
da la garantía de que para suficientes ejemplos de entrenamiento, siempre estaremos tan bueno como
el predictor óptimo de Bayes. Por lo tanto, si tenemos dos algoritmos, donde uno es consistente y el
otro no lo es, debemos preferir el algoritmo consistente. Sin embargo, este argumento es problemático
por dos razones. En primer lugar, tal vez se dé el caso de que para la mayoría de las distribuciones
“naturales” observemos en la práctica que la complejidad muestral del algoritmo consistente será tan
grande que en cada situación práctica no obtendremos suficientes ejemplos para disfrutar de esta
garantía. Segundo, no es muy difícil hacer que cualquier PAC o aprendiz no uniforme sea consistente
con respecto a la clase de todas las funciones de X a Y. Concretamente, considere un dominio
contable, X, un conjunto finito de etiquetas Y, y una clase de hipótesis, H, de funciones de X a Y.
,
Podemos hacer que cualquier aprendiz no uniforme para H sea consistente con respecto a la clase de
todos los clasificadores de X a Y usando el siguiente truco simple: al recibir un conjunto de
entrenamiento, primero ejecutaremos el aprendiz no uniforme sobre el entrenamiento conjunto, y luego
obtendremos un límite en el riesgo verdadero del predictor aprendido. Si este límite es lo
suficientemente pequeño, hemos terminado. De lo contrario, volvemos al algoritmo Memorizar. Esta
sencilla modificación hace que el algoritmo sea consistente con respecto a todas las funciones de X a
Y. Dado que es fácil hacer que cualquier algoritmo sea consistente, puede que no sea prudente
preferir un algoritmo sobre el otro solo por consideraciones de coherencia.

7.5.1 El teorema de no­almuerzo gratis revisado

Recuerde que el teorema No­Free­Lunch (Teorema 5.1 del Capítulo 5) implica que ningún algoritmo
puede aprender la clase de todos los clasificadores en un dominio infinito.
En contraste, en este capítulo vimos que el algoritmo Memorizar es consistente con respecto a la
clase de todos los clasificadores sobre un dominio infinito contable. Para entender por qué estos dos
enunciados no se contradicen, primero recordemos el enunciado formal del teorema de No­Free­Lunch.

Sea X un dominio infinito contable y sea Y = {±1}. El teorema de No­Free­Lunch implica lo siguiente:
Para cualquier algoritmo, A, y un tamaño de conjunto de entrenamiento, m, existe una distribución
sobre X y una función h : X → Y, tal que si A
Machine Translated by Google

96 Capacidad de aprendizaje no uniforme

obtendrá una muestra de ejemplos de entrenamiento m iid, etiquetados por h , entonces es probable que A
devuelve un clasificador con un error mayor.
La consistencia de Memorize implica lo siguiente: Para cada distribución sobre X y una función de
etiquetado h : X → Y, existe un tamaño de conjunto de entrenamiento m (que depende de la distribución
y de h ) tal que si Memorize recibe al menos m ejemplos es probable que devuelva un clasificador con
un pequeño error.
Vemos que en el teorema No­Free­Lunch, primero fijamos el tamaño del conjunto de entrenamiento
y luego encontramos una distribución y una función de etiquetado que son malas para este tamaño del
conjunto de entrenamiento. Por el contrario, en las garantías de consistencia, primero fijamos la función
de distribución y etiquetado, y solo entonces encontramos un tamaño de conjunto de entrenamiento que
sea suficiente para aprender esta función particular de distribución y etiquetado.

7.6 Resumen

Introdujimos la capacidad de aprendizaje no uniforme como una relajación de la capacidad de


aprendizaje PAC y la consistencia como una relajación de la capacidad de aprendizaje no uniforme.
Esto significa que incluso las clases de dimensión VC infinita pueden aprenderse, en un sentido más
débil de capacidad de aprendizaje. Discutimos la utilidad de las diferentes definiciones de capacidad de aprendizaje.
Para las clases de hipótesis que son contables, podemos aplicar el esquema de longitud mínima de
descripción, donde se prefieren las hipótesis con descripciones más cortas, siguiendo el principio de la
navaja de Occam. Un ejemplo interesante es la clase de hipótesis de todos los predictores que
podemos implementar en C++ (o cualquier otro lenguaje de programación), que podemos aprender (de
manera no uniforme) usando el esquema MDL.
Podría decirse que la clase de todos los predictores que podemos implementar en C++ es una
poderosa clase de funciones y probablemente contiene todo lo que podemos esperar aprender en la
práctica. La capacidad de aprender esta clase es impresionante y, aparentemente, este capítulo debería
haber sido el último capítulo de este libro. Este no es el caso, debido al aspecto computacional del
aprendizaje: es decir, el tiempo de ejecución necesario para aplicar la regla de aprendizaje. Por ejemplo,
para implementar el paradigma MDL con respecto a todos los programas de C++, necesitamos realizar
una búsqueda exhaustiva sobre todos los programas de C++, lo que llevará una eternidad. Incluso la
implementación del paradigma ERM con respecto a todos los programas C++ con una longitud de
descripción de 1000 bits como máximo requiere una búsqueda exhaustiva de 21000 hipótesis. Si bien
la complejidad de la muestra es 1000+log(2/δ), el tiempo de ejecución es ≥ 2 1000. Este es un gran
aprendizaje,
que la cantidad de átomos en el 2 , clase es solo un número, mucho más grande
esta
universo visible. En el próximo capítulo definimos formalmente la complejidad computacional del
aprendizaje. En la segunda parte de este libro estudiaremos clases de hipótesis para las cuales los
esquemas ERM o SRM pueden implementarse de manera eficiente.
Machine Translated by Google

7.7 Comentarios bibliográficos 97

7.7 Comentarios bibliográficos

Nuestra definición de capacidad de aprendizaje no uniforme está relacionada con la definición


de un algoritmo de Occam en Blumer, Ehrenfeucht, Haussler & Warmuth (1987). El concepto de
SRM se debe a (Vapnik & Chervonenkis 1974, Vapnik 1995). El concepto de MDL
se debe a (Rissanen 1978, Rissanen 1983). La relación entre SRM y MDL
se analiza en Vapnik (1995). Estas nociones también están estrechamente relacionadas con la noción
de regularización (por ejemplo, Tikhonov (1943)). Profundizaremos en la regularización en
la segunda parte de este libro.
La noción de consistencia de los estimadores se remonta a Fisher (1922). Nuestra
presentación de consistencia sigue a Steinwart & Christmann (2008), quienes también derivaron
varios teoremas de no­almuerzo gratis.

7.8 Ejercicios

1. Demostrar que para cualquier clase finita H, y cualquier lenguaje de descripción d : H →


{0, 1} * , la dimensión VC de H es como máximo 2 sup{|d(h)| : h H} – el máximo
longitud de descripción mínima de un predictor en H. Además, si d es un prefijo libre
descripción entonces VCdim(H) ≤ sup{|d(h)| : h H}.
2. Sea H = {hn : n N} una clase infinita de hipótesis contables para binarios
clasificación. Demostrar que es imposible asignar pesos a las hipótesis
en H tal que
• H podría aprenderse de manera no uniforme usando estos pesos. Es decir, la ponderación
la función w : H → [0, 1] debería satisfacer la condición • Los h H
w(h) ≤ 1.
pesos serían monótonamente no decrecientes. Es decir, si i < j, entonces
w(hola) ≤ w(hj ).

3. • Considere una clase de hipótesis H = n=1
Hn, donde para todo n N, Hn es
finito. Encuentre una función de ponderación w : H → [0, 1] tal que w(h) h≤ H
1 y de modo que para todo h H, w(h) está determinado por n(h) = min{n : h
Hn} y por |Hn(h) |.
• (*) Definir tal función w cuando para todo n Hn es contable (posiblemente
infinito).
4. Sea H alguna clase de hipótesis. Para cualquier h H, sea |h| indicar la descripción
longitud de h, según algún lenguaje de descripción fijo. Considere el MDL
paradigma de aprendizaje en el que el algoritmo devuelve:

|h| + ln(2/δ)
hS arg min LS(h) + ,
h H 2m

donde S es una muestra de tamaño m. Para cualquier B > 0, sea HB = {h H : |h| ≤B},
y definir

h = argumento mínimo LD(h).


B
h HB
Machine Translated by Google

98 Capacidad de aprendizaje no uniforme

Demuestre un límite en LD(hS)−LD(h B) en términos de B, el parámetro de confianza


δ, y el tamaño del conjunto de entrenamiento
m. • Nota: Estos límites se conocen como desigualdades del oráculo en la literatura: Deseamos
estimar qué tan buenos somos en comparación con un clasificador de referencia (u
“oráculo”) h B.
5. En esta pregunta deseamos mostrar un resultado No­Free­Lunch para la capacidad de aprendizaje
no uniforme: a saber, que, en cualquier dominio infinito, la clase de todas las funciones no se
puede aprender incluso bajo la variación relajada no uniforme del aprendizaje.
Recuérdese que un algoritmo, A, aprende de manera no uniforme una clase de hipótesis H
función mNUL (, δ, h) entonces H si : (0, 1)2 ×H → N tal que, para todo , δ (0, 1) existe una
probabilidad de al menos 1 − δ sobre
para toda
laH distribución D, con y para toda h H, si m ≥ mNUL
elección de S Dm, se cumple que

LD(A(S)) ≤ LD(h) + .

Si tal algoritmo existe, entonces decimos que H es aprendible de manera no uniforme.


1. Sea A un alumno no uniforme para una clase H. Para cada n N defina HA =
norte

{h H : mNUL(0.1, 0.1, h) ≤ n}. Demuestre que cada clase Hn tiene una dimensión VC finita.

2. Demostrar que si una clase H se puede aprender de manera no uniforme, entonces hay clases
de modo que H =
n N Hn Hn y, para todo n N, VCdim(Hn) es finito.
3. Sea H una clase que fragmenta un conjunto infinito. Entonces, para toda sucesión Hn, existe
de clases (Hn : n N) tales que H = que n N
algún n para
VCdim(Hn) = ∞.
Sugerencia: Dada una clase H que fragmenta un conjunto infinito K, y una secuencia de clases
(Hn : n N), cada una con una dimensión VC finita, comience definiendo subconjuntos Kn
K tales que, para todo n, |Kn | > VCdim(Hn) y para cualquier n = m, Kn ∩ Km = . Ahora,
escoja para cada Kn una función fn : Kn → {0, 1} tal que ninguna h Hn concuerde con fn
en el dominio Kn. Finalmente, defina f : X → {0, 1} combinando estos fn y demuestre que f
H \ Hn . n N
4. Construya una clase H1 de funciones desde el intervalo unitario [0, 1] hasta {0, 1} que se pueda
aprender de manera no uniforme pero que no se pueda aprender con PAC.
5. Construya una clase H2 de funciones desde el intervalo unitario [0, 1] hasta {0, 1} que no se
pueda aprender de manera no uniforme.
6. En esta pregunta, deseamos mostrar que el algoritmo Memorizar es un aprendiz constante para
cada clase de funciones (con valores binarios) en cualquier dominio contable.
Sea X un dominio contable y sea D una distribución de probabilidad sobre X .
1. Sea {xi : i N} una enumeración de los elementos de X tal que para todo
yo ≤ j, D({xi}) ≤ D({xj}). Pruebalo

D({xi}) = 0.
limn→∞
i≥n

2. Dado cualquier > 0 probar que existe D > 0 tal que

re({x X : re({x}) < re}) < .


Machine Translated by Google

7.8 Ejercicios 99

3. Demostrar que para todo η > 0, si n es tal que D({xi}) < η para todo i > n, entonces para
todo m N,

PAG
[ xi : (D({xi}) > η y xi / S)] ≤ ne−ηm.
S Dm

4. Concluya que si X es contable entonces para cada distribución de probabilidad D sobre


X existe una función mD : (0, 1) × (0, 1) → N tal que para cada
, δ > 0 si m > mD(, δ) entonces

PAG
[D({x : x / S}) > ] < δ.
S Dm

5. Demostrar que Memorize es un aprendiz consistente para cada clase de funciones


(con valores binarios) sobre cualquier dominio contable.
Machine Translated by Google

8 El tiempo de ejecución del aprendizaje

Hasta ahora en el libro hemos estudiado la perspectiva estadística del aprendizaje, es decir,
cuántas muestras se necesitan para aprender. En otras palabras, nos enfocamos en la cantidad
de información que requiere el aprendizaje. Sin embargo, cuando se considera el aprendizaje
automático, los recursos computacionales también juegan un papel importante en la
determinación de la complejidad de una tarea: es decir, la cantidad de computación involucrada
para llevar a cabo una tarea de aprendizaje. Una vez que el alumno dispone de una muestra
de entrenamiento suficiente, se deben realizar algunos cálculos para extraer una hipótesis o
averiguar la etiqueta de una instancia de prueba determinada. Estos recursos computacionales
son cruciales en cualquier aplicación práctica de aprendizaje automático. Nos referimos a estos
dos tipos de recursos como la complejidad de la muestra y la complejidad computacional. En
este capítulo, dirigimos nuestra atención a la complejidad computacional del aprendizaje.
La complejidad computacional del aprendizaje debe verse en el contexto más amplio de la
complejidad computacional de las tareas algorítmicas generales. Esta área ha sido ampliamente
investigada; véase, por ejemplo, (Sipser 2006). Los comentarios introductorios que siguen
resumen las ideas básicas de esa teoría general que son más relevantes para nuestra discusión.

El tiempo de ejecución real (en segundos) de un algoritmo depende de la máquina específica


en la que se está implementando el algoritmo (por ejemplo, cuál es la frecuencia de reloj de la
CPU de la máquina). Para evitar la dependencia de la máquina específica, es común analizar
el tiempo de ejecución de los algoritmos en un sentido asintótico. Por ejemplo, decimos que la
complejidad computacional del algoritmo merge­sort, que ordena una lista de n elementos, es
O(n log(n)). Esto implica que podemos implementar el algoritmo en cualquier máquina que
satisfaga los requisitos de algún modelo abstracto aceptado de computación, y el tiempo de
ejecución real en segundos satisfará lo siguiente: existen constantes c y n0, que pueden
depender de la máquina real , tal que, para cualquier valor de n > n0, el tiempo de ejecución en
segundos de ordenar cualquier n elementos será como máximo cn log(n). Es común usar el
término factible o eficientemente computable para tareas que puede realizar un algoritmo cuyo
tiempo de ejecución es O(p(n)) para alguna función polinomial p. Cabe señalar que este tipo de
análisis depende de definir cuál es el tamaño de entrada n de cualquier instancia a la que se
espera aplicar el algoritmo. Para tareas “puramente algorítmicas”, como se discute en la
literatura común sobre complejidad computacional, este tamaño de entrada está claramente
definido; el algoritmo obtiene una instancia de entrada, digamos, una lista para ordenar, o una
operación aritmética para calcular, que tiene un tamaño bien definido (digamos, el

Comprender el aprendizaje automático, c 2014 por Shai Shalev­Shwartz y Shai Ben­David


Publicado en 2014 por Cambridge University Press.
Solo para uso personal. No para distribucion. No publicar.
Enlace a http://www.cs.huji.ac.il/~shais/UnderstandingMachineLearning
Machine Translated by Google

8.1 Complejidad computacional del aprendizaje 101

número de bits en su representación). Para las tareas de aprendizaje automático, la noción de tamaño
de entrada no es tan clara. Un algoritmo tiene como objetivo detectar algún patrón en un conjunto de
datos y solo puede acceder a muestras aleatorias de esos datos.
Comenzamos el capítulo discutiendo este tema y definimos la complejidad computacional del
aprendizaje. Para estudiantes avanzados, también proporcionamos una definición formal detallada.
Luego pasamos a considerar la complejidad computacional de implementar la regla ERM. Primero
damos varios ejemplos de clases de hipótesis en las que la regla ERM se puede implementar de
manera eficiente y luego consideramos algunos casos en los que, aunque la clase se puede aprender
de manera eficiente, la implementación de ERM es computacionalmente difícil. De ello se deduce que
la dificultad de implementar ERM no implica la dificultad de aprender. Finalmente, discutimos
brevemente cómo se puede mostrar la dificultad de una tarea de aprendizaje determinada, es decir,
que ningún algoritmo de aprendizaje puede resolverla de manera eficiente.

8.1 Complejidad computacional del aprendizaje

Recuerde que un algoritmo de aprendizaje tiene acceso a un dominio de ejemplos, Z, una clase de
hipótesis, H, una función de pérdida, y un conjunto de ejemplos de entrenamiento de Z que se
muestrean iid de acuerdo con una distribución desconocida D. Parámetros dados, δ , el algoritmo debe
generar una hipótesis h tal que con una probabilidad de al menos 1 − δ,

DL(h) ≤ min LD(h) + .


h H

Como se mencionó anteriormente, el tiempo de ejecución real de un algoritmo en segundos


depende de la máquina específica. Para permitir el análisis independiente de la máquina, utilizamos el
enfoque estándar en la teoría de la complejidad computacional. Primero, confiamos en la noción de
una máquina abstracta, como una máquina de Turing (o una máquina de Turing sobre los reales
(Blum, Shub & Smale 1989)). En segundo lugar, analizamos el tiempo de ejecución en un sentido
asintótico, ignorando los factores constantes, por lo que la máquina específica no es importante
siempre que implemente la máquina abstracta. Por lo general, la asíntota es con respecto al tamaño
de la entrada al algoritmo. Por ejemplo, para el algoritmo de clasificación por combinación mencionado
anteriormente, analizamos el tiempo de ejecución como una función de la cantidad de elementos que
deben clasificarse.
En el contexto de los algoritmos de aprendizaje, no existe una noción clara de "tamaño de entrada".
Se podría definir el tamaño de entrada como el tamaño del conjunto de entrenamiento que recibe el
algoritmo, pero eso no tendría sentido. Si le damos al algoritmo una gran cantidad de ejemplos, mucho
más grande que la complejidad de la muestra del problema de aprendizaje, el algoritmo simplemente
puede ignorar los ejemplos adicionales. Por lo tanto, un conjunto de entrenamiento más grande no
dificulta el problema de aprendizaje y, en consecuencia, el tiempo de ejecución disponible para un
algoritmo de aprendizaje no debería aumentar a medida que aumentamos el tamaño del conjunto de
entrenamiento. De todos modos, todavía podemos analizar el tiempo de ejecución en función de los
parámetros naturales del problema, como la precisión del objetivo, la confianza de lograr esa precisión,
la dimensionalidad del
Machine Translated by Google

102 El tiempo de ejecución del aprendizaje

conjunto de dominios, o algunas medidas de la complejidad de la clase de hipótesis con las


que se compara la salida del algoritmo.
Para ilustrar esto, considere un algoritmo de aprendizaje para la tarea de aprender
rectángulos alineados con ejes. Un problema específico de aprendizaje de rectángulos
alineados con el eje se deriva especificando , δ y la dimensión del espacio de instancia.
Podemos definir una secuencia de problemas del tipo “aprendizaje de rectángulos” fijando , δ
y variando la dimensión para que sea d = 2, 3, 4, . . .. También podemos definir otra secuencia
de problemas de "aprendizaje de ángulos rectos" fijando d, δ y variando la precisión del objetivo
= 1
1 2 , para
que sea 3 , . . .. Por supuesto, uno puede elegir otras secuencias de tales
problemas. Una vez que se fija una secuencia de problemas, se puede analizar el tiempo de
ejecución asintótico en función de las variables de esa secuencia.
Antes de introducir la definición formal, hay una sutileza más que debemos abordar. Sobre
la base de lo anterior, un algoritmo de aprendizaje puede “hacer trampa”, transfiriendo la carga
computacional a la hipótesis de salida. Por ejemplo, el algoritmo puede simplemente definir la
hipótesis de salida como la función que almacena el conjunto de entrenamiento en su memoria,
y cada vez que obtiene un ejemplo de prueba x, calcula la hipótesis ERM en el conjunto de
entrenamiento y lo aplica en x. Tenga en cuenta que, en este caso, nuestro algoritmo tiene una
salida fija (es decir, la función que acabamos de describir) y puede ejecutarse en tiempo
constante. Sin embargo, el aprendizaje sigue siendo difícil: la dificultad ahora está en
implementar el clasificador de salida para obtener una predicción de etiqueta. Para evitar este
"trampa", exigiremos que se aplique la salida de un algoritmo de aprendizaje para predecir la
etiqueta de un nuevo ejemplo en un tiempo que no supere el tiempo de ejecución del
entrenamiento (es decir, calcular el clasificador de salida a partir del entrenamiento de entrada).
muestra). En la siguiente subsección, el lector avanzado puede encontrar una definición formal
de la complejidad computacional del aprendizaje.

8.1.1 Definicion formal*


La definición que sigue se basa en la noción de una máquina abstracta subyacente, que suele
ser una máquina de Turing o una máquina de Turing sobre los reales. Mediremos la complejidad
computacional de un algoritmo utilizando el número de "operaciones" que necesita realizar,
donde asumimos que para cualquier máquina que implemente la máquina abstracta subyacente
existe una constante c tal que cualquier "operación" se puede realizar en la máquina usando c
segundos.

definición 8.1 (La complejidad computacional de un algoritmo de aprendizaje)


Definimos la complejidad del aprendizaje en dos pasos. Primero consideramos la complejidad
computacional de un problema de aprendizaje fijo (determinado por un triplete (Z, H, ) – un
conjunto de dominio, una clase de hipótesis de referencia y una función de pérdida). Luego, en
el segundo paso, consideramos la tasa de cambio de esa complejidad a lo largo de una
secuencia de tales tareas.

1. Dada una función f : (0, 1)2 → N, una tarea de aprendizaje (Z, H, ), y un algoritmo de
aprendizaje A, decimos que A resuelve la tarea de aprendizaje en el tiempo O(f) si existe
algún número constante c, tal que para cada distribución de probabilidad D
Machine Translated by Google

8.2 Implementación de la Regla ERM 103

sobre Z, y de entrada, δ (0, 1), cuando A tiene acceso a las muestras generadas iid
por D,
• A termina después de realizar como máximo operaciones cf(, δ)
• La salida de A, denominada hA, se puede aplicar para predecir la etiqueta de un nuevo
ejemplo mientras se realizan como máximo operaciones cf(, δ)
• La salida de A probablemente sea aproximadamente correcta; es decir, con probabilidad de al
menos 1 − δ (sobre las muestras aleatorias que recibe A), LD(hA) ≤
minh H LD(h ) +
2. Considere una secuencia de problemas de aprendizaje, (Zn, Hn, n)∞ n=1, donde problema m
está definida por un dominio Zn, una clase de hipótesis Hn y una función de pérdida norte.

Sea A un algoritmo de aprendizaje diseñado para resolver problemas de aprendizaje de


esta forma. Dada una función g : N × (0, 1)2 → N, decimos que el tiempo de ejecución de
A con respecto a la secuencia anterior es O(g), si para todo n, A resuelve el
problema (Zn, Hn, n) en el tiempo O(fn), donde fn : (0, 1)2 → N está definido por
fn(, δ) = g(n, , δ).

Decimos que A es un algoritmo eficiente con respecto a una secuencia (Zn, Hn, n)
si su tiempo de ejecución es O(p(n, 1/, 1/δ)) para algún polinomio p.

De esta definición vemos que la cuestión de si un problema general de aprendizaje se puede


resolver de manera eficiente depende de cómo se puede dividir en una secuencia.
de problemas específicos de aprendizaje. Por ejemplo, considere el problema de aprender un
clase de hipótesis finita. Como mostramos en capítulos anteriores, la regla ERM sobre
Se garantiza que H aprenderá (, δ) H si el número de ejemplos de entrenamiento es del orden de
mH(, δ) = log(|H|/δ)/2 . Suponiendo que la evaluación de una hipótesis sobre un
ejemplo toma un tiempo constante, es posible implementar la regla ERM en el tiempo
O(|H| mH(, δ)) realizando una búsqueda exhaustiva sobre H con un conjunto de entrenamiento
de tamaño mH(, δ). Para cualquier H fijo finito, el algoritmo de búsqueda exhaustiva se ejecuta
en tiempo polinomial. Además, si definimos una secuencia de problemas en los que
|Hn| = n, entonces la búsqueda exhaustiva todavía se considera eficiente. Sin embargo, si
definimos una secuencia de problemas para los cuales |Hn| = 2n, entonces la complejidad de la
muestra sigue siendo polinomial en n pero la complejidad computacional de la exhaustiva
el algoritmo de búsqueda crece exponencialmente con n (por lo tanto, se vuelve ineficiente).

8.2 Implementación de la regla ERM

Dada una clase de hipótesis H, la regla ERMH es quizás el aprendizaje más natural
paradigma. Además, para los problemas de clasificación binaria vimos que si el aprendizaje
es del todo posible, es posible con la regla ERM. En esta sección discutimos el
complejidad computacional de implementar la regla ERM para varias hipótesis
clases
Dada una clase de hipótesis, H, un conjunto de dominios Z y una función de pérdida que , el corre
responde a la regla ERMH se pueden definir de la siguiente manera:
Machine Translated by Google

104 El tiempo de ejecución del aprendizaje

En una muestra de entrada finita S metro


generar algo de h H que minimice la pérdida empírica,
1
Z LS(h) = (h, z).
|S| z S

Esta sección estudia el tiempo de ejecución de la implementación de la regla ERM para varios
Ejemplos de tareas de aprendizaje.

8.2.1 Clases finitas


Limitar la clase de hipótesis para que sea una clase finita puede considerarse una restricción
razonablemente leve. Por ejemplo, H puede ser el conjunto de todos los predictores que puede
implementar un programa C++ escrito en un máximo de 10000 bits de código. Otros ejemplos de clases
finitas útiles son cualquier clase de hipótesis que puede ser parametrizada por un número finito de
parámetros, donde nos conformamos con una representación de cada uno de los parámetros usando
un número finito de bits, por ejemplo, la clase de cuando los parámetros definiendo
rectángulos alineados con el eje en el espacio euclidiano, R d,

cualquier rectángulo dado se especifican con cierta precisión limitada.


Como hemos mostrado en capítulos anteriores, la complejidad muestral de aprender una clase finita
tiene un límite superior mH(, δ) = c log(c|H|/δ)/c , donde c = 1 en el caso realizable y c = 2 en el caso
irrealizable. Por lo tanto, la complejidad de la muestra depende levemente del tamaño de H. En el
ejemplo de los programas C++ mencionados anteriormente, el número de hipótesis es 210 000 pero la
complejidad de la muestra es solo c(10 000 + log(c/δ))/ do .

Un enfoque directo para implementar la regla ERM sobre una clase de hipótesis finita es realizar
una búsqueda exhaustiva. Es decir, para cada h H calculamos el riesgo empírico, LS(h), y devolvemos
una hipótesis que minimiza el riesgo empírico. Suponiendo que la evaluación de (h, z) en un solo
ejemplo toma una cantidad de tiempo constante, k, el tiempo de ejecución de esta búsqueda exhaustiva
se convierte en k|H|m, donde m es el tamaño del conjunto de entrenamiento. Si dejamos que m sea el
límite superior de la complejidad de la muestra mencionada, entonces el tiempo de ejecución se
convierte en k|H|c log(c|H|/δ)/c .

La dependencia lineal del tiempo de ejecución del tamaño de H hace que este enfoque sea ineficiente
(y poco realista) para clases grandes. Formalmente, si definimos una secuencia de problemas (Zn, Hn,
n)∞ tal que log(|Hn|) = n, entonces
n=1 el enfoque de búsqueda exhaustiva produce un tiempo de ejecución
exponencial. En el ejemplo de los programas C++, si Hn es el conjunto de funciones que puede
implementar un programa C++ escrito en un máximo de n bits de código, entonces el tiempo de ejecución
crece exponencialmente con n, lo que implica que el enfoque de búsqueda exhaustiva no es realista
para el uso práctico. . De hecho, este problema es una de las razones por las que estamos tratando con
otras clases de hipótesis, como las clases de predictores lineales, que encontraremos en el próximo
capítulo, y no solo nos centramos en las clases finitas.

Es importante darse cuenta de que la ineficiencia de un enfoque algorítmico (como la búsqueda


exhaustiva) todavía no implica que no exista una implementación ERM eficiente. De hecho, mostraremos
ejemplos en los que la regla ERM se puede implementar de manera eficiente.
Machine Translated by Google

8.2 Implementación de la Regla ERM 105

8.2.2 Rectángulos alineados con el eje

Sea Hn la clase de rectángulos alineados con el eje en R n, a saber,

Hn = {h(a1,...,an,b1,...,bn) : i, ai ≤ bi}

dónde

1 si i, xi [ai , bi ]
h(a1,...,an,b1,...,bn)(x, y) = (8.1)
0 de lo contrario

Eficientemente aprendible en el caso realizable Considere


implementar la regla ERM en el caso realizable. Es decir, tenemos un conjunto de entrenamiento S
= (x1, y1), . . . ,(xm, ym) de ejemplos, tal que existe un rectángulo alineado al eje, h Hn, para el
cual h(xi) = yi para todo i. Nuestro objetivo es encontrar un rectángulo alineado con el eje con un
error de entrenamiento cero, es decir, un rectángulo que sea consistente con todas las etiquetas en
S.
Mostramos más adelante que esto se puede hacer en el tiempo O(nm). De hecho, para cada i
[n], establezca ai = min{xi : (x, 1) S} y bi = max{xi : (x, 1) S}. En palabras, tomamos ai como el
valor mínimo de la i­ésima coordenada de un ejemplo positivo en S y bi como el valor máximo de la
i­ésima coordenada de un ejemplo positivo en S.
Es fácil verificar que el rectángulo resultante tiene un error de entrenamiento cero y que el tiempo
de ejecución para encontrar cada ai y bi es O(m). Por lo tanto, el tiempo de ejecución total de este
procedimiento es O(nm).

No se puede aprender de manera eficiente en el caso agnóstico


En el caso agnóstico, no asumimos que alguna hipótesis h predice perfectamente las etiquetas de
todos los ejemplos en el conjunto de entrenamiento. Por lo tanto, nuestro objetivo es encontrar h
que minimice el número de ejemplos para los cuales yi = h(xi). Resulta que para muchas clases de
hipótesis comunes, incluidas las clases de rectángulos alineados con el eje que consideramos aquí,
resolver el problema de ERM en el entorno agnóstico es NP­difícil (y, en la mayoría de los casos, es
incluso NP­difícil encontrar alguna h H cuyo error no es más que alguna constante c > 1 veces la
del minimizador de riesgo empírico en H). Es decir, a menos que P = NP, no existe ningún algoritmo
cuyo tiempo de ejecución sea polinomial en m y n que garantice encontrar una hipótesis ERM para
estos problemas (Ben­David, Eiron & Long 2003).

Por otro lado, vale la pena notar que, si fijamos una clase de hipótesis específica, digamos,
rectángulos alineados con el eje en alguna dimensión fija, n, entonces existen algoritmos de
aprendizaje eficientes para esta clase. En otras palabras, hay aprendices PAC agnósticos exitosos
que ejecutan polinomios en el tiempo en 1/ y 1/δ (pero su dependencia de la dimensión n no es
polinomial).
Para ver esto, recuerde la implementación de la regla ERM que presentamos para el caso
realizable, de donde se sigue que un rectángulo alineado con el eje está determinado por 2n
ejemplos como máximo. Por lo tanto, dado un conjunto de entrenamiento de tamaño m, podemos
realizar una búsqueda exhaustiva sobre todos los subconjuntos del conjunto de entrenamiento de
tamaño máximo de 2n ejemplos y construir un rectángulo a partir de cada subconjunto. Entonces, podemos elegir
Machine Translated by Google

106 El tiempo de ejecución del aprendizaje

el rectángulo con el mínimo error de entrenamiento. Se garantiza que este procedimiento


encuentre una hipótesis ERM, y el tiempo de ejecución del procedimiento es mO(n) . De ello
se deduce que si n es fijo, el tiempo de ejecución es polinomial en el tamaño de la muestra.
Esto no contradice el resultado de dureza antes mencionado, ya que allí argumentamos que,
a menos que P = NP, no se puede tener un algoritmo cuya dependencia de la dimensión n
sea también polinomial.

8.2.3 Conjunciones Booleanas

Una conjunción booleana es un mapeo de X = {0, 1} n a Y = {0, 1} que se puede expresar


como una fórmula de proposición de la forma xi1 ... xik ¬xj1 ... ¬xjr , para
algunos índices i1, . . . , ik, j1, . . . , jr [n]. La función que define tal fórmula de proposición
es

1 si xi1 = ∙ ∙ ∙ = xik = 1 y xj1 = ∙ ∙ ∙ = xjr = 0 0 en caso


h(x) =
contrario

Sea Hn sea la clase de todas las conjunciones booleanas sobre {0, 1} n. El tamaño de es
C C
Hn como máximo 3n + 1 (ya que en una fórmula de conjunción, cada elemento de x aparece,
o aparece con un signo de negación, o no aparece en absoluto, y también tenemos la fórmula
de todo negativo). Por lo tanto, la complejidad de la muestra para aprender Hn utilizando
C la
regla ERM es como mucho n log(3/δ)/.

Eficientemente aprendible en el caso realizable A


continuación, mostramos que es posible resolver el problema ERM para el polinomio a tiempo
C
Hn en n y m. La idea es definir una conjunción ERM incluyendo en la conjunción de hipótesis
todos los literales que no contradicen ningún ejemplo etiquetado positivamente. Sea v1, . . . ,
vm+ sean todas las instancias etiquetadas positivamente en la muestra de entrada S.
Definimos, por inducción sobre i ≤ m+, una secuencia de hipótesis (o conjunciones). Sea h0
la conjunción de todos los literales posibles. Es decir, h0 = x1 ¬x1 x2 ... xn
¬xn. Tenga en cuenta que h0 asigna la etiqueta 0 a todos los elementos de X. Obtenemos
hi+1 eliminando de la conjunción hi todos los literales que no se satisfacen con vi+1. El
algoritmo genera la hipótesis hm+ . Tenga en cuenta que hm+ etiqueta positivamente todos
los ejemplos etiquetados positivamente en S. Además, para cada i ≤ m+, hi es la conjunción
más restrictiva que etiqueta v1, . . . , positivamente. Ahora, dado que consideramos el vi
aprendizaje en la configuración realizable, existe una hipótesis de conjunción, f Hn que es
consistente con todos los ejemplos en S.
C , Dado que hm+ es la conjunción más restrictiva que

etiqueta positivamente a todos los miembros etiquetados positivamente de S, cualquier


instancia etiquetado como 0 por f también está etiquetado como 0 por hm+ . De ello se
deduce que hm+ tiene un error de entrenamiento cero (wrt S) y, por lo tanto, es una hipótesis
legal de ERM. Tenga en cuenta que el tiempo de ejecución de este algoritmo es O (mn).
Machine Translated by Google

8.3 Eficientemente aprendible, pero no por un ERM adecuado 107

No se puede aprender de manera eficiente en el caso agnóstico


Como en el caso de los rectángulos alineados con el eje, a menos que P = NP, no hay ningún
algoritmo cuyo tiempo de ejecución sea polinomial en m y n que garantice encontrar una hipótesis
ERM para la clase de conjunciones booleanas en el irrealizable. caso.

8.2.4 Aprendiendo DNF de 3 términos

A continuación mostramos que una ligera generalización de la clase de conjunciones booleanas


conduce a la dificultad de resolver el problema ERM incluso en el caso realizable.
Considere la clase de fórmulas de forma normal disyuntivas de 3 términos (DNF de 3 términos).
El espacio de instancia es X = {0, 1} n y cada hipótesis está representada por la fórmula booleana de
la forma h(x) = A1(x) A2(x) A3(x), donde cada Ai(x) es una conjunción booleana (como se define
en la sección anterior). La salida de h(x) es 1 si A1(x) o A2(x) o A3(x) generan la etiqueta 1. Si las
tres conjunciones generan la etiqueta 0, entonces h(x) = 0.

Sea Hn sea la clase de hipótesis de todas las fórmulas DNF de 3 términos. El tamaño
3DNF
de Hn es como máximo 33n. Por lo tanto, la complejidad de la muestra para usando
3DNF 3DNF
aprender Hn la regla ERM es como mucho 3n log(3/δ)/.
Sin embargo, desde la perspectiva computacional, este problema de aprendizaje es difícil.
Se ha demostrado (ver (Pitt & Valiant 1988, Kearns et al. 1994)) que a menos que RP = NP, no existe
un algoritmo de tiempo polinomial que aprenda adecuadamente una secuencia de problemas de
aprendizaje DNF de 3 términos en los que la dimensión de la n El problema es n. Por "correctamente"
queremos decir que el algoritmo debe generar una hipótesis que es una fórmula DNF de 3 términos.
En particular, dado que ERMHn genera una fórmula DNF de 3 términos, es un buen alumno y, por lo
3DNF
tanto, es difícil implementarlo. La prueba utiliza una reducción del problema de coloración de 3
gráficos al problema de PAC que aprende DNF de 3 términos. La técnica detallada se da en el
Ejercicio 3. Ver también (Kearns & Vazirani 1994, Sección 1.4).

8.3 Eficientemente aprendible, pero no por un ERM adecuado

En la sección anterior vimos que es imposible implementar la regla ERM de manera eficiente para la
clase Hn de fórmulas 3­DNF. En esta sección mostramos que es posible aprender esta clase de
3DNF
manera eficiente, pero usando ERM con respecto a una clase más grande.

Representación El aprendizaje independiente no es difícil A continuación,


mostramos que es posible aprender fórmulas DNF de 3 términos de manera eficiente. No hay
contradicción con el resultado de dureza mencionado en la sección anterior, ya que ahora permitimos
el aprendizaje "independiente de la representación". Es decir, permitimos que el algoritmo de
aprendizaje genere una hipótesis que no es una fórmula DNF de 3 términos. La idea básica es
reemplazar la clase de hipótesis original de la fórmula DNF de 3 términos con una clase de hipótesis
más grande para que la nueva clase sea fácil de aprender. El aprendizaje
Machine Translated by Google

108 El tiempo de ejecución del aprendizaje

el algoritmo puede devolver una hipótesis que no pertenece a la clase de hipótesis original; de ahí el
nombre de aprendizaje “independiente de la representación”. Hacemos hincapié en que, en la mayoría
de las situaciones, devolver una hipótesis con buena capacidad predictiva es lo que realmente nos
interesa hacer.
Comenzamos notando que debido a que se distribuye sobre , cada fórmula DNF de 3 términos
se puede reescribir como

A1 A2 A3 = (u v w)
u A1,v A2,w A3
3
A continuación, definamos: ψ : {0, 1} n tal
→que
{0, 1}
para
(2n)cada triplete de literales u, v, w hay una variable
en el rango de ψ que indica si u v w es verdadero o falso.
3
Entonces, para cada fórmula 3­DNF sobre {0, 1} n hay una conjunción sobre {0, 1} (2n) con la misma ,
tabla de verdad. Dado que asumimos que los datos son realizables, podemos resolver el problema
3
ERM con respecto a la clase de conjunciones sobre {0, 1} (2n) .
Además, la complejidad muestral de aprender la clase de conjunciones en el log(1/δ)/. Por lo tanto, el
el espacio dimensional superior es como máximo3 tiempo de ejecución total de
n este enfoque es polinomial en n.
Intuitivamente, la idea es la siguiente. Empezamos con una clase de hipótesis para las que el
aprendizaje es difícil. Cambiamos a otra representación donde la clase de hipótesis es más grande
que la clase original pero tiene más estructura, lo que permite una búsqueda de ERM más eficiente.
En la nueva representación, resolver el problema ERM es fácil.

conjunciones sobre {0, 1} (2n) 3

Fórmulas DNF de 3 términos sobre {0, 1} n

8.4 Dureza del aprendizaje*

Acabamos de demostrar que la dificultad computacional de implementar ERMH no implica que tal
clase H no se pueda aprender. ¿Cómo podemos probar que un problema de aprendizaje es
computacionalmente difícil?
Un enfoque es confiar en supuestos criptográficos. En cierto sentido, la criptografía es lo opuesto
al aprendizaje. En el aprendizaje, tratamos de descubrir alguna regla subyacente a los ejemplos que
vemos, mientras que en la criptografía, el objetivo es asegurarse de que nadie pueda descubrir algún
secreto, a pesar de tener acceso.
Machine Translated by Google

8.4 Dureza del aprendizaje* 109

a alguna información parcial al respecto. En ese sentido intuitivo de alto nivel, los
resultados sobre la seguridad criptográfica de algún sistema se traducen en resultados
sobre la imposibilidad de aprender de alguna tarea correspondiente. Lamentablemente,
actualmente no hay forma de probar que un protocolo criptográfico no se puede romper.
Incluso la suposición común de P = NP no es suficiente para eso (aunque se puede
demostrar que es necesario para los escenarios criptográficos más comunes). El enfoque
común para probar que los protocolos criptográficos son seguros es comenzar con
algunas suposiciones criptográficas. Cuanto más se utilizan como base para la criptografía,
más fuerte es nuestra creencia de que realmente se cumplen (o, al menos, que los
algoritmos que los refutarán son difíciles de encontrar).
Ahora describimos brevemente la idea básica de cómo deducir la dureza de la
capacidad de aprendizaje a partir de suposiciones criptográficas. Muchos sistemas
criptográficos se basan en la suposición de que existe una función unidireccional. En
términos generales, una función unidireccional es una función f : {0, 1} n → {0, 1} n (más
formalmente, es una secuencia de funciones, una para cada dimensión n) que es fácil de
calcular pero es difícil a en vert. Más formalmente, f se puede calcular en tiempo poli(n)
pero para cualquier algoritmo de tiempo polinómico aleatorio A, y para cada polinomio p(∙),

1
P[f(A(f(x))) = f(x)] < p(n) ,

donde la probabilidad se toma sobre una elección aleatoria de x según la distribución


uniforme sobre {0, 1} n y la aleatoriedad de A.
Una función unidireccional, f, se denomina función trampilla unidireccional si, para
alguna función polinomial p, para cada n existe una cadena de bits sn (llamada clave
secreta) de longitud ≤ p(n), tal que existe un algoritmo de tiempo polinomial que, para cada
n y cada x {0, 1} n, en la entrada (f(x), sn) genera x. En otras palabras, aunque f es
difícil de invertir, una vez que uno tiene acceso a su clave secreta, invertir f se vuelve
factible. Tales funciones están parametrizadas por su clave secreta.
Ahora, sea Fn una familia de funciones trampilla sobre {0, 1} n que puede calcularse
mediante algún algoritmo de tiempo polinomial. Es decir, arreglamos un algoritmo que,
dada una clave secreta (que representa una función en Fn) y un vector de entrada, calcula
el valor de la función correspondiente a la clave secreta en el vector de entrada en tiempo
polinomial. Considere la tarea de aprender la clase de los inversos correspondientes, Hn :
f Fn}. Dado −1
F que
= {f cada función en esta clase se puede invertir puede ser parámetro
por alguna clave secreta sn de tamaño polinomial en n, la clase HnF
izado por estas claves y su tamaño es como máximo 2p(n) . Su complejidad muestral es,
por tanto, polinomial en n. Afirmamos que no puede haber un alumno eficiente para esta
clase. Si existiera tal aprendiz, L, entonces al muestrear uniformemente al azar un número
polinomial de cadenas en {0, 1} n, y calcular f sobre ellas, podríamos generar una muestra
de entrenamiento etiquetada de pares (f(x), x ), lo que debería ser suficiente para que
nuestro alumno descubra una aproximación (,−1δ) de f (con respecto a la distribución
uniforme en el rango de f), que violaría la propiedad unidireccional de f.
Se puede encontrar un tratamiento más detallado, así como un ejemplo concreto, en
(Kearns & Vazirani 1994, Capítulo 6). Usando reducciones, también muestran que
Machine Translated by Google

110 El tiempo de ejecución del aprendizaje

la clase de funciones que pueden calcularse mediante pequeños circuitos booleanos no se puede
aprender de manera eficiente, incluso en el caso realizable.

8.5 Resumen

El tiempo de ejecución de los algoritmos de aprendizaje se analiza asintóticamente en función de


diferentes parámetros del problema de aprendizaje, como el tamaño de la clase de hipótesis,
nuestra medida de precisión, nuestra medida de confianza o el tamaño del conjunto de dominios.
Hemos demostrado casos en los que la regla ERM se puede implementar de manera eficiente.
Por ejemplo, derivamos algoritmos eficientes para resolver el problema ERM para la clase de
conjunciones booleanas y la clase de rectángulos alineados con el eje, bajo el supuesto de
realizabilidad. Sin embargo, implementar ERM para estas clases en el caso agnóstico es NP­difícil.
Recuerde que desde la perspectiva estadística, no hay diferencia entre los casos realizables y
agnósticos (es decir, una clase se puede aprender en ambos casos si y sólo si tiene una dimensión
VC finita).
En contraste, como vimos, desde la perspectiva computacional la diferencia es inmensa. También
mostramos otro ejemplo, la clase de DNF de 3 términos, donde implementar ERM es difícil incluso
en el caso realizable, pero la clase se puede aprender de manera eficiente mediante otro algoritmo.

La dificultad de implementar la regla ERM para varias clases de hipótesis naturales ha motivado
el desarrollo de métodos de aprendizaje alternativos, que discutiremos en la siguiente parte de
este libro.

8.6 Comentarios bibliográficos

Valiant (1984) introdujo el modelo de aprendizaje PAC eficiente en el que se requiere que el tiempo
de ejecución del algoritmo sea polinomial en 1/, 1/δ y el tamaño de representación de las hipótesis
en la clase. En Kearns y Vazirani (1994) se proporciona una discusión detallada y notas
bibliográficas completas.

8.7 Ejercicios

1. Sea H la clase de intervalos en la línea (formalmente equivalente a rectángulos alineados con el


eje en dimensión n = 1). Proponga una implementación de la regla de aprendizaje ERMH (en
el caso agnóstico) que, dado un conjunto de entrenamiento de tamaño m, se ejecute en el
tiempo O(m2 ).
Sugerencia: use programación dinámica.
2. Sean H1, H2, . . . Sea una secuencia de clases de hipótesis para la clasificación binaria.
Suponga que existe un algoritmo de aprendizaje que implementa la regla ERM en el caso
realizable, de modo que la hipótesis de salida del algoritmo para cada clase Hn solo depende
de O(n) ejemplos fuera del conjunto de entrenamiento. Además,
Machine Translated by Google

8.7 Ejercicios 111

suponga que tal hipótesis puede calcularse dados estos O(n) ejemplos en el tiempo O(n), y que
el riesgo empírico de cada una de esas hipótesis puede evaluarse en el tiempo O(mn). Por
ejemplo, si Hn es la clase de rectángulos alineados con el eje en R n, vimos que es posible
encontrar una hipótesis ERM en el caso realizable que se define por un máximo de 2n ejemplos.
Demuestre que en tales casos, es posible encontrar una hipótesis ERM para Hn en el caso
irrealizable en el tiempo O(mn mO(n) ).

3. En este ejercicio, presentamos varias clases para las cuales encontrar un clasificador ERM es
computacionalmente difícil. Primero, presentamos la clase de semiespacios n­dimensionales,
HSn, para un dominio X = R n. Esta es la clase de todas las funciones de la forma hw,b(x) =
sign(w, x + b) donde w, x R n, w, x es su producto interno, y b R. Ver descripción detallada
en el Capítulo 9.
1. Muestre que ERMH sobre la clase H = HSn de predictores lineales es computacionalmente
difícil. Más precisamente, consideramos la secuencia de problemas en los que la dimensión n
crece linealmente y el número de ejemplos m se establece como algo constante por n.

Sugerencia: puede probar la dureza mediante una reducción del siguiente problema:

m×n y b m
Max FS: Dado un sistema de desigualdades lineales, Ax > b con A R
R (es decir, un sistema de m desigualdades lineales en n variables, x = (x1, . . . , xn)),
encuentre un subsistema que contenga tantas desigualdades como sea posible que tenga
una solución (tal subsistema se llama factible).
Se ha demostrado (Sankaran 1993) que el problema Max FS es NP­difícil.
Demuestre que cualquier algoritmo que encuentre una hipótesis ERMHSn para cualquier
muestra de entrenamiento S (R n × {+1, −1}) m puede usarse para resolver el problema
Max FS de tamaño m, n. Sugerencia: defina una aplicación que transforme desigualdades
lineales en n variables en puntos etiquetados en R n, y una aplicación que transforme vectores
en R n en semiespacios, de modo que un vector w satisfaga una desigualdad q si y solo si el
punto etiquetado que corresponde a q se clasifica correctamente por el semiespacio
correspondiente a w. Concluya que el problema de minimización de riesgo empírico para
semiespacios también en NP­difícil (es decir, si se puede resolver en un polinomio de tiempo
en el tamaño de muestra, m, y la dimensión euclidiana, n, entonces todos los problemas en la
clase NP se pueden resolver resuelto en tiempo polinomial). Sea la clase de todas las
semiespacios en R n. En este k intersecciones de k­muchos lineales 2. Sea X = R n y Hn
ejercicio, queremos mostrar que ERMHn es supuestamente difícil para todo k ≥ 3. es com
k
Precisamente, consideramos una secuencia de problemas donde k ≥ 3 es una constante y n
crece linealmente. El tamaño del conjunto de entrenamiento, m, también crece linealmente
con n.
Con este objetivo, considere el problema de coloración k para gráficos, definido de la siguiente
manera:
Dada una gráfica G = (V, E), y un número k, determine si existe una función f : V → {1 . . .
k} de modo que para todo (u, v) E, f(u) = f(v).
Se sabe que el problema de la coloración de k es NP­difícil para cada k ≥ 3 (Karp 1972).
Machine Translated by Google

112 El tiempo de ejecución del aprendizaje

Deseamos reducir el problema de coloración k a ERMHn : es decir, probar


k
el problema en el
que si hay un algoritmo que resuelve el ERMHn k
tiempo
polinomio en k, n, y el tamaño de la muestra m, entonces hay un algoritmo de tiempo polinomial
para el problema de coloración del gráfico k.
Dado un gráfico G = (V, E), sea {v1 . . . vn} sean los vértices en V . Construya una muestra
S(G) (R n × {±1}) m, donde m = |V | + |E|, como sigue: • Para todo vi V construya
, negativa. • Para cada arista (vi , vj )
una instancia ei con etiqueta E, construya una
instancia (ei + ej )/2 con etiqueta positiva.

1. Demostrar que si existe algún h Hn k que tiene cero error sobre S(G)
entonces G es k­coloreable.
Pista: Sea h = hj sea un clasificador ERM en Hn sobre kS. Defina una coloración
kj=1
de V estableciendo f(vi) como el mínimo j tal que hj (ei) = −1.
Usa el hecho de que los semiespacios son conjuntos convexos para mostrar que no puede
ser cierto que dos vértices que están conectados por una arista tengan el mismo color.

2. Demostrar que si G es k­coloreable entonces existe algún h Hn que tiene k


cero error sobre S(G).
Sugerencia: Dada una coloración f de los vértices de G, deberíamos obtener k hiperplanos,
h1 . . . hk cuya intersección es un clasificador perfecto para S(G).
Sea b = 0.6 para todos estos hiperplanos y, para t ≤ k , sea −1 el i­ésimo peso del t­ésimo
hiperplano, wt,i, si f(vi) = ty 0 en caso contrario.
3. Con base en lo anterior, demuestre que para cualquier k ≥ 3, el problema ERMHn
k
es
NP­duro.

4. En este ejercicio mostramos que la dificultad de resolver el problema ERM es equivalente a la


dificultad del aprendizaje adecuado del PAC. Recuerde que por "adecuación" del algoritmo
queremos decir que debe generar una hipótesis de la clase de hipótesis. Para formalizar esta
afirmación, primero necesitamos la siguiente definición.

definición 8.2 La clase de complejidad Polinomio aleatorio (RP) El tiempo es la clase de todos los
problemas de decisión (es decir, problemas en los que en cualquier caso uno tiene que averiguar
si la respuesta es SÍ o NO) para los que existe un algoritmo probabilístico (es decir, , el algoritmo
puede lanzar monedas al azar mientras se ejecuta) con estas propiedades: • En cualquier instancia
de entrada, el algoritmo se ejecuta en tiempo
polinomial en la entrada
tamaño.

• Si la respuesta correcta es NO, el algoritmo debe devolver NO. • Si la respuesta


correcta es SÍ, el algoritmo devuelve SÍ con probabilidad
1
a ≥ 1/2 y devuelve NO con probabilidad 1 − a.

Claramente, la clase RP contiene la clase P. También se sabe que RP está contenida en la


clase NP. No se sabe si existe alguna igualdad entre estas tres clases de complejidad, pero se cree
ampliamente que NP es estrictamente

1
La constante 1/2 en la definición se puede reemplazar por cualquier constante en (0, 1).
Machine Translated by Google

8.7 Ejercicios 113

mayor que RP. En particular, se cree que los problemas NP­difíciles no pueden resolverse
mediante un algoritmo de tiempo polinómico aleatorio. •
Demostrar que si una clase H es apropiadamente PAC aprendible por un algoritmo de tiempo
polinomial, entonces el problema ERMH está en la clase RP. En particular, esto implica
que siempre que el problema ERMH sea NP­difícil (por ejemplo, la clase de intersecciones
de semiespacios discutida en el ejercicio anterior), entonces, a menos que NP = RP, no
existe un algoritmo de aprendizaje PAC propio del tiempo polinomial para H.

Sugerencia: suponga que tiene un algoritmo A que correctamente PAC aprende un


polinomio de clase H en el tiempo en algún parámetro de clase n, así como en 1/ y 1/δ.
Su objetivo es usar ese algoritmo como una subrutina para contratar un algoritmo B para
resolver el problema ERMH en tiempo polinomial aleatorio. Dado un conjunto de
entrenamiento, S (X × {±1} m), y algún h H cuyo error en S es cero, aplique el
algoritmo de aprendizaje PAC a la distribución uniforme sobre S y ejecútelo de modo que
con probabilidad ≥ 0.3 encuentra una función h H que tiene un error menor que = 1/|S|
(con respecto a esa distribución uniforme). Demuestre que el algoritmo recién descrito
satisface los requisitos para ser un solucionador de RP para ERMH.
Machine Translated by Google
Machine Translated by Google

Parte II

De la teoría a los algoritmos


Machine Translated by Google

También podría gustarte