Documentos de Académico
Documentos de Profesional
Documentos de Cultura
En pocas palabras, para la programación tradicional uno más uno equivale a dos (1 + 1 =
2). Los datos más las reglas (que también se conocen como algoritmos) conducen a las
respuestas. Además, con la programación tradicional, una computadora solo puede
seguir los algoritmos que configura una persona.
Pero ¿qué sucede si nos cuesta deducir los algoritmos? ¿O si estos son muy complejos
de descifrar? Aquí es donde entra el aprendizaje automático. Con el aprendizaje
automático, alimentamos una máquina con una gran cantidad de datos, junto con las
respuestas que esperaríamos que un modelo concluyera a partir de esos datos. Luego,
le mostramos a la máquina un método de aprendizaje mediante la selección de un
modelo de aprendizaje automático. En ese punto, esperamos que la máquina aprenda de
los datos y ejemplos proporcionados para resolver la incógnita por su cuenta. Así que,
en lugar de decirle a la máquina cómo hacer la suma, le brindamos pares de números y
las respuestas. Por ejemplo, 1, 1 y 2, y 2, 3 y 5. Luego se le pide descifrar cómo hacer la
suma por su cuenta.
Slide #6
Pero ¿cómo es posible que una máquina pueda aprender a resolver acertijos? Para que
el aprendizaje automático funcione, se necesita mucha capacidad de almacenamiento,
como la que está disponible con Cloud Storage, así como la capacidad de realizar
cálculos rápidos, como sucede con la computación en la nube.
Slide #7
Existen muchos ejemplos prácticos de esta capacidad. Por ejemplo, si se agregan
muchas imágenes con etiquetas (suponiendo que las etiquetas son respuestas
asociadas con datos) a Google Fotos, podemos enseñarle al software a asociar y, luego,
a agregar de forma automática etiquetas a las imágenes nuevas (reglas de resultado).
Luego, estas etiquetas se pueden usar para la función de búsqueda o a fin de crear
álbumes de fotos de forma automática.
Slide #8
¿Es posible imaginar otros ejemplos para aplicar a las capacidades del aprendizaje
automático (datos + respuestas → reglas)? Tómese un momento para pensarlo.
Slide #9
Existen tres etapas clave para este proceso de aprendizaje.
Slide #10
La primera etapa es la preparación de los datos, que incluye dos pasos: la carga de
datos y la ingeniería de atributos.
Un modelo necesita aprender de una gran cantidad de datos. Los datos que se usan en
el aprendizaje automático pueden ser una transmisión de datos en tiempo real o datos
por lotes, y pueden ser de forma estructurada, es decir, números y texto que
generalmente se guardan en tablas, o datos no estructurados, que son datos que no se
pueden almacenar en tablas, como las imágenes y los videos.
Slide #11
La segunda etapa es el entrenamiento del modelo. Un modelo necesita una gran cantidad
de entrenamiento iterativo. Es decir, cuando el entrenamiento y la evaluación forman un
ciclo para entrenar el modelo, luego, evaluarlo y, posteriormente, entrenar los datos un
poco más.
Slide #12
La tercera y última etapa es la entrega del modelo. Es necesario utilizar un modelo para
poder predecir resultados. En esta etapa, el modelo de aprendizaje automático se
implementa, supervisa y administra. Si no pone en ejecución un modelo de AA, se
conserva como un modelo teórico y no tiene un uso real.
Slide #13
Al inicio mencionamos que el flujo de trabajo del aprendizaje automático con Vertex AI
no es muy diferente del proceso para servir comida en un restaurante. Así que si
compara estos pasos con el trabajo en un restaurante, el equivalente sería el siguiente:
La preparación de los datos correspondería a la preparación de los ingredientes crudos.
El entrenamiento del modelo correspondería a la experimentación con diferentes recetas.
La entrega del modelo correspondería a la finalización del menú para luego servir la
comida a los clientes hambrientos.
Para seleccionar el tipo de datos y el objetivo correctos, realice las siguientes acciones:
Comience por revisar los requisitos de los datos. Incluimos un vínculo a estos requisitos
en la sección de recursos de este curso.
Luego, deberá agregar etiquetas a los datos, si aún no lo ha hecho.
El paso final es subir los datos. Los datos se pueden subir desde un origen local,
BigQuery o Cloud Storage. Tendrá la oportunidad de practicar estos pasos en el lab.
Slide #19
Una etiqueta es un objetivo de entrenamiento. Así que, si quiere que un modelo distinga
a un gato de un perro, primero debe brindar imágenes de muestra con etiquetas que
indiquen "gato" o "perro". La etiqueta se puede agregar de forma manual o mediante el
servicio pagado de etiquetado de Google a través de la consola de Vertex. Estos
etiquetadores generarán de forma manual etiquetas exactas por usted.
Slide #20
Luego de subir los datos a AutoML, el siguiente paso es prepararlos para el
entrenamiento del modelo mediante la ingeniería de atributos. Como ya lo vimos en el
módulo de BigQuery, un atributo se refiere a un factor que contribuye a la predicción. Es
una variable independiente en estadísticas o una columna en una tabla.
Imagine que está en la cocina preparando una comida. Sus datos son como los
ingredientes, como zanahorias, cebollas y tomates. Antes de comenzar a cocinar, deberá
pelar las zanahorias, picar las cebollas y lavar los tomates. De esto se trata la ingeniería
de atributos: los datos se deben procesar antes de que el modelo comience a entrenarse.
Slide #21
Preparar atributos puede ser desafiante y aburrido. A fin de ayudar, Vertex AI cuenta con
una función llamada Feature Store.
La inteligencia artificial (o IA) es un término general que incluye todo lo que se relaciona
con los procesos de imitación de la inteligencia humana por parte de las computadoras.
Por ejemplo, en un procesador de palabras en línea, los robots realizan todo el proceso
de las acciones humanas, hasta corregir la ortografía.
El aprendizaje automático es un subconjunto de la IA que se refiere, principalmente, al
aprendizaje supervisado y no supervisado.
Es posible que también escuche los términos aprendizaje profundo o red neuronal
profunda. Esto es un subconjunto del aprendizaje automático que agrega capas entre los
datos de entrada y los resultados de salida para lograr que una máquina aprenda con
más profundidad.
Slide #25
Entonces, ¿cuál es la diferencia entre el aprendizaje supervisado y el no supervisado?
El primero es la clasificación, que predice una variable categórica, como utilizar una
imagen a fin de indicar la diferencia entre un perro y un gato.
El segundo es un modelo de regresión, que predice un número continuo, por ejemplo,
usar las ventas anteriores de un artículo para predecir una tendencia futura.
La primera es una combinación verdadero positivo, que se puede interpretar como “El
modelo predijo un resultado positivo, y es cierto”. El modelo predijo que esta es la
imagen de un gato y realmente lo es.
Lo opuesto es una combinación verdadero negativo, que se puede interpretar como “El
modelo predijo un resultado negativo, y es cierto”. El modelo predijo que un perro no es
un gato y realmente no lo es.
Luego, está la combinación falso positivo, también conocida como error de tipo 1, que se
puede interpretar como “El modelo predijo un resultado positivo, pero eso es falso”. El
modelo predijo que un perro es un gato, pero no lo es.
Por último, está la combinación falso negativo, también conocida como error de tipo 2,
que se puede interpretar como “El modelo predijo un resultado negativo, pero es falso”.
El modelo predijo que un gato no es un gato, pero sí lo es.
Slide #31
Una matriz de confusión es la base de muchas otras métricas que se usan para evaluar
el rendimiento de un modelo de aprendizaje automático. Analicemos las dos métricas
populares (recuperación y precisión) con las que se encontrará en el lab.
Primero, la implementación del modelo, que podemos comparar con servir la comida a
un cliente con hambre.
Segundo, la supervisión del modelo, que podemos comparar con supervisar a los
camareros para asegurarse de que el restaurante está funcionando de forma eficiente.
Es importante que tenga en cuenta que la administración del modelo existe en todo este
flujo de trabajo para administrar la infraestructura del aprendizaje automático
subyacente. Esto permite que los científicos de datos se enfoquen en qué hacer en lugar
de cómo hacerlo.
Slide #39
Las operaciones de aprendizaje automático (MLOps) tienen un rol importante. Las
MLOps combinan el desarrollo de aprendizaje automático con las operaciones y aplican
principios similares a los de DevOps (la forma abreviada de desarrollo y operaciones, en
inglés) a los modelos de aprendizaje automático.
Con estos dos pasos finales (la implementación y la supervisión del modelo)
completamos la exploración del flujo de trabajo del aprendizaje automático. El
restaurante está abierto y opera sin problemas. ¡Buen provecho!
Slide #47
Practiquemos lo que aprendió con este lab práctico.
En este lab, usará AutoML, una herramienta sin código, para crear un modelo de
aprendizaje automático a fin de predecir el riesgo de los préstamos. El conjunto de datos
que se usa en el lab se relaciona con los préstamos de una institución financiera y
cuenta con 2,050 datos. AutoML necesita al menos 1,000 datos en un conjunto de datos.
Slide #48
El objetivo es practicar el trabajo en las tres fases del flujo de trabajo del aprendizaje
automático: la preparación de los datos, el entrenamiento del modelo y la entrega del
modelo.
Comencemos.
Slide #50
Felicitaciones por completar el lab de AutoML. Tuvo la oportunidad de usar Vertex AI
para crear un modelo de aprendizaje automático sin escribir líneas de código.
Tomémonos un momento para revisar los resultados del lab. Comencemos con la matriz
de confusión. Pero antes, deténgase y considere usted mismo los resultados de la
matriz.
Los verdaderos positivos fueron un 100%. Esto representa el porcentaje de las personas
que el modelo predijo que pagarían el préstamo y que, efectivamente, lo hicieron.
Los verdaderos negativos fueron un 87%. Esto representa el porcentaje de personas que
el modelo predijo que no pagarían el préstamo y que, efectivamente, no lo hicieron.
Los falsos negativos fueron un 0%. Esto representa el porcentaje de las personas que el
modelo predijo que no pagarían el préstamo, pero sí lo hicieron.
Y, por último, los falsos positivos fueron un 13%. Esto representa el porcentaje de las
personas que el modelo predijo que pagarían el préstamo, pero que no lo hicieron.
Si mueve el umbral a cero, se produce la recuperación más alta del 100% y la precisión
más baja del 50%. ¿Qué significa esto?
Significa que el modelo predice que el 100% de los postulantes al crédito podrán pagar el
préstamo que soliciten. Sin embargo, en realidad, solo el 50% de ellos pudieron pagarlo.
En este ejemplo, puede ser riesgoso usar este umbral para identificar los casos
predeterminados, ya que quiere decir que es probable que solo le devuelvan la mitad de
la inversión del préstamo.
Slide #52
Ahora, movamos el umbral a 1 para avanzar al otro extremo. Esto producirá la precisión
más alta del 100% con la recuperación más baja del 1%.
Significa que, de todas las personas que se predijo que pagarían el préstamo, el 100% de
ellas realmente lo hizo. Sin embargo, rechazó al 99% de los postulantes al préstamo, ya
que solo lo ofreció al 1% de ellos. Eso implica una gran pérdida comercial para su
empresa.
Estos dos ejemplos son extremos, pero es importante que siempre configure un umbral
apropiado para su modelo.
Slide #54
Antes de terminar este módulo del curso, repasemos rápido las tres etapas del flujo de
trabajo del aprendizaje automático con la ayuda de nuestra analogía del restaurante.
Slide #55
En la primera etapa, la preparación de los datos, subimos los datos y aplicamos la
ingeniería de atributos, que era el equivalente a reunir los ingredientes, cortarlos y
prepararlos en la cocina.
En la segunda etapa, el entrenamiento del modelo, entrenamos y evaluamos el modelo.
De esta forma, experimentamos con las recetas y probamos la comida para asegurarnos
de que el resultado fuera el que esperábamos.
Y, en la etapa final, la entrega del modelo, este se implementó y supervisó, lo que
equivale a servir la comida a los clientes que la esperaban y ajustar el menú a medida
que más personas prueban el plato.
Slide #56
DIGA LO SIGUIENTE: Repasemos con un último cuestionario. Utilizaremos Kahoot!, por
lo que deberá sacar un dispositivo móvil (si tiene uno) o abrir una pestaña nueva en su
navegador web y dirigirse a kahoot.it. En un minuto, le dictaré un código para que lo
ingrese.
Recuerde que aparecerán preguntas de opción múltiple y deberá elegir la respuesta
correcta de una lista. La persona que responda todas las preguntas correctamente en el
menor tiempo ganará la mayor cantidad de puntos.
HAGA LO SIGUIENTE: Haga clic en el vínculo de la diapositiva (o aquí) para iniciar el
cuestionario de Kahoot! Seleccione la opción Continuar como invitado y, luego, Modo
clásico. Los alumnos deberán seguir las instrucciones que aparecen en la pantalla. Haga
clic aquí para ver una descripción general del funcionamiento de Kahoot!