Documentos de Académico
Documentos de Profesional
Documentos de Cultura
En los dos módulos anteriores de este curso, aprendió sobre las distintas herramientas
de ingeniería de datos disponibles en Google Cloud, como Dataflow, Pub/Sub y Looker
en comparación con Data Studio en el módulo 2 y BigQuery en el módulo 3. Ahora,
enfoquémonos en el aprendizaje automático. En los próximos dos módulos, conocerá
las opciones de AA que proporciona Google (módulo 4) y el flujo de trabajo del AA
(módulo 5).
Slide #4
En este módulo, exploraremos las distintas opciones que ofrece Google Cloud para crear
modelos de aprendizaje automático, en específico, presentaremos las API compiladas
previamente, AutoML y el entrenamiento personalizado.
Además, explicaremos cómo Vertex AI puede ayudarlo a resolver los desafíos del
aprendizaje automático.
Por ejemplo, ¿notó que en Gmail se sugieren automáticamente tres respuestas para un
mensaje recibido? Esta función se llama Respuesta inteligente y usa inteligencia
artificial para predecir cómo podría responder al mensaje. Detrás de esta inteligencia se
encuentra la tecnología de IA, conocida como procesamiento de lenguaje natural, que es
solo un ejemplo de una lista impresionante de tecnologías en las que los ingenieros y
científicos de Google están trabajando, y que exploraremos de forma más detallada más
adelante en el curso.
Slide #7
El objetivo de estas tecnologías no es ser de uso exclusivo para beneficiar solo a los
clientes de Google, sino disminuir los desafíos presentes en la creación de modelos de
IA a solo pasos que requieran el criterio humano o su creatividad para permitir que cada
empresa sea una empresa basada en la IA.
Slide #8
Para los trabajadores de los sectores de viajes y alojamientos, esto puede significar usar
IA y AA a fin de mejorar la programación de vuelos o proporcionar a los clientes
opciones de establecimiento dinámico de precios. Para aquellos del sector de ventas
minoristas, esto supondría usar IA y AA a fin de aprovechar la planificación de
inventarios predictivos. Las soluciones posibles son ilimitadas.
Slide #9
¿Cuáles son los problemas en su empresa que la inteligencia artificial y el aprendizaje
automático podrían ayudar a resolver? Tómese un momento para pensar en esta
pregunta antes de seguir con la próxima sección.
Slide #11
Google Cloud cuenta con cuatro opciones para crear modelos de aprendizaje
automático.
La primera opción es BigQuery ML. Recuerde que, como se estudió en un módulo
anterior, BigQuery ML es una herramienta para usar las consultas en SQL a fin de crear y
ejecutar modelos de aprendizaje automático en BigQuery. Si ya tiene sus datos en
BigQuery y sus problemas se ajustan a los modelos de AA previamente definidos, esta
podría ser su opción.
La segunda es usar API compiladas previamente, que son interfaces de programación de
aplicaciones. Esta opción le permite aprovechar los modelos de aprendizaje automático
que Google ya compiló y entrenó, por lo que no debe compilar los propios si no tiene
datos de entrenamiento o la experiencia en aprendizaje automático local suficientes.
La tercera opción es AutoML, una solución sin código, por lo que puede crear sus
propios modelos de aprendizaje automático en Vertex AI con una interfaz interactiva.
Y, por último, se encuentra el entrenamiento personalizado, con el cual puede programar
su propio entorno de aprendizaje automático, el entrenamiento y la implementación, lo
que le permite tener flexibilidad y le proporciona el control de la canalización de AA.
Slide #12
Comparemos las cuatro opciones a fin de que pueda decidir cuál usar para compilar su
modelo de AA.
Tipos de datos: BigQuery ML solo admite datos tabulares, mientras que las otras tres
opciones admiten datos tabulares, de imagen, texto y video.
Tamaño de los datos de entrenamiento: Las API compiladas previamente no necesitan
datos de entrenamiento, mientras que BigQuery ML y el entrenamiento personalizado
requieren una gran cantidad de datos.
Experiencia en aprendizaje automático y programación: Las API compiladas previamente
y AutoML son fáciles de usar y tienen pocos requisitos, mientras que el entrenamiento
personalizado cuenta con la mayor cantidad de requisitos, además para usar
BigQuery ML debe entender SQL.
Flexibilidad para ajustar los hiperparámetros: Por el momento, no puede ajustar los
hiperparámetros con las API compiladas previamente ni con AutoML, pero sí puede
experimentar con ellos si usa BigQuery ML y el entrenamiento personalizado.
Tiempo para entrenar el modelo: Las API compiladas previamente no necesitan tiempo
para entrenar un modelo porque usan de forma directa modelos compilados previamente
de Google. El tiempo de entrenamiento de un modelo para las otras tres opciones
depende del proyecto específico. Por lo general, el entrenamiento personalizado tarda
más debido a que crea el modelo de AA desde cero, a diferencia de AutoML y
BigQuery ML.
AutoML usa una tecnología de backend llamada aprendizaje por transferencia (la
conocerá más adelante en otra sección), es decir, entrena un modelo de AA nuevo según
resultados de entrenamiento existentes para acelerar el tiempo del entrenamiento de los
modelos. El entrenamiento personalizado, en comparación con AutoML, debe entrenar
un modelo desde cero, lo que generalmente tarda más tiempo.
Slide #13
Seleccionar la mejor opción dependerá de las necesidades empresariales y la
experiencia en el AA.
Si sus ingenieros, científicos y analistas de datos están familiarizados con SQL y ya
tienen sus datos en BigQuery, BigQuery ML le permite desarrollar modelos basados en
SQL.
Si sus usuarios o desarrolladores empresariales tienen poca experiencia en el AA, es
probable que la mejor opción sean las API compiladas previamente. Estas API abordan
tareas perceptivas comunes, como visión, video y lenguaje natural, y están listas para
usarse sin necesidad de experiencia en el AA ni de esfuerzo en el desarrollo de modelos.
Si sus desarrolladores y científicos de datos desean crear modelos personalizados con
sus propios datos de entrenamiento y, al mismo tiempo, invertir la menor cantidad de
tiempo en la programación, la mejor opción es AutoML. AutoML proporciona una
solución sin código para que se enfoque en los problemas empresariales en lugar de la
arquitectura del modelo subyacente y el aprovisionamiento de AA.
Si sus ingenieros de AA y científicos de datos desean tener el control completo del flujo
de trabajo del AA, el entrenamiento personalizado de Vertex AI le permite entrenar y
entregar modelos personalizados con código en Vertex AI Workbench.
Slide #14
Ya exploramos BigQuery ML, así que, en los siguientes videos, analizaremos las otras
tres opciones de forma más detallada.
Slide #16
Los buenos modelos de aprendizaje automático requieren muchos datos de
entrenamiento de alta calidad. Su objetivo debe ser tener cientos de miles de registros
para entrenar un modelo personalizado. Si no los tiene, las API compiladas previamente
son un lugar excelente para comenzar.
Estas API compiladas previamente se ofrecen como servicios. En muchos casos, pueden
funcionar como componentes básicos para crear la aplicación que desea sin los gastos
ni la complejidad de crear sus propios modelos. Además, ahorran el tiempo y el esfuerzo
de compilar, seleccionar y entrenar un conjunto de datos nuevos, por lo que puede
avanzar de inmediato a las predicciones.
Slide #17
¿Cuáles son algunas de las API compiladas previamente? Exploremos una lista breve.
Cuando esté listo para crear un modelo de producción, tendrá que pasar una solicitud de
objeto JSON a la API y analizar lo que se muestra.
Slide #22
Para comprender el AutoML (forma abreviada de aprendizaje automático automatizado
en inglés), revisemos brevemente cómo se creó.
Si anteriormente ya trabajó con modelos de AA, debe saber que entrenarlos y también
implementarlos puede consumir mucho tiempo, ya que es necesario agregar muchas
veces datos y atributos nuevos, probar modelos diferentes y ajustar los parámetros a fin
de obtener el mejor resultado.
Para resolver este problema, cuando se anunció por primera vez AutoML en enero
de 2018, el objetivo era automatizar las canalizaciones de aprendizaje automático para
ahorrarles el trabajo manual a los científicos de datos, como el ajuste de los
hiperparámetros y las comparaciones en función de varios modelos.
Slide #23
Pero ¿cómo se pudo lograr eso? El aprendizaje automático se parece al aprendizaje
humano. Todo comienza con recopilar la información correcta.
Slide #24
Para AutoML, hay dos tecnologías que son fundamentales. La primera se conoce como
aprendizaje por transferencia. Con el aprendizaje por transferencia, puede crear una
base de conocimiento en el sector. Considérelo como reunir varios libros para crear una
biblioteca.
Slide #25
El aprendizaje por transferencia es una técnica potente que permite que las personas
que tienen conjuntos de datos más pequeños, o menos potencia de procesamiento,
logren resultados de vanguardia aprovechando los modelos previamente entrenados con
conjuntos de datos similares, pero más grandes. Debido a que el modelo aprende
mediante aprendizaje por transferencia, no debe hacerlo desde cero, por lo que,
generalmente, puede alcanzar una exactitud más alta con muchos menos datos y tiempo
de procesamiento que los modelos que no usan aprendizaje por transferencia.
Slide #26
La segunda tecnología es la búsqueda de diseño neuronal, que tiene como objetivo
encontrar el modelo óptimo para el proyecto relevante. Considérela como encontrar el
mejor libro en la biblioteca para poder aprender lo que necesita.
Slide #27
AutoML está potenciado por la investigación de aprendizaje automático más reciente, así
que aunque un modelo realice entrenamiento, la plataforma de AutoML en realidad
entrena y evalúa varios modelos y los compara entre sí. Esta búsqueda de diseño
neuronal produce un ensamble de modelos de AA y elige el mejor.
Aprovechar estas tecnologías produjo una herramienta que puede beneficiar de manera
significativa a los científicos de datos.
Slide #28
Uno de los más grandes beneficios radica en que es una solución sin código, lo que
significa que puede entrenar modelos de aprendizaje automático personalizados de alta
calidad con un esfuerzo mínimo y necesita poca experiencia en aprendizaje automático.
Esto permite que los científicos de datos enfoquen su tiempo en tareas como definir
problemas empresariales o evaluar y mejorar los resultados de los modelos.
A otros les puede resultar útil AutoML como herramienta para crear rápidamente
prototipos de modelos y explorar nuevos conjuntos de datos antes de invertir en el
desarrollo. Esto podría significar, por ejemplo, usarlo para identificar los mejores
atributos en un conjunto de datos.
Slide #29
¿Cómo funciona AutoML exactamente? AutoML admite cuatro tipos de datos: de
imágenes, tabulares, de texto y de video. Para cada tipo de datos, AutoML resuelve
distintos tipos de problemas llamados objetivos.
Slide #30
Para comenzar, suba sus datos a AutoML. Puede ser desde Cloud Storage, BigQuery o
incluso su máquina local.
Slide #31
A partir de ahí, infórmele a AutoML los problemas que desea resolver.
Es posible que algunos problemas sean similares a los mencionados en las API
compiladas previamente. Sin embargo, la principal diferencia es que dichas API usan
modelos de aprendizaje automático compilados de forma previa, mientras que AutoML
usa modelos personalizados. En AutoML, debe usar sus propios datos para entrenar el
modelo de aprendizaje automático y, luego, aplicar el modelo entrenado a fin de predecir
su objetivo. Mientras que en las API compiladas previamente, los modelos ya están
entrenados con los conjuntos de datos de Google. Debe aprovechar los resultados de
entrenamiento para predecir sus datos.
Slide #32
Para los datos de imágenes:
Puede usar un modelo de clasificación para analizar datos de imágenes y mostrar una
lista de categorías de contenido que se aplican a la imagen. Por ejemplo, podría entrenar
un modelo que clasifique imágenes que contengan o no un perro, o podría entrenar un
modelo para clasificar imágenes de perros según la raza.
También puede usar un modelo de detección de objetos a fin de analizar sus datos de
imágenes y mostrar anotaciones que consten de una ubicación de etiqueta y un cuadro
de límite para cada objeto que se encuentre en una imagen. Por ejemplo, podría entrenar
un modelo para que busque la ubicación de los perros en los datos de imágenes.
Slide #33
Para los datos tabulares:
Puede usar un modelo de regresión para analizar datos tabulares y mostrar un valor
numérico. Por ejemplo, podría entrenar un modelo para que estime el valor de una casa o
el precio del alquiler según una serie de factores como la ubicación, el tamaño de la casa
y la cantidad de habitaciones.
Puede usar un modelo de clasificación para analizar datos tabulares y mostrar una lista
de categorías. Por ejemplo, podría entrenar un modelo a fin de que clasifique distintos
tipos de terrenos en potencial alto, medio y bajo para bienes raíces comerciales.
En un modelo de previsión se pueden usar varias filas de datos tabulares del pasado
dependientes del tiempo para predecir un conjunto de valores numéricos en el futuro.
Por ejemplo, podría usar los datos históricos más los económicos para predecir el
panorama del mercado inmobiliario en los próximos cinco años.
Slide #34
Para los datos de texto:
Puede usar un modelo de clasificación para analizar datos de texto y mostrar una lista de
categorías que se apliquen al texto que se encontró en los datos. Por ejemplo, puede
clasificar preguntas y comentarios de los clientes en distintas categorías y, luego,
redireccionarlos a los departamentos que correspondan.
Se puede usar un modelo de extracción de entidades para inspeccionar datos de texto
de entidades conocidas referenciadas en los datos y etiquetarlas en el texto. Por
ejemplo, puede etiquetar una publicación de redes sociales en términos de entidades
predefinidas, como el tiempo, la ubicación, el tema, etc. Esto puede ayudar en las
búsquedas en línea de manera similar al concepto de un hashtag, pero creado por una
máquina.
Y se puede usar un modelo de análisis de opiniones para inspeccionar datos de texto y
así identificar la opinión emocional predominante del texto, en especial a fin de
determinar si el comentario de una persona es positivo, negativo o neutro.
Slide #35
Por último, para los datos de video:
Puede usar un modelo de clasificación para analizar datos de video y mostrar una lista
de tomas y segmentos categorizados. Por ejemplo, podría entrenar un modelo que
analice datos de video para identificar si el video se trata de un partido de fútbol, béisbol,
básquetbol o fútbol americano.
Puede usar un modelo de seguimiento de objetos para analizar datos de video y mostrar
una lista de tomas y segmentos en los que se detectaron estos objetos. Por ejemplo,
podría entrenar un modelo que analice datos de video de partidos de fútbol para
identificar y hacer un seguimiento de la pelota.
Puede usar un modelo de reconocimiento de acciones para analizar datos de video y
mostrar una lista de acciones categorizadas con los momentos en los que estas
ocurrieron. Por ejemplo, podría entrenar un modelo que analice los datos de video para
identificar los momentos de la acción que contengan un gol de fútbol, un swing de golf,
una anotación o un "¡choca esos cinco!".
Slide #36
En realidad, es posible que no se lo restrinja a un solo tipo de datos y un objetivo, sino
que necesite combinar distintos objetivos para resolver un problema empresarial.
AutoML es una herramienta potente que puede ayudar en estos diferentes tipos de datos
y objetivos.
Slide #38
Exploramos las opciones que Google Cloud proporciona para crear modelos de
aprendizaje automático con BigQuery ML, API compiladas previamente y AutoML. Ahora
analizaremos la última opción, el entrenamiento personalizado, que le permite programar
su propio entorno de AA para tener el control completo de todo el proceso de desarrollo
de AA, desde la preparación de los datos hasta la implementación del modelo.
Slide #39
Si desea programar su modelo de aprendizaje automático, puede usar esta opción
creando una solución de entrenamiento personalizado con Vertex AI Workbench.
Luego, presentamos Vertex AI, una herramienta que combina la funcionalidad de AutoML
(que es sin código) y el entrenamiento personalizado (que es basado en código) para
resolver problemas de producción y de facilidad de uso.