Está en la página 1de 49

Slide #3

Le damos la bienvenida al primer módulo del curso Big Data and Machine Learning
Fundamentals. En este módulo, se sientan las bases para los próximos cuatro módulos:
Ingeniería de datos
M.2: Ingeniería de datos para la transmisión de datos
M.3: Macrodatos con BigQuery
Aprendizaje automático
M.4: Opciones de aprendizaje automático
M.5: Flujo de trabajo de aprendizaje automático con Vertex AI
Slide #4
A continuación, explorará la infraestructura de Google a través del procesamiento y el
almacenamiento, y verá cómo la innovación habilitó las capacidades de macrodatos y
aprendizaje automático.

Después, explorará la historia de los productos de macrodatos y AA, que lo ayudará a


comprender las categorías de productos relevantes.
Y para combinar todos estos elementos, verá un ejemplo de un cliente que adoptó
Google Cloud para sus necesidades de macrodatos y aprendizaje automático.
Por último, adquirirá práctica con herramientas de macrodatos para analizar un conjunto
de datos públicos.
Slide #5
Google ha estado trabajando con inteligencia artificial y datos desde sus primeros días
como empresa en 1998.

Diez años más tarde, en 2008, se lanzó Google Cloud Platform para brindar servicios de
computación y almacenamiento en la nube seguros y flexibles.
Slide #6
La infraestructura de Google Cloud puede conceptualizarse en términos de tres capas.
En la capa base se encuentran las herramientas de redes y la seguridad, lo que sienta las
bases para admitir la infraestructura y las aplicaciones de Google.
En la siguiente capa, se encuentran el procesamiento y el almacenamiento.
Google Cloud separa, o desacopla, como se denomina técnicamente, el procesamiento y
el almacenamiento para que se puedan escalar de manera independiente según las
necesidades.
En la capa superior, se encuentran los productos de macrodatos y aprendizaje
automático, que le permiten realizar tareas para transferir, almacenar, procesar y
entregar estadísticas empresariales, canalizaciones de datos y modelos de AA.

Y gracias a Google Cloud, estas tareas se pueden lograr sin necesidad de administrar y
escalar la infraestructura subyacente.
Slide #7
Este curso se centra en la capa del medio, procesamiento y almacenamiento, y en la
capa superior, productos de macrodatos y aprendizaje automático.

Las herramientas de redes y la seguridad quedan fuera del contenido de este curso, pero
si le interesa saber más puede explorar cloud.google.com/training para encontrar más
opciones.
Slide #9
Enfoquémonos en la capa del medio de la infraestructura de Google Cloud, el
procesamiento y el almacenamiento. Comenzaremos con el procesamiento.
Slide #10
Las organizaciones con crecientes necesidades de datos suelen necesitar mucha
capacidad de procesamiento para ejecutar trabajos de macrodatos. Y dado que las
organizaciones diseñan para el futuro, la necesidad de capacidad de procesamiento solo
aumenta.

Google ofrece una variedad de servicios de computación, que incluyen los siguientes:
Compute Engine, Google Kubernetes Engine, App Engine y Cloud Functions.
Slide #11
Comencemos por Compute Engine.

Compute Engine es una oferta de IaaS, o una infraestructura como servicio, lo que
brinda capacidades de procesamiento, almacenamiento y redes sin procesar
organizadas de manera virtual en los recursos que son similares a los centros de datos
físicos. Proporciona máxima flexibilidad para aquellos que prefieren administrar las
instancias de servidores por sí mismos.
Slide #12
El segundo es Google Kubernetes Engine, o GKE.

GKE ejecuta aplicaciones alojadas en contenedores en un entorno de nube, a diferencia


de una máquina virtual individual, como Compute Engine. Un contenedor representa un
código empaquetado con todas sus dependencias.
Slide #13
El tercer servicio de computación que ofrece Google es App Engine, una oferta de PaaS
completamente administrada, o una plataforma como servicio. Las ofertas de PaaS
vinculan el código a las bibliotecas que brindan acceso a la infraestructura que la
aplicación necesita. Esto permite que más recursos se centren en la lógica de la
aplicación.
Slide #14
También está Cloud Functions, que ejecuta el código en respuesta a los eventos, como
cuando se sube un archivo nuevo a Cloud Storage. Es un entorno de ejecución
completamente sin servidores, que suele llamarse funciones como servicio.
Slide #15
Google Photos ofrece una función llamada estabilización automática de video. Se utiliza
un video inestable, como uno que se obtiene mientras se viaja en la parte posterior de
una motocicleta, y se lo estabiliza para minimizar el movimiento.

Veamos un ejemplo de tecnología que requiere mucha capacidad de procesamiento.


Slide #16
[El que está a la izquierda tiene la estabilización óptica de la imagen (OIS) y la
estabilización electrónica de la imagen (EIS) desactivadas, mientras que el que está a la
derecha tiene estas funciones activadas].
Slide #17
Para que esta función trabaje según lo previsto, necesita los datos adecuados. Esto
incluye el video en sí, que es en realidad una gran colección de imágenes individuales,
junto con datos de series temporales sobre la posición y orientación de la cámara desde
el giroscopio incorporado, y movimiento desde la lente de la cámara.

Un video corto puede necesitar más de mil millones de puntos de datos para alimentar el
modelo de AA a fin de crear una versión estabilizada. A partir de 2020, aproximadamente
28,000 millones de fotografías y videos se subieron a Google Photos todas las semanas,
con más de cuatro billones de fotografías en total almacenadas en el servicio.
Slide #18
A fin de garantizar que esta función trabaje según lo previsto, y de manera exacta, el
equipo de Google Fotos tuvo que desarrollar, entrenar y entregar un modelo de
aprendizaje automático de alto rendimiento con millones de videos. Es decir, un gran
conjunto de datos de entrenamiento.
Slide #19
Así como es posible que el hardware en una computadora personal estándar no sea lo
suficientemente potente para procesar un trabajo de macrodatos de una organización, el
hardware de un smartphone no es lo bastante poderoso para entrenar modelos de AA
sofisticados.

Esa es la razón por la que Google entrena modelos de aprendizaje automático de


producción en una amplia red de centros de datos, a fin de implementar versiones más
pequeñas y entrenadas de los modelos en el hardware de los smartphones y las
computadoras personales.
Slide #20
Pero ¿de dónde proviene toda esa capacidad de procesamiento?

Según el Informe del índice de IA de 2019 de la Universidad de Stanford, antes de 2012,


los resultados de inteligencia artificial seguían de cerca la ley de Moore, con una
capacidad de procesamiento que se duplicaba cada dos años. El informe menciona que,
desde 2012, la capacidad de procesamiento se ha duplicado aproximadamente cada tres
meses y medio.
Slide #21
Esto significa que los fabricantes de hardware han enfrentado limitaciones, y las CPU,
que son unidades centrales de procesamiento, y las GPU, que son unidades gráficas de
procesamiento, ya no pueden escalar para satisfacer de manera adecuada la rápida
demanda de AA.
Slide #22
Para ayudar a superar este desafío, en 2016 Google introdujo la unidad de
procesamiento tensorial, o TPU. Las TPU son circuitos integrados personalizados
específicos de aplicaciones (ASIC) de Google que se utilizan para acelerar las cargas de
trabajo de aprendizaje automático.

Las TPU actúan como hardware específico del dominio, frente al hardware de uso
general con CPU y GPU. Esto permite una mayor eficiencia mediante la adaptación de la
arquitectura para que satisfaga las necesidades de procesamiento en un dominio, como
la multiplicación de matrices en el aprendizaje automático.
Slide #23
Con las TPU, la velocidad de procesamiento aumenta más de 200 veces.

Esto significa que en lugar de esperar 26 horas los resultados con una única GPU de
vanguardia, solo tendrá que esperar 7.9 minutos para que un Pod de Cloud TPU v.2
completo entregue los mismos resultados.

Cloud TPU se ha integrado en todos los productos de Google, y este hardware de


vanguardia y esta tecnología de procesamiento mejorado están disponibles con los
productos y servicios de Google Cloud.
Slide #25
Ahora que hemos explorado el procesamiento y el motivo por el que es necesario para
los trabajos de macrodatos y AA, vamos a examinar el almacenamiento.
Slide #26
Para las capacidades adecuadas de escalamiento, el procesamiento y el almacenamiento
se desacoplan. Esta es una de las principales diferencias entre la computación en la
nube y la computación de escritorio.

Con la computación en la nube, las limitaciones de procesamiento no están conectadas


a los discos de almacenamiento.
Slide #27
La mayoría de las aplicaciones requieren una solución de base de datos y
almacenamiento de algún tipo.

Con Compute Engine, por ejemplo, como se mencionó anteriormente, puede instalar y
ejecutar una base de datos en una máquina virtual, como lo haría en un centro de datos.
Slide #28
Como alternativa, Google Cloud ofrece otros servicios de bases de datos y
almacenamiento completamente administrados.

Estos incluyen los siguientes:


Cloud Storage
Cloud Bigtable
Cloud SQL
Cloud Spanner y
Firestore

El objetivo de estos productos es reducir el tiempo y el esfuerzo que se necesitan para


almacenar datos. Esto significa la creación de un bucket de almacenamiento elástico
directamente en una interfaz web o a través de una línea de comandos.
Slide #29
Google Cloud ofrece bases de datos relacionales y no relacionales, además de
almacenamiento de objetos en todo el mundo.

Elegir la opción correcta para almacenar y procesar datos a menudo depende del tipo de
datos que deba almacenarse y la necesidad empresarial.
Slide #30
Comencemos con los datos no estructurados frente a los estructurados.

Los datos no estructurados son información almacenada en forma no tabular, como


documentos, imágenes y archivos de audio. Los datos no estructurados suelen ser más
idóneos para Cloud Storage.
Slide #31
Cloud Storage tiene cuatro clases de almacenamiento principales.
La primera es Standard Storage. Standard Storage se considera idóneo para los datos de
acceso frecuente o "activos". También es ideal para los datos que se almacenan
solamente durante períodos breves.
La segunda clase de almacenamiento es Nearline Storage. Es idónea para almacenar
datos de acceso poco frecuente, como leer o modificar datos una vez por mes o menos,
en promedio. Los ejemplos incluyen copias de seguridad de datos, contenido multimedia
de cola larga, o archivado de datos.
La tercera clase de almacenamiento es Coldline Storage. Es una opción de bajo costo
para almacenar datos de acceso poco frecuente. Sin embargo, en comparación con
Nearline Storage, Coldline Storage está diseñado para leer o modificar datos, como
máximo, una vez cada 90 días.
La cuarta clase de almacenamiento es Archive Storage. Esta es la opción de costo más
bajo, que se utiliza idealmente para el archivo de datos, la copia de seguridad en línea y
la recuperación ante desastres. Es la mejor opción para los datos a los que planea
acceder menos de una vez al año porque tiene costos más altos para el acceso a los
datos y las operaciones, y una duración mínima de almacenamiento de 365 días.
Slide #32
Como alternativa, existen los datos estructurados, que representan la información
almacenada en tablas, filas y columnas.
Slide #33
Los datos estructurados se dividen en dos tipos: cargas de trabajo transaccionales y
cargas de trabajo analíticas.

Las cargas transaccionales provienen de sistemas de procesamiento de transacciones


en línea, que se usan cuando se requieren inserciones y actualizaciones rápidas de
datos para compilar registros basados en filas. Por lo general, esto es para conservar
una instantánea del sistema. Requieren consultas relativamente estandarizadas que
afectan solo algunos registros.
Por lo tanto, si los datos son transaccionales, y tiene que acceder a estos con SQL,
entonces Cloud SQL y Cloud Spanner son dos opciones.
Cloud SQL funciona mejor para la escalabilidad local a regional,
mientras que Cloud Spanner es mejor para escalar una base de datos de forma global.
Si se accederá a los datos transaccionales sin SQL,
Firestore podría ser la mejor opción. Firestore es una base de datos transaccional
NoSQL orientada a documentos.

También existen las cargas de trabajo analíticas, que provienen de sistemas de


procesamiento de transacciones en línea, que se usan cuando deben leerse conjuntos
de datos enteros. A menudo requieren consultas complejas, por ejemplo, agregaciones.
Si tiene cargas de trabajo analíticas que requieren comandos de SQL, es probable que
BigQuery sea la mejor opción. BigQuery, que es la solución de almacén de datos de
Google, le permite analizar conjuntos de datos a escala de petabytes.
Como alternativa, Cloud Bigtable brinda una solución NoSQL escalable para las cargas
de trabajo analíticas. Es la mejor opción para las aplicaciones de alta capacidad de
procesamiento y en tiempo real que requieren latencia de milisegundos.
Slide #35
La capa final de la infraestructura de Google Cloud que falta explorar incluye productos
de macrodatos y aprendizaje automático.

Examinaremos la evolución de los frameworks de procesamiento de datos desde la


perspectiva del desarrollo de productos. Comprender la cronología de los productos
puede ayudar a abordar los desafíos típicos de macrodatos y aprendizaje automático.
Slide #36
Desde el punto de vista histórico, Google experimentó desafíos relacionados con los
macrodatos desde el principio, principalmente con grandes conjuntos de datos, datos
que cambian a un ritmo vertiginoso y datos variados. Este fue el resultado de la
necesidad de indexar la World Wide Web.

Y debido a que Internet creció, Google tuvo que inventar nuevos métodos de
procesamiento de datos.

Por lo tanto, en 2002, Google lanzó Google File System, o GFS. GFS se diseñó para
manejar el uso compartido de datos y el almacenamiento de petabytes a gran escala.
Sirvió de base para Cloud Storage y también para lo que sería la funcionalidad de
almacenamiento administrado en BigQuery.

Un desafío que Google enfrentó durante esa época fue la manera de indexar el volumen
con alto crecimiento de contenido en la Web. Para resolver este problema, en 2004
Google escribió un informe en el que se presentó MapReduce. MapReduce era un estilo
nuevo de procesamiento de datos diseñado para administrar el procesamiento de datos
a gran escala en grandes clústeres de servidores de materias primas.

A medida que Google seguía creciendo, surgieron nuevos desafíos, en especial con la
grabación y la recuperación de millones de acciones de transmisión de usuarios con alta
capacidad de procesamiento. La solución fue el lanzamiento en 2005 de Cloud Bigtable,
un servicio de base de datos NoSQL de alto rendimiento para cargas de trabajo
analíticas y operativas.

Con MapReduce disponible, algunos desarrolladores estaban limitados por la necesidad


de escribir códigos para administrar la infraestructura, lo que les impedía centrarse en la
lógica de la aplicación.
Como resultado, de 2008 a 2010, Google comenzó a dejar de lado a MapReduce como
solución para procesar y consular grandes conjuntos de datos.

Por lo tanto, en 2008, se introdujo Dremel. Dremel aportó un nuevo enfoque al


procesamiento de macrodatos mediante el desglose de datos en trozos más pequeños
denominados fragmentos y la compresión de estos.
Dremel utilizaba un optimizador de consultas para compartir tareas entre los diversos
fragmentos de datos y los centros de datos de Google, que procesaban las consultas y
entregaban los resultados. La gran innovación fue que Dremel tenía un ajuste de escala
automático para satisfacer las demandas de consultas.
Dremel se convirtió en el motor de consultas detrás de BigQuery.

Google continuó innovando para resolver los desafíos de macrodatos y aprendizaje


automático. Algunas de las soluciones de tecnología que se lanzaron incluyeron las
siguientes:

Colossus, en 2010, que es un sistema de archivos a nivel del clúster y el sucesor de


Google File System.
BigQuery, también en 2010, que es un almacén de datos sin servidores completamente
administrado que permite el análisis escalable de petabytes de datos. Es una plataforma
como servicio (PaaS) que admite consultas con ANSI SQL. También tiene
funcionalidades integradas de aprendizaje automático. BigQuery se anunció en mayo de
2010 y estuvo disponible para el público en general en noviembre de 2011.
Spanner, en 2012, que es una base de datos relacional escalable, coherente a nivel
mundial.
Pub/Sub, en 2015, que es un servicio utilizado para el análisis de transmisiones y las
canalizaciones de integración de datos a fin de transferir y distribuir datos.
Y Tensorflow, también en 2015, que es una biblioteca de software de código abierto y
gratis para inteligencia artificial y aprendizaje automático.
El año 2018 trajo el lanzamiento de la unidad de procesamiento tensorial, o TPU, que
recordará que mencionamos antes, y
AutoML, como un paquete de productos de aprendizaje automático.
La lista sigue hasta Vertex AI, una plataforma unificada de AA lanzada en 2021.
Slide #37
Y es gracias a estas tecnologías que la línea de producto de macrodatos y aprendizaje
automático es actualmente sólida.

Incluye lo siguiente:

Cloud Storage
Dataproc
Cloud Bigtable
BigQuery
Dataflow
Firestore
Pub/Sub
Looker
Cloud Spanner
AutoML, y
Vertex AI, la plataforma unificada

Estos productos y servicios están disponibles a través de Google Cloud, y adquirirá


práctica con algunos de ellos como parte de este curso.
Slide #39
Como analizamos anteriormente, Google ofrece un rango de productos de macrodatos y
aprendizaje automático. Por lo tanto, ¿cómo sabe cuál es el mejor para sus necesidades
empresariales?

Analicemos con más detalle la lista de productos, que pueden dividirse en cuatro
categorías generales junto con el flujo de trabajo de datos a IA: transferencia y
procesamiento, almacenamiento, estadísticas y aprendizaje automático.

Comprender estas categorías de productos puede ayudar a limitar su elección.


Slide #40
La primera categoría es transferencia y procesamiento, que incluye productos que se
usan para transferir datos en tiempo real y por lotes. La lista incluye los siguientes
servicios:

Pub/Sub
Dataflow
Dataproc
Cloud Data Fusion

Explorará cómo Dataflow y Pub/Sub pueden transferir datos de transmisión más


adelante en este curso.
Slide #41
La segunda categoría de producto es el almacenamiento de datos, y recordará que
anteriormente mencionamos que hay cinco productos de almacenamiento:

Cloud Storage
Cloud SQL
Cloud Spanner
Cloud Bigtable, y
Firestore

Cloud SQL y Cloud Spanner son bases de datos relacionales, mientras que Bigtable y
Firestore son bases de datos NoSQL.
Slide #42
La tercera categoría de producto es estadísticas. La principal herramienta de estadísticas
es BigQuery, que es un almacén de datos completamente administrado que puede
utilizarse para analizar datos a través de comandos de SQL.

Además de BigQuery, puede analizar datos y visualizar resultados con:


Google Data Studio, y
Looker

Explorará BigQuery, Looker y Data Studio en este curso.


Slide #43
Y la categoría de producto final es aprendizaje automático, o AA. Los productos de AA
incluyen plataformas de desarrollo de AA y las soluciones de IA:

El producto principal de la plataforma de desarrollo de AA es Vertex AI, que incluye lo


siguiente:
AutoML,
Vertex AI Workbench, y
TensorFlow

Explorará Vertex AI y AutoML en este curso.


Slide #44
Las soluciones de IA se compilan en la plataforma de desarrollo de AA y, además,
incluyen productos de vanguardia para satisfacer las necesidades de mercado horizontal
y vertical. Estos incluyen los siguientes:
Document AI
Contact Center AI
Retail Product Discovery, y
Healthcare Data Engine

Estos productos obtienen estadísticas que solo pueden proporcionar grandes


cantidades de datos. Exploraremos las opciones de aprendizaje automático y flujo de
trabajo junto con estos productos con mayor detenimiento más tarde.
Slide #45
Con muchas opciones de productos de macrodatos y aprendizaje automático
disponibles, puede ser de utilidad ver un ejemplo de cómo una organización ha
aprovechado Google Cloud para cumplir con sus objetivos.
Slide #46
Nota para el capacitador: Durante esta sección, muestre el video de Gojek a los alumnos.
Si no tiene el permiso adecuado para acceder al video, envíe un correo electrónico a
yoannalong@google.com a fin de obtenerlo. El video está hipervinculado a la imagen de
la diapositiva y se abrirá en una ventana nueva.
Si experimenta problemas técnicos, use las siguientes 8 diapositivas para facilitar la
sección. Están configuradas para omitirse de forma predeterminada.

DIGA LO SIGUIENTE: En esta sección, aprenderá sobre una empresa denominada Gojek
y cómo pudo encontrar el éxito a través de las ofertas de ingeniería de datos y
aprendizaje automático de Google Cloud.
Slide #55
Ahora es momento de realizar algunos ejercicios prácticos con uno de los productos de
macrodatos y aprendizaje automático que se presentó con anterioridad: BigQuery.
Slide #56
En este lab, usará BigQuery para explorar un conjunto de datos públicos.

Practicará lo siguiente:
Consultar un conjunto de datos públicos
Crear una tabla personalizada
Cargar datos en una tabla, y
Consultar una tabla
Slide #58
Esto nos lleva al final del primer módulo del curso Big Data and Machine Learning
Fundamentals. Antes de avanzar, revisemos los temas abordados hasta ahora.

Comenzó con la exploración de la infraestructura de Google Cloud a través de tres capas


diferentes.
Slide #59
En la capa base se encuentran las herramientas de redes y la seguridad, lo que
constituye la base para admitir la infraestructura y las aplicaciones de Google.

En la siguiente capa, se encuentran el procesamiento y el almacenamiento.


Google Cloud separa el procesamiento y el almacenamiento para que se puedan escalar
de forma independiente en función de las necesidades.

En la capa superior, se encuentran los productos de macrodatos y aprendizaje


automático.
Slide #60
En la próxima sección, aprenderá sobre la historia de las tecnologías de macrodatos y
AA,
Slide #61
Google ha estado trabajando con inteligencia artificial y datos desde sus primeros días
como empresa, empezó con GFS (Google File system), y pasó a BigQuery (almacén de
datos completamente administrado de Google), y a Tensorflow (biblioteca de código
abierto de AA), TPU (unidad de procesamiento tensorial), y recientemente a Vertex AI
(una plataforma unificada de AA).
Slide #62
Por último, se exploraron las cuatro principales categorías de productos: Transferencia y
procesamiento, almacenamiento, estadísticas y aprendizaje automático.

También podría gustarte