Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Le damos la bienvenida al primer módulo del curso Big Data and Machine Learning
Fundamentals. En este módulo, se sientan las bases para los próximos cuatro módulos:
Ingeniería de datos
M.2: Ingeniería de datos para la transmisión de datos
M.3: Macrodatos con BigQuery
Aprendizaje automático
M.4: Opciones de aprendizaje automático
M.5: Flujo de trabajo de aprendizaje automático con Vertex AI
Slide #4
A continuación, explorará la infraestructura de Google a través del procesamiento y el
almacenamiento, y verá cómo la innovación habilitó las capacidades de macrodatos y
aprendizaje automático.
Diez años más tarde, en 2008, se lanzó Google Cloud Platform para brindar servicios de
computación y almacenamiento en la nube seguros y flexibles.
Slide #6
La infraestructura de Google Cloud puede conceptualizarse en términos de tres capas.
En la capa base se encuentran las herramientas de redes y la seguridad, lo que sienta las
bases para admitir la infraestructura y las aplicaciones de Google.
En la siguiente capa, se encuentran el procesamiento y el almacenamiento.
Google Cloud separa, o desacopla, como se denomina técnicamente, el procesamiento y
el almacenamiento para que se puedan escalar de manera independiente según las
necesidades.
En la capa superior, se encuentran los productos de macrodatos y aprendizaje
automático, que le permiten realizar tareas para transferir, almacenar, procesar y
entregar estadísticas empresariales, canalizaciones de datos y modelos de AA.
Y gracias a Google Cloud, estas tareas se pueden lograr sin necesidad de administrar y
escalar la infraestructura subyacente.
Slide #7
Este curso se centra en la capa del medio, procesamiento y almacenamiento, y en la
capa superior, productos de macrodatos y aprendizaje automático.
Las herramientas de redes y la seguridad quedan fuera del contenido de este curso, pero
si le interesa saber más puede explorar cloud.google.com/training para encontrar más
opciones.
Slide #9
Enfoquémonos en la capa del medio de la infraestructura de Google Cloud, el
procesamiento y el almacenamiento. Comenzaremos con el procesamiento.
Slide #10
Las organizaciones con crecientes necesidades de datos suelen necesitar mucha
capacidad de procesamiento para ejecutar trabajos de macrodatos. Y dado que las
organizaciones diseñan para el futuro, la necesidad de capacidad de procesamiento solo
aumenta.
Google ofrece una variedad de servicios de computación, que incluyen los siguientes:
Compute Engine, Google Kubernetes Engine, App Engine y Cloud Functions.
Slide #11
Comencemos por Compute Engine.
Compute Engine es una oferta de IaaS, o una infraestructura como servicio, lo que
brinda capacidades de procesamiento, almacenamiento y redes sin procesar
organizadas de manera virtual en los recursos que son similares a los centros de datos
físicos. Proporciona máxima flexibilidad para aquellos que prefieren administrar las
instancias de servidores por sí mismos.
Slide #12
El segundo es Google Kubernetes Engine, o GKE.
Un video corto puede necesitar más de mil millones de puntos de datos para alimentar el
modelo de AA a fin de crear una versión estabilizada. A partir de 2020, aproximadamente
28,000 millones de fotografías y videos se subieron a Google Photos todas las semanas,
con más de cuatro billones de fotografías en total almacenadas en el servicio.
Slide #18
A fin de garantizar que esta función trabaje según lo previsto, y de manera exacta, el
equipo de Google Fotos tuvo que desarrollar, entrenar y entregar un modelo de
aprendizaje automático de alto rendimiento con millones de videos. Es decir, un gran
conjunto de datos de entrenamiento.
Slide #19
Así como es posible que el hardware en una computadora personal estándar no sea lo
suficientemente potente para procesar un trabajo de macrodatos de una organización, el
hardware de un smartphone no es lo bastante poderoso para entrenar modelos de AA
sofisticados.
Las TPU actúan como hardware específico del dominio, frente al hardware de uso
general con CPU y GPU. Esto permite una mayor eficiencia mediante la adaptación de la
arquitectura para que satisfaga las necesidades de procesamiento en un dominio, como
la multiplicación de matrices en el aprendizaje automático.
Slide #23
Con las TPU, la velocidad de procesamiento aumenta más de 200 veces.
Esto significa que en lugar de esperar 26 horas los resultados con una única GPU de
vanguardia, solo tendrá que esperar 7.9 minutos para que un Pod de Cloud TPU v.2
completo entregue los mismos resultados.
Con Compute Engine, por ejemplo, como se mencionó anteriormente, puede instalar y
ejecutar una base de datos en una máquina virtual, como lo haría en un centro de datos.
Slide #28
Como alternativa, Google Cloud ofrece otros servicios de bases de datos y
almacenamiento completamente administrados.
Elegir la opción correcta para almacenar y procesar datos a menudo depende del tipo de
datos que deba almacenarse y la necesidad empresarial.
Slide #30
Comencemos con los datos no estructurados frente a los estructurados.
Y debido a que Internet creció, Google tuvo que inventar nuevos métodos de
procesamiento de datos.
Por lo tanto, en 2002, Google lanzó Google File System, o GFS. GFS se diseñó para
manejar el uso compartido de datos y el almacenamiento de petabytes a gran escala.
Sirvió de base para Cloud Storage y también para lo que sería la funcionalidad de
almacenamiento administrado en BigQuery.
Un desafío que Google enfrentó durante esa época fue la manera de indexar el volumen
con alto crecimiento de contenido en la Web. Para resolver este problema, en 2004
Google escribió un informe en el que se presentó MapReduce. MapReduce era un estilo
nuevo de procesamiento de datos diseñado para administrar el procesamiento de datos
a gran escala en grandes clústeres de servidores de materias primas.
A medida que Google seguía creciendo, surgieron nuevos desafíos, en especial con la
grabación y la recuperación de millones de acciones de transmisión de usuarios con alta
capacidad de procesamiento. La solución fue el lanzamiento en 2005 de Cloud Bigtable,
un servicio de base de datos NoSQL de alto rendimiento para cargas de trabajo
analíticas y operativas.
Incluye lo siguiente:
Cloud Storage
Dataproc
Cloud Bigtable
BigQuery
Dataflow
Firestore
Pub/Sub
Looker
Cloud Spanner
AutoML, y
Vertex AI, la plataforma unificada
Analicemos con más detalle la lista de productos, que pueden dividirse en cuatro
categorías generales junto con el flujo de trabajo de datos a IA: transferencia y
procesamiento, almacenamiento, estadísticas y aprendizaje automático.
Pub/Sub
Dataflow
Dataproc
Cloud Data Fusion
Cloud Storage
Cloud SQL
Cloud Spanner
Cloud Bigtable, y
Firestore
Cloud SQL y Cloud Spanner son bases de datos relacionales, mientras que Bigtable y
Firestore son bases de datos NoSQL.
Slide #42
La tercera categoría de producto es estadísticas. La principal herramienta de estadísticas
es BigQuery, que es un almacén de datos completamente administrado que puede
utilizarse para analizar datos a través de comandos de SQL.
DIGA LO SIGUIENTE: En esta sección, aprenderá sobre una empresa denominada Gojek
y cómo pudo encontrar el éxito a través de las ofertas de ingeniería de datos y
aprendizaje automático de Google Cloud.
Slide #55
Ahora es momento de realizar algunos ejercicios prácticos con uno de los productos de
macrodatos y aprendizaje automático que se presentó con anterioridad: BigQuery.
Slide #56
En este lab, usará BigQuery para explorar un conjunto de datos públicos.
Practicará lo siguiente:
Consultar un conjunto de datos públicos
Crear una tabla personalizada
Cargar datos en una tabla, y
Consultar una tabla
Slide #58
Esto nos lleva al final del primer módulo del curso Big Data and Machine Learning
Fundamentals. Antes de avanzar, revisemos los temas abordados hasta ahora.