Características de Enterprise Data Cloud: Organizaciones de Múltiples Industrias Han Exigido

1.
Hola, este es Tom Wheeler

2. del equipo de Servicios Educativos de Cloudera,
3. y estoy aquí para explicar los fundamentos de CDP Private Cloud.
4. Dado que eso es parte de una plataforma más grande,
5. Quiero comenzar explicando nuestra visión para Cloudera Data Platform en su conjunto.
6. Nuestro curso Cloudera Essentials para CDP cubre esto con más detalle,
7. pero para recapitular
8. organizaciones de múltiples industrias han exigido
9. no solo una nueva plataforma, sino también un nuevo tipo de plataforma.
10. Enterprise Data Cloud tiene cuatro características clave.
Características de Enterprise Data Cloud

1. Inicio de la transcripción. Saltar hasta el final.
2. En primer lugar, es híbrido y multinube.
3. Utilizan regularmente múltiples proveedores de nube
4. además de la infraestructura en sus propios centros de datos,
5. por lo que necesitan una plataforma que se ejecute donde lo hacen.
6. Uno que les ayuda a controlar los costos y evitar el bloqueo de proveedores.
7. 2º, es multifunción.
8. Ejecutan una variedad de cargas de trabajo utilizando datos en cada paso de su
ciclo de vida,
9. ingerirlo desde dispositivos perimetrales
10. hasta usarlo para impulsar aplicaciones basadas en el aprendizaje automático y la
inteligencia artificial.
11. 3º, es seguro y gobernado.
12. Estas organizaciones reconocen que los datos se encuentran entre sus activos más
valiosos.
13. Así que, naturalmente, exigen un apoyo integral para protegerlo.
14. en cada punto del camino,
15. garantizar que los administradores y administradores de datos logren el cumplimiento
normativo.
16. Finalmente, está abierto.
17. No solo 100% de código abierto,
18. pero también basado en formatos de datos abiertos y APIs abiertas
19. que aseguran que esté abierto para la integración con nuestros otros sistemas y
servicios.
20.
Ciclo de vida de los datos

1. Una de las características que acabo de mencionar es la multifunción.
2. Exploremos esto con un poco más de profundidad.
3. Las organizaciones modernas basadas en datos reconocen el valor de sus datos
4. pero para realmente darse cuenta de ese valor,
5. necesitan una plataforma que trabaje con ellos en cada etapa del ciclo de vida de los
datos.
6. Comienza con la adquisición de datos de una variedad de fuentes
7. en una variedad de formatos.
8. Cada vez más, esto significa recolectar, ingerir y actuar en consecuencia.
9. los datos tan pronto como se generan,
10. a menudo exactamente donde se genera.
11. Los ingenieros de datos limpian, enriquecen y preparan esos datos
12. por lo que está listo para que otros lo usen.
13. Esos datos están disponibles en el almacén de datos,
14. listo para que los analistas y otros usuarios consulten y creen informes
15. que identifican tendencias importantes para que los líderes empresariales actúen.
16. Datos en tiempo real recopilados de aplicaciones de streaming
17. y los dispositivos que impulsan el Internet de las Cosas
18. puede almacenarse en una base de datos operativa,
19. garantizar que los datos más recientes también estén disponibles para el apoyo a la
toma de decisiones.
20. Finalmente, los científicos de datos pueden utilizar todos los datos recopilados y
generados.
21. para crear y entrenar modelos de aprendizaje automático
22. e impulsar aplicaciones de inteligencia artificial
23. no simplemente informar sobre tendencias pasadas,
24. pero usándolos para predecir lo que sucederá en el futuro.
25. Todo esto se basa en tener seguridad de clase empresarial y gobierno de datos,
26. así como la capacidad de rastrear el linaje de datos a medida que fluyen a través del
sistema,
27. la capacidad de gestionar toda esta actividad
28. y la capacidad de automatizar tareas rutinarias.
29. Cloudera Data Platform, o CDP, cumple con esta visión.
30.
Cloudera Data Platform: Recapitulación

1. CDP proporciona una función múltiple,
2. plataforma de datos abierta y gobernada
3. que es adecuado para la implementación en cualquier nube.
4. Permite a las organizaciones controlar los costos y administrar recursos valiosos.
5. con características como escalado automático y suspensión automática,
6. les permite aprovisionar y admitir fácilmente varios tipos de cargas de trabajo
7. que van desde la ingeniería de datos hasta el almacenamiento de datos
8. al aprendizaje automático y la inteligencia artificial.
9. Les permite establecer y hacer cumplir políticas de seguridad
10. y ver el linaje de datos entre aplicaciones y conjuntos de datos.
11. Quizás lo más importante es que permite al personal de TI de la empresa satisfacer las
demandas
12. de los equipos de negocio a los que dan soporte sin dejar de mantener la seguridad y el
rendimiento.
13. ¿Por qué es tan importante este último punto?
14. Cuando la TI empresarial no puede satisfacer las necesidades del negocio,
15. los equipos de negocios a menudo construyen sus propias soluciones.
16. Cualquier persona con una tarjeta de crédito y un poco de habilidad técnica
17. puede configurar una cuenta de proveedor en la nube
18. y poner algo en marcha en unas pocas horas.
19. Pero lo que ganan en agilidad,
20. pierden en seguridad,
21. controles de costos,
22. manejabilidad
23. y, en última instancia, la sostenibilidad a largo plazo.
24. Esas son exactamente las cosas que la TI empresarial está obligada a proporcionar.
25. y exactamente las razones por las que revisan cuidadosamente cada nuevo sistema,
26. aplicación y caso de uso.
Cómo eliminar Shadow IT

1. Entonces, ¿cuál es la solución?
2. Creo que una cita de la revista CIO
3. explica claramente tanto el problema como la solución.
4. Proviene de un artículo de abril de 2017 titulado,
5. "Cómo eliminar la TI en la sombra".
6. Escrito por el fundador de una empresa de consultoría de gestión que
7. anteriormente se desempeñó como ejecutivo tanto en EDS como en Ernst and Young.
8. Explicó que los grupos de TI empresariales generalmente no responden
9. a las necesidades de los usuarios empresariales,
10. señalando que la TI empresarial simplemente no opera a la velocidad del negocio.
11. Por lo tanto, los usuarios empresariales crean sus propias funcionalidades y
capacidades.
12. a través de compras de TI en la sombra.
13. Continuó escribiendo,
14. "si eres un CIO que quiere abordar el problema de la TI en la sombra
15. y ser más relevantes para el negocio,
16. debe reconocer que su grupo de TI
17. necesita funcionar mejor que la TI en la sombra".
Nube pública de CDP

1. CDP viene en múltiples factores de forma,
2. cada uno de los cuales admite un tipo particular de implementación.
3. El primero que Cloudera lanzó fue CDP Public Cloud,
4. una plataforma como servicio que ofrezca que
5. se ejecuta en la infraestructura de un proveedor de nube pública
6. como AWS, Azure o Google Cloud Platform.
7. Permite a la TI empresarial decir sí a los equipos de negocio
8. proporcionando experiencias de autoservicio que
9. reducir drásticamente el tiempo que lleva
10. para aprovisionar nuevas aplicaciones
11. al tiempo que facilita la gestión de los recursos compartidos.
12. Estas experiencias, como Cloudera Data Warehouse,
13. Cloudera Machine Learning y Cloudera Data Engineering
14. cada uno está diseñado para simplificar y acelerar la implementación de
15. pero casos de uso típicos.
16. CDP Public Cloud también ofrece Data Hub
17. lo que permite a un administrador implementar rápidamente un clúster privado virtual
18. ejecutándose como máquinas virtuales en la nube.
19. Esto facilita la migración de aplicaciones existentes desde
20. plataformas anteriores
21. así como cargas de trabajo de soporte que pueden no ser
22. un ajuste ideal para una de las experiencias disponibles.
23. Esos clústeres de centros de datos
24. al igual que las experiencias de autoservicio,
25. todos confían en Cloudera Runtime.
26. Un conjunto de componentes de código abierto como Apache Spark y Apache Hive,
27. que proporcionan las bibliotecas, utilidades, servicios y API utilizadas por las
aplicaciones.
28. Se almacenan los datos de CDP Public Cloud
29. en la nube los proveedores del propio sistema de almacenamiento
30. como S3 para AWS y ADLS gen 2 en Azure.
31. Finalmente, la última pieza es lo que lo une todo.
32. SDX, la experiencia de datos compartidos
33. proporciona soporte para la seguridad y el gobierno de datos en toda la plataforma.
Base de nube privada de CDP

1. El siguiente factor de forma es arquitectónicamente bastante similar al anterior.
2. Plataformas Cloudera CDH y Hortonworks HDP.
3. Base de nube privada de CDP,
4. como CDH y HDP antes de que esté diseñado para funcionar con metal desnudo
5. servidores físicos que se ejecutan en un centro de datos.
6. Anteriormente se conocía como CDP Data Center,
7. pero renombrado con el lanzamiento de CDP Private Cloud.
8. Tal vez por el papel fundamental que desempeña en las implementaciones de nube
privada.
9. Explicaré más sobre ese aspecto durante el curso,
10. pero por ahora,
11. lo que hay que entender es que tiene similitudes y diferencias.
12. con CDP Public Cloud.
13. Una diferencia obvia es que es un software instalable.
14. en lugar de una plataforma como oferta de servicios.
15. Otra es que no ofrece las experiencias de autoservicio.
16. otra es que los datos se almacenan localmente en el clúster
17. en lugar de en el almacenamiento del proveedor de la nube.
18. También hay similitudes importantes,
19. como puede ver, ambos proporcionan Cloudera Runtime,
20. lo que significa que puede implementar las aplicaciones que cree
21. a infraestructuras tanto públicas como privadas.
22. Además, ambos sistemas proporcionan la experiencia de datos compartidos que
mantiene los datos seguros y protegidos.
23.
Descripción general del producto CDP

1. Ahora recapitularé rápidamente lo que hemos cubierto
2. y luego sumérgete en las novedades.
3. Presentaré CDP Private Cloud mostrando Cloudera Data Platform en su conjunto.
4. En el verano de 2019,
5. Cloudera cumplió con la visión de Enterprise Data Cloud
6. con la introducción de CDP Public Cloud.
7. Unos meses más tarde,
8. Cloudera llevó CDP al centro de datos
9. con un producto ahora conocido como CDP Private Cloud Base.
10. Ahora, enterprise data cloud Vision está completa
11. con la introducción de CDP Private Cloud.
12. Como puede ver CDP Private Cloud Plus
13. lleva la potencia y la flexibilidad de CDP Public Cloud a su centro de datos.
14.
CDP Nube Privada Plus

1. CDP Private Cloud Plus representa el factor de forma final de Cloudera Data Platform.
2. Al igual que CDP Public Cloud, proporciona aplicaciones de experiencia
3. que aceleran y simplifican los tipos comunes de cargas de trabajo analíticas
4. como el almacenamiento de datos y el aprendizaje automático,
5. combinado con seguridad unificada,
6. capacidades de gobernanza y gestión de datos.
7. La diferencia clave es que lo hace utilizando una infraestructura de nube privada.
8. utilizando contenedores a través de la plataforma de contenedores Red Hat OpenShift.
9. Mientras que CDP Public Cloud utiliza el almacén de objetos de los proveedores de
nube para el almacenamiento de datos.
10. CDP Private Cloud almacena datos localmente
11. Uso del sistema de archivos HDFS tradicional
12. y su contraparte relacionada en el almacén de objetos Ozone.
13. Antes de continuar,
14. Quiero señalar que el cambio de nombre de lo que solía llamarse CDP Data Center
15. puede causar confusión.
16. Private Cloud Base y Private Cloud Plus tienen
17. nombres muy similares pero referidos a diferentes productos.
18. Permítanme aclarar,
19. Base de nube privada de CDP,
20. que mostré anteriormente es arquitectónicamente similar a CDH y HDP.
21. Está diseñado para ejecutarse en clústeres autónomos
22. desplegado en metal desnudo
23. y no utiliza el enfoque en contenedores nativo de la nube
24. sobre el cual se construyen las experiencias de autoservicio.
25. CDP Private Cloud Plus,
26. que es lo que estoy cubriendo aquí,
27. se integra con un clúster de CDP Private Cloud Base y, de hecho, depende de él.
28. Da servicio al lago de datos y proporciona almacenamiento de datos y servicios SDX.
29. Explicaré más sobre esta relación
30. mientras continúo explicando la arquitectura de CDP Private Cloud durante este curso.
31. Pero para evitar más confusión,
32. cuando menciono CDP Private Cloud a partir de este momento,
33. Me refiero específicamente a CDP Private Cloud Plus
34. o el concepto de nube privada en general.
35. Si necesito hacer referencia a CDP Private Cloud Base,
36. Lo haré explícitamente por mi nombre.
37.
Tendencias importantes
1. Antes de explicar la arquitectura de CDP Private Cloud,
2. Quiero describir algunas tendencias importantes
3. ya que las primeras plataformas CDH y HDP fueron concebidas originalmente.
4. Esto proporcionará un poco de contexto a la discusión arquitectónica.
5. ya que entenderás no solo lo que ha cambiado,
6. pero también por qué.
7. A medida que la adopción de la nube ha aumentado,
8. ha aumentado el ritmo al que operan los negocios.
9. También ha cambiado las expectativas sobre la rapidez con la que se pueden
aprovisionar los servicios.
10. y la rapidez con la que pueden escalar en respuesta a las necesidades del negocio.
11. La cita de la revista CIO que mostré anteriormente
12. explicó que cuando la TI empresarial no funciona a la velocidad del negocio,
13. a menudo son reemplazados por TI en la sombra,
14. afortunadamente la tendencia hacia los servicios en la nube
15. también ha dado lugar a nuevas innovaciones en ingeniería y arquitectura de software.
16.
Arquitectura de clúster tradicional (Bare Metal)

1. Comencemos con un resumen de la arquitectura de clúster tradicional
2. sobre el que se construye CDH, HDP y CDP Private Cloud Base.
3. Están diseñados para funcionar con metal desnudo
4. servidores físicos que se ejecutan en un centro de datos.
5. Todos los servicios se implementan y se ejecutan directamente en
6. el sistema operativo de los servidores.
7. A la derecha tengo un diagrama que ilustra un pequeño grupo.
8. Los servidores,
9. que se conocen como nodos dentro del clúster
10. todos están alojados en un rack de centro de datos estándar.
11. Es posible que observe que el nodo cerca de la parte superior parece más grande que
los demás.
12. Eso es porque tiene un papel diferente,
13. uno de administrar las tareas computacionales y rastrear dónde se almacenan los datos.
14. Los otros nodos del clúster se denominan nodos de trabajo
15. porque hacen el trabajo de realizar realmente las tareas computacionales
16. y el almacenamiento de los datos.
17. El rack también tiene un conmutador de red en la parte superior para proporcionar
conectividad entre los nodos.
18. Cuando se diseñó Apache Hadoop,
19. cada nodo habría tenido normalmente una interfaz de red
20. que podría funcionar a un gigabit por segundo.
21. Por consiguiente
22. el ancho de banda era un recurso precioso y el sistema fue diseñado para conservarlo.
23. Esta es la razón por la que cada uno de los nodos de trabajo
24. es responsable de almacenar los datos
25. y realizar tareas computacionales para procesar o analizar esos datos,
26. la colocación del almacenamiento y el cómputo minimiza la necesidad
27. para transferir datos a través de la red.
28. De nuevo, todos los nodos de trabajo ejecutan los servicios de almacenamiento de datos
de HDFS
29. así como uno o más servicios informáticos como Apache Hive,
30. Impala, Solr o Spark.
31. El gobierno y la seguridad de los datos se proporcionan a través de otros servicios
32. ejecutándose en dichas máquinas,
33. como Apache Ranger y Atlas.
34. Al configurar el clúster,
35. el administrador designa cuáles de estos servicios se implementan en qué nodos
36. y, opcionalmente, cambia la forma en que se asignan los recursos a cada servicio.
Limitaciones de la arquitectura de clúster

tradicional
1. Teniendo en cuenta que miles de organizaciones tienen
2. ha estado utilizando esta arquitectura y producción durante más de una década,
3. esta arquitectura ha sido efectiva.
4. Sin embargo, algunas limitaciones se han vuelto claras con el tiempo.
5. Una es que el estrecho acoplamiento de almacenamiento y computación
6. significa que no puede escalarlos de forma independiente.
7. Algunas organizaciones necesitan expandir rápidamente la capacidad de
almacenamiento de información
8. con el fin de mantenerse al día con el crecimiento.
9. Otras organizaciones pueden tener suficiente almacenamiento de información
10. pero requieren capacidad de cómputo adicional
11. con el fin de apoyar a usuarios adicionales,
12. nuevas cargas de trabajo o algoritmos de aprendizaje automático más sofisticados.
13. Ese almacenamiento,
14. el sistema de archivos distribuido de Hadoop o HDFS
15. fue diseñado para soportar un número relativamente modesto de archivos grandes,
16. al menos varias docenas de megabytes de tamaño.
17. Esto tiene sentido cuando se usa para analizar el
18. archivos de registro de un servidor web ocupado, por ejemplo.
19. Pero, ¿qué pasa si está tratando de extraer datos de unos pocos millones de
documentos?
20. que podría ser sólo unos pocos megabytes cada uno?
21. Intentar almacenar un gran número de archivos pequeños
22. conduce a un problema tan común que tiene un nombre,
23. el problema de los archivos pequeños.
24. Es la fuente de muchas publicaciones de blog y muchas solicitudes de soporte de
nuestros clientes.
25. En resumen
26. cada archivo y HDFS tiene algunos metadatos asociados,
27. como el propietario del archivo,
28. y sus permisos asociados.
29. Para obtener el máximo rendimiento
30. el servicio de nodo de nombre HDFS guarda toda esta información en la memoria.
31. A medida que agrega más archivos,
32. la cantidad de memoria necesaria para mantener estos metadatos también aumenta.
33. En algún momento,
34. esa cantidad de memoria se acercará a la cantidad de
35. memoria asignada al proceso del nodo de nombre.
36. En ese momento experimentará el problema de los archivos pequeños.
37. Las cargas de trabajo individuales compiten con
38. entre sí para los recursos de clústeres en un entorno de varios inquilinos.
39. Para hacer una analogía,
40. imagine una oficina grande con una sola impresora que es compartida por todos en esa
área.
41. Funciona bien cuando algunas personas imprimen periódicamente documentos cortos,
42. pero cualquiera que haya trabajado alguna vez en una oficina como esta
43. sabe que eventualmente una persona desconsiderada
44. imprimir un informe de 500 páginas a mitad del día,
45. haciendo que los trabajos más pequeños de todos los demás hagan cola detrás de él.
46. Aunque la tarjeta de embarque que está intentando imprimir
47. antes de dirigirse al aeropuerto debe tomar solo 30 segundos,
48. en realidad, podría tomar 30 minutos solo para comenzar en este escenario.
49. Reemplace la impresora de palabras en este escenario con el servicio de Word
50. y tienes lo que se llama el problema del vecino ruidoso.
51. Es posible que varios equipos estén utilizando el clúster para el trabajo de
almacenamiento de datos,
52. tal vez hacer consultas simples para fines de informes
53. y obtener respuestas en unos segundos o menos.
54. Eventualmente, alguien va a ejecutar una consulta masiva que utiliza muchos recursos,
55. haciendo que las consultas de todos los demás se pongan en cola y que se pierdan los
SLA.
56. Para evitar esto, a veces las organizaciones se moverán de
57. un grupo grande a varios más pequeños,
58. tal vez asignando uno a cada equipo.
59. Aunque eso puede resolver el problema de los recursos informáticos,
60. crea un problema de administración porque ahora hay varios clústeres para supervisar,
61. actualizar, hacer copias de seguridad y mantener.
62. También crea un problema de gobernanza de datos
63. porque la información empresarial importante se duplica en varios clústeres
64. sin una sola fuente de verdad
65. y muy probablemente sin políticas de seguridad consistentes.
66. Al configurar un clúster,
67. el administrador debe decidir qué servicios
68. como Apache Spark, Hive o Impala
69. se van a ejecutar en ese clúster.
70. Así como qué roles de servicio implementar en cada nodo.
71. Este mapeo rígido de servicios a nodos conduce a un uso ineficiente de los recursos.
72. Imagine que una organización configura un clúster con dos cargas de trabajo específicas
en mente.
73. El primero es la Ingeniería de Datos,
74. que utiliza Apache Spark y Hive para ejecutar un proceso ETL de cuatro horas,
75. recopilar datos de diversas fuentes,
76. limpiándolo, transformándolo y luego cargándolo en el almacén de datos.
77. Ese trabajo de ETL se ejecuta una vez al día muy temprano en la mañana.
78. La segunda carga de trabajo es una marca de datos que los analistas de negocio
consultan con Apache Impala
79. ejecutar consultas ad hoc que les ayuden a identificar nuevas oportunidades.
80. Entran en la oficina a las nueve de la .m.
81. Varias horas después de finalizado el trabajo de ETL
82. y ejecutan estas consultas hasta que se van por el día.
83. Aunque esas dos cargas de trabajo no ocurren simultáneamente,
84. todavía compiten por los recursos finitos de las máquinas donde están funcionando.
85. Esto se debe a que los recursos se asignan servicio por servicio,
86. no se basa en qué servicio individual tiene la mayor demanda
87. en un momento dado.
88. En otras palabras,
89. es posible que un servicio experimente problemas de rendimiento
90. debido a la falta de memoria,
91. a pesar de que otro servicio en la misma máquina tiene mucha memoria no utilizada.
92.
Aspectos clave de la arquitectura nativa de la

nube
1. Expliqué anteriormente que una de las innovaciones de Apache Hadoop
2. era para conservar el ancho de banda
3. mediante la colocación de almacenamiento y computación en cada máquina.
4. Esto era necesario porque los servidores normalmente tenían interfaces de red que
5. soportaba un máximo de un gigabit por segundo.
6. Hoy
7. Gigabit Ethernet se considera tecnología heredada
8. e incluso los servidores de gama baja tienen interfaces de red que pueden soportar 10
gigabits por segundo.
9. Las redes de centros de datos también han evolucionado
10. y muchos ahora tienen velocidades de red que son 10,
11. 25 o incluso 100 veces más rápido que en 2005.
12. Esta evolución ha permitido separar el almacenamiento de la computación,
13. lo que a su vez brinda a los administradores la flexibilidad de escalar uno
14. independientemente del otro.
15. Esto no solo aumenta la flexibilidad,
16. permite que la computación se vuelva efímera,
17. habilitar un cambio de los servicios de larga duración
18. a la ejecución bajo demanda.
19. Almacenes de objetos como Amazon Web Services S3 o ADLS gen 2 de Azure
20. proporcionar una alternativa a los sistemas de archivos jerárquicos tradicionales como
HDFS.
21. Proporcionan una API más simple y tienen una estructura plana
22. en el que los datos se almacenan como objetos dentro de buckets.
23. Cada objeto tiene un identificador único,
24. lo que hace que sea muy eficiente leer un dato específico.
25. Los sistemas de almacenamiento de objetos separan la gestión del espacio de nombres
del almacenamiento de datos,
26. que combinado con una estructura relativamente plana,
27. les permitió sobresalir tanto en rendimiento como en escalabilidad.
28. También pueden manejar archivos grandes y pequeños,
29. lo que elimina el problema de archivos pequeños observado con HDFS.
30. Otro aspecto de la arquitectura nativa de la nube es el uso de la contenedorización,
31. que se puede considerar como una forma ligera de virtualización.
32. Los contenedores desacoplan una aplicación del entorno donde se ejecuta.
33. Si alguna vez has trabajado con Docker,
34. entonces probablemente ya sepas sobre los contenedores.
35. Permítanme explicar brevemente el concepto para todos los demás,
36. al igual que las máquinas virtuales que se ejecutan en VM Ware o Virtual Box,
37. los contenedores proporcionan una forma de ejecutar varias aplicaciones al mismo
tiempo,
38. pero aislados unos de otros en la misma máquina física.
39. Un contenedor incluye la aplicación que desea ejecutar
40. además de las bibliotecas y archivos de configuración necesarios para admitirlo.
41. Pero a diferencia de las máquinas virtuales,
42. no incluyen un sistema operativo.
43. En consecuencia, los contenedores se ponen en marcha más rápidamente
44. y usar menos recursos que las máquinas virtuales.
45. El hecho de que se aíslan unos de otros
46. proporciona una solución al problema del vecino ruidoso.
47. También permiten una distribución más eficiente de los recursos.
48. porque puede controlar la cantidad de CPU y memoria que puede usar cada contenedor.
49. Cuando el contenedor haya terminado de ejecutarse
50. esos recursos se liberan y pasan a estar disponibles para otros contenedores.
51. Esto hace que el sistema responda a las demandas actuales,
52. lo que lleva a una mayor utilización del sistema y reduce la necesidad de hardware
adicional.
¿Qué es Kubernetes?
1. Una de las cosas que hace esto posible es Kubernetes,
2. que a menudo se abrevia debido a su nombre largo
3. y el hecho de que hay ocho letras entre la K y la S.
4. Kubernetes es un sistema de software utilizado para implementar,
5. escalar y administrar aplicaciones en contenedores.
6. Fue desarrollado originalmente en Google
7. y es esencialmente una versión mejorada de un sistema interno
8. han estado funcionando durante años.
9. Google lanzó Kubernetes como código abierto en 2014
10. y desde entonces se ha convertido en el estándar de facto para la orquestación de
contenedores,
11. ya que es compatible con los principales proveedores de nube
12. incluyendo Amazon Web Services,
13. Microsoft Azure y, por supuesto, Google Compute Platform.
14. También se utiliza para la infraestructura de nube privada en muchas organizaciones,
15. ya sea independiente a través del proyecto de código abierto
16. o a través de productos con soporte comercial como Red Hat OpenShift,
17. Al igual que la arquitectura tradicional de Apache Hadoop que describí anteriormente,
18. una colección de máquinas que trabajan juntas
19. y ejecutar el software de Kubernetes también se conoce como clúster
20. o más específicamente un clúster de Kubernetes.
Descripción general de Kubernetes

1. Y al igual que un clúster de Apache Hadoop, tiene
2. uno o más equipos que administran la carga de trabajo del clúster
3. y un número mucho mayor de nodos de trabajo que realmente hacen el trabajo.
4. Los procesos que se ejecutan en las máquinas que administran el
5. los clústeres se denominan colectivamente Plano de control.
6. Incluye el software para realizar la programación de trabajos,
7. administrar el estado del clúster,
8. supervisar la disponibilidad de los nodos de trabajo y responder a los errores de los
nodos de trabajo.
9. Cada nodo de trabajo ejecuta un proceso de agente denominado Kubelet,
10. que supervisa lo que se está ejecutando en ese nodo
11. e informa del estado y la utilización de los recursos al plano de control.
12. Cada uno de los nodos de trabajo tiene cierta cantidad de recursos,
13. CPU, RAM y disco,
14. que utiliza para alojar los contenedores que le ha asignado el plano de control.
15. El plano de control asigna contenedores a los nodos de trabajo en función de la
demanda actual del clúster
16. y los recursos actualmente disponibles en cada nodo.
17. Así como las diferentes aplicaciones necesitan diferentes cantidades de memoria y
18. potencia de procesamiento para ejecutar
19. es probable que el tamaño de los contenedores que hospedan esas aplicaciones varíe
20. a fin de satisfacer esas necesidades de recursos.
21. Esto significa que no solo varía el tamaño de los contenedores,
22. pero también que el número de contenedores en ejecución variará de un nodo de trabajo
a otro,
23. de acuerdo a sus recursos disponibles en la demanda actual del sistema.
24. Ni el plano de control ni los nodos de trabajo están preocupados por
25. lo que realmente se está ejecutando dentro de estos contenedores.
26. Las aplicaciones en contenedores no están enlazadas a una máquina específica
27. porque pueden ejecutarse en cualquier máquina con recursos disponibles,
28. se ponen en marcha rápidamente y se apagan cuando ya no son necesarios.
29. Puede satisfacer la creciente demanda ejecutando varias copias de la aplicación en
varios equipos.
30. Estos aspectos de Kubernetes explican cómo las aplicaciones self Service Experience
de Cloudera
31. lograr una escalabilidad rápida y una utilización eficiente de los recursos.
32. Finalmente, permítanme mencionar que aunque he estado hablando de contenedores
hasta ahora,
33. con lo que realmente funciona el programador de Kubernetes se llama pods.
34. Una cápsula es simplemente un grupo de uno o más contenedores.
35. garantizado para ser desplegados juntos en el mismo nodo.
36. Esto permite que una aplicación se ejecute junto con
37. otras aplicaciones dependientes,
38. permitiéndoles compartir recursos y comunicarse entre sí,
39. y ahora mi breve descripción de Kubernetes está completa.
40.
Comparación de la nube pública y privada de

CDP
1. Tomemos ahora un momento para ver cómo la arquitectura
2. de CDP Private Cloud compara
3. a la arquitectura de nube pública de CDP que he descrito anteriormente.
4. Comenzaremos con CDP Public Cloud ejecutándose en AWS
5. comenzando en la parte inferior, puede ver que los datos almacenados
6. mediante el almacén de objetos de Amazon Web Services S3.
7. Los servicios SDX son proporcionados por un pequeño clúster de lago de datos que
8. ejecuta un servicio de máquina virtual de Amazon Web Services EC2.
9. Esto proporciona seguridad, gobernanza, esquema,
10. metadatos y otros servicios críticos que administran y gobiernan los datos,
11. independientemente de la experiencia de autoservicio o el clúster de centros de datos
que pueda estar usándolo.
12. A propósito
13. clústeres de concentradores de datos en CDP Public Cloud
14. Implementado en AWS también ejecuta un EC2
15. El clúster de Kubernetes utilizado para admitir la experiencia de autoservicio
16. aplicaciones en AWS
17. es proporcionado por su Elastic Kubernetes Service o EKS.
18. A continuación, tiene la consola de administración de CDP
19. y por último,
20. las experiencias mismas.
21. Ahora comparemos esto con CDP Public Cloud que se ejecuta en Azure.jData se aloja
en el almacén de objetos de Azure,
22. conocido como el servicio Azure Data Lake de segunda generación
23. o ADLS Gen2 para abreviar.
24. El clúster de Data Lake que proporciona SDX
25. así como cualquier clúster de centros de datos que pueda iniciar
26. ejecutar en el servicio de máquina virtual de Azure.
27. El clúster de Kubernetes lo proporciona Azure Kubernetes Service o AKS.
28. Y al igual que con CDP Public Cloud en AWS,
29. tiene la consola de administración y las experiencias de autoservicio.
30. Aquí he destacado las diferencias al comparar CDP Public Cloud en
31. Azure y AWS.
32. Ambos usan un almacén de objetos,
33. pero, naturalmente, la implementación difiere según el proveedor de la nube.
34. Ambos ejecutan servicios SDX en un clúster de datos tardío,
35. pero el servicio que los aloja varía según el proveedor de la nube.
36. Finalmente, ambos están utilizando el clúster de Kubernetes ofrecido por el proveedor
de la nube,
37. eso es todo
38. los propios servicios SDX,
39. la consola de administración
40. y las experiencias de autoservicio se verán y funcionarán de la misma manera
41. independientemente del proveedor de nube que esté utilizando.
42. A propósito
43. Nube pública de CDP en Google Cloud
44. será bastante similar a lo que he mostrado aquí
45. con AWS y Azure.
46. Comparemos la arquitectura que se muestra aquí con CDP Private Cloud.
47. En la versión inicial,
48. la infraestructura de nube privada es proporcionada por Red Hat OpenShift que se
ejecuta en bare metal,
49. aunque las versiones futuras pueden ampliar esto para incluir otras configuraciones y
plataformas compatibles.
50. Los datos se almacenan en HDFS y su correspondiente subproyecto Ozone.
51. Que es almacenamiento basado en objetos similar a S3 o ADLS Gen2.
52. El ozono también mantiene un buen rendimiento
53. incluso al escalar hasta miles de millones de objetos,
54. evitando así el problema de los archivos pequeños que se encuentran con frecuencia
con HDFS.
55. En CDP Private Cloud es el sistema de almacenamiento predeterminado utilizado para
los archivos de registro.
56. Sin embargo
57. El ozono también tiene otros dos usos potenciales.
58. Primero
59. los clientes pueden mover sus cargas de trabajo HDFS a Ozone
60. para evitar el problema de los archivos pequeños o para lograr una mayor escalabilidad.
61. Segundo
62. ya que Ozone proporciona una interfaz compatible con S3,
63. también admitirá cargas de trabajo diseñadas para usar las API de S3.
64. Los servicios SDX,
65. así como el soporte de la ejecución de cargas de trabajo tradicionales en bare metal,
66. se proporcionan a través de un clúster basado en CDP Private Cloud que sirve como
lago de datos.
67. Con CDP Public Cloud, el clúster de Kubernetes proviene del proveedor de la nube,
68. el servicio Azure Kubernetes,
69. o Elastic Kubernetes Service para AWS.
70. En CDP Private Cloud, el clúster de Kubernetes es proporcionado por el
71. Red Hat OpenShift Container Platform u OCP,
72. esto proporciona la compatibilidad necesaria para la aplicación de consola de
administración,
73. también proporciona soporte para las experiencias de autoservicio en contenedores.
74. Aquí he destacado las diferencias clave en CDP Public and Private Cloud.
75. Como puede ver, todos proporcionan seguridad y gobierno de datos consistentes a
través de SDX. También proporcionan la consola de administración y las aplicaciones de
experiencia de autoservicio,
76. mientras que las diferencias en la infraestructura subyacente dan lugar a algunas
diferencias correspondientes
77. en la configuración y el funcionamiento,
78. es importante tener en cuenta que la experiencia del usuario final es coherente
79. independientemente de dónde se ejecute CDP.
Arquitectura de nube privada de CDP

1. Reunamos algunos de los conceptos
2. He explicado sobre la arquitectura CDP Private Cloud.
3. La orquestación de contenedores es realizada por Kubernetes
4. ejecutándose en OpenShift Container Platform.
5. Esto admite las aplicaciones de experiencia de autoservicio en contenedores
6. como Cloudera Data Warehouse y Cloudera Machine Learning.
7. Porque se basan en contenedores,
8. utilizan los recursos de manera eficiente y pueden escalar hacia arriba o hacia abajo
muy rápidamente.
9. El plano de control cumple una función de gestión para esta infraestructura.
10. He dibujado una línea naranja alrededor de las cosas que se ejecutan en el clúster de
OpenShift.
11. Las aplicaciones de experiencia de autoservicio aprovechan los servicios de seguridad y
gobernanza
12. como Apache Atlas, Ranger y Hive MetaStore.
13. ¿Dónde se ejecutan estos servicios SDX?
14. Se ejecutan en un clúster CDP Private Cloud Base
15. que sirve como lago de datos para la implementación de la nube privada.
16. He dibujado una línea azul alrededor de eso para dejar en claro lo que se está
ejecutando en cada clúster.
17. Los datos también se almacenan en el clúster base,
18. ya sea en el sistema de archivos HDFS tradicional
19. o sus objetos a nuestra contraparte Ozono.
20. Una cosa importante a tener en cuenta es que el estado se mantiene en el clúster del
lago de datos.
21. Ahí es donde se almacenan los datos y metadatos y siempre se está ejecutando.
22. El clúster de OpenShift ejecuta la parte sin estado y efímera de CDP Private Cloud,
23. calcular
24. se lanzan contenedores,
25. corren y finalmente completan su trabajo y cierran.
26. El clúster de OpenShift en sí se ejecuta continuamente, por supuesto,
27. pero las cargas de trabajo en contenedores que ejecuta son relativamente de corta
duración.
28. Ese clúster base también puede ejecutar las cargas de trabajo bare metal tradicionales
29. para los casos en que las aplicaciones de experiencia no son las más adecuadas,
30. tal como podría hacer con el centro de datos en CDP Public Cloud.
31. El lanzamiento inicial de CDP Private Cloud tendrá lo que ves aquí,
32. incluyendo el almacén de datos y las experiencias de aprendizaje automático.
33. Con el tiempo
34. Cloudera planea proporcionar aplicaciones de experiencia adicionales
35. como Ingeniería de Datos y Base de Datos Operacional.
36. También planeamos agregar herramientas de administración y gobierno ya disponibles
en CDP Public Cloud,
37. como Data Catalog y Workload Manager.
38.
Requisitos de instalación
1. Antes de explicar los requisitos previos para configurar CDP Private Cloud,
2. Quiero mencionar primero
3. que te recomiendo encarecidamente que compruebes
4. la documentación de los requisitos del sistema
5. y versiones compatibles.
6. Estos detalles pueden cambiar a medida que CDP Private Cloud evoluciona.
7. También te animo a que compruebes la arquitectura de referencia para
8. orientación sobre el diseño y el tamaño de los nodos.
9. Una implementación de CDP Private Cloud Plus requiere dos cosas principales.
10. El primero es un clúster de OpenShift Kubernetes,
11. versión 4.3. funcionando sobre metal desnudo.
12. Esto es compatible con la consola de administración
13. y proporciona orquestación de contenedores
14. y capacidad de cómputo para experiencias en contenedores
15. como Cloudera Data Warehouse y Cloudera Machine Learning.
16. El segundo requisito previo es un clúster
17. ejecución de CDP Private Cloud Base
18. versión 7.1 o superior,
19. que servirá como el lago de datos.
20. Esto proporciona almacenamiento de datos y servicios SDX
21. así como soporte para ejecutar cargas de trabajo bare metal.
22. Como mínimo,
23. debe ejecutar el HDFS, Ozono,
24. Servicios de hive metastore, Ranger y Atlas.
25. Sin embargo, puede ejecutar otros servicios de acuerdo con sus necesidades
específicas,
26. como Apache NiFi y Apache Kafka para la ingesta de datos,
27. Apache Hive para el procesamiento ETL
28. o Apache Spark para aprendizaje automático e IA.
29. Entonces, ¿cómo se consigue que el clúster de CDP Private Cloud Base llegue a
30. ¿Usarlo como lago de datos para su implementación de Private Cloud Plus?
31. Una opción es actualizar un clúster CDH o HDP existente
32. a CDP Private Cloud Base.
33. Asegúrese de consultar la documentación para obtener más detalles.
34. ya que el soporte variará en función de la versión desde y hacia la que esté
actualizando.
35. Otra opción es configurar un nuevo clúster con un
36. nueva instalación de CDP Private Cloud Base
37. y, a continuación, migre sus datos existentes a él.
38. El clúster de Private Cloud Base Edition debe estar configurado
39. para una autenticación segura con Kerberos,
40. respaldado por un KDC Kerberos del MIT
41. o Microsoft Active Directory.
42. También debe tener habilitado Auto TLS,
43. que protege los datos confidenciales, como las fichas de clave Kerberos,
44. que podría transmitirse a través de la red.
45. Finalmente, para garantizar un buen rendimiento,
46. el clúster de OpenShift debe tener rápido,
47. conectividad de red de alto ancho de banda
48. al clúster de CDP Private Cloud Base que sirve como lago de datos
49. porque habrá cantidades significativas de datos transferidos entre ellos.
50.
Demostración de instalación
1. Esta demostración comienza con Cloudera Manager,
2. donde iniciaremos sesión como administrador.
3. Lo que ves aquí
4. son todos los servicios que componen el clúster CDP Private Cloud Base,
5. incluidos los servicios de almacenamiento,
6. metadatos, seguridad y gobierno de datos.
7. Son utilizados por las cargas de trabajo bare metal que se ejecutan en este clúster
8. así como las cargas de trabajo informáticas en contenedores
9. ejecutándose en OpenShift que accederá a estos servicios de forma remota.
10. Comenzará el proceso de instalación de CDP Private Cloud
11. haciendo clic en el enlace Nueva nube privada en la barra lateral izquierda en Cloudera
Manager.
12. Si este enlace no es visible
13. y está seguro de que está ejecutando la versión correcta de CDP Private Cloud Base,
14. consulte la documentación de un comando que puede ejecutar para habilitar este
vínculo.
15. Esto le mostrará cualquier instalación existente
16. asociado a este clúster base.
17. Haga clic en el botón azul Instalar nueva nube privada de CDP
18. para comenzar una nueva instalación.
19. Esto inicia un asistente de cuatro pasos para guiarlo a través del
20. Proceso de instalación de una consola de administración de private Cloud
21. en el clúster de OpenShift.
22. Puede seleccionar un repositorio que proporcione los archivos de instalación
23. o simplemente puede aceptar la ubicación predeterminada del repositorio,
24. como se hace aquí.
25. El primer paso es proporcionar el archivo de configuración de Kubernetes,
26. conocido como Kube Config,
27. que proporciona información sobre el clúster de OpenShift,
28. incluyendo detalles sobre cómo acceder a él.
29. El administrador de OpenShift podrá proporcionar este archivo.
30. A continuación, especifique el valor del espacio de nombres.
31. Esto es simplemente un identificador único para su instalación de Private Cloud
32. y se utiliza para generar la URL mediante la cual posteriormente se puede acceder a
ella.
33. Opcionalmente, puede especificar un Registro de Docker
34. utilizado para distribuir imágenes de Docker necesarias para CDP Private Cloud,
35. aunque se recomienda usar uno que esté coubicado con
36. su clúster de OpenShift para obtener el mejor rendimiento
37. a los efectos de esta demostración
38. aceptaremos la opción predeterminada y usaremos el Registro de Docker proporcionado
por Cloudera.
39. Haga clic en el botón Siguiente para continuar.
40. Esto inicia el proceso de instalación del plano de control CDP en OpenShift.
41. En el transcurso de varios minutos
42. descargará y extraerá los archivos de instalación,
43. implementar la aplicación en el clúster de OpenShift
44. y espere a que se inicien los pods de Kubernetes.
45. En aras del tiempo,
46. volveremos a la página de inicio de Cloudera Manager
47. y luego vaya a una de las consolas de administración de CDP Private Cloud existentes
48. eso ya se ha establecido.
49. Después de iniciar sesión como administrador,
50. nos lleva a la pantalla del entorno,
51. lo cual es conveniente porque aquí es donde necesitamos estar
52. para realizar el primer paso posterior a la instalación
53. y eso es registrar un entorno
54. que proporciona información sobre el clúster de Kubernetes utilizado para la
computación
55. así como el CDP Private Cloud Base Cluster que servirá como lago de datos.
56. En primer lugar, especifique un nombre que se utilizará para este entorno.
57. A continuación, especifique el archivo de configuración de Kubernetes
58. que proporciona información sobre el clúster de OpenShift utilizado para la computación.
59. En este caso usaremos el mismo archivo Kube Config
60. como solíamos instalar la consola de administración.
61. Hay algunos otros valores que podríamos cambiar,
62. como el dominio de red y el prefijo del espacio de nombres
63. para personalizar aún más la instalación,
64. pero para esta demostración aceptaremos los valores predeterminados y continuaremos.
65. Para el lago de datos
66. Debemos proporcionar la URL de la instancia de Cloudera Manager
67. que gestiona ese clúster,
68. que podemos copiar directamente desde la barra de direcciones
69. y, a continuación, pegar en el campo de texto.
70. Después de hacerlo,
71. el formulario agrega campos para especificar las credenciales para
72. una cuenta de Cloudera Manager con privilegios administrativos.
73. Rellenamos esos valores y hacemos clic en el botón Conectar para validar esa
información.
74. Unos segundos más tarde
75. podemos ver que ha validado esa información,
76. conectado a Cloudera Manager
77. y rellenó un menú desplegable con una lista de clústeres disponibles
78. así como los servicios relevantes que se ejecutan en el clúster seleccionado.
79. Haga clic en el botón Registrar para completar el proceso de registro de un entorno.
80. En pocos segundos podemos ver información sobre el medio ambiente,
81. incluido el nombre del clúster del lago de datos,
82. el número de nodos de ese clúster,
83. la versión de Cloudera Runtime
84. y una lista de los servicios relacionados con el almacenamiento y SDX que se ejecutan
allí.
85. También hay un enlace a la instancia de Cloudera Manager para el clúster del lago de
datos
86. y otros enlaces que podemos utilizar para navegar por los espacios de trabajo de
Cloudera Machine learning,
87. elementos relacionados con el almacén de datos de Cloudera
88. e información de configuración.
89. Y así concluye la demostración
90. del proceso de instalación de CDP Private Cloud.
Puntos esenciales
Introducción a Cloudera Data Warehouse: Análisis de
autoservicio en la nube con CDP
Introducción al Curso
1. Hola, y bienvenidos a Introducción a Cloudera Data Warehouse:
2. Análisis de autoservicio en la nube con CDP.
3. En este curso, responderé a la pregunta,
4. ¿Qué es Cloudera Data Warehouse o CDW?
5. y te mostraré cómo usarlo.
6. Hay dos pistas para este curso.
7. Después de las dos primeras secciones, puede elegir la pista de Ingeniero de datos
8. o la pista de Data Analyst.
9. Al final de este curso, usted será capaz de:
10. Identificar el propósito principal y los beneficios de CDW
11. Y acceda a CDW y navegue por diferentes páginas dentro de él.
12. Además, para la pista de Ingeniería de Datos,
13. podrás
14. crear un catálogo de datos y un almacén virtual en CDW,
15. describir cómo CDW escala automáticamente.
16. y cambiar la configuración de los almacenes virtuales de Hive e Impala.
17. Para la pista de Data Analyst, podrá
18. Ejecutar una consulta con Hue o Data Analytics Studio
19. con un almacén virtual CDW,
20. conectarse a un almacén virtual desde la línea de comandos,
21. y conectar herramientas de terceros a un almacén virtual CDW.
22.

Características de Enterprise Data Cloud: Organizaciones de Múltiples Industrias Han Exigido

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Características de Enterprise Data Cloud: Organizaciones de Múltiples Industrias Han Exigido

Cargado por

Copyright:

Formatos disponibles

1.

Hola, este es Tom Wheeler

Características de Enterprise Data Cloud

Ciclo de vida de los datos

Cloudera Data Platform: Recapitulación

Cómo eliminar Shadow IT

Nube pública de CDP

Base de nube privada de CDP

Descripción general del producto CDP

CDP Nube Privada Plus

Arquitectura de clúster tradicional (Bare Metal)

Limitaciones de la arquitectura de clúster

Aspectos clave de la arquitectura nativa de la

Descripción general de Kubernetes

Comparación de la nube pública y privada de

Arquitectura de nube privada de CDP

También podría gustarte