Está en la página 1de 119

1. ¿Qué es CDP?

2. La definición más simple es que CDP es la plataforma de datos de Cloudera.


3. Para comprender completamente qué es CDP, deberá comprender su origen.
4. CDP en última instancia, tiene sus raíces en la comunidad de código abierto.
5. A principios de la década de 2000, Google publicó un par de documentos técnicos
importantes que describían formas revolucionarias de almacenar y procesar grandes
cantidades de datos.
6. aprovechando el potencial de miles de computadoras que trabajan juntas.
7. Este enfoque no solo ofrecía escalabilidad y rendimiento, sino que también era rentable,
ya que utilizaba servidores estándar en lugar de hardware propietario.
8. Además, el diseño le permitió manejar la falla de múltiples computadoras sin pérdida de
datos.
9. Apache Hadoop, que se convirtió en la base de las plataformas originales Cloudera y
Hortonworks que precedieron a CDP, es una implementación de código abierto de esos
conceptos.
10. La comunidad de código abierto, incluidos muchos de los ingenieros que más tarde se
unieron a Cloudera y Hortonworks, contribuyeron al proyecto.
11. También desarrollaron otras herramientas que se integraron con él, lo que facilita la
ingesta, el almacenamiento, el procesamiento, el análisis y el servicio de datos.
12. Poco después de la fundación de Cloudera en 2008, los ingenieros comenzaron a
trabajar en una distribución de software que combinaba Apache Hadoop con las mejores
herramientas de su ecosistema,
13. y los empaquetó en algo que los clientes pudieran usar más fácilmente.
14. El resultado se llamó CDH: Distribución de Cloudera incluyendo Apache Hadoop.
15. Este es un concepto similar a una distribución de Linux, como RedHat Enterprise Linux.
16. Si bien los componentes individuales están fácilmente disponibles, elegir las versiones
más estables de cada uno, integrarlos, probar para asegurarse de que funcionen bien
juntos,
17. y proporcionar apoyo a la combinación resultante requiere un gran esfuerzo, mucho más
allá de las capacidades de muchas organizaciones.
18. Al aliviar a los clientes de esta carga, Cloudera hizo posible que se centraran en la
creación de valor para el negocio.
19. Como resultado, la plataforma fue ampliamente adoptada, no solo por un puñado de
empresas de tecnología en Silicon Valley,
20. sino por algunas de las empresas más exitosas en banca, telecomunicaciones, comercio
minorista y muchas otras industrias.
21. Hortonworks fue fundada en 2011, y los ingenieros desarrollaron rápidamente su propia
distribución, conocida como HDP: The Hortonworks Data Platform.
22. Ofrecía muchos de los mismos componentes, como Apache Hadoop, Hive, HBase y
Spark, así como algunos diferentes.
23. Debido a que todos estos productos fueron desarrollados por comunidades de código
abierto, en las que tanto los ingenieros de Cloudera como los de Hortonworks estaban
activos,
24. colaboraron en mejoras, a pesar de que estas dos empresas eran competidoras en
ese momento.
25. En algunos casos, estas distribuciones ofrecían herramientas competidoras para una
capacidad determinada, mientras que en otros casos, una ofrecía una nueva capacidad
que la otra no ofrecía.
26. Después de muchos años de innovación, algunas de estas herramientas han
reemplazado efectivamente la funcionalidad que Hadoop proporcionó originalmente.
27. Por ejemplo, el mecanismo que Hadoop ofreció para procesar datos está optimizado
para cargas de trabajo grandes orientadas a lotes y requiere escribir código
personalizado.
28. En consecuencia, no es la mejor opción para la mayoría de las nuevas aplicaciones que
nuestros clientes están desarrollando.
29. En estos días, es más probable que seleccionen uno de los otros marcos de
procesamiento de datos disponibles en la plataforma, como Apache Spark,
30. que es ampliamente utilizado para aplicaciones que involucran transmisión de datos o
aprendizaje automático.
31. Y en lugar de usar la capa de almacenamiento de Hadoop, podrían elegir que
almacenen sus datos usando Apache Kudu,
32. que es ideal para aplicaciones de series temporales para recopilar datos de sensores de
IoT, y funciona bien con Spark.
33. O bien, pueden optar por mantener sus datos en el almacén de objetos de su proveedor
de nube.
34. El punto clave es que la plataforma ofrece opciones e interoperabilidad.
35. Y aunque Hadoop juega un papel más pequeño ahora que hace una década,
36. el concepto en el que fue pionero de hacer que el almacenamiento y procesamiento de
datos escalables, de bajo costo y confiables esté ampliamente disponible continúa.
37. Durante la última década, Cloudera y Hortonworks lideraron el camino en la construcción
de plataformas de gestión de datos de código abierto para la empresa.
38. En 2019, las dos compañías se fusionaron, formando la nueva Cloudera.
39. Le pregunté a Todd Sylvester sobre la cartera de productos de estas dos compañías.
40. Hola, mi nombre es Todd Sylvester. Soy Vicepresidente de Estrategia en Cloudera.
41. La fusión entre Hortonworks y Cloudera condujo a una nueva plataforma, CDP, que en
parte se construye a partir de las plataformas anteriores de cada compañía.
42. ¿Cómo se compararon entre sí?
43. Entonces, es interesante. Cuando reunimos a ambas compañías, las cosas que
comenzamos a mirar, la cartera y las hojas de ruta por delante, en realidad eran
bastante similares.
44. Yo diría que el 70% de lo que reunimos fue aproximadamente basado en código común,
sin embargo, el otro 30% fue muy complementario entre sí.
45. Somos capaces de incorporar tecnología desde el borde en el flujo de datos de
Hortonworks, hasta los conocimientos que el aprendizaje automático y la inteligencia
artificial reunirían.
46. En algunos casos, la plataforma anterior de Cloudera, conocida como CDH, y la
plataforma de Hortonworks, conocida como HDP, ofrecían los mismos componentes,
47. y la fusión nos permitió acelerar la innovación al acercar aún más a nuestros equipos de
ingeniería.
48. En otros casos, la plataforma de cada empresa ofrecía algunas herramientas únicas,
49. lo que significa que la fusión de nuestras plataformas proporciona a todos los clientes
nuevas capacidades netas, muchas de las cuales cubriré durante este curso.
50. Dado que CDP combina las mejores partes de estas plataformas anteriores, es una
evolución de las tecnologías que nuestros clientes han estado utilizando durante años.
51. Pero CDP no es solo una nueva plataforma, sino que también representa un nuevo y
revolucionario tipo de plataforma: Enterprise Data Cloud.
52. Nuestros clientes quieren algo más que una nueva versión de una plataforma más
antigua.
53. Necesitan algo que los apoye en su viaje a la nube.
54. Le pregunté a Todd Sylvester por qué los clientes se están moviendo a la nube.
55. Todos nuestros clientes están en un viaje a la nube.
56. Buscan las características clásicas de la nube, la facilidad de uso, el modelo de pago por
uso, un nuevo enfoque de tipo de consumo.
57. Eso les permite comenzar a mover estas cargas de trabajo ad hoc, estas cargas de
trabajo efímeras que necesitan girar hacia arriba, hacia abajo, escalar automáticamente,
incluso reanudar y detener automáticamente.
58. También le pregunté a Jamie Engesser qué factores están motivando a los clientes a
pasar a la nube.
59. Hola, mi nombre es Jamie Engesser, soy SVP de especialistas en nube y campo.
60. Eso representa al equipo SE de socios de gestión de valor y de la industria, al equipo de
especialistas en la nube y a los CTO de campo dentro de Cloudera.
61. En los últimos años, las empresas han acelerado su uso de la infraestructura en la nube.
62. En algunos casos, eso está diseñado para complementar sus centros de datos locales,
mientras que en otros, está diseñado para reemplazar los centros de datos locales.
63. ¿Cuáles son algunos de los factores que motivan a las empresas a migrar a la nube?
64. Creo que el mayor factor motivador que veo para los clientes es menos en el lado del
costo y más en el lado de la agilidad.
65. Y es el negocio que realmente quiere responder más rápido y llegar a las soluciones
más rápido en la plataforma.
66. La nube es claramente muy importante para nuestros clientes, así como un enfoque
importante de CDP.
67. Patrick Angeles, quien es uno de los primeros empleados de Cloudera, comenzó como
arquitecto de soluciones en 2009.
68. Ahora es un CTO de campo con la compañía.
69. Dado que tiene una década de experiencia ayudando a nuestros clientes a ejecutar
aplicaciones comerciales críticas en la plataforma Cloudera, quería escuchar su
perspectiva.
70. Estoy en Nueva York y, como tal, estoy basado en Nueva York y tal y cual. Tiendo a
tratar mucho con clientes financieros, particularmente con grandes bancos globales que
tienen mucha presencia aquí en la ciudad.
71. ¿Por qué es tan importante el soporte en la nube de CDP para los clientes con los que
trabaja?
72. Así que es realmente un par de cosas críticas, cierto.
73. Uno es el momento de valorar, si está tratando de crear una aplicación, hay,
74. en un mundo tradicional tendría que comprar servidores de manera efectiva,
aprovisionarlos, instalar nuestro software y, con suerte, podría tener algo en
funcionamiento en unos pocos meses.
75. Mientras que en la nube todo lo que básicamente necesita es una cuenta de proveedor
de servicios en la nube y puede comenzar a usar nuestro sistema. Simplemente envíe
sus datos a la nube
76. y puede ejecutar análisis, hacer aprendizaje automático y todo eso. Así que el tiempo
para valorar es algo que es crítico.
77. También están muy entusiasmados con nuestras capacidades multinube, estamos en
muchas industrias reguladas.
78. y tienen restricciones en términos de ciertos datos que deben permanecer dentro de sus
cuatro paredes.
79. Obviamente, les gustaría descargar a la nube tanto como sea posible, pero en algunos
casos, en algunos casos, eso no es posible dados ciertos tipos de datos.
80. Por lo tanto, quieren poder aprovechar los sistemas locales y también expandirse a la
nube.
81. Y debido a que son instituciones reguladas, también son muy adversas al riesgo,
82. por lo tanto, deben poder considerar la implementación en más de un proveedor de nube
para mitigar el riesgo del proveedor.
83. Le pregunté a Todd Sylvester cómo nuestros clientes definieron lo que necesitan de una
plataforma de datos.
84. Las cuatro áreas clave que escuchamos de nuestra base de clientes cuando reunimos a
las empresas, fueron la capacidad de tener que operar en cualquier nube.
85. Ahora piense en esto como reducir el riesgo de la inversión de los clientes y dónde
pueden tener portabilidad de sus aplicaciones,
86. portabilidad de sus entornos tanto si deciden hacerlo en las instalaciones como en la
nube.
87. La segunda área es realmente en torno a la analítica multifunción, piense en operar con
cualquier dato, en cualquier momento y en cualquier lugar y estas son las áreas clave
para eso.
88. Todo esto debe hacerse en un entorno muy seguro y gobernado en todos estos
diferentes entornos híbridos.
89. Y yo diría que la cuarta área es alrededor de abierto, esto es más que solo ser un código
abierto o software abierto, esto es ser un ecosistema abierto.
90. donde pueden vincularse rápidamente a su ecosistema más amplio y sus inversiones
actuales.

diapositiva 2

1. Hay cuatro características clave para Enterprise Data Cloud.


2. En primer lugar, es híbrido y multinube.
3. En segundo lugar, es multifunción.
4. Tercero, es seguro y gobernado.
5. Y finalmente, está abierto.
6. Veamos cada uno de estos con un poco más de detalle.
7. Multi-cloud se refiere al hecho de que CDP admitirá múltiples proveedores de nube
y facilitará la administración de sus operaciones en cada uno de ellos.
8. Híbrido se refiere a la capacidad de ejecutarse en el centro de datos local, en la nube o
de dividir las cargas de trabajo entre ellos.
9. Los datos de una organización moderna se crean y almacenan en muchos entornos
diferentes,
10. no solo en su propio centro de datos, sino también en las computadoras de uno o más
proveedores de nube.
11. Las empresas necesitan un sistema que se ejecute donde lo hacen, y necesitan que se
amplíe para mantenerse al día con el crecimiento de los datos.
12. sin el retraso y el gasto de tener que cambiar de plataforma o rediseñar las aplicaciones
que se ejecutan en ellas.
13. Para dar a las empresas la flexibilidad que necesitan, una nube de datos empresariales
debe proporcionar una funcionalidad equivalente tanto dentro como fuera de las
instalaciones.
14. Necesita ponerlos en control de su infraestructura y permitirles elegir dónde quieren
ejecutar sus aplicaciones.
15. Para evitar el bloqueo de proveedores, debe admitir múltiples proveedores de nube.
16. Y para ayudar a controlar los costos, debe facilitar la transferencia de cargas de trabajo
entre el centro de datos de una organización y sus entornos de nube preferidos.
17. La multifunción se refiere a cómo una nube de datos empresariales debe admitir
múltiples tipos de cargas de trabajo, incluidos el análisis de transmisión, el
almacenamiento de datos y el aprendizaje automático.
18. La plataforma Enterprise Data Cloud debe ser capaz de aceptar muchos tipos diferentes
de datos, de prácticamente cualquier fuente,
19. y brinde a su organización una flexibilidad sin precedentes para combinarla, procesarla y
analizarla.
20. Abordar los problemas empresariales del mundo real a menudo requiere que diferentes
equipos trabajen con los mismos datos, potencialmente de diferentes maneras.
21. Por ejemplo, los analistas de una empresa pueden usar datos de ventas para producir
informes diarios, mientras que los científicos de datos pueden usar los mismos datos
para experimentar con la optimización de precios.
22. Cumplir con este requisito hace posible que las organizaciones utilicen una sola
plataforma para una variedad de casos de uso,
23. al tiempo que los libera del gasto y la carga operativa de mantener los datos en múltiples
sistemas, utilizando diferentes herramientas de diferentes proveedores.
24. Seguro y gobernado se refiere a cómo se protegen los datos en el sistema, cómo se
controla el acceso a esos datos y cómo determinar su origen y uso.
25. Las organizaciones de hoy en día se enfrentan a estrictas regulaciones y requisitos de
cumplimiento para la seguridad de los datos.
26. Enterprise Data Cloud no solo debe mantener seguros los datos confidenciales,
independientemente de dónde se mantengan,
27. también debe ayudar a los administradores y administradores de datos a cumplir con las
estrictas demandas de privacidad de datos, gobernanza, migración y administración de
metadatos de la empresa.
28. Además de los requisitos para la protección de datos, las organizaciones deben ser
capaces de localizar rápidamente datos confiables y relevantes para que puedan
responder a las nuevas oportunidades de negocio.
29. Eso requiere que entiendan qué datos tienen, de dónde provienen y cómo se utilizan.
30. Abierto se refiere tanto a la naturaleza de código abierto de la plataforma subyacente
como al hecho de que está abierta para la integración con otros sistemas y servicios.
31. Nuestro software es 100% de código abierto, lo que ayuda a impulsar la innovación y
permite a nuestros equipos de ingeniería colaborar con los mejores desarrolladores de
todo el mundo.
32. Brinda a nuestros clientes acceso al software en el que se ejecuta su negocio, incluida la
capacidad de sus propios equipos de ingeniería para probar, inspeccionar e incluso
contribuir al código.
33. Todos nosotros, tanto Cloudera como nuestros clientes, nos beneficiamos del rápido
ritmo de innovación que hace posible la comunidad de código abierto.
34. Pero abrir en el contexto de Enterprise Data Cloud no se trata solo de código abierto.
35. En esencia, open se trata de mitigar la tecnología y el riesgo empresarial, porque ningún
proveedor puede satisfacer todas sus necesidades de gestión de datos.
36. Al elegir una plataforma que admita arquitecturas de cómputo abiertas y almacenes de
datos de los principales proveedores de nube, evitará el bloqueo de proveedores,
simplificará la integración con otros sistemas,
37. y benefíciese de un amplio ecosistema de socios cuyos productos y servicios puede
utilizar con confianza.
38.

Transcripción del video


1. Inicio de la transcripción. Saltar hasta el final.
2. La fusión reunió las capacidades completas de datos en movimiento de Hortonworks con
el fuerte soporte de Cloudera para el aprendizaje automático,
3. dando a nuestros clientes una plataforma que realmente puede funcionar desde el borde
hasta la IA.
4. Le pregunté a Michael Gregory cómo nuestros clientes están aprovechando el poder que
ahora tienen.
5. Hola, mi nombre es Michael Gregory, dirijo nuestra organización de aprendizaje
automático e ingeniería de campo en Cloudera,
6. es un equipo global de ingenieros y expertos en aprendizaje automático,
7. ayudando a nuestros clientes a desarrollar capacidades e infraestructura de
herramientas de plataforma y tecnología para el aprendizaje automático.
8. ¿Cuál es uno de los casos de uso de Edge a AI más comunes que los clientes ejecutan
en nuestra plataforma?
9. El mantenimiento predictivo es uno que vemos con bastante frecuencia, datos
generados por máquinas que se ingieren rápidamente. Son montones y montones de
datos y también se están creando muy rápidamente.
10. Nuestros productos CDF, Cloudera Data Flow, que están diseñados para traer datos
desde el borde se crean con la intención de hacer, de hacer que los datos estén
disponibles rápidamente.
11. Una vez que esos datos están disponibles en la plataforma con las herramientas que
tenemos,
12. ser capaz de trabajar a través de todo el flujo de trabajo, de nuevo, desde la
investigación hasta la producción. Esas son las fases exploratorias del aprendizaje
automático de ciencia de datos,
13. modelos de capacitación, optimización, servicio de producción y luego, lo que muchos
de nuestros clientes quieren hacer con estos casos de uso de IoT es volver a poner ese
modelo hacia abajo.
14. Así que en realidad hablamos sobre el borde de la IA y viceversa porque tomando esa
inteligencia que se ha creado a partir de los datos, esa capacidad predictiva.
15. y empujar es volver a su flujo de datos, muy cerca de donde se predicen los datos.
16. Esto es realmente lo que significa esa ventaja de la IA, que cubre desde el mismo
momento en que nacen los datos hasta hacer una predicción que informa una decisión
comercial en una sola plataforma.
17. Las empresas que dependen de equipos industriales se enfrentan a un dilema casi
constante:
18. Con el tiempo, la condición de una pieza de hardware o equipo de fabricación se
deteriorará, y la eventual pérdida de equipo resultará en la pérdida de ganancias.
19. El mantenimiento regular programado es un componente necesario y vital para la
operación de la empresa, pero puede incurrir en pérdidas para la empresa.
20. El tiempo de inactividad del equipo, incluso si es para mantenimiento programado, causa
una reducción en el rendimiento.
21. El mantenimiento se ha manejado tradicionalmente de manera reactiva o preventiva.
22. Los sistemas de mantenimiento reactivo responden a las fallas y fallas del equipo
después de que ocurren, como reemplazar una bombilla cuando se quema.
23. Los sistemas de mantenimiento preventivo son necesariamente rutinarios
24. y utilizar promedios entre las estadísticas disponibles para prevenir fallas en el equipo,
como cambiar el aceite de un automóvil cada 3000 millas.
25. La efectividad general del equipo, o OEE, es un indicador clave del rendimiento del
equipo.
26. Es una medida que tiene en cuenta la disponibilidad del equipo y clasifica el rendimiento
de un hardware frente a su rendimiento esperado.
27. Los OEE están determinados por tres factores: disponibilidad, rendimiento y calidad.
28. La disponibilidad compara la cantidad de tiempo que el equipo está funcionando con la
cantidad de tiempo que se necesita.
29. El rendimiento compara la cantidad de producción que se generó frente a la cantidad
esperada.
30. La calidad compara la condición de la producción real con la producción esperada.
31. Cada uno de estos factores influye en el siguiente, ya que un sistema no disponible no
puede producir tanto como uno que está disponible,
32. y una falla en algún nivel resulta en una reducción de la calidad del producto.
33. Las empresas pueden utilizar esta métrica para determinar qué procedimientos de
mantenimiento proporcionarán el mejor retorno de la inversión.
34. Debido al tiempo de inactividad resultante, los procedimientos de mantenimiento reactivo
y preventivo contribuyen a una reducción del 5-20% en la capacidad productiva,
disminuyendo así la OEE.
35. Una solución efectiva para esto es hacer que el mantenimiento sea más predictivo.
36. Los sistemas de mantenimiento predictivo aprovechan los problemas que enfrentan los
sistemas más reactivos: incorporan datos sobre la condición en tiempo real de los
equipos y su entorno.
37. La diferencia entre estos sistemas y los programas más tradicionales es el alcance y el
momento de su implementación.
38. Los sistemas de mantenimiento predictivo buscan prevenir el mal funcionamiento del
equipo a medida que el equipo comienza o se espera que muestre síntomas de falla.
39. Esto se prefiere al mantenimiento realizado en momentos menos convenientes y más
costosos.
40. Las empresas que integran el mantenimiento predictivo en la operación de sus equipos
buscan minimizar el deterioro
41. y realizar procedimientos de mantenimiento al comienzo de la disminución de la
condición de un equipo.
42. El mantenimiento predictivo es una extensión natural del Internet de las cosas (IoT), que
es la intersección de las computadoras con los elementos físicos cotidianos.
43. La prevalencia de IoT tanto en entornos industriales como domésticos ha contribuido a
su papel como una herramienta valiosa para promover y refinar el aprendizaje
automático.
44. Los datos de IoT pueden provenir de una variedad de fuentes, como sensores térmicos
o de vibración.
45. Estos datos se transmiten a la nube, se almacenan en un lago de datos y se procesan
en un almacén de datos.
46. A continuación, puede utilizar el aprendizaje automático para analizar los datos y
detectar discrepancias dentro de ellos.
47. El mantenimiento basado en IoT elimina potencialmente el 10-40% de los costos de
mantenimiento de los equipos de fábrica y aumenta en gran medida el OEE de cualquier
hardware dado.
48. Las aplicaciones de mantenimiento predictivo no solo requieren una plataforma que
admita los algoritmos de aprendizaje automático adecuados, sino también una que
admita los datos que impulsan la plataforma.
49. Ese dato tiene tres características importantes:
50. una capacidad para grandes volúmenes de datos, un soporte para una variedad de tipos
de datos y una capacidad para procesar datos generados a alta velocidad.
51. Volumen: Los sistemas de gestión tradicionales no se construyeron para operar con
petabytes de datos de IoT.
52. El mantenimiento en tiempo real, o casi en tiempo real, requiere una mayor capacidad
de almacenamiento para contrarrestar el mayor volumen de datos generados
diariamente.
53. Variedad: El tipo de datos de sensores entrantes es más colorido que nunca, llenando el
espectro de datos estructurados a no estructurados, como imágenes y videos.
54. Los sistemas tradicionales de bases de datos están, en general, mal equipados para
tales datos.
55. Velocidad: Los datos se generan de segunda a segunda.
56. Los sistemas de mantenimiento predictivo deben adaptarse a cualquier cambio sutil o
pronunciado en los datos sobre la marcha.
57. Además, la plataforma debe ser versátil y aceptar datos en movimiento sobre datos en
reposo.
58. Así es como los datos pueden fluir en un modelo de mantenimiento predictivo.
59. El equipo en este ejemplo podría ser algún tipo de maquinaria de manejo de carga,
como una grúa en alta mar.
60. Los datos pertinentes a este sistema pueden contener información sobre el clima, la
humedad general, la vibración del equipo, la acústica, la energía eléctrica, etc.
61. Los datos pasan por cuatro fases, siendo la primera la fase de ingesta.
62. Durante esta parte del proceso, su plataforma toma datos de los sensores en el equipo.
63. Estos datos pueden incluir las propiedades del propio equipo, como la temperatura, o
datos ambientales, como los patrones climáticos.
64. A continuación, los datos se almacenan en una gran base de datos, o en un lago de
datos, junto con otras fuentes de datos empresariales.
65. En esta etapa, los datos aún no se procesan y se mantienen en su forma original y sin
procesar hasta que el sistema esté listo para procesarlos.
66. A continuación, su plataforma combina estos datos del sensor con los datos del sistema
backend, generalmente convirtiéndolos a un formato más eficiente y comprimido, en
preparación para el análisis de datos.
67. Los datos procesados están disponibles para las aplicaciones que los necesitan.
68. En nuestro caso de uso, una de estas aplicaciones es un modelo de aprendizaje
automático, que aprende de las condiciones que llevaron a fallas en el pasado.
69. Utiliza esta información para predecir en tiempo real qué componentes es probable que
fallen para que, para evitar el tiempo de inactividad, puedan reemplazarse de forma
proactiva.
70. Lufthansa Technik utiliza la plataforma de Cloudera para optimizar la fiabilidad y
disponibilidad de las aeronaves.
71. Al aprovechar su plataforma de análisis basada en la nube personalizada, pueden
proporcionar una amplia gama de servicios predictivos a cientos de clientes.
72. El cambio del mantenimiento y las reparaciones analógicas a las tecnologías predictivas
da como resultado una disminución del 40% en la eliminación de componentes y una
caída significativa en los costos operativos de las aerolíneas.
73. Ahora, escuchemos directamente a algunas de las personas de Lufthansa Technik que
están involucradas en este esfuerzo.
74. Estos son tiempos emocionantes, puedo decirte esto. Porque tenemos un cambio
completo en cómo podemos abordar todo lo relacionado con la ingeniería.
75. Lufthansa Technik es uno de los principales proveedores de mantenimiento, reparación
y revisión de aeronaves en el mundo.
76. De hecho, reparan una aeronave, todos los componentes de la aeronave, asegurándose
de que la aeronave siempre esté lista para volar de manera segura.
77. De la manera tradicional, los ingenieros tenían que hacer un montón de trabajo muy
tedioso, recopilar datos, hacer que todas las hojas de cálculo hablaran.
78. Desde el primer día quisimos construir un sistema que fuera capaz de manejar esta
cantidad creciente de datos.
79. Si imaginas decenas de miles de vuelos todos los días, sí, estás en territorio de
petabytes para obtener datos.
80. Aviatar es la plataforma para que la industria de las aerolíneas aproveche las cantidades
cada vez mayores de datos producidos por los aviones hoy en día.
81. Lo que hace que Aviatar sea único es la única plataforma independiente que permite a
nuestros clientes tener el control total de sus propios datos.
82. Si no entiende sus datos, no entiende su negocio. Esta es probablemente la función
principal de Aviatar, es comprender sus datos.
83. La privacidad, la transparencia y la seguridad permiten a nuestros clientes la tranquilidad
de analizar completamente y obtener información de sus datos y utilizarlos de manera
efectiva.
84. Tenemos datos de temperatura, tenemos datos de presión, tenemos datos de vibración,
que luego se transfieren a nuestros sistemas Aviatar y se analizan allí.
85. Ayuda a predecir fallas y desgaste antes de que realmente ocurra.
86. Con Cloudera podemos conectar y analizar miles de millones de puntos de datos, esto
incluye instantáneas de parámetros clave que se transmiten en tiempo real desde los
sensores de las aeronaves.
87. Utilizamos la pila de Cloudera para hacer aprendizaje automático y predecir cuándo
fallarán los componentes.
88. Anteriormente, era más o menos imposible manejar grandes cantidades de datos y
operar estos algoritmos en un solo sistema.
89. Ahora con Cloudera, es posible y ayuda a nuestros clientes, las aerolíneas, a aumentar
sus horas de operación, reducir las incidencias operativas y aumentar la eficiencia de la
flota.
90. Cuando hablamos de mantenimiento predictivo siempre tratamos de evitar el tiempo de
trabajo no programado.
91. Si no hay un cartel de cancelación en las vallas publicitarias del avión esto es por lo que
nos esforzamos, sí.
92. Marcus Tullius Cicero CEO, dijo que nosotros, ahorramos a una gente que no prefiere
ser lenta y creo que esta herramienta y toda esta adquisición basada en datos será más
segura y eso es lo que estamos buscando.
93. Y esto es lo que es muy, muy emocionante porque podemos usar todas estas nuevas
tecnologías como el aprendizaje automático, como el procesamiento del lenguaje de
datos, el análisis avanzado.
94. Y esta es una energía realmente poderosa y transformadora que está a punto de abrirse
paso, cierto. Estos son tiempos extremadamente emocionantes.
95. Es genial ver el éxito que han tenido con un caso de uso de mantenimiento predictivo en
la plataforma de Cloudera.
96. A continuación, echemos un vistazo a otra empresa que también está utilizando el
mantenimiento predictivo para aumentar la confiabilidad y ahorrar dinero.
97. Navistar, un fabricante de vehículos, pasó de los mantenimientos programados de
vehículos basados en el tiempo y la distancia recorrida, a un modelo predictivo.
98. La plataforma de diagnóstico remoto personalizada habilitada para IoT de Navistar
ingiere muchas fuentes de fuentes de datos telemáticos y de sensores.
99. Estos datos incluyen lecturas, como el rendimiento del motor, la velocidad del vehículo,
la aceleración y la temperatura del refrigerante, de más de 300,000 vehículos
conectados.
100. Utilizan el aprendizaje automático para detectar las complicaciones del motor de
forma temprana y realizar el mantenimiento según sea necesario.
101. Navistar informa que el uso de la plataforma de Cloudera para realizar
mantenimiento predictivo ha reducido los costos de mantenimiento de los clientes y el
tiempo de inactividad general, cada uno hasta en un 40%.
102. Escuchemos al vicepresidente senior y CIO de Navistar, Terry Kline, describir los
resultados que han tenido haciendo mantenimiento predictivo en la plataforma Cloudera.
103. Construimos camiones pesados, semirremolques, camiones medianos y
autobuses escolares.
104. A los conductores de camiones se les paga, a los transportistas de carga se les
paga si los camiones se mueven
105. por lo tanto, si los camiones no se mueven, nadie está ganando dinero y alguien
no está recibiendo un paquete que esperan, por lo que nuestro enfoque completo está
en el tiempo de actividad.
106. Gran parte del valor que obtenemos para nuestros clientes podría no ser de big
data, tenemos 330,000 vehículos que esperamos agregar un par de cientos de miles
más aquí, tal vez incluso antes de fin de año.
107. Estamos utilizando las herramientas de Cloudera SDX para hacer aprendizaje
automático, para predecir cuándo fallarán las piezas.
108. Hemos visto una reducción del 30, 35, 40 por ciento en el mantenimiento porque
ahora puede hacer una reducción planificada versus no planificada.
109. Vemos una reducción del 80 por ciento en las averías catastróficas.
110. Antes de ir a Cloudera perdíamos datos, no siempre podíamos capturar datos,
no podíamos mantener todos nuestros datos.
111. Tenemos una serie de aplicaciones diferentes que se ejecutan después de
nuestros datos todos los días, desde conductores de camiones hasta concesionarios,
padres y estudiantes que viajan en los autobuses escolares.
112. y Cloudera SDX es clave para que eso suceda en Navistar.
113. SDX es fundamental en la forma en que rastreamos y gobernamos nuestros
datos y protegemos los datos del propietario del camión.
114. Creemos que no hay ninguna razón por la que no podamos conseguir un camión
que nunca tenga una rutina de mantenimiento no planificada,
115. por lo que estamos absolutamente enfocados en cero tiempo de inactividad
relacionado con eventos no planificados.
116. Fin de la transcripción. Saltar al principio
1. CDP no es solo una nueva plataforma, es un nuevo tipo de plataforma.
2. Para comprender completamente en qué se diferencia, ayudará si defino algunos
términos y explico brevemente los conceptos básicos de cómo se implementó
originalmente Apache Hadoop,
3. un enfoque conocido como "ejecutándose en bare metal" porque se implementó
directamente en los servidores.
4. Seguiré esta explicación describiendo cómo la arquitectura ha cambiado con el tiempo
como resultado de tendencias importantes, como la virtualización y la contenedorización.
5. Hadoop fue diseñado para aprovechar la forma en que las computadoras se
implementan normalmente en un centro de datos.
6. Estos son servidores estándar, fácilmente disponibles en Dell, HP, IBM y otros
proveedores de hardware.
7. Están montados en un bastidor de centro de datos, aproximadamente del tamaño de un
refrigerador, generalmente con un conmutador de red en la parte superior para una
comunicación eficiente entre las máquinas.
8. Las implementaciones más grandes pueden tener docenas de bastidores similares,
todos conectados por otro conmutador de red.
9. Hadoop resuelve grandes problemas aprovechando el poder colectivo de estos
servidores.
10. Un grupo de servidores que utilizan el software Hadoop para trabajar juntos se denomina
clúster, y cada servidor dentro de ese clúster a menudo se denomina nodo.
11. Un clúster pequeño puede tener solo unos pocos nodos, mientras que uno grande puede
tener varios miles.
12. Independientemente del tamaño, hay dos tipos de nodos en el clúster.
13. En términos de procesamiento, los nodos maestros son responsables de dividir los
trabajos grandes en tareas más pequeñas, asignar tareas para el procesamiento y
rastrear el estado de esas tareas.
14. Los nodos de trabajo son los que realmente hacen el trabajo de procesamiento.
15. Un clúster generalmente tendrá un nodo maestro, o a menudo dos para alta
disponibilidad, mientras que todos los demás nodos de ese clúster serán trabajadores.
16. Hadoop no solo utiliza los nodos para la potencia de procesamiento, lo que se conoce
como computación, sino que también los utiliza para almacenar datos.
17. El sistema de archivos distribuido de Hadoop, conocido como HDFS, funciona dividiendo
los datos en pequeñas partes y replicando copias en múltiples nodos para mayor
rendimiento y confiabilidad.
18. Este enfoque funciona muy bien para el metal desnudo, pero una tendencia importante
que ganó impulso en esta época fue la virtualización,
19. lo que significaba que ya no había una relación uno a uno entre el hardware del servidor
y los nodos del clúster.
20. La virtualización funciona abstrayendo detalles del hardware físico real en una "máquina
virtual", a menudo denominada VM.
21. La instalación de software de virtualización en la parte superior del sistema operativo del
servidor le permite alojar varias máquinas virtuales en un solo servidor.
22. Cada máquina virtual tiene su propio sistema operativo y conjunto de aplicaciones y, por
lo tanto, está aislada de cualquier otra máquina virtual que se ejecute en ese servidor.
23. La tendencia de la virtualización comenzó en el centro de datos, ya que el software de
virtualización de VMWare y otros proveedores se adoptó ampliamente.
24. A las empresas que ya habían virtualizado su hardware les resultó relativamente fácil
migrar sus máquinas virtuales a la nube.
25. De hecho, el popular servicio EC2 de Amazon es simplemente una forma de ejecutar
máquinas virtuales en su entorno de nube, y Microsoft ofrece un servicio similar llamado
Azure Virtual Machines.
26. Muchos de nuestros clientes hoy en día ejecutan sus clústeres en máquinas virtuales
utilizando esos servicios.
27. La virtualización es una tecnología valiosa y, si bien proporciona un gran aislamiento
entre las máquinas virtuales, también consume una gran cantidad de recursos del
sistema.
28. Esto se debe a que cada máquina virtual contiene su propio sistema operativo, además
del sistema operativo que se ejecuta en la máquina física subyacente.
29. Además, pueden transcurrir varios minutos entre el momento en que inicia una máquina
virtual y cuando está disponible,
30. principalmente porque el sistema operativo de las máquinas virtuales tiene que arrancar
y realizar otras tareas de inicio antes de poder ejecutar las aplicaciones.
31. Una tecnología más nueva llamada contenedorización ofrece una alternativa a esto.
32. En lugar de tener su propia copia del sistema operativo, como lo hacen las máquinas
virtuales, todos los contenedores comparten el sistema operativo con el servidor
subyacente.
33. Los contenedores solo necesitan las bibliotecas y dependencias que requieren las
aplicaciones que se ejecutan dentro de ellos.
34. Esto significa que los contenedores son más pequeños que las máquinas virtuales y
usan menos memoria.
35. También son más rápidos de iniciar y detener, porque no necesitan arrancar un sistema
operativo completo.
36. El software más popular para alojar contenedores es una aplicación de código abierto
llamada Docker.
37. Se usa con frecuencia junto con otra popular aplicación de código abierto llamada
Kubernetes, que se utiliza para tareas de orquestación, como el escalado y la
administración de los contenedores.
38. Una forma en que CDP difiere de las plataformas anteriores es que utiliza las
tecnologías de contenedorización,
39. además de la virtualización, con el fin de ofrecer versatilidad, flexibilidad y rendimiento.
40. Ahora que ha visto cómo la arquitectura básica del sistema ha cambiado a través de los
años, explicaré qué es CDP.
41. Pero primero, explicaré lo que no es.
42. CDP no es solo una nueva versión del software que hemos estado enviando durante
años.
43. CDP no es solo una versión de "unidad" que combina las mejores partes de las
plataformas anteriores de Cloudera y Hortonworks.
44. CDP definitivamente reúne las mejores partes de esas plataformas, incluidas las
herramientas que simplifican la administración y las operaciones,
45. así como proporcionar nuevas capacidades netas a nuestros clientes.
46. Pero es mucho más que eso.
47. De hecho, CDP no es solo un solo producto.
48. Como explicaré en un momento, es una combinación de software y servicios que
funcionan juntos.
49. para proporcionar una experiencia consistente desde el centro de datos hasta la nube, y
en cualquier lugar intermedio.
50. CDP se ejecuta donde usted lo hace.
51. Es la primera implementación mundial de Enterprise Data Cloud.
52. Cloudera Data Platform combina componentes de tiempo de ejecución con servicios en
la nube
53. y un marco de gestión de datos unificado para proporcionar acceso de forma segura a
los datos que necesita, cuando y donde los necesita.
54. Voy a presentarle los bloques de construcción que componen CDP, para que comprenda
lo que hacen y cómo contribuyen a la plataforma en su conjunto.
55. Fin de la transcripción. Saltar al principio
56. Inicio de la transcripción. Saltar hasta el final.
57. Cloudera Runtime es nuestra nueva distribución de componentes de código abierto,
58. que proporcionan las API y herramientas que utilizan las aplicaciones para ingerir,
almacenar, procesar, analizar y administrar datos.
59. Debido a la innovación continua que es posible gracias a nuestro modelo de desarrollo
en la nube,
60. podemos crear, mejorar e implementar nuevas funciones en Cloudera Runtime a un
ritmo que antes no era posible.
61. Cloudera Runtime incluye varios componentes de Big Data desarrollados por la
comunidad de código abierto.
62. Esto incluye Apache Hadoop, Hive, Impala, Spark, Kudu, Ranger, Atlas y muchos otros.
63. Cada componente de Cloudera Runtime desempeña un papel en la plataforma general;
64. por ejemplo, Apache Hive e Impala proporcionan la compatibilidad con SQL necesaria
para los casos de uso de data warehouse y data mart,
65. mientras que Apache Ranger y Atlas los complementan aportando funciones de control
de acceso y gobierno de datos.
66. Cloudera Runtime es el resultado de reunir las distribuciones Cloudera CDH y
Hortonworks HDP.
67. Ofrece la mejor de las tecnologías que proporcionaban estas distribuciones anteriores,
así como nuevas innovaciones que antes no estaban disponibles en ninguna de las
plataformas.
68. Ya sea que se ejecute en las instalaciones, en una nube privada o en una nube pública,
es la base de CDP.
69. Después de evaluar las plataformas CDH y HDP, nuestro equipo de productos reconoció
que se superponen en algunos lugares.
70. En lugar de dividir los recursos de ingeniería entre dos productos similares,
71. por lo general, seleccionaban lo que sentían que era el mejor componente, lo que nos
permitía dirigir todos nuestros esfuerzos detrás de ellos.
72. Un ejemplo de esto es una tecnología llamada Apache Sentry, que se utiliza para el
control de acceso basado en roles.
73. Comenzando con CDP, reemplazaremos esto con Apache Ranger, que es una
herramienta más poderosa que ofrece control de acceso basado en atributos,
74. filtrado dinámico de filas y enmascaramiento dinámico de columnas para datos
confidenciales.
75. En otros casos, han optado por retener dos componentes similares, a menudo porque
cada una de esas herramientas es sustancialmente la mejor opción para un caso de uso
particular.
76. Quizás el ejemplo más obvio de esto sería Apache Impala y Hive LLAP.
77. Debido a que ambas son herramientas para realizar consultas SQL, pueden parecer
equivalentes entre sí a primera vista.
78. Sin embargo, reconocemos que Hive suele ser una mejor opción para los casos de uso
de optimización de almacenes de datos empresariales, que implican grandes uniones y
cargas de trabajo de estilo analítico.
79. Por el contrario, Apache Impala es la mejor opción para los casos de uso de data mart,
que involucran consultas interactivas de inteligencia empresarial.
80. Hemos retenido ambos porque queremos que nuestros clientes tengan la libertad de
elegir la mejor herramienta para el trabajo y explorar nuevas opciones posibles gracias a
la otra herramienta.
81. Hemos realizado actualizaciones en prácticamente todos los componentes de Cloudera
Runtime, y dado que continuaremos actualizándolo para reflejar las últimas versiones de
los proyectos ascendentes,
82. Le recomiendo que consulte la documentación de Cloudera para obtener detalles sobre
los componentes incluidos en una versión específica de CDP.
83. También puede considerar ver el seminario web de hoja de ruta de la plataforma más
reciente para obtener orientación adicional.
84. Fin de la transcripción. Saltar al principio
85. Inicio de la transcripción. Saltar hasta el final.
86. En el corazón de la plataforma está SDX: la experiencia de datos compartidos.
87. Esta es la capa de acceso y control de datos que proporciona seguridad y gobernanza
coherentes para todas las aplicaciones que se ejecutan dentro de CDP, en todas las
ubicaciones, tanto en las instalaciones como en la nube.
88. Es útil pensar en CDP como dos partes distintas que trabajan juntas.
89. La parte más visible es aquella con la que la mayoría de las personas, incluidos los
científicos de datos, ingenieros y analistas, interactuarán regularmente para realizar su
trabajo.
90. Hay otra parte que es menos visible para esos usuarios, pero igual de importante.
91. El plano de control es la base de las operaciones relacionadas con la administración e
implementación de servicios.
92. Es un marco de gestión integrado que aumenta la productividad de los administradores y
administradores de datos,
93. lo que facilita más que nunca la administración de datos, el aprovisionamiento de
recursos, el control del acceso y el soporte de implementaciones híbridas y replicación
de datos,
94. todo ello al tiempo que se garantiza que las cargas de trabajo se ejecuten de manera
eficiente.
95. Al igual que el resto de la plataforma, también depende de SDX.
96. El plano de control se compone de varios servicios que trabajan juntos para proporcionar
acceso a los datos correctos,
97. por las personas que lo necesitan, donde lo necesitan, y hacerlo de forma segura
y con el mejor rendimiento posible.
98. Cuando lo piensas, es el plano de control el que en última instancia permite que todos
los usuarios sean productivos,
99. desde los administradores que administran los sistemas hasta los usuarios de línea de
negocio que dependen de ellos.
100. Data Catalog es un servicio relacionado con SDX dentro de Cloudera Data
Platform
101. que permite a los administradores de datos buscar, comprender, organizar,
proteger y gobernar los activos de datos en todos los entornos CDP.
102. Replication Manager es una herramienta de administración, utilizada
principalmente por los administradores, para replicar y migrar datos, metadatos y
políticas entre sus entornos CDP.
103. Workload Manager es una herramienta de administración, utilizada
principalmente por administradores de bases de datos y otras personas involucradas en
la gestión del rendimiento,
104. para analizar, solucionar problemas y optimizar las cargas de trabajo dentro y
entre entornos.
105. Esto les permite mejorar el rendimiento de la carga de trabajo, así como reducir
los costos.
106. Management Console proporciona a los administradores un único panel para
administrar todos los clústeres en todos los entornos.
107. Además de la interfaz basada en web, también proporciona una interfaz de línea
de comandos y API
108. que permiten a los administradores automatizar tareas comunes, lo que puede
aumentar su productividad.
109. Fin de la transcripción. Saltar al principio
110. Inicio de la transcripción. Saltar hasta el final.
111. A diferencia de la versión anterior de las plataformas de Cloudera u Hortonworks,
la plataforma CDP estará disponible en tres formatos diferentes:
112. CDP Public Cloud, CDP Data Center y CDP Private Cloud.
113. Cada uno de estos está optimizado para un tipo particular de implementación.
114. Como su nombre lo indica, CDP Public Cloud se ejecuta en una infraestructura
de nube pública.
115. Clientes que prefieren ejecutar CDP en infraestructura de nube privada, o
directamente en su propio hardware en un centro de datos local,
116. podrá hacerlo a través de CDP Private Cloud y CDP Data Center.
117. Aquellos que se ejecutan en múltiples entornos se beneficiarán del soporte de
nube híbrida de CDP.
118. CDP Public Cloud es nuestra versión de plataforma como servicio de CDP.
119. Está optimizado para el tiempo de valoración, ya que no requiere que compre y
aprovisione hardware, ni siquiera instale ningún software.
120. CDP Public Cloud proporciona experiencias de autoservicio para tipos
específicos de cargas de trabajo, como el almacenamiento de datos o el aprendizaje
automático, lo que permite a los usuarios empresariales ponerse a trabajar rápidamente.
121. También proporciona a TI herramientas para administrar los costos de la nube a
través del escalado adaptable y los límites de recursos definidos por el administrador.
122. CDP Public Cloud representa un cambio importante de las plataformas CDH y
HDP, que tendían a favorecer las implementaciones "bare metal".
123. Por el contrario, CDP Public Cloud se ejecuta en su VPC, o Virtual Private Cloud,
dentro de uno de los principales proveedores de nube pública.
124. Su arquitectura nativa de la nube aprovecha tanto la virtualización como la
contenedorización, lo que le brinda la versatilidad para manejar múltiples tipos de cargas
de trabajo.
125. y escalar la potencia de cómputo hacia arriba o hacia abajo, según sea
necesario, para equilibrar tanto las demandas de rendimiento como los costos asociados
con esas cargas de trabajo.
126. Las implementaciones de CDH y HDP favorecieron el modelo original de Hadoop
de almacenar datos en los mismos sistemas donde se procesan esos datos.
127. Si bien esto proporciona un buen rendimiento para muchos casos de uso, CDP
favorece la separación del almacenamiento y la computación,
128. porque hacerlo proporciona beneficios que a menudo son más importantes que
el rendimiento, como la flexibilidad, el aislamiento de las cargas de trabajo y la
elasticidad.
129. CDP Public Cloud está diseñado para trabajar con datos en el almacén de
objetos de su proveedor de nube, como Amazon S3.
130. Debido a que CDP Public Cloud le permite comenzar rápidamente y escalar la
capacidad según sea necesario, es una buena opción para desarrollar nuevas
aplicaciones.
131. y migrar aplicaciones existentes desde clústeres locales que ya tiene.
132. También es perfecto para cargas de trabajo intermitentes o transitorias, como las
que ejecuta durante solo unos minutos u horas por día, porque solo paga por lo que usa.
133. Antes de pasar a los otros dos tipos de implementaciones, me gustaría
mencionar brevemente el concepto de entornos en CDP.
134. Un entorno define dónde CDP creará y accederá a los recursos en su cuenta de
proveedor de nube.
135. Dado que la mayoría de las tareas en CDP dependen de esto, una de las
primeras cosas que un administrador hará en CDP es registrar un entorno.
136. Esto proporciona a CDP el acceso del proveedor de nube que necesita para
realizar operaciones en nombre de los usuarios, como el aprovisionamiento de clústeres.
137. El administrador puede registrar tantos entornos como sea necesario.
138. Esperamos que los administradores registren con frecuencia más de uno; por
ejemplo, en diferentes regiones, o con diferentes proveedores de nube en conjunto.
139. Por cierto, la versión inicial de CDP Public Cloud es compatible con Amazon
Web Services, y la compatibilidad con Microsoft Azure sigue rápidamente.
140. También hemos anunciado planes para CDP Public Cloud en Google Cloud
Platform.
141. Le recomiendo que consulte la documentación de Cloudera para obtener una
lista completa de los proveedores de nube compatibles
142. y consulte la hoja de ruta de la plataforma para obtener orientación sobre los
planes futuros para CDP Public Cloud.
143. CDP Private Cloud comparte muchos rasgos con CDP Public Cloud.
144. Utiliza una arquitectura nativa de la nube, lo que le permite proporcionar las
herramientas de plano de control y las experiencias de análisis de autoservicio que se
encuentran en CDP Public Cloud.
145. Por lo tanto, la experiencia para los usuarios debe ser muy similar,
independientemente de si están utilizando versiones de CDP en la nube pública o
privada.
146. En esencia, CDP Private Cloud es como una versión de CDP Public Cloud que
se ejecuta en la infraestructura de nube que usted proporciona,
147. en lugar de eso de uno de los principales proveedores de nube pública.
148. Aunque hemos anunciado nuestros planes para CDP Private Cloud, será el
último de los tres formatos que lancemos.
149. Consulte el seminario web más reciente de la hoja de ruta de la plataforma para
obtener información sobre la disponibilidad.
150. El otro formato es CDP Data Center, que a veces se abrevia como CDP-DC.
151. Es una versión descargable de la plataforma que puede instalar directamente en
sus propios servidores.
152. Esto es ideal para los clientes que desean ejecutar CDP en las instalaciones, en
máquinas virtuales o "bare metal", similar a lo que han estado haciendo con CDH y HDP
durante años.
153. Debido a que no se basa en la arquitectura nativa de la nube que se encuentra
en CDP Public o Private Cloud,
154. no hay experiencias de autoservicio ni servicios de plano de control en CDP Data
Center.
155. Sin embargo, la similitud en la arquitectura con sus predecesores, CDH y HDP,
proporcionan tanto una ruta de actualización como una ruta de migración.
156. También podrá registrar estos clústeres con CDP Public Cloud, lo que le
permitirá replicar datos entre su clúster local y sus implementaciones en la nube,
157. así como aprovechar otras capacidades de nube híbrida posibles a través de
SDX.
158. Una cosa que los administradores notarán es que, comenzando con CDP,
159. hemos estandarizado Cloudera Manager como la herramienta preferida para
administrar clústeres de centros de datos y centros de datos.
160. Los administradores que tengan experiencia con Apache Ambari, la herramienta
de administración estándar para la plataforma HDP, se beneficiarán de las capacidades
disponibles en Cloudera Manager,
161. como soporte para múltiples clústeres, clústeres privados virtuales, configuración
de cifrado de cables automatizado y flujos de trabajo de mantenimiento optimizados.
162. Fin de la transcripción. Saltar al principio
163. Inicio de la transcripción. Saltar hasta el final.
164. Data Hub es un servicio que le permite aprovisionar e implementar
rápidamente clústeres privados virtuales, personalizados para satisfacer los
requisitos de su aplicación.
165. Estos clústeres se ejecutan en máquinas virtuales en la nube y están diseñados
para usar el almacenamiento en la nube.
166. Esto simplifica el proceso de migración de cargas de trabajo locales existentes a
cdp public o private cloud.
167. Los clústeres de Data Hub son administrados por Cloudera Manager.
168. Esto significa que los administradores encontrarán que son una forma
conveniente de configurar un clúster que funciona de manera muy similar al bare metal.
169. o implementaciones de máquinas virtuales que han estado usando durante años.
170. Entre las nuevas características que apreciarán se encuentran la capacidad de
usar plantillas predefinidas y planos personalizados para crear rápidamente clústeres
con precisión,
171. así como para escalar esos grupos después.
172. Fin de la transcripción. Saltar al principio.
173. Inicio de la transcripción. Saltar hasta el final.
174. Si bien Data Hub está diseñado para un máximo control y flexibilidad, CDP
Public Cloud y CDP Private Cloud también admiten experiencias de autoservicio,
que están diseñadas para la agilidad.
175. Las implementaciones de CDP Public y Private Cloud se construyen sobre
tecnologías de contenedorización y orquestación, incluidas Docker y Kubernetes.
176. Esto permite proporcionar experiencias especializadas de plataforma como
servicio para tipos populares de cargas de trabajo, como Machine Learning y Data
Warehouse.
177. El resultado es una mayor agilidad para los usuarios, ya que estas aplicaciones
maximizan la productividad al dar a los equipos acceso instantáneo a las herramientas y
los datos que necesitan.
178. manteniendo la seguridad y operando dentro de los límites ajustables que los
administradores pueden establecer para administrar recursos y costos.
179. Estas experiencias son lo que podría llamarse ofertas "obstinadas", porque a
diferencia de Data Hub, no elige los componentes individuales utilizados para
aprovisionar los clústeres.
180. En su lugar, elige una de las experiencias de acuerdo con el tipo de trabajo que
necesita hacer, como el aprendizaje automático.
181. Nuestros equipos de productos, diseño e ingeniería han preseleccionado los
componentes relevantes, en función de los tipos de cargas de trabajo más populares
que ejecutan nuestros clientes.
182. Esto permite que su equipo se centre en la lógica empresarial en lugar de los
detalles de implementación, y le permite comenzar rápidamente, así como escalar
automáticamente a medida que cambian sus demandas.
183. CDP Public Cloud actualmente ofrece dos experiencias de autoservicio: Data
Warehouse y Machine Learning.
184. Esperamos agregar varios más, incluyendo Ingeniería de Datos y Base de Datos
Operacional, en los próximos meses.
185. Mientras tanto, puede usar la característica de plantillas en Data Hub para
implementar fácilmente clústeres para esos tipos de cargas de trabajo.
186.
187. Ahora que he explicado las partes básicas de CDP, es hora de verlo en acción
con un recorrido rápido por la interfaz de CDP.
188. Lo haré usando CDP Public Cloud, ya que eso me permitirá mostrar
herramientas como Management Console y Workload Manager,
189. así como la experiencia de Machine Learning de autoservicio.
190. CDP se integra con los principales proveedores de single-sign on o SSO,
como el sistema Okta utilizado por muchas corporaciones, incluida Cloudera.
191. El administrador me ha asignado un icono de Okta para CDP Public Cloud, así
que haré clic en él para iniciar sesión.
192. Esto abre la página de inicio de CDP Public Cloud en una nueva pestaña. Como
ya inicié sesión en Okta esta mañana, el soporte de inicio de sesión único integrado con
CDP me inicia sesión automáticamente.
193. No necesito escribir el nombre de usuario y la contraseña.
194. Lo primero que vemos al iniciar sesión en CDP Public Cloud es la página de
inicio, que nos da un acceso conveniente a las aplicaciones.
195. Los iconos que aparecen aquí variarán para cada usuario, dependiendo de su rol
y de las aplicaciones a las que se les permita acceder.
196. Hablando de seguridad, observe que la barra de direcciones del navegador
muestra el icono de candado.
197. La conexión es segura, de forma predeterminada, sin ningún esfuerzo por parte
del administrador.
198. Otra cosa a tener en cuenta es que hay un icono con mi nombre cerca de la
esquina inferior izquierda.
199. Al hacer clic en eso, se muestra el nombre y la dirección de correo electrónico
del usuario actual.
200. Debajo de eso, hay un enlace para el perfil de usuario.
201. Al hacer clic en esto, accedería a una página que muestra información sobre los
entornos y recursos disponibles,
202. así como información sobre mi nivel de acceso a otras partes de CDP.
203. También puedo generar una clave de acceso desde esa página, que luego
podría usar para automatizar las mismas tareas que realizaría a través de la interfaz
basada en Web,
204. como el aprovisionamiento de un clúster de data hub o un área de trabajo de
aprendizaje automático.
205. Justo debajo del enlace del perfil hay otro enlace que puedo usar para cerrar
sesión en el sistema.
206. Las sesiones de usuario activas agotan automáticamente el tiempo de espera
después de un período de inactividad, pero para mayor seguridad, puedo hacer clic en
este enlace para cerrar sesión manualmente cuando lo desee.
207. Bien, ahora haré clic en una de las aplicaciones.
208. Comenzaré con la Consola de Administración, ya que esto me permitirá
mostrarle algunas cosas importantes.
209. Como puede ver, la vista ha cambiado para mostrar dos partes.
210. A la derecha, tengo la aplicación en sí, que ocupa la mayor parte de la pantalla.
211. A la izquierda, tengo una barra lateral que facilita la navegación dentro de esta
aplicación.
212. En la parte superior de la barra lateral, puedo ver mi aplicación actual, que es la
Consola de administración.
213. Justo a la izquierda del nombre de la aplicación, hay un icono de cuadrícula.
214. Al hacer clic en eso, se me muestra una lista de las mismas aplicaciones que
estaban en la página de inicio, así como un enlace que me llevaría de vuelta a esa
página.
215. Debajo de eso, tengo un enlace al tablero, que mostraré en un momento.
216. Puede ver por el resaltado en la barra lateral que "Entornos" está seleccionado, y
en la parte principal de la pantalla, veo una lista de entornos disponibles.
217. El siguiente enlace en la consola de administración me permite ver y administrar
lagos de datos,
218. que son servicios SDX que proporcionan autenticación, autorización y soporte de
gobierno para datos en el almacén de objetos del proveedor de la nube.
219. A esto le siguen otros vínculos que me permiten administrar cuentas de usuario,
ver y aprovisionar clústeres de data hub y trabajar con almacenes de datos y áreas de
trabajo de aprendizaje automático.
220. Finalmente, hay un enlace que me permite ver los clústeres clásicos; Es decir
221. los clústeres CDH o HDP existentes que se ejecutan en mi centro de datos y que
he registrado en la consola de administración.
222. Esto me permitirá replicar datos y cargas de trabajo desde ellos a los clústeres
que se ejecutan en mis entornos CDP.
223. Cerca de la parte inferior de la barra lateral, tengo el ícono de perfil que mostré
anteriormente, y justo encima de eso, hay un ícono que muestra ayuda sensible al
contexto.
224. Al hacer clic en eso, no solo se muestra la ayuda, sino que también se incluyen
vínculos a otros recursos útiles, como soporte, documentación y los foros de la
comunidad.
225. En la parte inferior de la barra lateral, hay un icono con dos flechas apuntando a
la izquierda.
226. Al hacer clic en esto, puede alternar entre mostrar la barra lateral en su vista
normal y una vista más compacta,
227. lo cual es útil si está trabajando en una computadora portátil o una pantalla
pequeña, y desea maximizar el área disponible para la aplicación que está utilizando.
228. Como verá a medida que continúo mi recorrido por CDP, los elementos de la
interfaz de usuario que he descrito aparecerán en casi todas las páginas.
229. La atención de nuestro equipo de diseño a la experiencia del usuario hace que
CDP sea más fácil de aprender y navegar.
230. Ahora haré clic en el enlace Panel de control de la consola de administración en
la barra lateral.
231. Esto trae una visión mundial de todos los entornos CDP, así como los clústeres
CDH y HDP, que mis compañeros de trabajo y yo hemos registrado.
232. Actualmente tengo uno en Japón, uno en India, uno en Irlanda y varios en los
Estados Unidos.
233. Me acercaré a ellos.
234. Aquí puedo ver que hay un clúster de CDH local que se ejecuta en Dallas,
Texas.
235. También tengo un clúster HDP ejecutándose en Tacoma, Washington.
236. Veamos cuántos ambientes se registran en el norte de California.
237. Veo que actualmente tenemos cinco de ellos ejecutándose en esta región de
proveedor de nube.
238. Bien, ahora que he mostrado un poco de la consola de administración, le
mostraré los conceptos básicos de una de las experiencias de autoservicio en CDP.
239. Elegiré Machine Learning para este ejemplo.
240. Esto nos lleva a una lista de espacios de trabajo de aprendizaje automático.
241. Estos son esencialmente clústeres optimizados para el aprendizaje automático,
que los equipos de ciencia de datos utilizan para colaborar en proyectos.
242. Hay muchos equipos de ciencia de datos en Cloudera, por lo que tenemos
bastantes espacios de trabajo en este momento.
243. Sin embargo, no hay uno para mi equipo,
244. así que crearé uno para mostrarle lo fácil que es para un administrador o usuario
avanzado aprovisionar acceso a Cloudera Machine Learning para un equipo de ciencia
de datos.
245. Las únicas dos piezas de información que debo especificar son un nombre para
el espacio de trabajo y el entorno que quiero usar.
246. También hay algunas opciones avanzadas que puedo especificar para
personalizar aún más mi espacio de trabajo.
247. Estas opciones incluyen la capacidad de equilibrar el rendimiento y el costo.
248. seleccionando un tipo de instancia del proveedor de la nube que coincida con
mis requisitos de potencia de procesamiento y memoria,
249. no solo desde la unidad central de procesamiento, o CPU, sino también para la
unidad de procesamiento de gráficos, o GPU.
250. Esta es una característica importante para un rendimiento óptimo con el
aprendizaje automático, ya que la GPU puede realizar ciertos tipos de operaciones
matemáticas muy rápidamente.
251. Además de especificar el tipo de instancia para CPU y GPU, también puedo
establecer los límites superior e inferior del escalado automático para cada uno.
252. Después de aprovisionar un área de trabajo y hacer clic en su vínculo en la
pantalla principal de áreas de trabajo de aprendizaje automático, esa área de trabajo se
abrirá en una nueva pestaña.
253. Actualmente estoy en un espacio de trabajo vacío, donde puedo comenzar mi
proyecto de ciencia de datos.
254. Tengo mucha flexibilidad a la hora de crear un nuevo proyecto de Machine
Learning.
255. De forma predeterminada, la opción para comenzar desde una plantilla está
seleccionada.
256. Esto me proporcionará algunos archivos de muestra, en mi lenguaje de
programación preferido, para usar como punto de partida.
257. También hay opciones para crear un proyecto a partir de archivos locales, que
puede cargar en Cloudera Machine Learning desde esta página,
258. así como importar un archivo desde un popular sistema de control de versiones
conocido como Git.
259. Le daré un nombre a mi proyecto y, para este ejemplo, elegiré el popular
lenguaje de programación Python como base de mi proyecto.
260. Después de hacer clic en el botón, el proyecto se crea casi al instante.
261. Desde que creé este proyecto a partir de una plantilla, generó algunos scripts de
Python para ayudarme a comenzar.
262. Haré clic en el primero de estos scripts.
263. Como puede ver, Cloudera Machine Learning tiene soporte completo para el
resaltado de sintaxis, lo que hace que el código sea fácil de leer y los errores más fáciles
de detectar.
264. Si quisiera editar y ejecutar este código, simplemente tendría que hacer clic en el
botón "Abrir en Workbench" cerca de la esquina superior derecha.
265. Dado que esto se entiende como un recorrido rápido por la interfaz de usuario de
CDP, lo omitiré por ahora y pasaré a Data Hub.
266. Debido a que el área de trabajo de aprendizaje automático se abrió en una
nueva pestaña del explorador, puedo volver a la lista de todas las áreas de trabajo
cerrando esa pestaña.
267. Ahora, haré clic en el vínculo Clústeres de centros de datos en la barra lateral.
268. Esto me muestra una lista de todos los clústeres de Data Hub, en todos los
entornos.
269. Cada uno de estos muestra una vista de resumen que me permite ver
rápidamente qué entorno y proveedor de nube están utilizando,
270. qué versión de Cloudera Runtime se utilizó para crearlos, cuántos nodos han
aprovisionado y la fecha y hora en que se crearon.
271. Puedo ver los detalles de un clúster específico de Data Hub haciendo clic en él
desde aquí.
272. Como podemos ver aquí, este clúster de Data Hub se creó a partir de la plantilla
de Ingeniería de Datos,
273. que especifica un conjunto particular de servicios que son una buena opción
para el procesamiento de ETL,
274. que trae datos de varias fuentes y realiza transformaciones que enriquecen,
simplifican o mejoran el conjunto de datos.
275. Este clúster en particular tiene un nodo maestro y tres nodos de trabajo, pero
podemos cambiar fácilmente el tamaño para agregar más nodos de cualquier tipo.
276. La página del clúster del centro de datos tiene vínculos a interfaces de usuario
basadas en web para los servicios que se ejecutan en el clúster,
277. como Apache Spark y el cuaderno Zeppelin que los ingenieros de datos podrían
usar para escribir código para Spark.
278. También hay un enlace a la instancia de Cloudera Manager que el administrador
puede usar para administrar este clúster.
279. Ahora volveré a la lista de entornos.
280. Ordenaré los entornos por nombre, para que la lista sea más fácil de navegar.
281. También podría usar la función de búsqueda justo encima de la tabla para
localizar una en particular en función de su nombre.
282. Una vez que elijo un entorno específico, puedo ver todos los clústeres de Data
Hub que se ejecutan en él.
283. Este entorno tiene dos clústeres, uno que no se pudo crear debido a un error de
configuración y un clúster de cuatro nodos para ejecutar cargas de trabajo de ingeniería
de datos.
284. Si hiciera clic en el enlace de ese clúster, vería una vista detallada, al igual que
vimos para el clúster hace un momento.
285. En su lugar, demostraré lo fácil que es para un administrador crear un nuevo
clúster de Data Hub.
286. Al crear un clúster de Centro de datos, tiene dos opciones para especificar qué
servicios estarán disponibles.
287. La primera es seleccionar una definición de clúster de una de las plantillas
predefinidas de Cloudera, como Ingeniería de datos o Base de datos operativa.
288. La segunda opción es seleccionar una definición de clúster personalizada de
entre las que ha definido,
289. que no solo le permite especificar los servicios, sino que también le permite
seleccionar una versión específica de Cloudera Runtime utilizada para construir ese
clúster.
290. Este es un beneficio importante sobre un clúster clásico con CDH o HDP, ya que
con frecuencia son compartidos por muchas aplicaciones propiedad de diferentes
equipos.
291. que cada uno necesita probar y aprobar actualizaciones.
292. Al aislar cada aplicación en un clúster de data hub independiente,
293. esos clústeres se pueden actualizar de forma independiente, sin dejar de
compartir los mismos datos subyacentes a través de la potencia de SDX.
294. En este ejemplo, seleccionaré la plantilla predefinida para Base de datos
operativa,
295. que incluye HBase, un almacén clave-valor altamente escalable que es una
buena opción para almacenar datos de eventos de aplicaciones,
296. como los flujos de clics o los detalles de la interacción del usuario en las
aplicaciones móviles, lo que los hace disponibles para el análisis.
297. Para los momentos en que necesito aún más control sobre la definición del
clúster, puedo alternar las opciones avanzadas,
298. lo que me permite usar imágenes personalizadas para las máquinas virtuales
que sirven como nodos en mi clúster de Data Hub,
299. así como seleccionar un tipo de instancia para esas máquinas virtuales con el fin
de cambiar la cantidad de potencia de procesamiento y memoria que tendrá cada nodo.
300. Para aprovisionar este clúster, simplemente tendría que hacer clic en ese botón
azul en la parte inferior de la pantalla.
301. Dado que este es un recorrido rápido por la interfaz de usuario, no lo haré ahora.
302. En su lugar, aprovecharé la oportunidad para presentarle brevemente el
Administrador de carga de trabajo.
303. La página principal de Workload Manager me muestra todos los clústeres
disponibles.
304. Elegiré uno de los clústeres de Data Hub que un compañero de trabajo había
configurado como un data mart de inteligencia empresarial.
305. Esto me muestra un resumen del rendimiento del clúster seleccionado.
306. Lo primero que noto aquí es un gráfico que muestra la tendencia general de
rendimiento, que clasifica las consultas lentas o fallidas contra todas las consultas que
ejecutaron los usuarios.
307. La sección Análisis de uso muestra quiénes son los usuarios más activos, y el
menú desplegable me permite ver rápidamente qué usuarios están utilizando la mayoría
de los recursos.
308. La sección Consultas clasifica a los 10 usuarios principales, ya sea por el
número de consultas que cada uno ejecutó o por la cantidad total de memoria y potencia
de procesamiento que utilizaron.
309. También puedo analizar el uso por grupo de recursos o base de datos, además
de analizarlo por usuario.
310. Al desplazarnos por la página de resumen de Workload Manager, podemos ver
varios otros gráficos útiles.
311. Cerca de la esquina inferior derecha, Workload Manager muestra que ha
identificado algunas consultas que tienen un rendimiento subóptimo.
312. Además de mostrarme cuántos había, también los categoriza por tipo.
313. Al hacer clic en uno de esos tipos, podré ver las consultas específicas,
314. haciendo que sea fácil encontrar los que serían la mejor opción para pasar mi
tiempo tratando de optimizar para un mejor rendimiento.
315. Cerca de la esquina inferior izquierda, veo que Workload Manager también ha
identificado consultas que han fallado y las ha categorizado en función de por qué
fallaron.
316. En este ejemplo, está claro que la razón más común para el error es la
autorización, que indica que los usuarios están intentando consultar datos a los que no
se les ha concedido acceso.
317. Al igual que con las consultas subóptimas, hacer clic en una de las categorías
me lleva a una página que enumera las consultas específicas que caen en esa
categoría.
318. Lo haré aquí con Excepciones de autorización.
319. Al apuntar al icono de excepción para una consulta específica, podemos ver la
causa de esa excepción.
320. Tal como se sospecha, este fue causado por un usuario que intentó consultar
datos a los que no estaba autorizado a acceder.
321. Ahora le he presentado la interfaz de usuario de CDP Public Cloud.
322. Mostraré más de ello, incluida una cobertura más profunda de las experiencias
de almacenamiento de datos y aprendizaje automático, más adelante en este curso.
323. Mientras tanto, quiero mostrar muy brevemente la interfaz de usuario para
administrar un clúster de CDP Data Center.
324. Incluso antes de iniciar sesión, puede ver que comparte una apariencia común
con CDP Public Cloud.
325. Después de iniciar sesión, las similitudes con la interfaz de usuario de CDP
Public Cloud son aún más evidentes.
326. Por ejemplo, puedo ver el icono de perfil de usuario cerca de la parte inferior de
la pantalla.
327. Debajo de eso, tengo el mismo icono que me permite cambiar entre ver la barra
lateral completa y una vista compacta de ella.
328. La barra lateral también me proporciona un acceso conveniente a las
herramientas que me permiten supervisar y administrar este clúster, incluidos
diagnósticos, gráficos, auditoría y replicación.
329. Los administradores que tengan experiencia previa con Cloudera Manager
encontrarán que la administración de clústeres de CDP Data Center es una experiencia
familiar,
330. mientras que aquellos que lo están aprendiendo, o que ya están usando CDP
Public Cloud, encontrarán la interfaz de usuario intuitiva y fácil de aprender.
331.
1. Inicio de la transcripción. Saltar hasta el final.
2. Simplemente, la responsabilidad principal de los administradores son las operaciones.
3. Son responsables de instalar, monitorear y administrar los sistemas de procesamiento
de datos de los que depende la organización.
4. En el contexto de CDP, eso podría incluir uno o más clústeres de centros de datos CDP
o un servicio de nube privada CDP que se ejecute en el propio centro de datos de la
empresa.
5. También incluirá los servicios de nube pública CDP que utilizan.
6. Dependiendo del tamaño y la estructura de la organización, el rol de administrador
puede limitarse a las operaciones del cliente,
7. o podría incluir la supervisión y gestión de algunas o tal vez incluso todas las cosas
requeridas para una operación confiable.
8. Como hardware de servidor, redes, administración de cuentas de usuario y seguridad.
9. Si la organización solo usa la nube pública cdp, no habrá servidores físicos que
administrar.
10. pero el administrador podría seguir siendo responsable de administrar el acceso y la
conectividad con el proveedor de la nube.
11. Independientemente de si la organización se ejecuta en un centro de datos local, en la
nube o en ambos, el administrador también suele ser responsable de la copia de
seguridad y la recuperación ante desastres.
12. Permitir la continuidad del negocio ante fallas de la máquina, desastres naturales u otras
interrupciones.
13. El administrador también puede desempeñar un papel clave en la planificación de las
implementaciones y garantizar que el sistema tenga el tamaño correcto.
14. y ejecutarse en el máximo rendimiento en pleno cumplimiento de todos los acuerdos de
nivel de servicio que TI ha negociado con los equipos de negocio.
15. Ser capaz de hacer esto de manera efectiva requiere una comprensión fundamental de
cómo funciona el sistema, donde pueden ocurrir cuellos de botella típicos.
16. y cómo aislar y resolver problemas de rendimiento seleccionando configuraciones de
sistema que maximicen el rendimiento y la escalabilidad.
17. Además de entender la plataforma,
18. el administrador debe comprender las cargas de trabajo y los requisitos empresariales
de la organización para identificar riesgos y oportunidades.
19. Por ejemplo, considere una empresa con un trabajo crítico de informes semanales que
es demasiado lento, pero que se ejecuta en un clúster que está mayormente inactivo.
20. Un administrador que entiende tanto las capacidades de CDP como las
necesidades del negocio
21. reconocerá la oportunidad de mover esta carga de trabajo a la nube, donde puede
ejecutarse en un clúster mucho más grande durante un período de tiempo mucho más
corto.
22. Esto en realidad aumentaría el rendimiento y reduciría los costos, los cuales son
resultados valiosos para el negocio.
23. Entonces, ¿cuáles son algunos de los rasgos a buscar en un administrador?
24. Dado que la plataforma se ejecuta principalmente en servidores Linux, necesitarán
fuertes habilidades de administración del sistema en un entorno Linux.
25. También deberán comprender las características de rendimiento del hardware
subyacente,
26. con el fin de elegir configuraciones que proporcionen el mejor rendimiento para un tipo
particular de carga de trabajo.
27. Además, deben tener una sólida comprensión de las redes informáticas, así como de los
aspectos clave de la seguridad informática, como la autenticación y la autorización.
28. Finalmente, deben tener experiencia con uno o más sistemas de gestión de
configuración y lenguajes de scripting.
29. lo que les permitirá crear implementaciones confiables y repetibles de clústeres locales y
basados en la nube.
30. Cloudera ofrece cursos de capacitación para administradores, por lo que buscar a
alguien que haya asistido recientemente a uno de estos es una buena manera de
identificar a los solicitantes con conocimientos.
31. Un enfoque aún mejor es buscar candidatos que tengan una certificación actual de
Administrador de Cloudera,
32. porque este logro demuestra las habilidades del mundo real que los empleadores
valoran.
33. Independientemente de dónde se encuentre la organización en su viaje a la nube, es
una buena idea buscar a alguien que tenga experiencia con uno o más proveedores de
nube pública.
34. Esto asegurará que el administrador pueda ofrecer asesoramiento informado sobre los
aspectos técnicos de la estrategia de nubes.
35. Como proyectar las implicaciones de costo y rendimiento de mover una carga de trabajo
a la nube.
36. Le he pedido a Shaun Bierweiler que explique por qué el soporte en la nube es
importante para sus clientes.
37. Shaun, por favor comienza presentándote a nuestra audiencia.
38. Hola, Im Shaun Bierweiler, vicepresidente y gerente general del sector público aquí en
Cloudera y yo nos ocupamos de los negocios gubernamentales de la compañía.
39. ¿Cuáles son las principales ventajas de la nube con los clientes con los que trabaja?
40. Facilidad de uso y velocidad. Cuando piensas en el ciclo de adquisiciones tradicional en
el gobierno, es increíblemente largo y doloroso.
41. y por lo tanto, si observa una forma tradicional de levantar un entorno DEV o un piloto
rápido, debe adquirir el hardware, aprovisionar el hardware, instalar el software.
42. Semanas, meses y, en casos extremos, un año podrían pasar antes de que realmente
pueda darse cuenta del valor de la intención y, para entonces,
43. muchas veces, los casos de uso se superan y ya no son relevantes.
44. Por lo tanto, la velocidad para valorar, la velocidad para poder acceder a la computación
y el almacenamiento, y la velocidad para probar es una de las cosas en las que nuestros
clientes están más interesados.
45. La agilidad y elasticidad general para que no tengan que elegir exactamente qué pico de
cómputo van a tener.
46. Realmente les gusta esa conveniencia y les da la flexibilidad para aumentar.
47. ¿Por qué es importante para sus clientes el soporte híbrido y multinube en CDP?
48. Por lo tanto, una sola plataforma de datos, una sola arquitectura de datos que abarque
tanto en las instalaciones como en la nube y en esos proveedores de nube pública es
increíblemente clave.
49. Si observa la forma en que están explorando la ausencia del CDP, tiene arquitecturas de
datos individuales e individuales.
50. conjuntos de habilidades que se requieren para cada uno de esos factores de forma de
implementación.
51. Eso no es sostenible ni es económicamente factible para muchos de nuestros clientes.
Añade una mayor complejidad y
52. realmente los obliga a hacer concesiones de la pila en algunas de esas aplicaciones de
misión crítica o de alto valor.
53. Gracias, Shaun. Ahora es el momento de ver la consola de administración de CDP en
acción.
54. Jon, Senior Product Manager de Cloudera, nos lo va a demostrar.
55. OK, Jon, por favor hazle saber a nuestra audiencia lo que les vas a mostrar.
56. Voy a mostrarte hoy, cómo usar la consola de administración CDP como tu único panel
de vidrio
57. para administrar y monitorear un gran número de clústeres, repartidos en múltiples
proveedores de servicios en la nube y regiones.
58. Ahora, aprovechando la escalabilidad, la elasticidad y los recursos bajo demanda de la
nube, puede terminar con una gran cantidad de clústeres por múltiples razones.
59. Puede separar clústeres para el aislamiento de usuarios y también puede separar
clústeres con diferentes ciclos de vida,
60. algunos grupos pueden ser de naturaleza transitoria que solo están activos durante días,
semanas o incluso meses.
61. Algunos grupos pueden ser de larga vida y siempre activos. Y también es posible que
tenga grupos que son estacionales y solo están encendidos durante ciertas épocas del
año.
62. Así que comencemos en el panel de la consola de administración, esta es su vista global
de todos los entornos que ha configurado en sus proveedores de servicios en la nube y
regiones.
63. Si coloco el cursor sobre un entorno en particular,
64. Puedo ver la ubicación de este entorno, puedo ver todos los clústeres que están
configurados en este entorno y su estado.
65. Ahora, si me desplazo hacia abajo, puedo ver que tengo seis entornos configurados en
AWS,
66. Incluso puedo administrar y supervisar mis clústeres clásicos de CDH y HDP desde la
consola de administración y puedo ver que tengo un entorno configurado en Azure.
67. En la vista de lista puedo ver todos los clústeres que he configurado, qué proveedor de
nube y en qué ubicación se encuentran.
68. También puedo identificar rápidamente los clústeres en función de su estado que tienen
problemas o es posible que deba profundizar y tomar medidas correctivas.
69. Ahora si cambio a la página de entornos
70. Puedo ver todos los entornos que he configurado, en qué proveedor de nube se
encuentran, en qué ubicación se encuentran y su estado,
71. y el estado del lago de datos que se configura en ese entorno también.
72. Ahora si tienes un gran número de entornos te damos una gran capacidad de búsqueda
para que puedas buscar e identificar muy rápidamente el entorno en el que quieres
trabajar.
73. Así que profundicemos en este entorno en particular.
74. Así que aquí mismo puedo ver varias cosas,
75. Puedo ver el lago de datos que está configurado en este entorno y el estado de los
servicios configurados en el lago de datos, así que Atlas y Ranger aquí.
76. También puedo vincular a las interfaces de interfaz de usuario particulares para esos
servicios particulares.
77. Ahora en la vista de lista puedo ver todos los clústeres que están configurados en este
entorno
78. y nuevamente le brindamos excelente información de estado para que pueda identificar
rápidamente un clúster con un problema en el que necesito profundizar y tomar medidas
correctivas.
79. Ahora, si tiene una gran cantidad de clústeres configurados en este entorno en
particular, le damos nuevamente una gran capacidad de búsqueda para ayudarlo a
encontrar el clúster con el que desea trabajar.
80. Así que profundicemos en este grupo.
81. Así que este es un clúster de ingeniería de datos, y muy rápidamente puedo ver todos
los servicios que están configurados dentro de este clúster.
82. Y de nuevo puedo enlazar a la interfaz de usuario para ese servicio en particular.
83. También le damos un gran historial de eventos, esto le muestra todas las operaciones
que se han producido en el clúster.
84. Y si hay algún problema, le daremos información de estado para ayudarlo a identificar
cuál es el problema y tomar medidas correctivas.
85. Si cambio a la pestaña de hardware, puedo ver todos los diferentes nodos que se
ejecutan en este clúster y su estado particular.
86. Si expando uno de estos nodos, puedo ver la configuración de hardware para ese nodo
en particular.
87. Ahora, si cambio a la pestaña de almacenamiento en la nube,
88. Puedo ver para esto para un clúster en particular, todos los buckets y servicios de S3
que están aprovechando el almacenamiento en la nube, por ejemplo, el almacén de la
metatienda de colmena.
89. Si cambio a la pestaña de etiquetas, puedo ver todas las etiquetas que se han aplicado a
este clúster en particular si estamos administrando con etiquetas.
90. Ahora hay varias acciones que puede realizar en un clúster.
91. Entonces, por ejemplo, si es un clúster transitorio y ya no es necesario, puedo terminar
este clúster y lo eliminará y lo eliminará de mi entorno.
92. Si este es un clúster que solo necesita estar encendido durante ciertos períodos de
tiempo, puedo detenerlo y, a la inversa, puedo iniciarlo de nuevo cuando sea necesario.
93. Ahora si hago clic en el menú de acciones
94. Puedo cambiar el tamaño de este clúster.
95. Entonces, por ejemplo, si este es un tiempo de utilización pico y quiero agregar nodos de
cómputo a este clúster, puedo escalarlos fácilmente
96. y haga clic en cambiar el tamaño.
97. Y luego, a la inversa, si es un tiempo de utilización no pico para aprovechar el ahorro de
costos, puedo reducir este clúster.
98. También es importante tener en cuenta que todas estas acciones que puede realizar en
un clúster son scriptables, aprovechando la interfaz de línea de comandos CDP.
99. Con esto concluye nuestra demostración. Gracias y bienvenidos a CDP.
100. Fin de la transcripción. Saltar al principio
101. Inicio de la transcripción. Saltar hasta el final.
102. Cloudera SDX, la experiencia de datos compartidos, es una parte fundamental
de Cloudera Data Platform.
103. Es la parte de CDP que ofrece seguridad y gobernanza de datos consistentes.
104. SDX es un marco de software modular, implementado en toda la plataforma
105. pero especialmente visible en las herramientas que los administradores y
administradores de datos utilizan para administrar CDP, como el administrador de
replicación y el catálogo de datos.
106. SDX proporciona seguridad de fortaleza empresarial, incluido el control de
acceso basado en roles y atributos.
107. Proporciona soporte para cumplir con los requisitos de cumplimiento, incluida la
capacidad de identificar y administrar datos confidenciales.
108. Finalmente, SDX permite migrar y replicar datos, junto con sus metadatos
asociados entre entornos.
109. En resumen, SDX es lo que hace posible que diferentes aplicaciones de clientes
se ejecuten en conjuntos de datos compartidos.
110. utilizando las mismas políticas de seguridad, el mismo soporte de gobierno y las
mismas operaciones y capacidades de administración en todos ellos
111. independientemente de si esas aplicaciones se ejecutan en el centro de datos o
en la nube.
112. La seguridad y la gobernanza de los datos son importantes en todas las
industrias, pero especialmente en la atención médica, por lo que quería preguntarle a
Abbas Mooraj sobre SDX.
113. Hola, mi nombre es Abbas Mooraj y soy director general de Cloudera para la
atención médica y las ciencias de la vida.
114. ¿Cuáles son algunas de las capacidades que SDX ofrece a los clientes?
115. SDX proporciona a nuestros clientes visibilidad y control al identificar,
etiquetar y clasificar sus datos phi.
116. ¿Cómo mejoran las herramientas de gestión en CDP la experiencia operativa de
sus clientes?
117. CDP le da ese único panel de vidrio que todos mis clientes están muy
entusiasmados,
118. ya sea que esté en las instalaciones o en la nube, tiene un panel de vidrio que
puede tener portabilidad de datos, migración de datos.
119. Es nuestra filosofía central de todos los datos, cualquier análisis, en cualquier
lugar.
120. También le pedí a Bill Brooks que resumiera cómo SDX apoya el gobierno de
datos.
121. Hola, mi nombre es Bill Brooks, soy ingeniero de soluciones en Cloudera y soy el
líder experto en la materia para metadatos y catálogos de gobernanza.
122. Dentro de CDP, las herramientas utilizadas para la gestión de metadatos y el
gobierno de datos caen en el paraguas de SDX, o la Experiencia de Datos Compartidos,
123. que le brinda la capacidad no solo de rastrear información sobre sus datos y a
dónde van, sino también de compartir esa información en varias implementaciones.
124. ya sea que se ejecute en las instalaciones o en la nube, o en un entorno híbrido
para compartir linaje de datos, etiquetado de datos, políticas de seguridad en todas esas
variaciones de infraestructura
125. y que se implemente de manera confiable independientemente de dónde esté
ejecutando la plataforma.
126. Shaun Bierweiler también mencionó la importancia de SDX.
127. El hecho de que CDP ahora ha horneado en su núcleo de seguridad y gobierno
para proporcionar catalogación
128. y la consistencia en todo momento es una de las cosas más importantes que
más entusiasman a nuestros clientes.
129. Ahora, echemos un vistazo a lo que significa SDX para uno de nuestros clientes.
130. Glaxo es una de las compañías farmacéuticas más grandes del mundo, hay
muchos datos dentro de las compañías farmacéuticas.
131. Cuando se termina un ensayo clínico es casi como un libro que la gente pone en
un estante y no lo vuelven a mirar.
132. Lo que estamos haciendo es retirar todos esos libros y ponerlos todos a
disposición.
133. Tradicionalmente, tomaría entre 8 y 20 años desde el descubrimiento temprano
hasta el lanzamiento de un nuevo medicamento al mercado.
134. Lo que estamos haciendo al usar Cloudera y la plataforma es realmente acelerar
y agilizar y hacer lo más eficiente posible el desarrollo de nuevos medicamentos.
135. El objetivo es llevar los medicamentos a los pacientes más rápido.
136. Somos capaces de aprovechar los conocimientos a través de varios ensayos
clínicos
137. que nos dan una perspectiva diferente sobre la ecuación general de una sola
área terapéutica, derecha, o múltiples áreas terapéuticas.
138. Usando tecnología heredada, esto simplemente no sería posible en el lapso de
tiempo que tenemos.
139. Una de las razones clave por las que confiamos en Cloudera es debido a la
seguridad de clase empresarial.
140. por lo tanto, al aprovechar las capacidades de Cloudera SDX, realmente
podemos administrar todos esos metadatos e información de políticas de manera
centralizada.
141. Comenzamos con una fundación que es Cloudera y luego construimos sobre esa
base con una serie de grandes socios que han trabajado juntos en colaboración.
142. para permitirnos ofrecer un ecosistema realmente integrado.
143. Y lo que esto hace por nosotros es ayudar a mejorar la vida de nuestros
pacientes, lo que lleva a diferentes tipos de vías para descubrir la medicina.
144. Fin de la transcripción. Saltar al principio

1. Inicio de la transcripción. Saltar hasta el final.


2. Le pregunté a Andrew Psaltis qué piensan sus clientes sobre tener herramientas
de administración que puedan soportar cargas de trabajo en todos los entornos.
3. Hola, mi nombre es Andrew Psaltis, soy un CTO de campo en Cloudera.
4. Cubro principalmente la región APAC y trabajo con clientes en toda la región del mundo,
dando sentido a la transmisión de datos.
5. Hay muchos aspectos de CDP que entusiasman a los clientes. Creo que,
probablemente, uno de los principales es la capacidad de ejecutar esta carga de trabajo
en la nube,
6. para poder tener las mismas herramientas, la misma plataforma, si se quiere, en
general.
7. Es todo lo que les encanta de CDH y HDP ahora en una oferta de autoservicio plus en la
nube
8. y hacer que esas cargas de trabajo vayan y vengan; para tener esta continuidad de
herramientas en las instalaciones, en la nube.
9. Muchos de nuestros clientes usan múltiples nubes y tienen nubes híbridas para ahora
tener herramientas consistentes en todos los ámbitos.
10. Creo que realmente entusiasma a la gente porque están ejecutando cargas de trabajo
en la nube.
11. Y esto ahora les permite emprender su viaje con nuestra plataforma desde las
instalaciones y de forma nativa en la nube.
12. Cloudera Manager es una poderosa herramienta para administrar clústeres de centros
de datos CDP y centros de datos.
13. Proporciona gráficos, métricas e incluso alertas que los administradores pueden usar
para el monitoreo histórico y en tiempo real de los clústeres.
14. Estos se centran principalmente en la supervisión de nodos y servicios individuales en el
clúster.
15. También proporciona información sobre el uso de recursos del clúster. Como la potencia
de procesamiento, el espacio en disco y el ancho de banda de la red.
16. Otra herramienta de gestión importante en CDP es el administrador de cargas de
trabajo.
17. En lugar de centrarse en nodos o servicios individuales, brinda a los administradores
visibilidad de las cargas de trabajo y lo hace en toda la plataforma.
18. Les proporciona una vista de resumen que les ayuda a comprender rápidamente lo que
se ha estado ejecutando y cómo se realizaron esos trabajos.
19. Identifica las cargas de trabajo que no cumplen con las expectativas y proporciona
orientación prescriptiva sobre cómo corregir estos problemas.
20. Esto facilita la optimización del rendimiento de las consultas, la migración segura de
nuevas cargas de trabajo a la plataforma y garantiza que las aplicaciones críticas para el
negocio cumplan de manera predecible todos los SLA.
21. El administrador de cargas de trabajo no solo ayuda a los administradores a administrar
el rendimiento y la confiabilidad
22. también les ayuda a administrar los costos al ayudarlos a comprender cómo el uso de
recursos afecta las cargas de trabajo.
23. Esto les permite ver oportunidades para reasignar o escalar esos recursos para reducir
los costos generales.
24. A continuación, escuchemos a nuestro gerente de producto senior explicar algunos de
los desafíos que enfrentan las organizaciones con la gestión de cargas de trabajo y
cómo las herramientas de Cloudera los abordan.
25. La gestión de la carga de trabajo es un tema candente hoy en día.
26. Hola, soy Raman Rajasekhar senior product manager en Cloudera.
27. ¿Cuánto sabes sobre tus clústeres?
28. ¿Tiene visibilidad de los diferentes tipos de cargas de trabajo que está ejecutando?
29. Si tiene que migrar una carga de trabajo a su plataforma de big data, ¿qué tan fácil es
para usted hacerlo?
30. ¿Cómo ajusta el rendimiento de todas sus diferentes aplicaciones y consultas que
ejecuta en su sistema?
31. ¿Conoce la salud de su sistema en general?
32. ¿Quiénes son los usuarios más hambrientos de su entorno hoy en día?
33. ¿Cuántas habilidades de autoservicio ejercen sus usuarios en su plataforma de big
data?
34. La solución de gestión de cargas de trabajo de Cloudera le permite realizar todas estas
actividades diferentes para múltiples personas diferentes.
35. Los administradores de sistemas pueden lograr cosas como visibilidad, migración, ajuste
del rendimiento.
36. Los arquitectos de datos pueden comprender mejor los modelos de datos para
conectarlos y optimizar estas cargas de trabajo.
37. Los desarrolladores de BI o los desarrolladores de aplicaciones pueden comprender lo
que está sucediendo en sus diferentes consultas, diferentes trabajos que ejecutan en el
sistema.
38. Y lo que es más importante, el equipo de soporte de la plataforma tiene una buena idea
de lo que está sucediendo en toda su gestión de la carga de trabajo.
39. A través de la solución de gestión de cargas de trabajo de Cloudera, todas estas
personas diferentes pueden lograr todas estas actividades diferentes.
40. Y poder migrar nuevas cargas de trabajo a la plataforma con relativa facilidad.
41. Analice lo que está sucediendo en todos los diferentes clústeres de todo el sistema.
42. Optimice fácilmente a través de las recomendaciones que proporciona Workload
Management de Cloudera.
43. Y lo que es más importante, sea proactivo en la administración de estas cargas de
trabajo y se asegure de que el sistema funcione de manera óptima y esté en buen
estado todo el tiempo.
44. Todo esto y más se puede hacer con la solución de gestión de cargas de trabajo de
Cloudera.
45. Workload Manager muestra una lista de todos los clústeres disponibles.
46. Aquí está la página de resumen de uno de esos grupos.
47. Entre las primeras cosas que notará es la tendencia de rendimiento.
48. El gráfico hace que sea fácil ver el rendimiento general a lo largo del tiempo, pero
también puedo señalar cualquier punto en particular en el gráfico para ver lo que estaba
sucediendo en ese momento específico en el tiempo.
49. Más abajo en la página, podemos ver dónde Workload Manager ha identificado
consultas subóptimas y las ha categorizado de acuerdo con el por qué sucedieron.
50. En este caso, una de las causas más comunes fue la falta de estadísticas de tabla,
51. que es algo que podríamos abordar fácilmente capacitando a nuestros usuarios para
que sepan cuándo y cómo generarlos.
52. Workload Manager también ha identificado y categorizado las consultas fallidas.
53. La causa principal de estos, con mucho, se atribuye a una agrupación general llamada
otras fallas.
54. Al hacer clic en eso, accederé a una página de detalles donde puedo obtener
información sobre cada uno de estos fallos.
55. El primero es un error de sintaxis en la consulta, que también es algo que podemos
abordar a través de una mejor capacitación.
56. Mirando algunos de los otros vemos que muchos son causados por tiempos de espera
que un administrador puede arreglar haciendo un simple cambio de configuración.
57. Ahora mire la página de resumen de otro clúster que se utiliza principalmente para
trabajos de ETL que recopilan datos de diferentes fuentes y los agregan a nuestra nube
de datos empresariales.
58. Desplazándonos hacia abajo en la página vemos donde Workload Manager identifica el
patrón de uso para el clúster.
59. Toda la actividad está limitada a solo dos días y la mayoría de ellos se lleva a cabo en el
lapso de unas pocas horas el domingo.
60. El administrador de este clúster reconocería que esta carga de trabajo es un gran
candidato para migrar a la nube.
61. Ya que hacerlo mejoraría el rendimiento y ahorraría dinero.
62. Fin de la transcripción. Saltar al principio.
63. Inicio de la transcripción. Saltar hasta el final.
64. Una de las diferencias arquitectónicas entre CDP y las plataformas anteriores es el
énfasis en el desacoplamiento donde se almacenan los datos desde donde se
procesan los datos.
65. Esto se conoce como la separación de almacenamiento y computación.
66. Permítanme explicar por qué esto es importante, así como los beneficios que puede
proporcionar.
67. Primero, permítanme recordarles que el diseño tradicional de almacenamiento y
computación colocados, que Google había sido pionero, funcionó bien durante muchos
años.
68. Es perfecto cuando tienes un clúster grande que ejecuta algunos trabajos grandes y
predecibles para un solo equipo.
69. Sin embargo, no es ideal para clústeres de varios inquilinos que ejecutan una variedad
de cargas de trabajo para diferentes equipos, cada uno con sus propios requisitos.
70. Esto puede conducir a lo que se conoce como el problema del vecino ruidoso,
71. que se refiere a cómo la carga de trabajo de un usuario puede afectar negativamente el
rendimiento y la estabilidad de las cargas de trabajo de otros usuarios.
72. Aquí hay un escenario típico que involucra a un nuevo cliente que ejecuta las
distribuciones clásicas de CDH o HDP.
73. La historia comienza cuando establecen su primer clúster como prueba de concepto,
que rápidamente se convierte en un gran éxito, uno que otros equipos quieren replicar.
74. Pronto esos equipos agregan más datos, más usuarios y más aplicaciones al clúster.
75. A medida que esas aplicaciones también tienen éxito, su estado cambia de prueba de
concepto a misión crítica.
76. La popularidad de estas aplicaciones aumenta la carga en el sistema, en consecuencia,
el rendimiento de cualquier trabajo dado disminuye, lo que a menudo resulta en objetivos
de SLA incumplidos.
77. El administrador intenta abordar esto agregando más nodos al clúster y esto funciona
bien hasta cierto punto, sin embargo, agregar nodos es realmente solo aumentar la
capacidad.
78. El verdadero problema en este escenario es que hay varias aplicaciones independientes
ejecutándose en el mismo clúster
79. y, por lo tanto, cada uno compite por la potencia de cómputo que ofrece ese clúster.
80. Los clientes a menudo intentan abordar esto convirtiendo un clúster grande en varios
clústeres más pequeños.
81. Eso proporciona aislamiento, pero en un sistema donde el almacenamiento y la
computación están colocados, hace que la administración sea aún más difícil.
82. Ahora hay varios clústeres para administrar, lo que resulta en una mala utilización de los
recursos, múltiples copias de los datos y reglas de acceso a los datos que se distribuyen
en varios clústeres distintos.
83. Lo que realmente se necesita en este escenario es aislar estas cargas de trabajo entre
sí, sin dejar de compartir los mismos datos subyacentes.
84. SDX lo hace posible.
85. Cada aplicación puede ejecutarse en su propio clúster de cómputo, aislado de todas las
demás aplicaciones,
86. sin embargo, sigue teniendo acceso a los mismos datos, metadatos y políticas de
seguridad que cualquier otra aplicación.
87. Cada clúster de cómputo se puede actualizar y escalar independientemente de los
demás, lo que brinda a los administradores la flexibilidad que necesitan para respaldar el
negocio.
88. Como administrador de bases de datos experimentado, Scott Shaw reconoce los
beneficios de separar el almacenamiento y la computación.
89. Hola, mi nombre es Scott Shaw, soy ingeniero senior de soluciones con Cloudera.
90. Scott, ¿cómo influye la nube en el tipo de trabajo que realizan sus clientes?
91. La mayoría de mis clientes están buscando algún tipo de estrategia en la nube, no todos,
pero la mayoría de ellos están mirando algunas estrategias en la nube. Así que están
muy entusiasmados con
92. los beneficios que obtiene cuando comienza a enviar cargas de trabajo a la nube. Así
que esencialmente la separación de almacenamiento y computación, por supuesto,
93. la capacidad de aumentar rápidamente las cargas de trabajo y reducirlas y proporcionar
ahorros de costos en ese sentido.
94. Fin de la transcripción. Saltar al principio
95. Inicio de la transcripción. Saltar hasta el final.
96. Replication Manager es una herramienta que los administradores pueden utilizar
para copiar datos.
97. así como las políticas de seguridad y gobernanza asociadas a esos datos entre un
origen y un destino.
98. El caso de uso más obvio para Replication Manager es quizás hacer backup de datos de
un clúster local a un proveedor de nube para su custodia,
99. o restaurar esos datos más tarde cuando sea necesario.
100. Si bien es ciertamente la mejor herramienta para ese trabajo, también es útil
para otras situaciones.
101. Como migrar datos de un clúster local a la nube y copiar datos a sistemas
utilizados para el desarrollo y las pruebas.
102. Proporciona un sistema intuitivo basado en asistentes para definir políticas de
replicación,
103. opcionalmente, las directivas también pueden limitar los recursos utilizados para
la replicación allí al mantener el rendimiento de las aplicaciones.
104. Replication Manager proporciona a los administradores un control operacional
total, como verá en la siguiente demostración.
105. Siempre que un usuario tenga el nivel de acceso necesario, Replication Manager
es una de las aplicaciones que verá en la página de inicio de CDP.
106. Al hacer clic en ese icono, se inicia la aplicación y se muestra una página de
información general.
107. Las secciones principales de Replication Manager son todas visibles desde esta
visión general, tanto en la barra lateral como en la parte principal de la propia página.
108. Esto incluye una vista de los clústeres clásicos, las directivas de replicación e
información sobre los trabajos.
109. La página clústeres clásicos enumera los clústeres CDH y HDP que ha
registrado con CDP.
110. Como puede ver aquí, actualmente tenemos dos de ellos en la lista, ambos en
nuestro centro de datos de Dallas, Texas.
111. Esto me permite administrar trabajos de replicación hacia y desde esos
clústeres.
112. La página de directivas de replicación enumera las directivas que ha creado para
copiar datos entre un origen y un destino.
113. En este ejemplo, tengo una directiva que copia datos de un clúster de CDH local
en una ubicación en la nube.
114. Si bien es posible ejecutar trabajos de forma continuamente recurrente, este
trabajo en particular se configuró para ejecutarse en una sola fecha y hora específicas.
115. También se configuró con límites en la cantidad de potencia de procesamiento y
ancho de banda de red que utilizaría para realizar la replicación.
116. Puede crear nuevas directivas de replicación desde esta página.
117. Al hacer clic en el botón 'Crear directiva', se inicia un asistente, que lo guía a
través del proceso de cinco pasos para crear la política.
118. En la primera página, especificará el nombre y el tipo de la directiva y,
opcionalmente, proporcionará una descripción.
119. En la página siguiente, elegirá un clúster de origen de entre los registrados en
CDP.
120. En este caso, elegiré uno de los clústeres locales vistos anteriormente.
121. En aras del tiempo, detendré la demostración aquí, pero esta página también me
permite controlar qué bases de datos y tablas se replicarán en el servidor remoto.
122. Las páginas restantes de este asistente me permiten especificar el clúster de
destino, definir una programación de replicación y configurar opciones adicionales, que
incluyen límites de recursos.
123. Fin de la transcripción. Saltar al principio.
1. Inicio de la transcripción. Saltar hasta el final.
2. Los ingenieros de datos son una parte esencial del equipo de datos.
3. Confían en la infraestructura que proporcionan los administradores y la aprovechan para
recopilar datos de diferentes fuentes.
4. Que combinan y transforman en conjuntos de datos que son significativos para el
negocio.
5. Los analistas que utilizan esos conjuntos de datos para la generación de informes y la
inteligencia empresarial a su vez confían en el trabajo que realizan los ingenieros de
datos.
6. al igual que los científicos de datos que utilizan los datos para aplicaciones de
aprendizaje automático.
7. Quizás los productos más importantes que crea un ingeniero de datos son estas
canalizaciones de datos.
8. Si bien originalmente estaban orientados en gran medida a lotes, utilizando datos
estáticos como entrada,
9. aumentan el aumento y enriquecen esto con datos dinámicos que se transmiten desde
aplicaciones y sensores casi en tiempo real.
10. Esto proporciona a los equipos de negocios datos que ilustran el estado actual y
proporcionan datos históricos para el contexto.
11. Permitiéndoles ver y reaccionar a las tendencias en el momento del impacto.
12. Dado que Andrew Psaltis escribió literalmente el libro sobre la transmisión de datos,
13. Le pregunté cómo los ingenieros de datos deberían abordar el diseño de canalizaciones
que aprovechen las fuentes de datos de transmisión.
14. Hay muchos aspectos sobre CDP que entusiasman a los clientes.
15. Creo que, probablemente, uno de los principales es la capacidad de ejecutar esta carga
de trabajo en la nube, para poder tener las mismas herramientas, la misma plataforma,
si se quiere, en general.
16. Es todo lo que les encanta de CDH y HDP ahora en una oferta de autoservicio plus en la
nube y para que esas cargas de trabajo vayan y vengan.
17. Tener esta continuidad de herramientas on prem, en la nube.
18. Muchos de nuestros clientes usan múltiples nubes y tienen nubes híbridas para ahora
tener herramientas consistentes en todos los ámbitos.
19. Creo que realmente entusiasma a la gente porque están ejecutando cargas de trabajo
en la nube.
20. Y esto ahora les permite emprender su viaje con nuestra plataforma desde las
instalaciones y de forma nativa en la nube.
21. Los ingenieros de datos junto con los desarrolladores también crean aplicaciones
específicas del negocio en la parte superior de la plataforma.
22. De manera más general, se encargan de integrar las aplicaciones de la plataforma con
otras que utiliza la empresa.
23. Que puede ser de entrada o salida.
24. Por ejemplo, una aplicación de aprendizaje automático podría extraer datos de entrada
de Recursos Humanos o herramientas de gestión de relaciones con los clientes,
25. predecir qué empleados o clientes tienen más probabilidades de irse
26. y luego enviar los resultados a esos sistemas para identificar dónde enfocarse mejor en
la retención de empleados o clientes.
27. Aunque los administradores participan principalmente en el ajuste del rendimiento
general del clúster, los ingenieros de datos a menudo desempeñan un papel en el ajuste
del rendimiento de las aplicaciones que se ejecutan allí.
28. Ahora, escuchemos al cofundador de Cloudera, Mike Olson, describir cómo CDP
respalda las necesidades de los ingenieros de datos.
29. Hola, soy Mike Olson, cofundador.
30. Tienes que ser capaz de identificar rápidamente los datos que son interesantes para ti,
ingerirlos y transformarlos rápidamente.
31. Tienes que ser capaz de implementar el marco analítico que tenga sentido para tu
negocio.
32. Debe ser eficiente en la forma en que lo hace, debe ser dinámico al asignar el cálculo a
los problemas que importan a medida que se desbordan.
33. También debe tener un modelo unificado de seguridad y gobernanza,
34. tenga en cuenta que está obteniendo datos que nunca antes podría obtener de muchos
lugares diferentes. Parte de ella puede ser PII, parte de ella puede estar sujeta a
restricciones regulatorias.
35. Desea asegurarse de que protege esos datos, de que ha expresado las políticas
adecuadas para quién puede obtenerlos en qué circunstancias.
36. Y que realice un seguimiento de esos accesos a lo largo del tiempo para asegurarse de
que lo que hacen las personas está permitido y puede responder preguntas sobre cómo
y cuándo se usaron esos datos.
37. Aquí hay algunos rasgos a tener en cuenta al contratar ingenieros de datos.
38. Primero deben tener una sólida formación en ingeniería de software, esto incluye
experiencia con uno o más lenguajes de programación.
39. De los cuales Python, Java y Scala son los más relevantes.
40. La experiencia en Java puede ser la más común entre esos lenguajes y eso es
suficiente.
41. Cloudera ofrece cursos Just Enough Python y Just Enough Scala que pueden capacitar
rápidamente a los programadores de Java sobre cómo usar estos otros lenguajes con
nuestra plataforma.
42. El candidato ideal con también tener una buena comprensión de los conceptos de
computación distribuida
43. ya que esto ayudará a construir sistemas mantenibles con buen rendimiento y también
ayuda en la resolución de problemas que puedan surgir más adelante.
44. Relacionadamente, el candidato debe tener una comprensión sólida de las diferentes
opciones disponibles para el almacenamiento de datos.
45. No solo dónde almacenar los datos, sino también cómo se almacenan.
46. Esto requiere una comprensión de los patrones de acceso para los datos, así como
detalles como formatos de archivo y algoritmos de compresión.
47. porque estos pueden tener un impacto significativo en el rendimiento y la compatibilidad.
48. Además, deben tener experiencia con bases de datos relacionales.
49. Necesitarán conocer SQL para limpiar, combinar y transformar los datos de manera
eficiente y deberán comprender cómo diseñar esquemas para un almacenamiento
eficiente.
50. Dado que a menudo trabajan en estrecha colaboración con los administradores de
sistemas, es útil que los ingenieros de datos tengan al menos un conocimiento básico de
la administración del sistema.
51. Esto les ayudará a compartir un entendimiento común y prevenir problemas de
comunicación.
52. Al igual que con los administradores, puede seleccionar a los solicitantes buscando
aquellos que hayan tomado la capacitación relevante de Cloudera.
53. o mejor aún, aquellos que han aprobado uno de nuestros exámenes de certificación de
desarrollador.
54.
55. Inicio de la transcripción. Saltar hasta el final.
56. Scott Shaw es un experimentado administrador de bases de datos y autor que ha
escrito extensamente sobre bases de datos.
57. Le he pedido que describa cómo los datos en movimiento han cambiado el almacén de
datos.
58. Si piensa en sus almacenes de datos tradicionales, estaban bastante orientados a lotes
y de naturaleza estática. Así que sus análisis en realidad a veces tenían 24 horas de
antigüedad, cierto.
59. Y así, con el almacén de datos moderno, ese retraso ya no es aceptable para las
organizaciones.
60. Estamos viendo un nuevo tipo de almacenamiento de datos.
61. Debido a que está trayendo datos de transmisión, está trayendo datos en tiempo real.
62. No son solo los datos estructurados, son datos no estructurados,
63. y luego, además de eso, puede expandir el análisis no solo a sus herramientas típicas
de visualizaciones de BI.
64. pero ahora tiene la capacidad de integrar un almacén de datos y los datos con
aprendizaje automático y otras cargas de trabajo.
65. Scott mencionó cómo la transmisión de datos ha transformado el almacén de datos
moderno.
66. Aquí está Bill Brooks para explicar por qué esta combinación es importante para otros
casos de uso.
67. Una de las cosas que más entusiasman a mis clientes, especialmente a mis clientes de
ciencia de datos, es la unificación de la plataforma.
68. Las plataformas principales se superpusieron mucho
69. pero llevando el movimiento de datos de NIFI y las herramientas de transmisión junto
con las herramientas de aprendizaje automático y la capacidad de bancos de trabajo de
aprendizaje automático compartidos basados en equipos
70. es muy emocionante para los clientes que tradicionalmente han tenido que trabajar con
múltiples proveedores para esas soluciones.
71. Cloudera tiene muchos clientes en la industria de seguros, así que quería hablar con
nuestro experto en la industria.
72. Hola, soy Monique Hesseling y soy la directora general de seguros en Cloudera.
73. Monique, ¿puede explicar una forma en que las compañías de seguros están utilizando
fuentes de datos en tiempo real para mejorar la experiencia de sus propios clientes?
74. Los nuevos datos ayudan a las aseguradoras a ser más proactivas y ayudar de manera
preventiva con sus clientes.
75. Y eso es realmente algo por lo que todos se esfuerzan y que valoran, porque
clásicamente las aseguradoras no siempre tienen una relación muy positiva con sus
clientes, ¿verdad?
76. Los clientes se comunican con ellos cuando reciben una factura o tienen un reclamo,
que no son momentos felices.
77. Entonces, lo que estamos viendo es que la nueva tecnología está ayudando a las
aseguradoras a llegar más hacia el front-end y en el lado preventivo y de atención del
negocio.
78. Y le daré un ejemplo de eso, las aseguradoras de viajes ahora están pidiendo permiso
para utilizar su función GPS en su teléfono.
79. y te están haciendo ping si estás fuera de tu propia área y tiendes a entrar a un área que
no es el lugar adecuado para que estés en ese momento.
80. Muy a menudo porque llegó algún mensaje del 112 o 911 de que hay algo que está
sucediendo en esa área del que debe mantenerse alejado.
81. Ahora esa es una característica muy cariñosa, muy útil
82. que las aseguradoras ahora comienzan a ofrecer a sus clientes que no tiene nada que
ver con las relaciones clásicas de tratar con sus compañías de seguros.
83. Octo Telematics es otro ejemplo de cómo la transmisión de datos en la plataforma
Cloudera está ayudando a las compañías de seguros a ayudar a sus clientes.
Escuchemos su historia.
84. Octo Telematics ayuda a las compañías de seguros a transformar la forma en que
gestionan su relación con el titular de una póliza.
85. Ayudamos a las compañías de seguros a estar allí cuando sea necesario.
86. Utilizamos la tecnología para ayudar a la compañía de seguros a evaluar la
responsabilidad, evaluar los daños, reconstruir la dinámica del accidente y hacer todo el
acuerdo.
87. Tomamos el proceso de semanas y lo movemos a horas.
88. Hoy en día si tienes tres chicos que tienen la misma edad, el mismo coche, viven en el
mismo distrito es muy fácil que estén pagando la misma factura.
89. Lo que hacemos es usar la tecnología para decir que los tres tipos tienen un riesgo
integrado diferente y merecen pagar una prima diferente.
90. Hemos decidido ir con Cloudera para lo que llamamos la plataforma de próxima
generación.
91. Adquirimos todo tipo de datos de los coches y de los sensores.
92. Básicamente utilizando todo tipo de datos, datos contextuales, datos de conducción y
datos de comportamiento.
93. Mayo de este año hemos alcanzado los 5 millones de coches conectados a nuestro
centro de datos, que es el mayor número del mundo.
94. Hemos superado los 170 mil millones de millas registradas y analizadas en términos de
análisis de riesgos.
95. Adquirimos 11 mil millones de atributos granurales por día.
96. Si necesitas una ambulancia no llamas a una ambulancia, llega.
97. Si necesitas policía, no llamas a la policía, llega.
98. Si necesitas asistencia en carretera, no llamas a la asistencia en carretera, llega. Porque
hay tecnología que entiende el tipo de impacto, la gravedad del impacto.
99. La clave del éxito es que necesitas tener algoritmos de autoaprendizaje.
100. Porque el hecho de que tengamos la mayor cantidad de datos del mundo para el
trabajo que hacemos es sostenible solo si escuchamos los datos y aprendemos de los
datos.
101. Shaun Bierweiler explica lo que significa llevar datos desde el borde a los
clientes gubernamentales a los que sirve.
102. Apache NIFI, la base de Cloudera Data Flow en realidad se originó en el
gobierno, por lo que
103. el requisito de captura, procesamiento e ingesta de datos en tiempo real no es
un caso de uso nuevo para el gobierno. Es uno que han estado muy en la primera línea
conduciendo.
104. Traer los datos desde el borde que en realidad es un término del gobierno,
cuando se piensa en sensores o hombros desfavorecidos en el campo.
105. tienen el requisito de devolver rápidamente esa información a los analistas y
tomadores de decisiones.
106. Pero esa información por sí sola no es tan poderosa como el conocimiento
histórico que tienen con sus datos en reposo.
107. Entonces, uno de los casos de uso más comunes que vemos es la fusión de esa
información casi en tiempo real, para poder proporcionar información de misión crítica y
que salva vidas al campo.
108. Los datos en movimiento también son críticos para las empresas de otras
industrias.
109. Escuchemos a Komatsu Mining describir cómo se recopilan los datos del Internet
de las cosas y la capacidad de realizar análisis de los datos a medida que se generan.
110. les ayudó a aumentar la productividad y servir mejor a sus clientes.
111. Somos un fabricante global de equipos de minería a gran escala.
112. Nuestros clientes incluyen las casas mineras más grandes y entregan los
recursos que la economía global necesita para funcionar.
113. Vemos que interactuar con nuestros clientes en una oferta de servicios basada
realmente en el Internet de las cosas y el análisis basado en datos provenientes de
nuestras máquinas.
114. es una forma de ayudar a nuestros clientes a usar ese equipo de manera más
efectiva.
115. Realmente teníamos el objetivo de poder conectar todos nuestros equipos.
116. Cloudera realmente nos ofrece la capacidad de escalar y crecer
incrementalmente y hacerlo realmente más rápido y mejor.
117. Tenemos un equipo con sede en Queensland en Australia que quería optimizar
un par de minas de pared larga.
118. Pudimos reunir esos datos en un solo lugar y analizarlos para comprender la
imagen completa de la operación de esa mina.
119. y hacer recomendaciones al cliente que finalmente resultaron en la duplicación
de las horas de producción.
120. Definitivamente los algoritmos de aprendizaje automático son importantes y creo
que durante mucho tiempo fue difícil hacerlo porque nuestros datos estaban todos en
diferentes silos.
121. Y ahora tenemos un único entorno en Azure que puede entregar todos los datos
para todos nuestros clientes.
122. Todo está en un solo lugar y podemos llegar a él y podemos ejecutar algoritmos
de aprendizaje de manera mucho más efectiva.
123. La plataforma Cloudera nos ha liberado de tomar decisiones basadas en lo que
nuestra infraestructura puede soportar
124. para tomar decisiones basadas en cuáles son las verdaderas necesidades de
nuestros clientes.
125. Fin de la transcripción. Saltar al principio.

126. Inicio de la transcripción. Saltar hasta el final.


127. Cloudera DataFlow, o CDF, es una sólida plataforma de transmisión de datos en
tiempo real de borde a empresa
128. que le brinda la capacidad de recopilar, curar y analizar datos, lo que
resulta en información clave e inteligencia procesable inmediata.
129. Cloudera DataFlow incluye una serie de productos que trabajan juntos para
resolver los problemas que enfrentan las organizaciones con la transmisión de datos y
los dispositivos IoT.
130. y más en general, cualquier tipo de datos en movimiento.
131. Uno de esos desafíos es la dificultad de capturar y procesar los datos a medida
que se generan, y hacerlo a la escala exigida en la empresa moderna.
132. Otro desafío es el requisito de seguridad y gobernanza de datos para los datos
en movimiento,
133. incluida la capacidad de cifrar los datos durante el tránsito y establecer el linaje
de los datos que se capturan.
134. Otro desafío que enfrentan las organizaciones es cómo administrar y monitorear
los datos de transmisión y las aplicaciones de borde,
135. que se basan en datos recopilados en tiempo real de potencialmente muchos
miles de agentes que se ejecutan en dispositivos fuera del centro de datos.
136. Cloudera DataFlow proporciona estas y muchas más capacidades a través de
una colección integrada de productos dentro de varias categorías:
137. Edge Management, Flow Management, Stream Processing y Streams
Management, y Streaming Analytics.
138. Cada uno se beneficia de los servicios empresariales, como la seguridad
unificada y el soporte integral para el gobierno de datos, proporcionados por la
plataforma subyacente.
139. Uno de los desafíos que enfrentan las organizaciones con las iniciativas de IoT
es la dificultad de capturar y procesar datos de miles de dispositivos.
140. Cloudera Edge Management proporciona dos componentes integrados para
resolver este desafío.
141. MiNiFi es un agente perimetral que puede recopilar y procesar datos de
dispositivos IoT.
142. Implementa las características principales de la poderosa herramienta Apache
NiFi que se encuentra en nuestra solución de gestión de flujo
143. y está optimizado para ejecutarse de manera confiable y eficiente en el entorno
de restricción de recursos asociado con los dispositivos IoT.
144. Además de compartir una herencia común con Apache NiFi, MiNiFi también es
compatible con NiFi Registry
145. que proporciona una ubicación central para el almacenamiento y la gestión de
los flujos de datos en ambas herramientas.
146. Edge Flow Manager es un centro de administración perimetral que proporciona
un entorno de desarrollo sin código, arrastrar y soltar
147. para simplificar y acelerar el proceso de creación de flujos de datos a partir de
agentes MiNiFi.
148. Edge Flow Manager también le permite implementar los flujos de datos que ha
creado en potencialmente miles de agentes en el campo
149. y para monitorear el estado de sus agentes en tiempo real.
150. Cloudera Flow Management es una solución escalable que ofrece capacidades
de movimiento, transformación y gestión de datos a la empresa.
151. Permite a las organizaciones ingerir fácilmente cualquier tipo de datos de casi
cualquier fuente, transformándolos opcionalmente y enriqueciendo esos datos.
152. antes de enrutarlo de forma segura y entregarlo a casi cualquier destino para su
procesamiento o almacenamiento.
153. En el corazón de Cloudera Flow Management se encuentra Apache NiFi.
154. A través de su interfaz gráfica de usuario de arrastrar y soltar, NiFi proporciona a
los usuarios el poder de construir, administrar y ejecutar flujos de datos sofisticados sin
escribir una sola línea de código.
155. Cloudera Flow Management también incluye NiFi Registry, que proporciona
almacenamiento y control de versiones para sus flujos de datos
156. para apoyar el ciclo de vida completo desde el desarrollo hasta las operaciones.
157. Cloudera Stream Processing, que cuenta con Apache Kafka, proporciona la
columna vertebral necesaria para casos de uso escalables de mensajería y transmisión
158. y puede soportar millones de mensajes por segundo.
159. Uno de los principales beneficios comerciales de Kafka es que puede aumentar
la flexibilidad y la capacidad de mantenimiento de los sistemas.
160. desacoplando aplicaciones que producen datos a partir de aplicaciones que
consumen datos.
161. Para ilustrar el problema de las aplicaciones estrechamente acopladas, piense
en cómo dos personas se comunican por correo electrónico.
162. Esto se basa en que ambas partes sepan cómo ponerse en contacto y
comunicarse entre sí.
163. A medida que agrega más destinatarios al mensaje, la comunicación se vuelve
más difícil de administrar,
164. especialmente cuando los destinatarios cambian de dirección de correo
electrónico o ya no desean recibir mensajes.
165. Una mejor manera de gestionar esta comunicación es a través de listas de
correo porque los participantes pueden suscribirse y darse de baja siempre que lo
deseen.
166. y el remitente solo necesita la dirección de la lista de correo, no cada participante
individual.
167. Apache Kafka es conceptualmente similar, las aplicaciones que producen datos
envían mensajes a Kafka también incluyendo el nombre de un tema para usar para
categorizar esos mensajes.
168. Las aplicaciones que necesitan recibir este tipo de datos con suscriben el tema.
169. Un ejemplo práctico de cómo una organización podría usar Kafka es el
seguimiento de la actividad del sitio web.
170. Cada vez que un usuario interactúa con su sitio web, tal vez haciendo zoom en
una foto de producto o haciendo clic en un enlace, la aplicación puede registrar este
evento en Kafka.
171. Incluso si su aplicación está distribuida en cientos de servidores web en varias
regiones, envíe estos eventos a un tema de Kafka en particular
172. se asegurará de que estén disponibles para otras aplicaciones, como
aplicaciones de análisis o seguridad web, que deseen ser notificadas de estas
interacciones tan pronto como se produzcan.
173. Cloudera Stream Processing también proporciona registro de esquemas
174. que proporciona a los desarrolladores una ubicación centralizada para definir y
evolucionar el formato de los mensajes intercambiados entre productores y
consumidores
175. lo que aumenta tanto la fiabilidad como la capacidad de mantenimiento de sus
aplicaciones.
176. En relación con esto, ofrecemos dos herramientas para ayudarlo a administrar el
procesamiento de Stream.
177. Streams Messaging Manager proporciona un único panel de supervisión para
todos sus clústeres de Kafka.
178. Le permite identificar patrones de consumo, así como cuellos de botella como
problemas de rendimiento y flujo de tráfico que afectan a sus aplicaciones.
179. Puede configurar Streams Messaging Manager para que envíe alertas cuando se
activen las condiciones que defina
180. lo que le permite reaccionar y resolver problemas tan pronto como ocurren.
181. Streams Replication Manager es una solución robusta de nivel empresarial para
replicar datos en temas de Kafka en todos los clústeres
182. proporcionando así tolerancia total para aplicaciones de misión crítica.
183. La replicación de datos en un clúster remoto también puede ser una forma eficaz
de admitir casos de uso de recuperación ante desastres.
184. La solución de análisis de streaming, que es la última incorporación a la
plataforma Cloudera Dataflow,
185. proporciona la compatibilidad con la coincidencia de patrones y el procesamiento
de eventos complejos que necesita para crear aplicaciones de análisis en datos de
transmisión.
186. Fin de la transcripción. Saltar al principio.
1. Inicio de la transcripción. Saltar hasta el final.
2. Mientras que los administradores e ingenieros de datos son responsables de
proporcionar sistemas y datos.
3. Los analistas son efectivamente el cliente para esas funciones.
4. Los analistas de datos entienden qué datos están disponibles y luego los consultan para
identificar tendencias.
5. En algunos casos, pueden desempeñar un papel en la creación, curación o preparación
de datos para consultas.
6. Especialmente cuando se trata de unir conjuntos de datos existentes de formas
novedosas o limpiar datos para eliminar errores o información inexacta.
7. En última instancia, su objetivo es interpretar los resultados obtenidos de sus
consultas y comunicarlos a las partes interesadas de las empresas.
8. A menudo producirán informes y visualizaciones como parte de este proceso.
9. Su naturaleza inquisitiva los lleva a descubrir y luego explorar patrones interesantes en
los datos.
10. Los analistas de datos generalmente tendrán experiencia en negocios, matemáticas o
economía en lugar de ciencias de la computación o tecnología de la información.
11. Rara vez forman parte del departamento de TI de una empresa, sino que tienden a
trabajar tanto para como con equipos de negocios, como ventas, marketing y finanzas.
12. Su comprensión del negocio y la industria en la que opera es clave para su capacidad de
interpretar y comunicar los resultados que importan a la organización.
13. Eso requiere fuertes habilidades de comunicación, particularmente la capacidad de
comunicar los resultados de manera rápida y efectiva a los ejecutivos y otros tomadores
de decisiones.
14. Saber qué datos explorar y cómo garantizar resultados precisos requiere una mentalidad
analítica.
15. Tradicionalmente, la herramienta principal para muchos analistas de datos era la hoja de
cálculo.
16. Si bien eso sigue siendo importante, no se escala y la capacidad de consultar bases de
datos relacionales y almacenes de datos utilizando SQL es una habilidad esencial.
17. Si bien pueden utilizar una herramienta de inteligencia empresarial como Qlik o Tableau
en lugar de escribir consultas SQL directamente,
18. es útil para ellos comprender algunos aspectos del sistema subyacente para escribir
consultas eficientes.
19. El candidato ideal también tendrá experiencia en el uso de motores de consulta para
datos no estructurados, como Apache Solar.
20. Al igual que con los administradores e ingenieros de datos, verificar si los candidatos
han tomado cursos de capacitación relevantes de Cloudera
21. o obtener la certificación de analista de datos es una forma fácil y efectiva de identificar
candidatos que vale la pena perseguir.
22. Y si tiene talento internamente que necesita ayuda para hacer la transición de hojas de
cálculo a big data, la capacitación de Cloudera es una inversión que vale la pena en su
personal.
23. Fin de la transcripción. Saltar al principio

1. Inicio de la transcripción. Saltar hasta el final.


2. Jamie, ¿cuáles son algunos casos de uso comunes que ofrecen un tiempo rápido de
valor para los nuevos clientes,
3. y ¿cuáles adicionales persiguen con mayor frecuencia después de ese éxito
inicial?
4. Buena pregunta. Creo que los clientes de Cloudera... por lo general, los casos de uso de
incubación giran en torno al almacén de datos empresarial y la descarga del almacén de
datos empresarial.
5. Buscan aterrizar grandes cantidades de datos en la plataforma y luego comenzar a
obtener análisis sobre ellos.
6. Esto es lo que vemos rápidamente es que la carga de trabajo de almacenamiento de
datos empresariales evoluciona hacia un caso de uso de transmisión de IoT
7. para comenzar a ingerir más y más datos en la plataforma y luego mirar ese flujo de
datos. Por lo tanto, tiende a moverse hacia un caso de uso de transmisión de IoT.
8. Y luego vemos como un siguiente paso lógicamente en eso es que quiero poner
inteligencia en esa corriente y más inteligencia en mis datos.
9. a través de casos de uso de aprendizaje automático y tipo IA que se basan en eso. Por
lo tanto, tiende a ser algo así, hacer que el almacenamiento de datos aterrice y obtener
el beneficio de la plataforma,
10. avanzar hacia la transmisión y el IoT y luego evolucionar hacia un tipo de carga de
trabajo de aprendizaje automático.
11. Cloudera tiene una sólida historia con los clientes bancarios.
12. Le pedí a nuestros expertos de la industria que me contaran más sobre cómo las
instituciones financieras están utilizando los productos de Cloudera.
13. Hola, soy Richard Harmon, estoy con Cloudera y soy el codirector de nuestra industria
de servicios financieros.
14. Mi nombre es Steve Totman, junto con Richard cuidamos de clientes de servicios
financieros en todo el mundo.
15. En el sector bancario en particular, son probablemente una de las industrias más
sofisticadas en el aprovechamiento de datos complejos.
16. Desde datos de transacciones hasta datos de pagos, datos de clientes y datos de
mercado.
17. Una vez más, porque tienen muchos factores externos que afectan su mercado además
de sus clientes.
18. Y por lo tanto, tener una especie de visión holística única de sus clientes es un aspecto
crítico.
19. Y luego la capacidad de aprovechar grandes cantidades de datos muy ricos para
impulsar cualquier nuevo conocimiento con análisis.
20. eso se convierte en una forma realmente fundamental e innovadora en la que también
han podido transformar y desarrollar nuevos productos.
21. Y hoy en día hay mucho enfoque en la transformación digital, la capacidad de
comprender realmente el ciclo de vida completo.
22. Y vemos que estos bancos realmente se dan cuenta de que debido a que el costo del
cambio es tan bajo, es muy fácil mover bancos hoy en día, que la verdadera
diferenciación es el servicio al cliente.
23. Así que todo este concepto de Customer 360 ha existido durante algún tiempo,
24. de hecho, siguen renombrándolo como Customer 360, luego se mudaron a Customer
Journey y ahora lo llaman Customer Intelligence Platform.
25. Pero si te imaginas algo así, mis hermanas un médico, imagina que mi hermana va a un
banco y tiene problemas con una transacción y luego, de todos modos, básicamente
tiene una discusión con el cajero.
26. A medida que sale, inmediatamente se sube a su teléfono inteligente y pasa a la
aplicación del banco para tratar de hacer lo mismo.
27. termina con una charla de vida con un recurso del cliente nuevamente no pueden
ayudarla.
28. Termina llamándolos inmediatamente termina hablando con un centro de llamadas en
una ubicación diferente,
29. tiene que explicarle que ella estaba en la sucursal y luego en la aplicación y trató de
hacer lo mismo.
30. Esa experiencia por la que pasa es increíblemente negativa, la vinculan a algo llamado
NPS, Net Promoter Score o CSAT.
31. Pero lo que el banco ve es que estabas en tres divisiones diferentes, estabas hablando
con las tiendas, los cajeros,
32. luego estaba hablando con la aplicación del teléfono inteligente, estaba hablando con el
centro de llamadas del cliente.
33. Diferentes equipos, diferentes grupos, diferentes centros de datos, pero para mi
hermana es su experiencia con el banco.
34. Comprender ese viaje por el que pasó, comprender el resultado es increíblemente
crítico. Y requiere muchas fuentes de datos diferentes, requiere datos estructurados,
35. haga clic en transmitir datos, si está hablando con un centro de llamadas, audio.
36. Cloudera Data Platform es capaz de tomar todos esos datos, combinarlos y rastrear ese
viaje hasta el final.
37. También vieron a los clientes comenzar a hacerlo, y esto va al concepto de
transformación digital, comienzan a aprovechar el análisis y los conjuntos de datos
mucho más holísticos.
38. Así que están empezando a mirar las fuentes de redes sociales, las fuentes de noticias,
otros tipos de datos de tipo centrados en el cliente.
39. Al mismo tiempo, también están aprovechando los algoritmos de aprendizaje profundo y
otro tipo de capacidades de aprendizaje automático.
40. Los más interesantes y los de vanguardia incluso están empezando a mirar las
capacidades de simulación.
41. Donde están creando copias digitales de su base de clientes
42. y luego, a partir de esas pruebas de copias digitales, como lo harías en un simulador de
vuelo con un piloto, están probando nuevos productos, nuevos servicios, nuevas
capacidades.
43. Los bancos solían dividir a los clientes en segmentos muy amplios, por lo que
segmentaría por rango de edad, por lo que 18-25, 25-36, ahora puede literalmente lograr
una segmentación de uno.
44. Puede mirar a cada cliente individual, comprender exactamente por lo que pasaron,
comprender lo que podría venderles, venderlos, venderlos.
45. Un buen ejemplo es Commonwealth Bank en Australia, tienen una aplicación, Next Best
Conversation que genera alrededor de un millón de dólares australianos para su banco
al día.
46. Básicamente, les permite asegurarse de que cuando interactúan con un cliente, la
siguiente interacción es la siguiente mejor opción para ese cliente.
47. DBS Bank ejemplifica los conceptos que Steve y Richard describieron.
48. Escuchemos cómo están utilizando los datos para ayudar a ofrecer la mejor experiencia
posible a sus clientes.
49. DBS es uno de los bancos líderes en Asia. Tenemos una presencia importante en los 6
grandes mercados de Asia.
50. Por lo tanto, cubrimos todos los sectores del mercado, desde el comercial hasta el
consumidor, pasando por la tesorería y los mercados.
51. Y realmente estamos tratando de enfocar toda nuestra energía en convertirnos en una
empresa digital, para interactuar digitalmente con los clientes e impulsar fantásticos
viajes de clientes.
52. Cuando observamos nuestra pila de tecnología tradicional, tendía a ser costosa de
escalar y tendía a ser difícil experimentar con ella.
53. Entonces, lo que nos encanta de la plataforma Cloudera y todo el ecosistema alrededor
de Hadoop y Spark y todos estos entornos diferentes
54. es que toda la comunidad está desarrollando y evolucionando este producto y podemos
estar en la primera línea de la innovación, podemos escalar más económicamente,
podemos experimentar más
55. y podemos pensar en los tipos de datos que miramos en términos de los miles de
millones de eventos en lugar de los millones de eventos con los que estamos tratando
en las antiguas plataformas tradicionales.
56. Hemos visto cualquier cosa en la región de reducción del 80% en el costo operativo en
un tiempo de construcción mucho más corto.
57. Sin embargo, el verdadero beneficio de la elevación es el beneficio que proporciona al
negocio. Si nos fijamos en nuestros clientes comprometidos digitalmente
58. vemos un aumento material en la cantidad de ingresos que un cliente digital aporta al
banco. Y hemos visto si podemos involucrar digitalmente a un cliente
59. y podemos atraerlos a la plataforma digitalmente y usar análisis para mejorar.
60. Hemos visto un aumento masivo en la cantidad de ingresos por cliente, como una
reducción del costo para servir al cliente.
61. Pero profundizamos mucho más, hemos dicho que el análisis y los datos son algo que
toda la organización debe hacer para impulsarse a sí misma.
62. Entonces, por ejemplo, nuestro equipo de recursos humanos lo está utilizando para
comprender y predecir cuándo un empleado podría irse,
63. lo que significa que podemos llegar temprano y comenzar alguna acción para tratar de
retener a ese empleado.
64. Nuestro grupo de auditoría lo está utilizando para predecir qué sucursal podría tener el
próximo problema de auditoría.
65. Nuestra gente de riesgo lo está utilizando para detectar fraudes para transacciones
comerciales.
66. Nuestro equipo de finanzas lo está utilizando para informes regulatorios para
proporcionar un lago de datos para que puedan impulsar el análisis.
67. Nuestros grupos operativos los están utilizando para comprender el flujo de clientes y los
flujos de cajeros automáticos y las predicciones del centro central.
68. Es muy emocionante para nosotros que comencemos a ver que el impulso comienza a
construirse en la empresa y comenzamos a ver ideas que inundan todas las áreas
diferentes.
69. Tener la capacidad de reaccionar a los eventos a medida que ocurren es importante
para cada organización.
70. Esa capacidad depende de tener un sistema escalable que pueda capturar datos en la
fuente.
71. y extraer rápidamente el valor subyacente para presentar información procesable a los
responsables de la toma de decisiones.
72. Thomson Reuters lo está haciendo en la plataforma Cloudera.
73. En Thomson Reuters estamos en el negocio de la construcción de soluciones basadas
en la información para nuestros clientes profesionales.
74. Todos tienen un dispositivo inteligente en sí mismos todo el tiempo esencialmente
significa que tienen muchos más testigos de muchos más eventos.
75. Así que el desafío para nosotros es cómo podemos permitir que los periodistas
investiguen, capturen y detecten los eventos noticiosos.
76. que están sucediendo en todo el mundo en tiempo real sin ahogarlos con falsas alarmas
y falsos positivos.
77. Y nuestra respuesta es Reuters News Tracer.
78. Esto es masivo, procesamos alrededor de 12-13 millones de tweets al día y capturamos
estos eventos a medida que ocurren en vivo.
79. Cloudera y otros nos proporcionan herramientas tecnológicas de vanguardia para
ayudarnos a analizar datos,
80. sintetizar texto, extraer valor y significado de los datos para ofrecer los conocimientos
que nuestros clientes están buscando.
81. Todo esto se ejecuta en menos de 14 milisegundos.
82. Tenemos docenas y docenas de ejemplos en los que Reuters News Tracer realmente
descubrió eventos, eventos populares,
83. eventos innovadores antes de las principales organizaciones de noticias, incluyéndonos
a nosotros.
84. Somos capaces de liberar sus conocimientos para centrarse en un trabajo de mayor
valor
85. en lugar de solo en los informes, podemos alertar a nuestros clientes cuando ocurren
eventos de movimiento del mercado en tiempo real o casi en tiempo real.
86. Fin de la transcripción. Saltar al principio.

1. Inicio de la transcripción. Saltar hasta el final.


2. Las capacidades de almacenamiento de datos en CDP proporcionan la capacidad de
realizar consultas analíticas en casi cualquier tipo de datos.
3. Es capaz de lograr esto en parte, debido a un concepto clave.
4. La forma en que se almacenan los datos se desacopla de cómo se procesan.
5. Para entender lo que quiero decir, considere un sistema de almacenamiento de datos
tradicional, que podría usar instrucciones de inserción masiva, cargando utilidades
6. o aplicaciones de terceros para cargar los datos en tablas.
7. Independientemente de cuál de esos métodos pueda emplear, los datos generalmente
se almacenan en un formato propietario y no son directamente accesibles para otras
aplicaciones.
8. Por el contrario, una de las características de Enterprise Data Cloud es que el sistema
es abierto.
9. No solo de código abierto, sino también abierto para la integración con otras
aplicaciones.
10. En CDP los datos son independientes del software utilizado para procesarlos.
11. Esto es importante por dos razones.
12. En primer lugar, el amplio soporte de la plataforma para formatos de archivo que van
desde los simples, como los archivos de texto delimitados.
13. a estándares abiertos como Apache Parquet y ORC que están optimizados para
consultas de alto rendimiento, significa que es fácil obtener datos dentro y fuera del
sistema.
14. En segundo lugar, porque los motores de consulta utilizados en Cloudera Data
Warehouse se basan en un esquema definido por el usuario para comprender la
estructura de esos datos;
15. se gana una gran flexibilidad.
16. Significa que varias aplicaciones pueden acceder a los mismos datos potencialmente
cada una con una vista diferente.
17. Por ejemplo, un analista de datos de su organización podría utilizar datos de ventas de
productos en Cloudera Data Warehouse para producir informes trimestrales para el
equipo de ventas.
18. Mientras que un científico de datos podría usar esos mismos datos para entrenar un
algoritmo de aprendizaje automático basado en Apache Spark.
19. Todo esto es posible sin tener que duplicar los datos subyacentes o perder la capacidad
de controlar y auditar el acceso a ellos.
20. Aunque la plataforma de Cloudera puede manejar fácilmente datos relacionales en
tablas como es típico para las cargas de trabajo de almacenamiento de datos, no se
limita a los datos relacionales.
21. Un ejemplo de esto es Apache HBase
22. un almacén de datos distribuido de alto rendimiento que está disponible en
implementaciones de centros de datos para la nube pública de CDP, en el centro de
datos de CDP y en el CDH más antiguo en plataformas HDP.
23. Su soporte para lecturas y escrituras de baja latencia, su capacidad para manejar
millones de columnas y miles de millones de filas
24. y su enfoque flexible para la definición de columnas lo convierte en una opción popular
para aplicaciones de transmisión de datos.
25. HBase es también una de las tecnologías centrales en la solución de base de datos
operativa de Cloudera,
26. lo que aporta una escala y flexibilidad sin precedentes para ofrecer información
instantánea a los responsables de la toma de decisiones.
27. Los clientes pueden usar esto para crear aplicaciones con capacidades en tiempo real,
como las relacionadas con la supervisión, detección y alerta.
28. Y al combinar datos en tiempo real con datos históricos, las aplicaciones de aprendizaje
automático son más capaces de calificar modelos,
29. hacer predicciones y guiar a los responsables de la toma de decisiones para que actúen
cuando más importa.
30. Si desea obtener más información sobre este software, incluida la forma de implementar
y desarrollar aplicaciones en él,
31. Recomiendo consultar el curso de capacitación de Cloudera para Apache HBase.
32. En estos días, los informes de investigación y las presentaciones regulatorias se
distribuyen como documentos PDF,
33. las discusiones en los negocios globales de hoy tienen lugar en un mundo virtual a
través del correo electrónico, el chat interactivo, las conferencias en línea, las intranets
corporativas y los mensajes de texto.
34. Los clientes publican reseñas de productos en línea y discuten sus opiniones sobre las
marcas a través de las redes sociales.
35. No es fácil encontrar y extraer información de este tipo de datos.
36. No solo por la escala, sino también porque son datos voluminosos y orientados al texto
que no encajan fácilmente en el modelo de base de datos relacional.
37. Además, tratar de consultar este tipo de datos es difícil con las herramientas basadas en
SQL porque tienen una capacidad muy limitada para lidiar con las complejidades de los
lenguajes naturales,
38. como la variación entre formas plurales y singulares, sinónimos y palabras mal escritas.
39. SQL es una herramienta poderosa, pero está diseñada principalmente para
coincidencias exactas en datos estructurados.
40. Por otro lado, Cloudera Search, que aprovecha las bibliotecas Apache Solr de código
abierto que impulsan la función de búsqueda para muchos de los principales sitios web
del mundo.
41. Entiende más de 30 idiomas y puede ayudarlo a encontrar datos relevantes a pesar de
inconsistencias como estas.
42. En otras palabras, es una herramienta ideal para el descubrimiento de datos, así como
para el análisis de texto.
43. No está destinado a reemplazar otras herramientas como Cloudera Data Warehouse
que utiliza para analizar datos.
44. Simplemente le ofrece una capacidad adicional.
45. Búsqueda interactiva de texto completo que complementa lo que ya tiene disponible.
46. Tener esta capacidad integrada en la plataforma significa que no tiene que mover datos
a un sistema separado para buscarlos.
47. Si desea obtener más información sobre esta aplicación, le recomiendo que consulte
nuestro curso de capacitación de búsqueda de Cloudera.
48. Fin de la transcripción. Saltar al principio
49. Inicio de la transcripción. Saltar hasta el final.
50. Si bien es posible aprovisionar clústeres de centros de datos CDP en bare metal
51. o utilice clústeres de centros de datos que contengan los motores Apache Hive e Impala
para admitir consultas SQL con los datos,
52. hay una solución aún mejor en la nube pública de CDP, Cloudera Data Warehouse.
53. Esta es la experiencia de autoservicio que le permite aprovisionar rápidamente los
recursos necesarios para las cargas de trabajo típicas de data warehouse y data mart.
54. Proporciona acceso seguro a los datos por parte de los usuarios finales, lo que le brinda
todos los beneficios de seguridad en el gobierno de la experiencia de compartir datos.
55. al mismo tiempo que proporciona un excelente rendimiento a través del aislamiento de la
carga de trabajo entre almacenes virtuales.
56. Cloudera Data Warehouse proporciona dos características importantes para ayudarlo a
obtener el mejor rendimiento al menor costo.
57. El primero es el escalado automático, que aumenta o disminuye automáticamente la
cantidad de potencia de cálculo disponible para procesar consultas bajo demanda dentro
de las restricciones que defina.
58. El segundo es la suspensión automática, que detiene automáticamente la infraestructura
informática cuando está inactiva
59. con el fin de reducir los costos y luego lo reanuda de nuevo automáticamente a medida
que aumenta la utilización.
60. El rol principal de Cloudera Data Warehouse es el analista de datos, que ejecutará
consultas SQL para informes, pronósticos o análisis interactivos.
61. Ahora, veamos Cloudera Data Warehouse en acción.
62. Mark Sampson, un ingeniero principal de soluciones de Cloudera que tiene su sede en el
Reino Unido, dirigirá esta demostración mientras explico lo que está sucediendo en la
pantalla.
63. Al igual que con otras partes de CDP, los usuarios normalmente accederán a Cloudera
Data Warehouse iniciando sesión a través del sistema de inicio de sesión único de su
organización, como OKTA.
64. Dado que Mark ya ha iniciado sesión en el sistema de inicio de sesión único hoy para
acceder a otras aplicaciones que utiliza nuestra empresa
65. al hacer clic en el mosaico, inicia sesión en CDP sin la necesidad de proporcionar su
nombre de usuario y contraseña nuevamente.
66. Unos segundos más tarde, llega a la página de inicio de CDP.
67. En su papel como Ingeniero Principal de Soluciones, Mark tiene un acceso bastante
amplio dentro de esta cuenta CDP en particular,
68. también conocido como inquilino, que utilizamos para demostraciones.
69. En consecuencia, tiene acceso a aplicaciones administrativas como Management
Console y Replication Manager.
70. Los ignoraremos en esta demostración porque un analista de datos no necesitará o
incluso probablemente se le asignará acceso a ellos.
71. Simplemente harán clic en el icono del almacén de datos tal como lo hizo Mark aquí.
72. De forma predeterminada, Cloudera Data Warehouse muestra dos columnas en su
pantalla principal, Catálogos de bases de datos y Almacenes virtuales.
73. Los explicaré en un momento.
74. También hay una tercera columna a la izquierda, que se minimiza de forma
predeterminada.
75. Esta es la lista de entornos que define la información sobre las cuentas de proveedor de
nube que CDP utilizará para acceder a los datos y aprovisionar recursos en nombre de
los usuarios.
76. Cada entorno está asociado con un lago de datos que proporciona seguridad y
gobernanza para los datos en ese entorno.
77. La seguridad y la gobernanza son esenciales, pero un almacén de datos también
requiere información sobre qué bases de datos y tablas existen y cómo se estructuran
los datos dentro de ellas.
78. Esta información se mantiene en un catálogo de base de datos.
79. Además de los datos y metadatos, hay una cosa más que requiere un almacén de datos.
Y esa es la potencia de cálculo necesaria para ejecutar realmente esas consultas.
80. Esto es proporcionado por los almacenes virtuales que están asociados con el catálogo
de datos. Se llama almacén virtual porque no almacena ningún dato.
81. Por lo tanto, puede crearlos, reconfigurarlos y terminarlos según sea necesario para
lograr el equilibrio perfecto de costos en rendimiento.
82. Un catálogo de datos típico tendrá varios almacenes virtuales,
83. esto proporciona aislamiento entre cargas de trabajo al tiempo que permite que esas
aplicaciones independientes utilicen los mismos datos y funcionen de conformidad con
las mismas reglas de seguridad.
84. Por ejemplo, esto significa que un científico de datos que desea realizar consultas ad
hoc complejas sobre datos históricos de ventas.
85. no disminuirá el rendimiento de los trabajos de informes de tiempo crítico que consultan
los mismos datos al mismo tiempo
86. porque cada carga de trabajo utiliza clústeres de proceso independientes para llevar a
cabo el trabajo.
87. Para crear un nuevo almacén virtual, solo necesita hacer clic en el botón más cerca de la
esquina superior derecha, lo que abre un formulario donde puede especificar el tipo de
nombre y el tamaño.
88. En este ejemplo ya tenemos un Almacén Virtual para cargas de trabajo de producción en
datos de ventas minoristas.
89. Sin embargo, Mark va a crear uno nuevo para consultas más experimentales, que
también tendrá acceso a los mismos datos, pero no ralentizará el sistema de producción.
90. Va a usar retail-lab para el nombre de este nuevo Almacén Virtual por defecto esto
usamos Apache Hive como motor de consultas.
91. Pero si planea hacer más consultas ad hoc de data mart, Mark probablemente
encontraría que Impala es la mejor opción.
92. En este caso, se quedará con Hive.
93. A continuación, elegirá el catálogo de base de datos asociado a este Almacén Virtual,
que es el mismo que se utiliza para los datos de producción minorista.
94. También especificará el tamaño de este almacén virtual, que determina la cantidad de
potencia de cálculo disponible para procesar consultas.
95. Se recomienda elegir el número de nodos en función del tamaño medio de la consulta y
la complejidad de la carga de trabajo.
96. Dado que se trata de una demostración con consultas relativamente simples, elegirá el
tamaño más pequeño, que ejecutará consultas en un mínimo de dos nodos.
97. Cloudera Data Warehouse puede suspender automáticamente para ayudar a controlar
los costos.
98. No comienza a usar ningún recurso hasta que un usuario ejecuta una consulta o inicia
explícitamente el almacén virtual.
99. y comenzará a suspender esos recursos a medida que disminuya la utilización.
100. De forma predeterminada, comenzará a suspenderlos después de 300
segundos, que son 5 minutos, pero puede ajustar esto.
101. Mark lo hace aquí configurándolo en 20 segundos.
102. En relación con Cloudera Data Warehouse admite la escala automática para
aumentar el rendimiento cuando más se necesita sujeto a los límites que defina.
103. Esto se hace especificando el número mínimo y máximo de nodos disponibles
para el procesamiento.
104. Para el tamaño extra pequeño que Mark muestra para este Almacén Virtual,
siempre hay al menos 2 y hasta 40 disponibles.
105. Mark va a disminuir el máximo a 10, lo que ayudará a controlar el costo.
106. Finalmente, también puede controlar la potencia de procesamiento mantenida en
reserva.
107. La opción Headroom activa el escalado automático cuando el número de nodos
inactivos cae por debajo de un umbral especificado.
108. Alternativamente, puede usar la opción de tiempo de espera cuyo
desencadenador es el escalado después de que las consultas se hayan puesto en cola
esperando la ejecución más larga que una duración especificada.
109. En este ejemplo, Mark elegirá la opción Headroom y establecerá su valor en uno
y, a continuación, hará clic en el botón para crear el almacén virtual.
110. Casi al instante vemos un mensaje de confirmación que nos informa que se está
creando el Almacén Virtual y solo uno o dos minutos después, estará listo para su uso.
111. Mientras esperamos, Mark usará el almacén virtual de venta al por menor que
configuró anteriormente. Pero primero permítanme tomarme un momento para explicar
esta pantalla.
112. La barra verde horizontal que se muestra dentro de cada Almacén Virtual aquí es
en realidad un gráfico que se actualiza periódicamente de la potencia de cálculo utilizada
por el Almacén Virtual.
113. A continuación podemos ver detalles específicos sobre los nodos, los núcleos de
la CPU y el uso total de la memoria.
114. El almacén virtual de prueba de impala que se ve en la parte superior de la
pantalla está procesando consultas activamente. Y, por lo tanto, está utilizando una
cantidad constante de potencia de procesamiento.
115. Sin embargo, el entorno retail-prod justo debajo de él ha liberado
automáticamente recursos que ya no estaban en uso.
116. Puede acceder al menú de un almacén virtual haciendo clic en el botón que
parece tres puntos verticales a la derecha.
117. Algunas de las opciones variarán dependiendo de si el Almacén Virtual se basa
en Hive o Impala.
118. En este caso, se trata de un almacén virtual de Hive. Y como se ha detenido
automáticamente para ahorrar dinero mientras no hay consultas activas, tenemos una
opción para iniciarlo.
119. Sin embargo, también se iniciará automáticamente una vez que comencemos a
ejecutar algunas consultas nuevamente. Así que lo haremos haciendo clic en la opción
Abrir DAS.
120. Que es el estudio de análisis de datos que proporciona soporte para escribir y
ejecutar consultas SQL.
121. Eso se abre en una nueva pestaña del navegador y después de iniciar sesión,
muestra una lista de consultas anteriores.
122. Al hacer clic en el enlace de redacción en la barra lateral izquierda, nos lleva a
una hoja de cálculo donde podemos escribir una consulta con soporte completo para el
resaltado de sintaxis.
123. así como una lista de tablas disponibles en el lado izquierdo de la pantalla.
124. En lugar de escribir una nueva consulta desde cero, Mark accederá a una de sus
consultas anteriores haciendo clic en la pestaña Guardar y, a continuación, haciendo clic
en esa consulta para abrirla en el editor.
125. Los datos de este ejemplo son para un minorista con sede en el Reino Unido.
126. Esta consulta contará el número de productos vendidos por un precio que supera
las 200 libras esterlinas.
127. Una vez que Mark ejecuta la consulta que envía para su procesamiento.
128. Mencioné anteriormente que la página principal muestra información sobre el
uso de recursos del Almacén Virtual. Mark, veamos esa pantalla de nuevo.
129. El almacén está inicialmente en estado de parada, pero una vez que recibe la
consulta para su procesamiento, se inicia automáticamente.
130. A medida que se abren los recursos informáticos del almacén virtual. Podemos
ver que el número de nodos, núcleos de CPU y memoria total cambia.
131. Vimos anteriormente que la barra verde, que representa un gráfico del uso de
recursos a lo largo del tiempo,
132. ilustra que el almacén virtual se apaga automáticamente cuando no hay
consultas activas.
133. Una vez que se envió la consulta, inmediatamente inició 10 nodos porque ese es
el número mínimo de nodos especificado para este almacén virtual
134. y ya no había ningún nodo en ejecución.
135. El gráfico cambiará la próxima vez que se actualice para reflejar esto.
136. Además, Mark muestra que al apuntar a un área particular del gráfico, puede ver
cuál fue el uso del recurso en un momento específico en el tiempo.
137. Ahora, volvamos a la ventana del editor y veamos cómo finaliza la consulta.
138. El spinner indica que la consulta aún se está procesando y el botón en el que
hacemos clic para ejecutarla ha cambiado. Permitiéndonos detener la consulta haciendo
clic de nuevo en ella.
139. Sin embargo, está casi hecho, así que esperemos y veamos los resultados. Está
bien, está hecho.
140. Podemos ver que este minorista vendió 31593 artículos que cuestan cada uno
más de 200 libras.
141. Esa consulta tardó menos de un minuto en completarse y habría sido aún más
rápida si Mark hubiera utilizado un almacén virtual con más potencia de cálculo.
142. Sin embargo, otra característica de Cloudera Data Warehouse, que es
particularmente importante si está haciendo consultas repetitivas, es que almacena en
caché los resultados.
143. Mark demostrará esto ejecutando la consulta nuevamente, ya que los datos
subyacentes no han cambiado, puede mostrar los resultados en menos de 2 segundos.
144. En el ejemplo anterior, Mark ejecutó una consulta guardada en el almacén
virtual.
145. Data Analytics Studio ofrece soporte para autocompletado y resaltado de
sintaxis, lo que hace que sea más rápido y fácil para los analistas de datos escribir
consultas.
146. Mark ahora demostrará esto.
147. Esta vez está utilizando una base de datos diferente, que proviene de un
conjunto de datos abierto del Servicio Nacional de Salud en el Reino Unido.
148. y proporciona información sobre los medicamentos que los médicos recetan a
sus pacientes.
149. Dado que el Almacén Virtual ya se está ejecutando y esta consulta es bastante
simple, los resultados se muestran casi de inmediato.
150. Next Mark modificará esa consulta para proporcionar resultados más
interesantes.
151. En lugar de mostrar el número total de recetas a lo largo del tiempo, las agrupará
por período, lo que mostrará un total para cada mes y año.
152. Una vez finalizadas las consultas ejecutadas podremos ver los resultados.
153. Como acaba de ver, es fácil escribir y ejecutar consultas desde Cloudera Data
Warehouse.
154. Sin embargo, es posible que muchos usuarios prefieran trabajar con
herramientas de inteligencia empresarial o visualización como Tableau.
155. Tableau es una de las muchas herramientas compatibles con Cloudera Data
Warehouse.
156. Mark va a crear una visualización que proporciona información sobre los costos
de los medicamentos recetados.
157. Simplemente arrastrando el campo apropiado a la lista de filas, Tableau realizará
una agregación que muestra el costo total de todas las recetas.
158. Que es más de 67 mil millones de libras.
159. A continuación, arrastrará un campo que representa el número de recetas en el
área de columnas.
160. Esto da como resultado un solo punto que identifica cuántas recetas se
escribieron y su costo total.
161. Agregando algunos campos más, así como coloración
162. Mark es capaz de producir rápidamente una visualización que utiliza datos en
Cloudera Data Warehouse para mostrar el número y el costo de las recetas por
categoría.
163. Mark, muchas gracias por tu ayuda con esta demostración.
164. Fin de la transcripción. Saltar al principio
1. Inicio de la transcripción. Saltar hasta el final.
2. La ciencia de datos es un campo que combina múltiples disciplinas,
particularmente estadística e ingeniería de software.
3. para extraer valor de los datos y comunicar los resultados a las partes interesadas del
negocio.
4. Los científicos de datos utilizan una variedad de enfoques para lograr esto.
5. Pero la construcción y el entrenamiento de modelos de aprendizaje automático se
encuentran entre los más comunes.
6. Al igual que otros tipos de científicos, los científicos de datos son naturalmente curiosos.
7. Realizarán análisis exploratorios de datos para descubrir patrones significativos.
8. Después de lo cual pueden diseñar y realizar experimentos para probar si la hipótesis es
correcta.
9. Si los datos que necesitan no existen, encontrarán una manera de recopilarlos.
10. Tal vez combinando y mejorando los conjuntos de datos existentes de maneras
novedosas. O instrumentando aplicaciones para recopilar datos que de otro modo no se
registrarían.
11. Si los datos contienen errores, los limpiarán. Si está en el formato equivocado, lo
transformarán.
12. Otra forma en que los científicos de datos crean valores es mediante la creación de
productos de datos.
13. Ejemplos de productos de datos con los que puede estar familiarizado son los puntajes
de crédito que las instituciones financieras utilizaron para fijar el precio del riesgo.
14. Y los sistemas de recomendación de productos que los sitios web de comercio
electrónico utilizan para impulsar las ventas.
15. Aunque los científicos de datos podrían trabajar inicialmente con cantidades
relativamente pequeñas de datos en una sola máquina, particularmente en las primeras
etapas del proyecto.
16. Cada vez tienen más experiencia trabajando con sistemas de computación distribuida
como Apache Spark que se ejecutan en Cloudera Data Platform.
17. De hecho, el uso de un sistema distribuido que puede manejar grandes cantidades de
datos en realidad tiende a hacer que su trabajo sea aún más efectivo.
18. porque más datos generalmente mejoran la calidad de los resultados.
19. Las herramientas que hemos diseñado para científicos de datos como Cloudera Data
Science Workbench y Cloudera Machine Learning Experience en CDP Public Cloud
20. ayudar a los científicos de datos a colaborar y reproducir durante todo el ciclo de vida del
proyecto.
21. Para comprender mejor el papel de un científico de datos. Hablemos con alguien en el
campo.
22. Hola, mi nombre es Victor Dibia.
23. Soy ingeniero de investigación en Cloudera Fast Forward Labs y tengo experiencia en
ciencias de la computación, interacción humano-computadora e inteligencia artificial
aplicada.
24. Víctor, ¿cómo describirías el papel de un científico de datos?
25. El riesgo es simplificar las cosas, diría que el papel del científico de datos se trata de
responder preguntas, usar datos para hacer esto de una manera que sea confiable y
válida.
26. Esto implica un montón de pasos. Así que lo primero es hacer las preguntas correctas.
Así que necesitas formular tu problema,
27. la pregunta como una tarea y encontrar formas de vincularla cuidadosamente a los
objetivos comerciales establecidos y conocidos.
28. La segunda parte de ese proceso es identificar el conjunto de datos correcto para usar
en su proyecto.
29. Y esto podría significar crear su propio conjunto de datos desde cero.
30. Puede significar limpiar o preparar un conjunto de datos existente.
31. O podría significar combinar un conjunto de diferentes conjuntos de datos desesperados
o desentrenados de una manera que lo ayude a resolver su problema.
32. Entonces, una vez que tenga su pregunta lista y tenga su conjunto de datos. La
siguiente parte interesante es
33. identifique los modelos correctos o las ofertas correctas que puede aplicar a esos datos
para ayudarlo a resolver su problema y responder a su pregunta.
34. Y esta parte tiende a requerir mucha experimentación y también requiere mucha
intuición.
35. Y una vez que lo hayas hecho, necesitas entender qué tan bien lo estoy haciendo y para
que
36. está relacionado con la definición de una métrica de evaluación significativa.
37. Digamos que estás ejecutando todos estos experimentos, necesitas una manera de
saber si estoy mejorando o estoy empeorando y ¿cómo puedo mejorar este proceso?
38. Entonces, una vez que haya hecho eso, después de eso es un proceso de evaluación y
prueba de sus operaciones.
39. y luego, finalmente, comunicar todo eso de una manera que sea clara y procesable.
40. ¿Por qué es importante el enfoque científico para este papel?
41. Es valioso que se sientan muy cómodos con el proceso científico. Así que se te ocurre
una hipótesis, algún tipo de predicción de una relación que crees que existe.
42. Y el objetivo es realizar un montón de experimentos. Y aquí recopilas algunos datos,
construyes modelos.
43. Y esencialmente pruebas para ver si sabes que los datos realmente respaldan la
hipótesis o las preguntas o las intenciones originales que has publicado.
44. Y esa es la primera habilidad crítica que debe tener un científico de datos. Una cultura
de hacer preguntas realmente
45. y ser capaz de formular los experimentos correctos para ayudarlos a responder estas
preguntas de una manera que se valore.
46. Los científicos de datos parecen tener una comprensión profunda de las estadísticas,
que es esencial para el aprendizaje automático aplicado.
47. y es bastante común que los científicos de datos tengan un título avanzado en
matemáticas.
48. También tienden a tener experiencia con la ingeniería de software que les ayuda a
recopilar, transformar, analizar y visualizar datos.
49. Esto les permite construir lo verdaderamente necesario para llevar a cabo experimentos
efectivos.
50. como probar una nueva característica en una aplicación móvil o basada en la web
poniéndola a disposición de solo un subconjunto de usuarios.
51. Aparte de estas habilidades técnicas, los científicos de datos tienen el conocimiento del
dominio para comprender cómo funciona el negocio y las limitaciones bajo las cuales
opera.
52. Esto les ayuda a identificar oportunidades en los datos que tienen valor comercial.
53. y comunicarse de manera efectiva con las partes interesadas, a menudo utilizando
visualizaciones para ayudar a ilustrar los resultados.
54. Si bien algunas de estas habilidades pueden superponerse con las de otros roles, como
analistas de datos o ingenieros de datos, pero el papel de los científicos de datos difiere.
55. Por ejemplo, tanto el ingeniero como el científico de datos pueden escribir software, pero
el científico de datos solo tiende a hacerlo como parte de un objetivo más grande.
56. Como la creación de una aplicación de telemetría para recopilar los datos necesarios
para un experimento.
57. En contraste, el objetivo principal del ingeniero de datos es desarrollar y mantener una
canalización de datos de extremo a extremo para el sistema de producción.
58. Del mismo modo, el científico de datos comparte la misma mentalidad analítica y
conocimiento de estadísticas con el analista de datos.
59. pero el analista de datos probablemente usará esto para crear pronósticos de ventas.
60. Mientras que el científico de datos lo utilizará para diseñar experimentos y desarrollar
modelos de aprendizaje automático.
61. Los científicos de datos tienen una gran demanda y la competencia por ellos es feroz.
62. Una forma en que puede atraerlos es dándoles la libertad de usar las mejores
herramientas para el trabajo al otorgarles cierta autonomía para trabajar de manera
diferente a los que desempeñan otros roles.
63. Además, busque personas que tengan experiencia en el uso de algunos de los
lenguajes más comunes que usan los científicos de datos, como Python y R.
64. además de experiencia con SQL y herramientas de inteligencia de negocios.
65. Encontrar candidatos que tengan experiencia con nuestros productos.
66. Busque la palabra clave CML que significa Cloudera Machine Learning y CDSW, que
significa Cloudera Data Science Workbench.
67. Si encuentra un candidato prometedor que aún no tiene experiencia con estas
herramientas
68. considere inscribirlos en la capacitación de Cloudera Data Scientist, un curso dirigido por
un instructor que combina breves conferencias demostraciones interactivas, ejercicios
extensos
69. y discusión para darles habilidades prácticas y experiencia práctica con las herramientas
de ciencia de datos de Cloudera.
70. Los científicos de datos con frecuencia emplean el aprendizaje automático, que son
algunos ejemplos de aprendizaje automático que las personas podrían no darse cuenta
de que usan todos los días.
71. Personalmente tengo experiencia en interacción humano-computadora e inteligencia
artificial aplicada.
72. y una parte importante de ese espacio es encontrar formas en las que podamos aplicar
modelos de inteligencia artificial y aprendizaje automático para hacer
73. interacción del usuario mucho más interesante y más fácil y mejor en general.
74. Y algunos de los ejemplos que realmente me encantan son cosas como el
autocompletado de mensajería.
75. Y así, en los teléfonos inteligentes, normalmente vería un modelo de aprendizaje
automático trabajando detrás de escena.
76. para recomendar cosas como la siguiente palabra que va a escribir en el mensaje de
texto.
77. Otro ejemplo es el autocompletado de Gmail y, por lo tanto, imagina que muchas
personas probablemente usan esto a diario. Estás atascado para escribir un correo
electrónico,
78. y el modelo de aprendizaje automático en realidad intenta sugerir terminaciones para su
oración.
79. Y además dentro de mi propio trabajo hay algunos proyectos en los que he trabajado en
los que realmente usamos el aprendizaje automático para recomendar visualizaciones
que dan datos.
80. Y todo lo que esto tiene que hacer es proporcionar los datos y un modelo de aprendizaje
automático con 10 a 15 visualizaciones que tengan sentido para esos datos.
81. Y por lo tanto, el valor de esto es que puede reducir drásticamente la cantidad de tiempo
utilizado para crear visualizaciones y hacer que el proceso de oferta de visualización sea
realmente simple.
82. Así que estos son algunos de los ejemplos que encuentro realmente interesantes y
convincentes y estoy seguro de que hay un montón de ellos por ahí.
83. El aprendizaje automático no es nuevo, pero en los últimos años se ha convertido en un
diferenciador estratégico para muchas empresas. Le pedí a Michael Gregory que
explicara ¿por qué ahora?
84. Un par de tendencias en la industria en general en este momento que están marcando la
diferencia y ¿por qué el aprendizaje automático está financiado para usted ahora?
85. El primero es en torno a la computación en la nube. Así que ahora mismo con las
infraestructuras de nube pública que existen
86. el costo de la infraestructura está reduciendo drásticamente también la cantidad de
datos que están disponibles para desarrollar estas capacidades de aprendizaje
automático que simplemente no existían antes.
87. La cantidad de datos necesarios. Y luego el tercero son las comunidades de código
abierto que están creciendo en torno a las capacidades, los marcos.
88. Cosas como el flujo tensorial y muchos otros marcos y bibliotecas y técnicas que están
disponibles hoy en día que no existían.
89. Y es el impulso de las comunidades de código abierto lo que lo ha estado haciendo
posible.
90. ¿Cuál es un ejemplo de una aplicación común que se ha mejorado a través del
aprendizaje automático?
91. Me gusta usar Google Maps como ejemplo de una herramienta que está frente a
nosotros todo el día aprovechando el aprendizaje automático y no necesariamente lo
reconocemos.
92. La intención original era simplemente mapas, como entender dónde estoy y a dónde
tengo que ir.
93. Ahora es mucho más rico ahora con muchas predicciones y aspectos probabilísticos
para el enrutamiento,
94. para patrones de tráfico y para predicciones o recomendaciones de puntos de interés,
restaurantes, cosas que tal vez quieras ir a ver.
95. Así que una herramienta de mapeo que fue diseñada y ahora muchas capacidades de
aprendizaje automático que están influyendo en ella.
96. Michael, ¿cómo apoya la plataforma de Cloudera el trabajo que hacen los científicos de
datos?
97. Los científicos de datos se preocupan profundamente por las cosas que hay en CDP y
Enterprise Data Cloud hoy en día, pero en realidad no saben que lo hacen.
98. Permítanme darles un ejemplo, como científico de datos simplemente quiero averiguar
qué fecha hay.
99. Se me ha pedido que resuelva este problema, que cree una capacidad probabilística en
torno a un problema específico.
100. Lo primero que quiero saber es ¿dónde encuentro los datos?
101. Enterprise Data Cloud fue diseñado con la capacidad de hacer que los datos
estén disponibles según sea necesario para impulsar realmente la experimentación
rápida.
102. Los científicos de datos tienen un lugar al que ir, con acceso a los datos que son
relevantes para resolver su problema y muy rápidamente.
103. Esto es algo que les importa mucho, pero no necesariamente saben sobre toda
la dificultad de lo que significa hacer que eso suceda.
104. En una industria regulada con seguridad de datos regulada, gobernanza,
auditoría, linaje todas estas cosas importantes que van a hacer que los datos estén
disponibles para ellos.
105. No quieren tener que involucrarse con toda esa fabricación de salchichas.
106. quieren poder simplemente consumir los datos, encontrar los conjuntos de datos
correctos y obtener acceso a ellos muy rápidamente.
107. Gracias, Michael. Ahora, veamos algunas de las formas en que las
organizaciones están utilizando el aprendizaje automático en la plataforma Cloudera
para ofrecer valor a sus clientes.
108. Fin de la transcripción. Saltar al principio

********************************************************
1. Inicio de la transcripción. Saltar hasta el final.
2. CDP permite a los clientes combinar el almacenamiento de datos y el aprendizaje
automático para extraer valor de los datos almacenados en una única plataforma
integral.
3. Le pregunté a Richard Harmon y Steve Totman sobre otras formas únicas en que los
clientes crean valor a través de la plataforma.
4. También estamos viendo que los clientes comienzan a hacerlo y esto va al
concepto de transformación digital, comienzan a aprovechar el análisis y los
conjuntos de datos mucho más holísticos.
5. Así que están empezando a mirar los feeds de redes sociales, los feeds de noticias otros
tipos de datos de tipo centrado en el cliente.
6. Al mismo tiempo, también están aprovechando los algoritmos de aprendizaje profundo y
otro tipo de capacidades de aprendizaje automático.
7. Los más interesantes y los de vanguardia incluso están empezando a mirar las
capacidades de simulación.
8. Están creando copias digitales de su base de clientes.
9. Y luego, a partir de esas copias digitales, probando como lo harías en un simulador de
vuelo con un piloto. Están probando nuevos productos, nuevos servicios, nuevas
capacidades.
10. Los bancos solían dividir a los clientes en segmentos muy amplios.
11. Así que segmentarías por rango de edad a los 18 a 25, de 25 a 36.
12. Ahora puedes lograr literalmente una segmentación de uno. Puede mirar a cada cliente
individual,
13. entender exactamente por lo que pasaron. Comprenda que podría venderlos, venderlos
de forma cruzada o venderlos.
14. Un buen ejemplo es Common Wealth Bank en Australia que tienen una aplicación, Next
Best Conversation.
15. Genera alrededor de un millón de dólares australianos para su banco al día.
16. Eso les permite básicamente asegurarse de que cuando interactúan con un cliente, la
siguiente interacción es la siguiente mejor cosa para ese cliente.
17. En una industria altamente regulada como la banca, una visión completa del cliente es
necesaria para cumplir con las regulaciones AML o contra el lavado de dinero.
18. También es útil para impulsar nuevos negocios y una mayor satisfacción del cliente a
través de recomendaciones de productos.
19. Como explica Richard Lowe, Director General y Director de Datos del Grupo de United
Overseas Bank.
20. UOB es un banco líder en Asia, tenemos unas 500 oficinas. Más de 20 sucursales a
nivel local.
21. Somos un banco de servicio completo que va desde la banca minorista hasta los
mercados globales y la banca mayorista.
22. En UOB queremos estar sin fricciones con nuestros clientes.
23. Tenemos la visión de crear un lugar, una solución y una plataforma en la que podamos
simplemente, en términos sencillos, reunir todos los datos más valiosos de nuestros
bancos en un solo lugar.
24. Recomendar, dar valor, dar ofertas a nuestros clientes de una manera mucho más
personalizada.
25. Nos asociamos con Cloudera para lograr esto en 2 años. En la banca mayorista
utilizamos el aprendizaje automático para ayudarnos a trazar relaciones de manera más
efectiva.
26. Hemos ahorrado más de 1000 horas-hombre y hemos visto un aumento muy grande en
los clientes potenciales.
27. Uno de los casos de uso exitosos que hemos tenido con nuestra división de
cumplimiento grupal es no solo mejorar sus capacidades de detección de AML, sino
también generar ganancias significativas de productividad.
28. Podemos reducir algunas horas-hombre para nuestros analistas de AML, de 3 meses a
3 semanas.
29. Y también encontrar resultados predictivos bastante significativos en términos de
nuestras variables. Para poder impulsar sus resultados en la detección de dispositivos y
AML.
30. ¿Cuáles son algunos otros casos de uso de aprendizaje automático que ve en la
industria financiera?
31. Cualquier caso de uso de datos puede ser potencialmente un caso de uso de
aprendizaje automático.
32. Está siendo muy interesante en todos los segmentos.
33. Obviamente, en el lado del riesgo, el aprendizaje automático es muy interesante. Uno de
los bancos, hace un año fui a ver Regions Bank en Birmingham, Alabama.
34. Uno de sus primeros casos de uso que implementaron fue sobre fraude y delitos
financieros.
35. Lo desplegaron en menos de 3 meses. Ya han tenido un gran impacto. Así que 50% de
impacto en la delincuencia financiera
36. y no son solo las grandes organizaciones las que se están beneficiando, sino también
las organizaciones más pequeñas. Y esta aplicabilidad práctica del aprendizaje
automático.
37. La detección de fraude y la lucha contra el lavado de dinero son casos de uso
importantes y muy comunes para la industria financiera, pero no son los únicos.
38. Novantas es una empresa que está utilizando el aprendizaje automático en la plataforma
de Cloudera para identificar nuevas oportunidades de ahorro de costos. Escuchemos su
historia.
39. Novantas es una organización de ciencia del cliente.
40. Tratamos de encontrar información a través de los datos de nuestros clientes, así como
información del mercado para ayudarlos a resolver problemas comerciales prácticos y
pragmáticos.
41. Atendemos a clientes en la industria de servicios financieros, desde corredurías hasta
bancos y fintechs.
42. E identificar oportunidades tanto en el mercado como en lo que hacen sus clientes para
hacer crecer tanto los ingresos como los productos.
43. Nos topamos con un obstáculo con más y más datos provenientes de nuestros clientes.
Y no podíamos usar sistemas tradicionales, por lo que necesitábamos una solución
altamente escalable.
44. Así que elegimos Cloudera porque nos proporcionan la misma interfaz para dar soporte
a nuestros clientes tanto en las instalaciones como en la nube.
45. Por lo tanto, los beneficios de Cloudera es que renuncia al entorno de datos para
armonizar todas estas diferentes fuentes de datos.
46. Y cree una vista 360 o un modelo de datos para el cliente.
47. Nuestros científicos de datos utilizan cloudera Data Science Workbench como su
entorno de desarrollo principal. Duplicar matrices y modelos.
48. Estamos aplicando técnicas de aprendizaje automático, específicamente Spark ML para
hacer análisis de comportamiento de los clientes específicamente el curso de los
clientes.
49. Estamos buscando 5 años 6 millones de clientes y somos capaces de obtener
información en minutos.
50. El 80% del costo de los depósitos está vinculado a las promociones y a lo que hemos
podido hacer aprovechando el big data de Cloudera y nuestra solución de métricas.
51. es estar más dirigido a a quién le damos esas promociones. Hemos identificado ahorros
para un cliente de hasta 30 millones de dólares mediante la identificación de
depositantes específicos.
52. Ya que Steve menciona que la detección de fraude es un caso de uso común en la
banca. Le pregunté a Monique si las compañías de seguros usaban el aprendizaje
automático para detectar reclamos fraudulentos.
53. Desafortunadamente, el fraude sigue siendo una gran parte de la industria de seguros.
54. Y vemos que las compañías de seguros ponen mucho esfuerzo en aumentar los datos
clásicos que tenían para detectar el fraude con nuevas fuentes de datos.
55. Cuando alguien entra con un auto dañado que sabe que comienza a hacer, el seguro
ahora comienza a hacer análisis de las imágenes que la persona se quita de su auto.
56. Y están entrenando máquinas con aprendizaje automático para identificar si esta es una
afirmación reciente.
57. o si parte del daño al automóvil ya estaba presente antes de que ocurriera el accidente
más reciente.
58. Abbas, ¿cómo están los clientes en la industria de la salud aprovechando el borde de las
capacidades de IA de la plataforma?
59. Creemos que los datos, el análisis de esos datos y los conocimientos generados a partir
de esos datos.
60. es clave para mejorar los resultados de salud de los pacientes, los miembros e influir en
el comportamiento de los proveedores y los médicos.
61. Estamos a la vanguardia de la prevención de la sepsis, de la reducción de accidentes
cerebrovasculares. Estamos trabajando con readmisiones, tanto reingresos no
planificados como reingresos regulares.
62. Estamos trabajando con la creación de centros patient-360, member-360 hubs para
pagadores. Así como, por supuesto, ensayos clínicos en el espacio biofarmacéutico.
63. El aprendizaje automático es parte de nuestra plataforma de datos Cloudera. Es una
parte esencial de CDP.
64. Donde a medida que tomamos un flujo, transmitimos datos desde el borde o IoT desde
la cabecera, desde el banco a un centro de datos centralizado.
65. Luego podemos aplicar el aprendizaje automático, el análisis predictivo y la ciencia de
datos a eso. Conviértala en información inteligente y envíela de vuelta al punto de
atención.
66. Un ejemplo sería ¿podemos desde una prevención de ictus o UCI, transmitiendo signos
vitales desde la UCI y la CCU?
67. ¿Podemos transmitir que los datos realicen análisis, análisis inteligentes en ellos?
68. Y llevar esa analítica de vuelta al punto de atención es tal que una persona en la UCI
cuya temperatura está aumentando.
69. ¿Podemos tomar medidas incluso sin intervención humana y aumentar el enfriamiento
en el punto de atención?
70. Escuchemos a IQVIA, un cliente de Cloudera que ha vuelto a imaginar la atención
médica a través de innovaciones posibles gracias al aprendizaje automático en la
plataforma Cloudera.
71. Su enfoque basado en datos ha ayudado a mejorar el desarrollo clínico, permitir la
comercialización de nuevos tratamientos,
72. y acelerar la investigación que conduzca a mejores resultados sanitarios.
73. La oportunidad de construir algo que puede impactar no solo a millones, sino
potencialmente a miles de millones de vidas. Abordar los problemas que afectan a cada
persona en este planeta es lo que me impulsa.
74. IQVIA es una empresa de ciencia de datos humanos. Tomaremos datos de fuentes de
atención médica de todo el mundo.
75. Encontraríamos ideas que ayudan a las agencias gubernamentales a las compañías
farmacéuticas, instituciones académicas que buscan mejorar los resultados de atención
médica para los pacientes.
76. ¿Cómo se construye una historia cohesiva de un paciente donde sus conjuntos de datos
son miles de millones y miles de millones de filas con cientos de millones de entidades
independientes?
77. Con nuestro lago de datos y la plataforma Cloudera estamos construyendo una
infraestructura que permite abordar el tipo de problemas que nunca antes habíamos
podido abordar.
78. Estamos prediciendo mucho mejor si un paciente es viable para un ensayo clínico,
incluso cuando están en la etapa temprana de los síntomas.
79. Nuestra capacidad para predecir algún punto que se ha multiplicado por cuatro.
80. Si podemos encontrar los pacientes adecuados que podrían ser ideales para un ensayo
clínico, el costo de hacer un ensayo clínico y el tiempo a partir del cual ejecutarse contra
un ensayo clínico se pueden reducir.
81. En última instancia, lo que lleva a que los medicamentos que salvan vidas se lancen al
mercado más rápido y más rápido e idealmente más barato.
82. Es emocionante que podamos estar a punto de tener un impacto tremendo en la salud y
el bienestar de las personas de todo el mundo.
83. Shaun, ¿cómo utilizan los clientes del sector público los datos para comprender mejor a
su fuerza laboral?
84. Sí, en realidad es un caso de uso realmente emocionante cuando piensas en ERP
tradicional y gestión de la fuerza laboral.
85. Están muy aislados y la información está en diferentes sistemas, desde recursos
humanos hasta registros de salud.
86. Por lo tanto, una vista única es uno de los casos de uso que más atraen a nuestros
clientes.
87. Y eso podría ser una sola vista de un soldado, una sola vista de un paciente o una sola
vista de la plataforma.
88. Comprender la preparación, las calificaciones y la trayectoria profesional general.
89. Así que hay muchas aplicaciones diferentes para él, pero en su núcleo está reuniendo
esos sistemas en silos.
90. para proporcionar una vista unificada y coherente del recurso. Y en este caso el
individuo.
91. Uno de nuestros clientes, ADP, superó los silos de datos y ahora agrega información de
600,000 clientes.
92. A través de la ciencia de datos en la plataforma de Cloudera, pueden generar
información que ayuda a las empresas a abordar los desafíos de recursos humanos.
93. como la retención de empleados y la igualdad salarial.
94. ADP ha estado procesando transacciones de gestión de nómina y capital humano
durante 60 años.
95. Con eso vienen muchos datos.
96. Pagamos a una de cada seis personas en los Estados Unidos. Procesamiento
automatizado de datos, los datos son nuestro segundo nombre.
97. Data Cloud, que es esencialmente un grupo de productos y un grupo de ciencia de
datos.
98. Tomamos un dato y esencialmente queremos hacer un producto a partir de él.
99. Crea un anuncio de valor para los clientes.
100. Desde el primer día nos dimos cuenta de que los datos se encuentran en
nuestros centros de datos en varias aplicaciones.
101. Realmente necesitamos traer a un solo lugar. Obviamente, la seguridad estaba a
la vanguardia para asegurarse de que estos datos estén seguros.
102. Asegurarse de que esté anonimizado, agregado y solo asegurarse de que esté
bloqueado.
103. Esa fue una de las principales razones por las que comenzamos con Cloudera.
Porque simplemente está integrado en toda la solución.
104. También necesitábamos una solución de clase empresarial. Necesitamos
asegurarnos de que somos la distribución más estable,
105. porque no solo son muchos datos, sino que hay mucha gente dependiendo de
ese estado de estar allí, seguro y disponible para nuestros productos.
106. 29 millones de personas que procesamos y todos los factores.
107. No solo una información de compensación muy granular, sino cosas como
bonificaciones, cosas como horas extras, cosas como aumentos.
108. Desglosándolo por sus diferentes funciones de trabajo, diferentes niveles de
experiencia para que podamos reunir toda esta información.
109. Para que podamos informar un punto de referencia por industria, ubicación,
tamaño de la organización, ingresos. Para ayudar realmente a nuestros clientes a
encontrar compañeros.
110. Cloudera hace mi vida 10 veces más fácil. Primero probando todo el marco y
asegurándose de que las 26 piezas interoperen y pasen por ... pruebas de detalle.
111. Entonces, cuando tengo problemas, me comunican de inmediato y puedo
obtener soluciones a pedido si es necesario. Y esa es una gran experiencia.
112. Cada vez que hablamos con nuestros profesionales de recursos humanos en
nuestros clientes, hago la misma pregunta: ¿Cuál es la parte más importante de su
trabajo? ¿Por qué estás aquí?
113. Y la respuesta es siempre la misma. Encontrar y mantener el mejor talento
posible en la organización.
114. Nuestro modelo de probabilidad de rotación está destinado a ayudarlos con esa
misión.
115. A través del modelo somos capaces de identificar que el 20% superior de las
personas de riesgo medio y el 1% de las personas de alto riesgo,
116. y la tasa de rotación de esa población es más de tres veces mayor que la de las
personas que no están en riesgo.
117. Lo que estamos viendo con nuestro análisis y Data Cloud Platform es un
crecimiento masivo en toda nuestra base de clientes.
118. Fin de la transcripción. Saltar al principio

************************************************
1. Inicio de la transcripción. Saltar hasta el final.
2. Cloudera Data Science Workbench o CDSW es una plataforma para la ciencia de datos
colaborativa a escala.
3. Permite a los científicos de datos trabajar juntos, experimentar más rápido y desplegar
con confianza.
4. CDSW es una aplicación de ciencia de datos de autoservicio para la empresa que
proporciona a los científicos de datos los datos y la potencia de cómputo escalable que
necesitan.
5. Mientras se gestionan de manera eficiente los recursos informáticos y se mantiene la
seguridad de los datos.
6. Los usuarios acceden a CDSW a través de una conveniente interfaz basada en la web,
que les da acceso directo a un clúster seguro sin la necesidad de instalar software
localmente.
7. El aislamiento entre sesiones permite la multitenencia sin sacrificar el rendimiento.
8. Aunque CDSW funciona extremadamente bien para científicos de datos individuales
9. el soporte integrado para el control de versiones, la colaboración y el uso compartido lo
convierten en una solución ideal para los equipos de ciencia de datos.
10. CDSW está diseñado principalmente para implementaciones de infraestructura como
servicio locales o basadas en la nube.
11. Sin embargo, la experiencia de aprendizaje automático de Cloudera disponible en CDP
Public Cloud ofrece las mismas capacidades con una interfaz de usuario prácticamente
idéntica.
12. Ian Cook me ayudará a demostrar los conceptos básicos de CDSW. Ian, por favor
preséntate a la audiencia.
13. Hola, me llamo Ian Cook, soy un desarrollador de currículo senior en Cloudera. Soy
responsable de desarrollar nuestros cursos de ciencia de datos y aprendizaje
automático.
14. ¿Cuáles son los beneficios de lenguajes como Python y R que son compatibles con
CDSW y Cloudera Machine Learning Experience? ¿Por qué no usar SQL para todo?
15. Una vez que esté utilizando lenguajes como Python y R, tendrá a su disposición un
amplio conjunto de paquetes y herramientas de código abierto.
16. para realizar tareas aún más sofisticadas, como la creación de modelos de aprendizaje
automático y aprendizaje profundo
17. y puede usarlos para crear valor de maneras que no puede simplemente usar
herramientas de análisis de datos.
18. De acuerdo, gracias. Ahora es el momento de ver Cloudera Data Science Workbench en
acción.
19. El primer paso es abrir su navegador y seguir las instrucciones de inicio de sesión
proporcionadas por el administrador.
20. En este caso, Ian especificará un nombre de usuario y una contraseña.
21. Pero CDSW también admite otros métodos de autenticación, incluida la integración con
sistemas de inicio de sesión único.
22. Después de iniciar sesión con éxito, verá la página del proyecto que se muestra aquí.
23. Enumera sus proyectos actuales que utiliza para organizar su trabajo en CDSW, así
como algunas métricas e información sobre los recursos y la utilización del sistema.
24. Desde aquí puede seleccionar el proyecto en el que desea trabajar si hay uno disponible
o crear un nuevo proyecto como ian lo hará ahora.
25. Lo hace haciendo clic en el botón nuevo proyecto y especificando un nombre para el
proyecto.
26. Opcionalmente, puede cambiar el nivel de visibilidad del nuevo proyecto.
27. De forma predeterminada, es privado, lo que significa que ningún otro usuario tendrá
acceso a menos que los agregue específicamente como colaboradores.
28. La otra opción es pública, lo que garantiza que todos los demás usuarios que tengan
acceso a esta instancia de CDSW también tendrán acceso a su proyecto.
29. El siguiente paso es elegir cómo inicializar el proyecto.
30. Hay cuatro opciones para esto.
31. La primera es usar un proyecto en blanco que no contenga ningún archivo.
32. El segundo es rellenar el nuevo proyecto con archivos de una plantilla.
33. Que básicamente corresponde al lenguaje de implementación del proyecto como R,
Python o Scala.
34. La tercera opción es rellenar el proyecto con archivos de una carpeta local.
35. Finalmente, la cuarta opción es agregarlos desde un popular sistema de control de
revisión conocido como GIT, que es la opción que Ian elegirá aquí.
36. El último paso es simplemente hacer clic en el botón nuevo proyecto.
37. Cuando se trabaja en un nuevo proyecto, CDSW divide la pantalla en dos partes. El
panel de edición de la izquierda y el panel de sesión de la derecha.
38. A la izquierda del panel de edición, verá una lista de archivos y carpetas dentro del
proyecto actual.
39. En el panel de edición, seleccionará el archivo en el que desea trabajar y que luego se
carga en el editor.
40. como puede ver, esto tiene soporte completo para el resaltado de sintaxis, lo que mejora
la experiencia de edición y facilita la detección de errores en su código.
41. Después de editar el código, querrá ejecutarlo para habilitar el panel usar sesión para
iniciar una nueva sesión
42. dado que el código en el proyecto de Ian es compatible con la versión 3 de Python, lo
seleccionará para el tipo de kernel del motor.
43. Dado que el código es relativamente simple, se quedará con el perfil de motor
predeterminado que ofrece 1 CPU virtual y 4 gigabytes de memoria para ejecutar el
código.
44. Después de hacer clic en el botón, CDSW muestra el mensaje de estado para indicar
que está iniciando la nueva sesión.
45. Aunque solo toma unos segundos para que esté listo, esta es una buena oportunidad
para que Ian nombre la sesión.
46. para que sea más fácil de encontrar entre cualquier otra sesión que también pueda estar
ejecutando.
47. Una vez que CDSW establece la sesión, el mensaje en la parte inferior del panel se
volverá verde, lo que indica que está listo para ejecutar nuestro código.
48. En el editor puede seleccionar una o más instrucciones en el código y ejecutar los
comandos seleccionados. Su salida se mostrará en el panel de sesión.
49. Los científicos de datos con frecuencia emplean visualizaciones en su trabajo, no solo
para comunicar los resultados a las partes interesadas del negocio,
50. pero también para ayudarse a sí mismos a identificar y comprender mejor los patrones
en los datos.
51. La visualización que vemos aquí fue creada por una popular biblioteca de gráficos de
Python que Ian llama en su código.
52. Este ejemplo muestra un diagrama de dispersión simple donde estamos planeando el
retraso de salida y llegada de los aviones.
53. Aunque parece mostrar una fuerte asociación lineal entre el retraso de la salida y el
retraso de la llegada, como lo ilustra el grupo de puntos en el cuadrante inferior
izquierdo.
54. hay algunos puntos de contorno cerca del cuadrante superior derecho que podrían
afectar nuestra percepción de la gráfica.
55. Ian los eliminará agregando código para filtrar cualquier retraso que sea de 300 minutos,
lo que significa 5 horas o más.
56. Después de que Ian completa esta modificación, ejecuta el código seleccionado para
mostrar la gráfica actualizada, lo que le ayuda a ver más claramente el patrón que
observó anteriormente.
57. Esta técnica ilustra cómo los científicos de datos pueden explorar los datos y obtener
una mejor comprensión de ellos.
58. Utilizando el icono de enlace visible a la izquierda de la gráfica
59. CDSW generará código HTML que facilita a los usuarios compartir visualizaciones con
compañeros de trabajo o clientes o incrustarlas en otras aplicaciones.
60. Fin de la transcripción. Saltar al principio

********************************

1. Inicio de la transcripción. Saltar hasta el final.


2. Durante varios años, los clientes de Cloudera han podido ejecutar trabajos de ciencia de
datos y aprendizaje automático en la plataforma Cloudera utilizando CDSW, Cloudera
Data Science Workbench.
3. Esto ha sido realmente fundamental para llevar a los científicos de datos a nuestra
plataforma.
4. Con el lanzamiento de CDP, Cloudera Data Platform, ahora es aún más fácil y potente
ejecutar cargas de trabajo de ciencia de datos.
5. CDP ofrece nuevas capacidades a los usuarios de ciencia de datos en la plataforma,
como el escalado automático elástico
6. y la capacidad de acceder a los recursos de la nube con una facilidad que antes no
podían usar CDSW.
7. Cloudera Machine Learning trae todos los beneficios de CDSW a la nube.
8. Está diseñado para permitir el acceso de autoservicio para gobernar los datos, así como
los recursos informáticos necesarios para desbloquear el valor de esos datos.
9. Brinda a los equipos de ciencia de datos un fácil acceso a las herramientas que
necesitan.
10. Al mismo tiempo que facilita a los administradores el apoyo al trabajo que realizan.
11. Permite prácticas modernas de desarrollo de software colaborativo y reproducible,
12. en última instancia, proporciona un camino que lleva el aprendizaje automático desde la
experimentación hasta la producción.
13. Ofrece una experiencia consistente e intuitiva para los científicos de datos,
independientemente de si el aprendizaje automático de Cloudera se ejecuta en el centro
de datos local o en la nube.
14. Ahora, aprendamos más sobre Cloudera Machine Learning de nuestro líder de
ingeniería de campo Michael Gregory.
15. Michael, ¿podría explicar qué es Cloudera Machine Learning y cómo mejora la
experiencia tanto para los científicos de datos como para los equipos de TI?
16. CML es un servicio que apoya al científico de datos
17. e ingenieros de aprendizaje automático con una herramienta colaborativa que respalda
todo el flujo de trabajo de ML de extremo a extremo para la investigación hasta la
producción.
18. Y aprovechando cualquier marco de código abierto en R, Python y Scala.
19. Para respaldar las necesidades de los científicos de datos, el equipo de TI puede
aprovisionar un nuevo espacio de trabajo de CML seleccionando el entorno que creamos
anteriormente.
20. Y luego establecer algunas barandillas básicas en el tamaño de cómputo tanto de cpu
como de GPU de recursos y limitaciones de escala.
21. CML también aprovecha un docker y kubernetes para permitir a los científicos de datos
tener acceso de autoservicio a computación elástica y escalable.
22. Y las barandillas aseguran que no vamos a volar accidentalmente el presupuesto del
club.
23. CML se escala hacia arriba y hacia abajo a medida que se necesitan recursos.
24. Así que con solo tres clics y unos 20 minutos el equipo de TI puede implementar un
25. y una potente plataforma de aprendizaje automático, dondequiera que los datos
gobernados y los recursos informáticos estén disponibles.
26. Una vez más, tengo un espacio de trabajo de CML ya creado, así que no haré uno
nuevo aquí.
27. También señalaré que estos entornos y servicios pueden ejecutarse en cualquier lugar.
28. Es posible que tenga varias instancias de AWS ejecutándose por ejemplo en diferentes
zonas de disponibilidad para una alta disponibilidad.
29. Y tal vez tenga entornos azure, Microsoft Azure en algunos países o Google en otros
países donde son frecuentes.
30. Tal vez tenga un entorno de nube privada local, y es probable que todavía se realice
algún procesamiento en su lago de datos existente.
31. No va a desaparecer de la noche a la mañana.
32. Simplemente elija dónde está el mejor lugar para ejecutar qué cargas de trabajo
33. y lo que es más importante, los usuarios, los DBA y los científicos de datos e ingenieros
de datos tienen exactamente la misma experiencia de usuario en las herramientas.
34. No está atrapado en ningún proveedor de nube y aún puede obtener toda la
escalabilidad elástica que promete la computación en la nube.
35. Entiendo que tiene una demostración de la experiencia de aprendizaje automático en
CDP que se basa en un caso de uso del mundo real de uno de nuestros clientes. Por
favor, háblame de eso.
36. Esta era una gran compañía multinacional de seguros, que quería lanzar una nueva
aplicación móvil para permitir a sus clientes presentar rápidamente reclamaciones por
daños automovilísticos.
37. Si tienen un accidente, pueden cargar algunas fotos, completar algunos campos y
hacerlo todo en la aplicación.
38. Para este caso de uso, necesitaban hacer puntuación por lotes en demasiadas e
imágenes por día y su lago de datos local simplemente no tenía la capacidad de
almacenamiento o cómputo para admitir esto.
39. Por lo tanto, el equipo de ciencia de datos quería copiar los datos a la nube pública
donde pudieran obtener acceso elástico al almacenamiento y la computación.
40. Pero el director de protección de datos no lo permitiría por razones de gobierno de
datos.
41. Y también el CIO estaba preocupado por el bloqueo del proveedor de la nube y los
costos de la nube que se salían de control, etc.
42. El financiamiento para locales adicionales en la estructura estaba en camino, pero
tomará al menos seis meses atravesar el sistema.
43. Así que estaban atascados, la nube pública era muy prometedora para ellos, pero
también mucho riesgo.
44. Además, el equipo de ciencia de datos realmente no quería tener que aprender una
nueva herramienta.
45. Y el científico de datos principal estaba bastante seguro de que podrían ver algunas
ganancias significativas de rendimiento de las GPU,
46. pero no podía cuantificar los beneficios sin probar las cosas primero. Era un poco una
situación de gallina y huevo.
47. Realmente necesitaba la capacidad de experimentar de manera rápida, rentable y
segura.
48. para justificar la inversión en más GPUs, pero no podía empezar sin tener la GPU que
necesitaba.
49. En este ejemplo en CDP podemos ver que el equipo de TI ya ha registrado un entorno.
50. En este caso, se ejecuta en la región oeste de AWS EE. UU.
51. Y utilizando el servicio de replicación de datos que está aparte del lago de datos,
copiaron las imágenes existentes desde las instalaciones a un bucket de S3 gobernado.
52. Junto con el contexto de seguridad para asegurarnos de que no estamos corriendo
ningún riesgo indebido.
53. Las nuevas imágenes provenientes de las aplicaciones móviles se cargarán
automáticamente en S3 de todos modos para que podamos hacer toda nuestra
puntuación por lotes allí.
54. Luego, con solo tres clics, el equipo de TI también creó un par de espacios de trabajo de
ML escalables para darnos un acceso de autoservicio tanto a las CPU como a las GPU.
55. Entonces, como científico de datos, inicio sesión en CML y ahora tengo acceso seguro a
los datos gobernados en S3.
56. Tengo recursos informáticos, aquí tengo 60 CPU y 240 GB de memoria disponibles para
mí.
57. Y, por supuesto, esto aumentará a medida que necesite más.
58. Y ahora solo necesito tener acceso a mi código. Luego construiré un proyecto basado en
el código que ya he comenzado a construir en las instalaciones.
59. Le daré un nombre al proyecto. Y sacaré el código que puse registrado en Git y
comenzaré mi proyecto.
60. Mi código está escrito en Python, y originalmente lo escribí como una aplicación de un
solo hilo.
61. Sin embargo, para puntuar dos millones de imágenes dentro de los tiempos de SLA que
necesito, voy a tener que usar algún tipo de marco paralelo como Apache spark.
62. Uno de los mayores beneficios de CML es Spark en kubernetes.
63. Un científico de datos ya no tiene que depender de los clústeres de Spark
proporcionados en plataformas restringidas centralizadas.
64. En CML, todos obtienen su propio clúster de Spark y se amplía según sea necesario y
desaparece cuando no es necesario.
65. Aquí, he instalado varias dependencias en mi contenedor de Docker
66. y no tuve que abrir un ticket de mesa de servicio de TI. Cuando spark se lanza, se
ejecuta en los mismos contenedores, por lo que todas las bibliotecas que necesita
también están allí por definición.
67. Así que para esta demostración, vamos a mostrar el uso de tensorflow con Apache
Spark para hacer puntuación distribuida de imágenes.
68. Voy a crear una nueva sesión de banco de trabajo aquí en Cloudera Machine Learning.
69. Este es el código libre de Python. Voy a poder elegir las CPU y la memoria que necesito
disponible para esto
70. si tuviera GPU en este clúster en particular que TI hizo para mí, puedo usarlas.
71. Pero este en realidad no tiene GPU actualmente.
72. Y en realidad eso está bien porque voy a hacer mi código primero en CML con CPU, y
luego
73. cuando ponga las cosas en marcha, voy a comprobar y ver si puedo obtener la velocidad
que necesito de las GPU.
74. Así que en este momento estoy lanzando una nueva sesión aquí y está saliendo y
clonando el contenedor Docker, la imagen base, y poniéndola en línea.
75. Ahora está disponible para mí y puedo ir a mi código que he escrito, el código tensorflow
que escribí.
76. Y de nuevo el equipo de TI puso los datos en S3. Puedes ver que enlazo en eso aquí
mismo. Y aquí está mi modelo también.
77. Tengo a mi modelo entrenado y estoy listo para comenzar.
78. Para esta demostración no estoy mostrando datos o modelos reales de clientes,
obviamente estos son marcadores de posición.
79. Pero cuando ejecuto este código, he descargado y deserializado mi modelo, entonces
puedes ver que acabo de comenzar un contexto de Spark.
80. Ahora tengo un enlace a la interfaz de usuario de Spark.
81. Y pueden ver que actualmente solo estoy ejecutando dos ejecutores. Una vez más,
desarrollé esto en las instalaciones con un clúster spark muy pequeño y yo
82. no tenía acceso a muchos recursos sin afectar los SLA para otro trabajo que estaba
sucediendo.
83. No podría aumentar la paralización o me arriesgaría a interferir con los SLA.
84. Así que mi puntuación por lotes está hecha ahora y puedes ver que completé todos los
lotes en paralelo y con bastante rapidez.
85. En realidad no tengo demasiadas imágenes aquí para puntuar. Pero si lo hiciera,
simplemente tendría que ir y decir que en lugar de 2 extrusoras de chispa, hagamos 20.
86. Cuando volví a ejecutar esto ahora le dije a kubernetes que necesito muchos más pods
87. e irá y programará estos. Si me quedo sin recursos en mi clúster de kubernetes, CML y
CDP irán y aprovisionarán nodos adicionales
88. hasta los límites de escalado automático que TI estableció cuando crearon el espacio de
trabajo.
89. Cuando mi trabajo terminó, y detuve el contexto de la chispa,
90. puedes ver que mi grupo de chispas ahora entra de largo.
91. Los recursos se liberan y una vez que todos los pods se liberan de sus nodos de
kubernetes, también se reducirán.
92. Crearé un nuevo modelo. Le daré un nombre
93. y una descripción.
94. Lo apuntaré hacia el código que había creado.
95. Dentro de ese código tenía esta función de aplicar inferencia en línea.
96. Y también voy a tomar un poco de código aquí, la representación Json de cómo se ve la
entrada para el modelo.
97. Esto es bueno, obviamente, para las buenas prácticas de desarrollo para saber cómo
deberían ser las entradas y salidas del modelo,
98. pero también lo vamos a poner aquí para que podamos probar la entrada, la prueba del
modelo implementado.
99. Este es el código de Python 3 nuevamente, y solo necesito una cantidad muy pequeña
de CPU y memoria para la puntuación en línea.
100. Puedo implementar hasta nueve copias o réplicas de este modelo para fines de
alta disponibilidad y equilibrio de carga.
101. CML ahora creará una imagen de Docker inmutable con el código y los archivos
de modelo, la pondrá en línea y envolverá una API de descanso con un equilibrador de
carga a su alrededor.
102. Con solo unos pocos clics, mi modelo ahora se está implementando.
103. El modelo ya está en línea.
104. Cuando voy al interior puedo ver los pasos de construcción de todo lo que se
utilizó para construir este modelo.
105. Lo cual es un aspecto importante de la construcción de ciencia de datos
reproducible.
106. Es importante para mí saber exactamente qué código, qué bibliotecas, a qué
hora se construyó, que se utilizó para traer este modelo y llevarlo en línea.
107. También tengo fragmentos de código aquí para Python y R, por ejemplo, de
cómo puedo llamar a este modelo desde aplicaciones ascendentes.
108. También tengo una capacidad de prueba para poder alimentarlo con una URL y
obtener la predicción. En este caso 32% de probabilidad de que se trate de un scooter
de motor.
109. Fin de la transcripción. Saltar al principio

******************************
1. Inicio de la transcripción. Saltar hasta el final.
2. El aprendizaje automático y la inteligencia artificial han sido el foco de la
investigación académica durante años,
3. pero es solo recientemente que estas aplicaciones se han vuelto prácticas para la
industria.
4. Fast Forward Labs, que Cloudera adquirió en 2017, ha ayudado a cerrar la brecha entre
la academia y la industria con estas tecnologías.
5. La combinación de la sólida línea de productos de aprendizaje automático de Cloudera y
los informes de investigación y servicios de asesoramiento de Fast Forward Labs
6. y la ayuda experta del equipo de ingeniería de campo y servicios profesionales de
Cloudera ha ayudado a muchos de nuestros clientes a implementar aplicaciones de
aprendizaje automático exitosas.
7. Escuchemos a Hillary Mason, destacada experta en la industria y fundadora de Cloudera
Fast Forward Labs, describir sus observaciones.
8. Lo que estamos presenciando es la industrialización del aprendizaje automático y la IA,
9. se está convirtiendo en el núcleo de los negocios de nuestros clientes, les está
ahorrando dinero y está creando nuevos negocios y nuevas oportunidades de productos.
10. El desafío ahora son nuestros desafíos de escala, cómo pasamos de los bolsillos de
excelencia a la IA en toda una organización.
11. Cloudera es la mejor compañía para brindarle esto porque tenemos una larga historia de
gestión de datos. Es nuestro ADN.
12. Ahora estamos evolucionando nuestro personal de tecnología utilizando nuestra
experiencia en gestión de datos, sistemas distribuidos y almacenamiento de datos.
13. en el diseño de una plataforma nativa en la nube de próxima generación para IA a
escala empresarial.
14. Adoptamos un enfoque integral y completo para elevar las capacidades de IA de
nuestros clientes con nuestra plataforma existente,
15. nuestras capacidades de almacenamiento de datos y Fast Forward Labs para
industrializar rápidamente el aprendizaje automático de vanguardia en toda su empresa
que se ejecuta en Cloudera.
16. Cloudera Fast Forward Labs es un servicio de asesoramiento e investigación que aplica
técnicas emergentes de aprendizaje automático a problemas empresariales prácticos.
17. En resumen, este equipo ayuda a cerrar la brecha entre el campo académico orientado a
la investigación del aprendizaje automático y las exigentes necesidades comerciales de
nuestros clientes.
18. Aportando así innovaciones técnicas a las aplicaciones de la industria.
19. Cloudera Fast Forward Labs trabaja con una amplia gama de clientes en diferentes
puntos de su viaje de datos.
20. Los compromisos estratégicos proporcionan a los clientes una evaluación experta del
estado actual, los objetivos y las brechas.
21. que es seguido por recomendaciones para construir y escalar equipos con las
habilidades adecuadas,
22. establecer procesos afectivos e identificar los casos de uso y las tecnologías relevantes
a seguir.
23. Esto es especialmente valioso para las organizaciones o departamentos que recién
están comenzando y necesitan construir una estrategia.
24. Nuestros ingenieros de investigación revisan y evalúan constantemente las tendencias
emergentes en el aprendizaje automático.
25. Publicar informes de investigación que puedan informar a su equipo sobre las técnicas y
algoritmos más prometedores que han surgido.
26. Además de los informes trimestrales actuales y pasados, una suscripción de
investigación también proporciona un prototipo que demuestra cómo aplicar las técnicas.
27. y 4 horas al mes de consultoría remota para apoyar sus esfuerzos.
28. Por lo tanto, la suscripción de investigación puede ahorrarle a su científico de datos una
gran cantidad de tiempo y liberarlo para que se centre en las necesidades comerciales.
29. Víctor, ¿podría describir Cloudera Fast Forward Labs?
30. En Fast Forward Labs normalmente nos gusta describirnos a nosotros mismos como el
puente entre la academia y la práctica.
31. y ofrecemos tres paquetes importantes que creemos que son realmente útiles para
nuestros clientes.
32. Y la primera es la investigación.
33. Y entonces, por lo general, lo que hacemos es salir y realizar investigaciones en el
espacio académico y de aprendizaje automático.
34. Y nuestro objetivo es identificar herramientas, tecnologías y algoritmos que tengan
sentido para la aplicación comercial entre 6 meses y los próximos 2 años.
35. Y, por lo general, puede ser realmente abrumador mantenerse al día con lo que había
por ahí. Y así, por lo general, puede ver más de cincuenta a cien nuevos documentos
cada semana.
36. y lo importante es que no toda esta investigación es realmente adecuada para la
aplicación en la industria.
37. Nuestro objetivo es servir a este panorama, probar estas herramientas y hacer
recomendaciones sensatas y útiles a nuestros clientes.
38. Ofrecemos dos paquetes más. El segundo está relacionado con el compromiso de
desarrollo de aplicaciones.
39. Y así, con eso tendremos algunos miembros de nuestro equipo trabajando con nuestros
clientes y nuestros clientes.
40. para ofrecer realmente modelos completos de aprendizaje automático que ayuden y
resuelvan problemas comerciales específicos.
41. Y la tercera cosa que hacemos es en torno al compromiso estratégico.
42. Así que resulta que para tener mucho éxito con el aprendizaje automático.
43. está tanto el componente técnico como el componente de personas y equipo.
44. Y así, con el asesoramiento estratégico, nuestro objetivo es ayudarlo a construir equipos
y tener esos equipos bien integrados dentro de la organización para que se preparen
para el éxito.
45. Usted menciona que Cloudera Fast Forward Labs produce informes de investigación.
¿Con qué frecuencia los publicas?
46. Por lo general, publicamos cuatro informes de investigación cada año y, por lo tanto, lo
hacemos en una cadencia trimestral.
47. ¿Cuál es un ejemplo de un tema cubierto en un informe reciente?
48. Aprender con datos etiquetados limitados, por lo que la idea es que para entrenar
modelos de aprendizaje automático con frecuencia se necesitan datos.
49. Sin embargo, y por muchas razones diferentes, ensamblar datos etiquetados puede ser
realmente costoso.
50. Y entonces, si piensas en el dominio médico, estamos realmente interesados en
clasificar las imágenes de los rayos X.
51. Reunir datos de entrenamiento para un problema como ese significaría tomar radiólogos
o médicos de tórax.
52. que normalmente tienen un tiempo muy limitado para obtener tiempo para desarrollar
estos datos.
53. Y, por lo tanto, este proceso puede ser realmente complejo, difícil de implementar.
54. Y así, en ese informe para usted, analizamos cómo puede seguir adelante y entrenar
modelos de alto rendimiento, pero utilizando solo un subconjunto de sus datos.
55. Y de esa manera puede reducir drásticamente su mano de obra de datos y sus costos
de curación de datos.
56. Victor explicó que cada informe está emparejado con un prototipo web interactivo que le
permite explorar rápida y fácilmente lo que se describe en el informe.
57. Este es el prototipo para el informe de datos etiquetados limitados que Victor discutió.
58. En este ejemplo tenemos un montón de imágenes de números escritos a mano porque
es un proceso lento y, por lo tanto, costoso.
59. solo un pequeño subconjunto de estos han sido etiquetados para identificar lo que
representan.
60. Cada vez que entreno el modelo, se vuelve más preciso al reconocer los otros números
y agruparlos.
61. Si bien este ejemplo ilustra cómo se puede utilizar el algoritmo para el reconocimiento de
escritura a mano,
62. también podría aplicarse para otros casos de uso, como la identificación de radiografías
que contienen evidencia de tumores para que puedan ser marcados para una inspección
adicional.
63. Esto reduce la cantidad de tiempo requerido por un radiólogo al tiempo que mejora los
resultados del paciente.
64. Fin de la transcripción. Saltar al principio
El papel de un administrador de datos
1. Inicio de la transcripción. Saltar hasta el final.
2. Bill, el término gobernanza de datos podría ser nuevo para algunas personas en nuestra
audiencia. ¿Cómo lo definirías?
3. El gobierno de datos es un término difícil de definir porque tiende a ser
operacionalmente específico.
4. Pero por lo general se refiere a las políticas y estructuras organizativas que utiliza una
sola empresa.
5. para proteger e identificar de dónde provienen sus datos, cómo se usan y dónde se
usan.
6. Los datos se encuentran entre los activos más importantes de cualquier organización.
7. La persona que cuida ese valioso recurso es el administrador de datos que cura y
clasifica los datos que son de alta calidad y relevancia para el negocio,
8. establece normas y directrices para apoyar el uso eficaz de estos datos. Y trabaja para
garantizar que se use de manera responsable.
9. Si bien el rol de Administrador de datos está orientado al negocio y, por lo tanto, es
distinto del rol de analista de seguridad de la información más centrado en TI que se
encuentra en las organizaciones más grandes,
10. estos dos comparten un objetivo común con garantizar que los datos se utilicen de
conformidad con las leyes, regulaciones y políticas organizacionales aplicables.
11. Como tal, el Administrador de Datos trabaja en estrecha colaboración con el personal de
seguridad de la información de la organización, que tiende a estar involucrado con los
aspectos técnicos de la implementación.
12. Los administradores de datos están naturalmente interesados en comprender cómo se
generan los datos, qué representan, quién los usa y cómo se utilizan.
13. Debido a que la administración de datos afectiva es inherentemente multifuncional,
14. el rollo requiere a alguien que pueda trabajar en toda la empresa para promover la
integración a través de los límites departamentales.
15. Particularmente para ayudar a conciliar las necesidades del negocio con las
preocupaciones de TI.
16. Hacer este trabajo de manera efectiva depende de tener herramientas de gobierno de
datos de nivel empresarial.
17. Que contratan datos desde el momento de la ingesta hasta su supresión definitiva.
18. Mostrando no solo qué datos están disponibles, sino también cómo se modificaron a
medida que fluían a través del sistema, así como quién accedió a ellos y cuándo.
19. El título de trabajo específico y las responsabilidades del administrador de datos tienden
a variar de una organización a otra, lo que puede hacer que la contratación sea un
desafío.
20. Al igual que con el analista de datos, el administrador de datos suele estar más alineado
con el negocio que con TI.
21. Por lo tanto, un título en negocios o sistemas de información de gestión es más
relevante que uno en ciencias de la computación o ingeniería.
22. Sin embargo, una amplia experiencia previa con la gestión de datos es quizás la
calificación más valiosa.
23. Esto es especialmente cierto si esa experiencia es en su industria porque indica que el
candidato ya entenderá las fuentes de datos y formatos relevantes,
24. problemas típicos de calidad de datos encontrados con los tipos de datos que utiliza y el
conocimiento de las regulaciones de cumplimiento que son específicas de su dominio.
25. Mientras que el Administrador de datos no requiere las habilidades técnicas profundas
de un administrador de sistemas o ingeniero de datos.
26. El candidato debe tener una sólida comprensión de SQL, así como conceptos de
seguridad como confidencialidad, autenticación, autorización y auditoría.
27. Esto les ayudará a trabajar de manera más efectiva con el personal del departamento de
seguridad de la información.
28. En términos más generales, el candidato debe tener fuertes habilidades de
comunicación porque necesita establecer y mantener buenas relaciones de trabajo con
el personal de toda la organización.
29. La capacitación para la seguridad y la gobernanza se realiza quizás mejor a través de un
curso personalizado dirigido por un instructor,
30. ya que esto nos permite evaluar sus necesidades y ensamblar material para múltiples
cursos para proporcionar cobertura donde su equipo más lo necesita.
31. Este enfoque también nos permite cubrir temas en el nivel apropiado de profundidad
técnica.
32. Lo que dependiendo de la audiencia podría oscilar entre una introducción a conceptos
clave o una inmersión profunda en cómo la plataforma implementa el cifrado para
proteger los datos en movimiento.
33. ¿Cuáles son algunos de los requisitos más comunes que tienen nuestros clientes para el
gobierno de datos?
34. Los 3 requisitos principales de nuestros clientes en torno al gobierno de datos
generalmente se centran en 3 áreas.
35. Linaje de datos, de dónde provienen los datos, qué les sucede en los procesos y dónde
terminan.
36. Audite, quién ha buscado los datos, quién los usa y para qué los usan.
37. Y la capacidad de búsqueda de catálogos, ¿cómo encuentra los elementos de datos que
debería usar para un caso de uso determinado?
38. ¿Cómo soporta CDP estos requisitos?
39. Algunas de las características más fuertes que tenemos están alrededor del linaje.
40. La mayoría de las herramientas dentro de nuestra pila generan automáticamente una
imagen de
41. cómo fluyeron los datos a través de la pila, ya sea que llegaran a través de NiFi o alguna
otra plataforma para la entrada de datos y luego cómo se procesan los datos dentro de
la herramienta.
42. Otras características en torno al gobierno de datos incluyen las capacidades de
etiquetado automático que aportan los perfiladores.
43. La capacidad de identificar datos como, por ejemplo, PII y luego la integración de esas
etiquetas con la plataforma de seguridad.
44. La capacidad de usar una etiqueta como PII para restringir el acceso a los datos o
enmascarar el acceso de cierto personal.
45. La seguridad y el gobierno de datos son preocupaciones críticas para los clientes de la
industria financiera.
46. ¿Qué tan extensamente sirve Cloudera a este mercado?
47. Cloudera es muy dominante en los servicios financieros.
48. Tenemos 8 de los 10 principales bancos a nivel mundial. También tenemos 82 de los
100 principales bancos dentro de ese subconjunto.
49. Y no es solo para las instituciones financieras que muchos de los reguladores también
usan nuestra tecnología.
50. Tenemos las 4 principales empresas de procesamiento de pagos. Tenemos el top 4 o 5
de las principales bolsas de valores.
51. Así que de nuevo, ya sabes, estás en manos muy seguras. Pero una vez más, los
clientes nos han elegido no solo por las capacidades de la plataforma,
52. sino la seguridad en la gobernanza que está incorporada. Lo que estamos viendo ahora
es la expansión de los casos de uso.
53. Por lo tanto, podrían haber comenzado con un caso de uso de fraude, o un viaje del
cliente o un caso de rescate, y ahora se están moviendo hacia usos mucho más amplios.
54. ¿Puede hablarme de una de las certificaciones de seguridad de datos que ha logrado
Cloudera?
55. Uno de nuestros clientes es Mastercard. Mastercard ideó un estándar PCI DSS.
56. Vinieron a nosotros hace 5 años y nos dijeron que queremos certificar la plataforma
Cloudera a través de PCI DSS.
57. No el sistema lejano sino toda la pila.
58. Así que trabajamos muy de cerca con ellos para básicamente pasar por este proceso.
59. Si no está familiarizado con PCI DSS, imagine que su mamá y su papá son instructores
de manejo. Vienen a ti y te dicen que vamos a hacer este examen de manejo, pero
queremos que apruebes la primera vez.
60. Queremos que pases por toda la prueba, no habrá absolutamente ninguna trampa.
61. Así que lo hicimos con Mastercard. Como resultado, ahora tenemos las 4 principales
compañías de procesamiento de tarjetas de crédito que utilizan nuestro software.
62. Pero toda la plataforma se trajo en CDH y ahora las mismas capacidades están en CDP.
63. Fin de la transcripción. Saltar al principio.

************************

Catálogo de datos
1. Inicio de la transcripción. Saltar hasta el final.
2. Quizás la parte más importante de CDP para Data Stewards es el catálogo de datos.
3. Lo que les permite comprender, organizar, administrar y gobernar los activos de datos
en Enterprise Data Cloud.
4. Después de hacer clic en el icono del catálogo de datos en la página de inicio de CDP, la
primera pantalla que verá es el panel, que enumera los activos de datos disponibles.
5. Como las tablas utilizadas para las consultas de almacenamiento de datos, asociadas
con el lago de datos.
6. Cerca de la parte superior de la pantalla hay un menú desplegable que le permite
cambiar entre lagos de datos.
7. Justo debajo de eso hay un cuadro de texto que le permite filtrarlos rápidamente por
nombre.
8. A la izquierda hay filtros adicionales con los que puede reducir aún más la lista de
activos de datos por propietario, la base de datos a la que pertenece,
9. etiquetas de metadatos asociadas con el recurso y la fecha de creación.
10. Al hacer clic en uno de estos activos de datos, se abre su página de detalles que
muestra el linaje de ese activo.
11. Debajo de eso, la página muestra los 10 usuarios principales que han accedido a estos
datos.
12. Y si me desplazaba aún más abajo en la página, vería información sobre cómo se
accedió a los datos.
13. Por encima del linaje vemos que este activo en particular es una tabla de Colmena y
tiene 41 columnas.
14. Al hacer clic en la pestaña del esquema aquí se mostrarán detalles sobre esas
columnas.
15. Mientras que la ficha directiva mostrará cualquier directiva de seguridad basada en
recursos o etiquetas que defina para controlar la autorización de los datos de esta tabla.
16. La ficha auditoría muestra información sobre las auditorías de acceso a datos de Apache
Ranger.
17. La ventana de propiedades a la derecha resume el propietario de este activo,
18. la base de datos a la que pertenece, el tipo de tabla y la fecha de creación así como la
última modificación.
19. La aplicación de catálogo de datos ofrece a data stewards la capacidad de organizar los
activos de datos en colecciones de activos.
20. Por lo general, lo harán seleccionando activos para una colección en función de la fecha,
el propietario.
21. o por clasificaciones empresariales u otras designaciones especificadas en el valor de
las etiquetas de metadatos.
22. Mientras que el catálogo de datos es una herramienta valiosa para los administradores
de datos
23. también es valioso para los usuarios finales porque les permite encontrar activos de
datos seleccionados en los que pueden confiar.
24. Fin de la transcripción. Saltar al principio

Control y auditoría del acceso a los datos


1. Inicio de la transcripción. Saltar hasta el final.
2. Las organizaciones están cada vez más sujetas a leyes y regulaciones que limitan cómo
y dónde pueden usar los datos.
3. ¿Cómo apoya CDP las necesidades de cumplimiento de nuestros clientes?
4. Los requisitos de cumplimiento difieren bastante dependiendo de dónde se encuentre
geográficamente, dónde se encuentre desde un punto de vista regulatorio y quiénes
sean sus clientes.
5. Debido a que esas necesidades cambiaron tanto de un cliente a otro, ninguna
plataforma única para la gobernanza puede realmente satisfacer todas esas
necesidades.
6. Lo que hacemos es proporcionar una enorme caja de herramientas de capacidades que
puede usar para cumplir con casi cualquier regulación de privacidad,
7. ya sea que se trate de aislar geográficamente los datos de un país en particular.
8. Identificar cómo se utilizan los datos en si se están utilizando y de acuerdo con su base
legal original para la recopilación.
9. Solo estamos averiguando dónde están los activos para que pueda usarlos más tarde.
10. CDP aprovecha dos de las mejores herramientas para el gobierno de datos, Apache
Ranger y Apache Atlas.
11. Shrikant, uno de los gerentes de producto senior de Cloudera, discutirá y demostrará
qué hacen estas herramientas y cómo funcionan juntas.
12. Comencemos por ver la consola basada en web que data Stewards puede usar para
administrar las directivas de acceso a los servicios en CDP.
13. Cuando inicio sesión en esta interfaz de usuario, ve aquí que la consola principal, vemos
una serie de servicios diferentes que se indican aquí.
14. con enlaces a lo que yo llamo política a posibilidades donde se escriben las políticas
relevantes para controlar el acceso a los recursos específicos de objetos dentro de esos
servicios.
15. Por lo tanto, dependiendo del tipo de servicio, tenemos diferentes tipos de diferentes
niveles de datos de autorización detallados proporcionados.
16. Veremos principalmente la autorización basada en SQL aquí para que se aplique
uniformemente para Hive Impala y el metaalmacén de Hive
17. que es parte de esta política de Hive a las posibilidades que ves aquí.
18. Apache Ranger le proporciona una consola intuitiva donde puede solicitar estas políticas
19. y gestionarlos a un nivel de grano muy fino y con la autorización adecuada y adecuada
para quién puede hacer qué con este ecosistema.
20. Apache Ranger también tiene diferentes reglas para quién puede alterar estas políticas y
quién puede acceder a diferentes partes de la consola de la aplicación que puede ver
aquí.
21. ¿Cómo se alteran las políticas que controlan el acceso a diferentes cables, bases de
datos o columnas o incluso encontrar UDS de nivel de grano, etc.?
22. Tomemos un ejemplo simple aquí hay una política de control de acceso para una tabla
en particular.
23. Tenemos una base de datos llamada World Wide Bank en esta instancia de tartamudeo
24. y que tiene una tabla, llamada us customers donde este banco en particular está
recopilando todos los datos de sus clientes de diferentes sistemas CRM.
25. Y queremos escribir políticas que controlen el acceso a todas las columnas para,
digamos, esta tabla en particular.
26. Apache Ranger es por defecto un modelo seguro.
27. Lo que esto significa es que, a menos que permita permisos explícitos para un conjunto
de usuarios, grupos o reglas dentro de su organización.
28. de forma predeterminada, se les denegaría el acceso. Por lo tanto, por defecto, es
seguro
29. y puede permitir permisos en el nivel de grano muy muy encontrado para poder
30. controlar el acceso a los datos que existen dentro de los diferentes servicios dentro de
este ecosistema.
31. Entonces, lo que esta política muestra aquí es que para esta tabla de clientes
32. en todas las columnas, el grupo Empleado de EE. UU. y el Oficial de protección de datos
solo pueden seleccionar permisos en esas columnas.
33. Donde como rol de administrador dentro de esta organización está permitiendo todos los
permisos. Pueden hacer, por ejemplo, seleccionar, actualizar, crear, soltar, etc.
34. Apache Ranger también proporciona una regla dinámica sobre la seguridad de las
columnas.
35. Por lo tanto, puede escribir políticas de enmascaramiento dinámico que transformen los
datos en el acceso.
36. Una vez más, esta es una capacidad muy crítica que se basa en la infraestructura de
control de acceso basada en atributos que forma parte de Ranger.
37. Y esto tiene la ventaja de que no tiene que mantener múltiples copias de los datos con
su transformación.
38. o anonimizar adecuadamente en access, puede transformar los datos y mostrar la vista
correcta o la vista transformada derecha de los datos dentro de estas columnas
39. a un usuario o grupo en particular en contexto.
40. Pero esta política aquí, lo que está haciendo es tomar los últimos 4 dígitos del número
de Seguro Social y solo mostrar eso cada vez que alguien de este grupo de analistas
accede a estos datos.
41. Otro tipo de directiva de control de acceso basada en atributos es aplicable para los
filtros de nivel de rol.
42. Veamos un ejemplo aquí. Entonces, el ejemplo aquí muestra que para esta tabla de
clientes en todo el mundo que tiene los datos para
43. clientes procedentes de un sistema CRM es un ejemplo cuando los empleados
estadounidenses acceden a esta tabla,
44. esta tabla tiene reglas para clientes de todo el mundo
45. y desea poder mostrar solo la porción correcta de los datos dependiendo de quién
acceda a esa tabla.
46. Entonces, cuando un empleado de EE. UU. accede a esta tabla solo aquellos clientes
que residen en los EE. UU., como se indica en la condición de filtro aquí, que es solo un
SQL simple,
47. cuando el país de ese registro de cliente sea EE. UU., solo se mostrarán esos registros y
se filtrarán los demás.
48. Cuando un empleado o un administrador de la UE accede a esto
49. luego vamos a buscar otra tabla, que es la tabla de países de la UE que tiene los datos
maestros de qué países están actualmente en la UE.
50. y también para eso aplique una condición de selección como ejemplo aquí que incluía
una condición basada en el consentimiento, digamos para GDPR o CCPA.
51. Que requieren que mantenga un consentimiento explícito para el acceso a datos
específicos y también para aplicaciones específicas dentro de su entorno para los datos
de sus clientes.
52. Aquí hay un ejemplo de cómo puede hacerlo muy fácilmente usando vistas dinámicas.
53. Entonces, lo que le brinda el filtrado de roles o la seguridad dinámica a nivel de rol es la
capacidad de
54. filtrar los datos y mostrar los datos en el contexto adecuado para los conjuntos correctos
de usuarios sin tener que mantener varias vistas.
55. Por lo tanto, cada vez que se accede a esta tabla de clientes de todo el mundo
automáticamente detrás de escena, se aplica este filtro.
56. Por lo tanto, no tiene que mantener, por ejemplo, múltiples vistas, una para los
empleados de ee. UU. y otra para los empleados de la UE.
57. En términos de cómo funciona esto, tomemos un ejemplo rápido.
58. Aquí hay una persona de esta organización que pertenece al equipo de analistas, su
nombre que lo llamamos es Joe Analyst.
59. Y está tratando de ejecutar algunos análisis sobre el uso de la plataforma en los datos
que existen dentro de Hive en esas mesas de clientes hacia donde nos dirigimos en las
políticas.
60. Así que lo primero que se está tratando de hacer es hacer una segmentación
demográfica basada en los datos del cliente.
61. Y luego está mirando los registros detallados de los clientes.
62. Entonces, en este caso, está tratando de ejecutar una consulta en la base de datos del
Banco Mundial, la tabla de clientes de EE. UU. para la que miramos
63. políticas antes, donde teníamos un montón de políticas de enmascaramiento en las
columnas dentro de esa tabla.
64. Y cuando intenta acceder a estos datos, como puede ver aquí, las direcciones de las
calles fueron redactadas, las contraseñas se hashearon, las edades se aleatorizaron,
65. el número de seguro social, solo puede ver los últimos 4 números de tarjetas de crédito,
puede ver los primeros 4 números de registros médicos que se anularán, etc.
66. Así que puedes ver que todas esas políticas que se alteran dentro de Ranger se han
aplicado.
67. Y además también tenemos auditorías completas no repetibles de todo ese acceso.
68. Así que todavía estás dentro de la consola Ranger, también tenemos la capacidad de
mostrarte todos los eventos de auditoría a medida que ocurren y esto se hace casi en
tiempo real.
69. Así que puede ver aquí todos los diferentes accesos que sucedieron a los datos basados
en este usuario en particular.
70. Voy a ver los eventos de Hive solo para mostrarle lo que sucedió cuando el analista
realizó estas consultas.
71. Verá que se filtrará en la tabla que se aplicó.
72. Y también verán que las diversas políticas de enmascaramiento que analizamos, por
ejemplo,
73. la política de identificación nacional, que dice que muestra los últimos 4 dígitos del
número de Seguro Social.
74. Tenemos un registro de auditoría aquí que le muestra cuál fue exactamente la política
que permitió el acceso,
75. quién era el usuario, en qué contexto accedió a esto, cuál fue la fecha y hora de acceso,
cuál fue el resultado.
76. Y también ve desde dónde se ejecutó, la IP del cliente, el clúster en el que se encuentra,
así como cualquier otro metadato, como
77. etiquetas o clasificaciones que podría haber aplicado a esos datos.
78. Gracias por esa demostración. Apache Ranger ciertamente tiene muchas características
útiles para los administradores de datos.
79. ¿Qué papel desempeña Apache Atlas en el gobierno de datos?
80. Apache Atlas es un servicio de metadatos de alto rendimiento, que recopila metadatos
de diferentes servicios en toda la plataforma.
81. y es consciente de los cambios que se producen en los metadatos en los diferentes
servicios y los objetos que contienen.
82. Así, por ejemplo, tenemos conectividad incorporada a Hive, Impala, Spark y otros
servicios en todo el ecosistema.
83. Y como cuando ocurren los cambios, nuestros agentes capturan todos los cambios en
los metadatos y los envían al servicio de metadatos del atlas de manera escalable.
84. Apache Atlas debido a todos los metadatos que la conectividad tiene en todo el
ecosistema, le brinda un lugar central para mirar
85. catalogar todos estos activos y comprender las propiedades de estos activos y cómo se
relacionan con las diferentes operaciones que pueda tener dentro de su ecosistema.
86. Así que es el núcleo mismo de un catálogo, por lo que lo primero que harías con un
catálogo es una búsqueda, así que
87. vayamos aquí y veamos tal vez quiero ver primero todas las tablas de Hive que están en
este caso en particular.
88. Y si pulsamos buscar aquí puedes ver que ya sabes, hay
89. 25 tablas aquí, entonces también puedo filtrar las tablas y aplicar varios criterios de
búsqueda, como ¿quién es el propietario? ¿Cuándo se creó? etc. Así que la búsqueda
facetada completa está disponible.
90. También puedes hacer búsquedas rápidas desde aquí. Así que digamos que quiero
empezar a mirar todo lo que comienza con US_,
91. la misma tabla que vimos anteriormente donde teníamos políticas de enmascaramiento.
92. Podemos ver aquí que podemos llegar muy rápidamente a esa tabla y aquí se
proporcionan muchos metadatos técnicos y comerciales muy ricos.
93. Por ejemplo, una de las columnas, ¿cuándo se creó? De qué base de datos es aparte,
etc.
94. También proporcionamos una cadena lineal completa, por lo que en este caso puede ver
que esta tabla en particular se creó a partir de esta ubicación de AWS SD.
95. y tenemos la tabla de clientes de EE.UU. que se comercializa a través de este proceso
de Hive y se insertó en esta tabla.
96. Y luego se creó otra vista derivada, se creó una tabla transaccional a partir de esta tabla
en particular, como se muestra en el diagrama de linaje aquí.
97. También tenemos la capacidad de representar relaciones de forma nativa dentro de
Apache Atlas. Así que puede relacionar las diferentes tablas con su columna, así como
bases de datos, con el sistema de almacenamiento, etc.
98. Y también puede aplicar varias clasificaciones, por lo que
99. las clasificaciones piensan en las clasificaciones como etiquetas que se aplican a
diferentes datos.
100. Por ejemplo, puede aplicar, ya sabe, el hecho de que ciertas columnas tienen
información de PII a través de esta etiqueta de PII.
101. Agregar estas etiquetas es muy sencillo, puede seleccionar y encontrar las
columnas que desee.
102. Luego en nuestro caso encontramos esta tabla. Digamos que vamos a la mesa
de empleados de EE.UU.
103. y luego podemos ir a las columnas de la tabla a través de la pestaña de
esquema.
104. Y agregue clasificaciones, digamos la información de PII de salarios.
105. Puede ir y aplicar la etiqueta llamada PII salary data add para esto,
106. y se aplica esta clasificación. Una vez que esta clasificación se aplica a esta
columna
107. la asociación de la columna con la clasificación se publica en Apache Ranger.
Por lo tanto, puede escribir políticas basadas en la propia etiqueta.
108. Veamos algunos ejemplos de las políticas de control de acceso basadas en
agregados aquí a medida que ponemos las cosas para etiquetarlas.
109. Filtrar a través de la etiqueta llamada PII que se aplicó a una de las columnas de
la tabla
110. y podemos escribir una política aquí que diga que dondequiera que vea una
etiqueta llamada PII HR y la Oficina de Protección de Datos, tienen permiso completo
para ver estos datos en HDFS.
111. Pueden leer, escribir o ejecutar en cualquier archivo o carpeta HDFS, que tenga
esta etiqueta PII
112. y en HBase se les permite leer, escribir, etc. en columnas o familias de columnas
que tienen este conjunto de propiedades en particular
113. y de manera similar, el Grupo de Recursos Humanos puede realizar todas estas
operaciones en tablas o columnas de Colmenas donde se haya aplicado esta
clasificación particular de PII.
114. Así que de esta manera como en cuando se clasifican los objetos dentro de
Atlas,
115. esos objetos y asociaciones se transmiten directamente a Ranger y se pueden
usar en la aplicación de directivas siempre que haya definido estas políticas con
antelación.
116. Por lo tanto, puede definir estas políticas basadas en etiquetas con anticipación y
como cuando ingiere y clasifica sus datos
117. la protección se aplicará dinámicamente como cuando esos objetos se
transforman dentro de su ecosistema.
118. Otra capacidad importante que tenemos dentro del ecosistema aquí en lo que
respecta a Apache Atlas es que las clasificaciones que vieron se estaban aplicando
correctamente.
119. Entonces, por ejemplo, si etiqueto esta tabla de empleados, entonces necesito
una vista derivada o una tabla derivada o necesito un procesamiento posterior que
heredará esa etiqueta.
120. Entonces, si aplico una etiqueta llamada PII aquí
121. esa etiqueta se propogaría automáticamente debido a la relación de linaje que
tenemos aquí con la tabla de empleados del Reino Unido
122. y cualquier política basada en etiquetas que haya definido en Ranger en la
etiqueta llamada PII se aplicará automáticamente a los empleados del Reino Unido
como resultado.
123. Fin de la transcripción. Saltar al principio
Desafíos y oportunidades
1. Inicio de la transcripción. Saltar hasta el final.
2. En Cloudera creemos que los datos pueden hacer que cosas que son imposibles hoy,
sean posibles mañana.
3. Es una gran ambición, pero está respaldada por más de una década de ayudar a las
grandes empresas a capturar datos que nunca antes podrían obtener.
4. Tráigalo a sus organizaciones, entiéndalo de nuevas y poderosas maneras y tome
decisiones para cambiar el mundo con los nuevos conocimientos que recopilan.
5. Capacitamos a las personas para que transformen los datos en información clara y
procesable para pasar de la confusa masa de bits en bruto a las decisiones reales sobre
qué hacer a continuación.
6. Steve, ¿puedes darme un ejemplo de cómo Cloudera ayuda a los clientes con los que
trabajas?
7. convertir los datos sin procesar de diferentes fuentes en información procesable que sea
significativa para el negocio?
8. Así que mi hermana es doctora, imagina que mi hermana va a un banco y tiene
problemas con la transacción.
9. y luego, básicamente, tiene una discusión con el cajero, mientras sale inmediatamente
se pone en su teléfono inteligente.
10. Entra en la aplicación del banco. Intenta hacer lo mismo, termina en un chat en vivo con
un recurso del cliente.
11. Una vez más, no pueden ayudarla. Termina llamándolos de inmediato, termina hablando
con un centro de llamadas en una ubicación diferente,
12. tiene que explicar que ella estaba en la sucursal y luego en la aplicación y trató de hacer
lo mismo.
13. Esa experiencia por la que pasa es increíblemente negativa. Lo vinculan a algo llamado
NPS, Net Promoter Score de CSAT.
14. Pero lo que el banco ve es que estabas en tres divisiones diferentes. Estabas hablando
con las tiendas, con los cajeros.
15. Entonces estabas hablando con la aplicación del teléfono inteligente. Estabas hablando
con nuestro centro de llamadas al cliente.
16. Diferentes equipos, diferentes grupos, diferentes centros de datos.
17. Pero para mi hermana es su experiencia con el banco.
18. Al comprender ese viaje por el que pasó, comprender el resultado es increíblemente
crítico y requiere muchas fuentes de datos diferentes.
19. Requiere datos estructurados, haga clic en transmitir datos, si está hablando con un
centro de llamadas, audio.
20. Cloudera Data Platform es capaz de tomar todos esos datos, combinarlos y rastrear ese
viaje hasta el final.
21. El soporte en la nube es uno de los principales beneficios de CDP. ¿Cómo están
aprovechando sus clientes la nube?
22. Lo realmente interesante de la nube, especialmente en los servicios financieros, es que
están siendo cautelosos sobre cómo adoptan la nube.
23. La mayoría de los clientes han comenzado en las instalaciones y tienen petabytes de los
datos en las instalaciones.
24. Pero ahora, cuando miran la nube, se están dando cuenta de que es realmente bueno
para probar 100 casos de uso y descubrir
25. qué 4 o 5 son los que van a poner en producción. Así que estamos viendo una gran
cantidad de expansión en el uso y probando cosas.
26. La adopción de la nube ha aumentado rápidamente en los últimos años porque la nube
ofrece a las organizaciones muchos beneficios tangibles.
27. Una es la elasticidad, que les permite agregar o eliminar capacidad rápidamente según
lo requieran sus necesidades cambiantes.
28. Otro es la reducción de los gastos de capital al migrar a la nube, es en esencia la
externalización de la infraestructura de su centro de datos.
29. Esto significa que no necesita comprar servidores u otro hardware. Tampoco necesita
expandir las instalaciones locales del centro de datos a medida que crecen sus
necesidades.
30. También puede reducir el costo operativo, ya que libera a la organización de tener que
administrar un centro de datos local.
31. Los administradores de la organización ya no necesitan dedicar tiempo a tareas que
involucran hardware físico
32. como montar el servicio en bastidores o ejecutar cables de red entre ellos.
33. En algunos casos, el proveedor de la nube puede asumir la responsabilidad de ciertos
aspectos de la administración de la infraestructura de la nube.
34. como actualizar sistemas operativos o aplicar parches a máquinas virtuales.
35. El resultado es una reducción de los costos laborales.
36. El modelo de precios basado en el consumo utilizado por los proveedores de la nube
también puede reducir los costos
37. al menos para ciertos tipos de cargas de trabajo porque alinea el costo de operación con
la utilización general.
38. Por ejemplo, considere un servidor que se ejecuta a plena capacidad durante una hora
cada día para realizar un trabajo ETL,
39. pero pasar el resto de su día en su mayoría inactivo migrando esto a la nube casi
seguramente ahorrará dinero.
40. Otro beneficio de la nube es que la infraestructura de los proveedores de la nube se
distribuye dentro de múltiples regiones en todo el mundo.
41. aprovechando esta organización puede mejorar la continuidad del negocio porque la
mayoría de los desastres como incendios, inundaciones y tormentas severas son de
naturaleza local.
42. La copia de seguridad de los datos en otra región mitiga el riesgo de que todas las
operaciones se combinen en un único centro de datos local.
43. La nube proporciona elasticidad que permite a las organizaciones ampliar rápidamente
la capacidad cuando más se necesita.
44. ¿Puede darme un ejemplo de dónde esto resultó esencial?
45. Muchos de los principales bancos de Estados Unidos realizan la prueba de estrés
encima de nosotros, por lo que es un procesamiento muy intenso durante un corto
período de tiempo.
46. Bill, la continuidad del negocio es otra consideración importante para los clientes.
47. ¿Cómo aborda CDP su necesidad de copia de seguridad de datos y recuperación ante
desastres?
48. La copia de seguridad y recuperación de datos es un gran desafío, especialmente a la
escala a la que suelen operar nuestras plataformas.
49. La dependencia de los almacenes de objetos en la nube para la resiliencia es una buena
muleta, pero no satisface todas las necesidades de un plan de recuperación ante
desastres.
50. Con frecuencia, tendrá que mover no solo los datos, sino también la potencia de cálculo,
las políticas de seguridad, los principios del usuario y otros aspectos de la plataforma.
51. CDP y las herramientas SDX dentro de CDP permiten la sincronización de todos ellos en
múltiples plataformas
52. pero la capacidad de activar la capacidad de cómputo solo cuando sea necesario para
mantener los costos mucho más bajos que una solución de DR tradicional.
53. Sean, ¿los clientes del sector público también usan la nube?
54. Así que el sector público y el gobierno global en general tienen una estrategia de nube.
55. Su viaje de la migración a la nube y cómo la están utilizando varía según la información
que almacenan.
56. y su madurez técnica, pero la nube es una pieza esencial de casi todos los gobiernos
con los que he hablado.
57. Quieren beneficiarse de la elasticidad y la facilidad de uso, pero también son cautelosos
al estar encerrados.
58. Entonces, la nube en general juega un papel importante en lo que se ve en esa
migración y modernización varía según la agencia con la que esté hablando.
59. ¿Cuáles son algunas de las preocupaciones sobre la nube que estos clientes comparten
con usted?
60. Así que hay muchas preocupaciones y creo que una de las mayores preocupaciones es
el costo y el bloqueo del proveedor.
61. Los datos son realmente fáciles de obtener en la nube, pero muchos clientes del
gobierno se han sentido perjudicados en el pasado a través de decisiones heredadas
que los encierran en
62. proveedores o tecnologías que eran correctas en ese momento, pero que avanzan
rápidamente de 5 a 10 años y ya no son adecuadas.
63. Sean vio el costo como una preocupación importante para sus clientes. Esto confirma
los resultados de la mayoría de las encuestas de la industria,
64. que también enumeran el costo como una de las principales preocupaciones para las
organizaciones a medida que migran a la nube.
65. La capacidad de aprovisionar recursos rápidamente es ciertamente un beneficio, pero
también puede conducir a gastos inesperados si se usa sin límites claros.
66. La compatibilidad con CDP para el escalado automático y la suspensión automática
puede hacer cumplir esos límites, lo que le ayuda a mantener los costos bajo control y,
al mismo tiempo, mantener un buen rendimiento.
67. Jamie, ¿qué han compartido los clientes contigo con respecto a sus desafíos en la
nube?
68. Acabamos de hacer una encuesta con Harvard Business Review la mayor preocupación
número uno es la seguridad y la gobernanza.
69. A medida que muevo datos a la nube, es difícil para mí rastrear qué datos existen, qué
datos han sido consumidos por diferentes usuarios y quién tiene acceso a esos datos.
70. Por lo tanto, dice que la seguridad y la gobernanza se convierten en una de las
preocupaciones centrales y subyacentes.
71. El estudio de Harvard Business Review al que Jamie hizo referencia enumera la
seguridad, el cumplimiento normativo
72. y la falta de visibilidad sobre los datos como desafíos que frenan a las organizaciones
para hacer un mayor uso de la nube pública.
73. De hecho, más de tres cuartas partes de esas encuestas, la mayoría de las cuales se
encuentran en el nivel directivo superior o ejecutivo,
74. declarar que sus organizaciones tienen requisitos reglamentarios que exigen la
seguridad de los datos
75. y más de la mitad de todos los encuestados esperaban enfrentar regulaciones
adicionales de privacidad de datos en un futuro próximo.
76. Dos tercios de los ejecutivos encuestados reconocieron que su organización necesita
una estrategia integral de datos.
77. con el fin de cumplir con los objetivos estratégicos en los próximos 3 años.
78. Sin embargo, solo un tercio de ellos dice que sus capacidades de análisis y gestión de
datos están en camino de cumplir con esos objetivos.
79. Todd, ¿qué preocupaciones has escuchado de los clientes con respecto a las
migraciones a la nube?
80. Algunas de las preocupaciones que enfrentan nuestros clientes cuando analizan la
adopción de la nube son áreas clave en términos de costo y rendimiento.
81. Así que puedes pensar en ello, un entorno local que proviene de un entorno económico
muy seguro, controlado y económico.
82. donde entiendan los recursos disponibles y puedan controlar ese costo.
83. Todd señala que el rendimiento que a menudo se relaciona con la arquitectura de
aplicaciones y la administración de recursos también puede ser una preocupación para
los clientes.
84. También subraya las preocupaciones que los clientes han compartido con Sean sobre el
bloqueo de proveedores.
85. A través de su soporte para múltiples nubes, CDP ayuda a los clientes a evitar el riesgo
empresarial y tecnológico de estar encerrados en un solo proveedor de nube.
86. Escuchemos al cofundador de Cloudera, Mike Olson, explicar cómo una estrategia
multinube hace que las organizaciones sean más ágiles.
87. Debe poder mover sus aplicaciones y sus datos a lo largo del tiempo.
88. Puede optar por comenzar a experimentar con nuevas cargas de trabajo en uno de los
proveedores de nube pública de hiperescala.
89. A medida que ese experimento va bien, tal vez desee mover esa aplicación a las
instalaciones por razones de gobernanza y previsibilidad,
90. pero tal vez más adelante, a medida que su capacidad y la nube se expandan, querrá
mover esa carga de trabajo nuevamente.
91. Sin embargo, ¿por qué necesita esta plataforma híbrida y multinube?
92. En primer lugar, los datos tienen masa, es costoso de recopilar. Es difícil moverse, es
mejor dejarlo aterrizar donde vive naturalmente y analizarlo allí.
93. Desea poder llevar los recursos informáticos adecuados a los datos donde nacen y
algunos datos ocurren naturalmente en la nube.
94. Por otro lado, su récord maestro de clientes dorado, algunos de sus datos de ventas
pueden vivir solo en su propio centro de datos.
95. Desea poder analizar esos datos donde nacieron y desea poder brindarles las
herramientas analíticas adecuadas en el lugar donde los obtuvo.
96. Fin de la transcripción. Saltar al principio

Cómo puede ayudar Cloudera


1. Inicio de la transcripción. Saltar hasta el final.
2. ¿Qué necesita para tener éxito en sus proyectos de datos? Obviamente esto requiere
tecnología.
3. Necesita implementar sus aplicaciones en una plataforma de clase mundial, pero eso no
es suficiente.
4. Para lograr realmente el éxito, también necesitarás tres cosas más.
5. En primer lugar, debe generar valor identificando el resultado clave del negocio.
6. A continuación, necesita personas con las habilidades que puedan aplicar la tecnología
para producir ese resultado.
7. Y finalmente, deberá establecer procesos basados en las mejores prácticas que
asegurarán el éxito de su proyecto durante todo su ciclo de vida.
8. Andrew, ¿cuál es un desafío común que ves con los clientes que son nuevos en la
plataforma?
9. Probablemente uno de los mayores problemas que vemos es que los clientes quieren
llegar al estado final, antes de comenzar desde el principio.
10. Para que me guste hablar de tener esta filosofía de gatear-caminar-correr, creo que es
bueno dar un paso atrás para tener una estrategia de cómo vas a abordar esto.
11. y ser realistas sobre este viaje y dejarnos ayudarlo a trabajar a través del viaje en el que
se encuentra.
12. Patrick, ¿cuál recomendarías como uno de los primeros pasos que un nuevo cliente
debe seguir para garantizar el éxito a largo plazo?
13. Mi consejo sería solicitar ayuda de... así, por ejemplo, tenemos expertos de la industria
dentro de la empresa.
14. Básicamente, pueden ayudarlo a descubrir qué tipo de casos de uso puede traer lo que
otros clientes han tenido éxito al incorporar a nuestro sistema y plataforma.
15. Así que en los servicios financieros hacemos mucho en torno al riesgo y el cumplimiento.
16. En telecomunicaciones les ayudamos mucho con el monitoreo del call center,
optimización de la red y cosas por el estilo. Y esos son solo algunos ejemplos.
17. Esa es una gran recomendación.
18. Tenemos un excelente equipo de expertos de la industria, algunos de los cuales he
entrevistado durante este curso.
19. Sus especializaciones incluyen servicios financieros, seguros, atención médica y
ciencias de la vida, sector público en el gobierno, telecomunicaciones, venta minorista y
varias otras industrias.
20. Estos expertos tienen la experiencia específica del dominio para guiar a su organización
hacia el éxito.
21. porque tienen un historial de hacer esto con muchas otras organizaciones en posiciones
similares.
22. La sección de soluciones del sitio web de Cloudera también es un buen lugar para
encontrar recursos específicos de la industria. Incluyendo estudios de casos, white
papers y enlaces a seminarios web relevantes.
23. ¿Cuál es otro de los primeros pasos que recomiendas a los clientes?
24. Así que definitivamente tenemos entrenamiento y ese tipo de punta de lanza. Esa es una
forma de obtener los conceptos básicos sobre esta nueva tecnología y cómo usarla para
resolver sus problemas.
25. Como Patrick mencionó, la capacitación de Cloudera puede ayudar a su personal a
adquirir las habilidades que necesitan para el éxito.
26. Mientras que ofrecemos cursos que cubren los conceptos básicos de administración,
ingeniería de datos, análisis de datos, ciencia de datos, seguridad y muchos otros temas
importantes.
27. También ofrecemos capacitación que va más allá de lo básico para ayudar a los clientes
que ya están utilizando la plataforma a aprender a usarla de manera aún más efectiva.
28. Una vez que el cliente ha aprendido los conceptos básicos, ¿cómo puede obtener ayuda
con sus proyectos?
29. Por ejemplo, encontrar un experto que lo ayude con el diseño, la implementación o para
proporcionar orientación personalizada sobre su proyecto.
30. Una vez que se familiarice con los componentes básicos de la plataforma y cómo
funciona y cómo usarlo bien,
31. podemos hacer un seguimiento con los Servicios Profesionales para ayudarlo a través
de las primeras implementaciones que necesita hacer en un sistema.
32. Y creo que eso te pondrá en un buen camino y básicamente el objetivo de los servicios
profesionales es guiarte, es guiarte a través de un proceso bastante complejo.
33. para que no cometas estos errores por ti mismo. Te mostramos todos los errores que se
han cometido en el pasado... y...
34. así que, ya sabes, ahora tenemos ideas sobre las mejores prácticas sobre cómo hacer
ciertas cosas.
35. Nuestro equipo de Servicios Profesionales cuenta con personas talentosas de todo el
mundo que tienen una vasta experiencia práctica con los productos de Cloudera en un
entorno de producción.
36. Comprometerse con nuestros arquitectos de soluciones en las primeras etapas de un
proyecto es una inversión inteligente porque ayuda a garantizar que tome las decisiones
correctas desde el principio.
37. Lo que a su vez resulta en un tiempo de obtención de valor más rápido, un menor riesgo
y una mayor confiabilidad cuando luego pasa de la prueba de concepto a la producción.
38. No importa cuán preparado esté un cliente, siempre existe la posibilidad de que las
cosas no funcionen como se esperaba.
39. Si eso sucede, ¿cómo pueden obtener la ayuda que necesitan para resolver
rápidamente ese problema?
40. Definitivamente una oferta clave que tenemos es el soporte, ya sabes, estamos
básicamente a una llamada telefónica o un boleto de distancia.
41. El soporte de Cloudera incluye personal de casi todas las zonas horarias del mundo para
garantizar que estén disponibles siempre que los necesite.
42. Este equipo dedicado tiene muchos años de experiencia en el soporte de la
implementación empresarial a gran escala en toda nuestra línea de productos,
43. lo que los hace excepcionalmente calificados para resolver rápidamente cualquier
problema que pueda surgir.
44. Jonathan, usted es coautor de un libro popular que se basó en años de experiencia en el
mundo real ayudando a las empresas a usar Apache Hadoop y las tecnologías
relacionadas de manera efectiva.
45. Más recientemente, usted es coautor de un libro sobre la gestión de proyectos diarios
exitosos.
46. ¿Cuáles son los riesgos típicos a los que se enfrentan las empresas con los proyectos
de datos?
47. Gran parte del riesgo para un proyecto de datos probablemente será muy similar a
cualquier riesgo que pasaría con cualquier otro tipo de proyecto de software.
48. Para el proyecto de datos específicamente, aunque creo que puede haber algún riesgo
que entra. Puede haber algunos que llamaré riesgo tecnológico.
49. Pueden ser difíciles de entender, como cuál de estos proyectos de software es el más
adecuado para su producto en particular o su proyecto.
50. ¿Cómo se integra ese sistema? ¿Cómo tomar todos estos proyectos asociados que
forman parte del ecosistema e integrarlos todos juntos? Así que creo que ese es un
riesgo.
51. ¿Cómo puede mitigar ese riesgo?
52. Los POC pueden ser una gran herramienta para comprender cómo funcionará la
herramienta en su proyecto en particular.
53. Así que siempre quieres asegurarte de pasar por ese proceso antes de que realmente,
ya sabes, digamos,
54. seleccione un sistema en particular y, a continuación, intente implementarlo.
55. ¿Cuáles son algunas de las cosas que las organizaciones deben hacer muy temprano
en un proyecto de datos?
56. Asegúrese de poner planes en su lugar al comienzo de su proyecto. Por lo tanto, ponga
en marcha un plan para poder administrar los metadatos.
57. Ponga en marcha un plan para el cumplimiento, ponga en marcha un plan para la
seguridad.
58. Creo que estas son cosas que algunas empresas, ya sabes, están totalmente encima de
estas cosas.
59. Especialmente si ha estado trabajando en el negocio de la gestión de datos durante un
tiempo o si ha tenido que administrar datos externos ampliamente en el pasado,
60. pero creo que estas también son cosas que son muy fáciles de pasar por alto.
61. ¿Cuál es otro aspecto del riesgo tecnológico a considerar?
62. Y luego, por supuesto, un asociado con un riesgo tecnológico es tener miembros del
equipo que no están tan familiarizados con estos sistemas en particular.
63. La observación de Jonathan de que la falta de capacitación puede ser un riesgo
tecnológico es importante.
64. En Cloudera, nuestros datos internos muestran que los clientes que han completado la
capacitación tienen una probabilidad mucho mayor de éxito con la plataforma.
65. No solo para su primer proyecto, sino con casos de uso adicionales en los próximos
años.
66. De hecho, nuestro análisis de los casos de soporte que hemos recibido de los clientes
indica que aproximadamente la mitad de todos los problemas que encuentran se pueden
resolver a través de la capacitación.
67. ¿Qué otra cosa pueden hacer las organizaciones para que su proyecto de datos sea
exitoso?
68. Creo que si realmente quieres asegurar el éxito, debes asegurarte de tener las listas
adecuadas para tu proyecto.
69. Por lo tanto, probablemente incluirá, por ejemplo, administradores de sistemas y / o
administradores de red.
70. Y estas son personas que entienden cómo funcionan los sistemas, cómo conectar esos
sistemas. Cómo mantener esos sistemas en funcionamiento.
71. Cómo implementar software, cómo actualizar software, etc. Por lo tanto, es casi seguro
que tendrá algún tipo de rol de administrador del sistema.
72. Por supuesto, vas a tener a tus ingenieros, por así decirlo, tus ingenieros de datos. Así
que estas son personas que entienden cómo tomar datos y convertirlos en algo que sea
utilizable.
73. Saben cómo escribir algoritmos, saben cómo hacer el procesamiento de datos.
74. Estas son probablemente personas que dicen que tienen habilidades de Java, o tal vez
Scala tal vez entienden Spark.
75. Pero estas son personas que probablemente tendrán experiencia con sistemas
distribuidos y aplicaciones de escritura que pueden trabajar con un sistema distribuido
para tomar.
76. grandes volúmenes de datos, haga cosas con esos datos y procéptelos y hágalos
utilizables por sus otros equipos.
77. Probablemente va a tener, digamos, analista y / o científico de datos y estas son
personas que van a tomar esos datos que el ingeniero de datos ha preparado para ellos.
78. Y van a hacer como todas las cosas interesantes con él. Lo van a tomar y convertirlo en
aplicaciones, modelos, etc.
79. Eso, ya sabes, realmente puedes usar para impulsar tu negocio. Que pueda obtener
información, lo que con suerte proporcionará inteligencia procesable para su negocio.
80. Y entonces estas son personas que, así que los analistas, este es probablemente un
papel bastante típico, esto es algo que probablemente ya existe en su empresa.
81. Estas son las personas que tal vez entienden SQL y cómo construir un panel, etc.
82. Y así entienden su negocio y entienden cómo tomar los datos que están asociados con
el negocio y convertirlos en información útil.
83. Los científicos de datos tienden a ser personas que, probablemente sea un papel similar,
pero
84. en general diría que son personas que tienen más experiencia en programación.
Entienden matemáticas, estadísticas, cosas así.
85. Así que van a saber cómo hacer cosas como escribir algoritmos de aprendizaje
automático que puedan hacer cosas interesantes con sus datos.
86. Hay otros roles que no necesariamente pensaría como parte de su proyecto de datos al
principio.
87. Pero ya sabes, probablemente o podrías tener gerentes de producto que son parte de un
negocio que están construyendo aplicaciones orientadas al cliente.
88. Incluso si está creando aplicaciones internas, es bastante común tener gerentes de
productos que puedan trabajar con su gente interna o con su gente externa.
89. clientes si estás construyendo cosas para consumo externo.
90. Estas son personas que pueden trabajar con los diversos equipos, ya sabes, entienden
los requisitos y entienden
91. lo que necesita para construir un producto utilizable y útil.
92. También hay empresas que tienen cosas como oficiales de protección de datos o
administradores de datos.
93. Y estas son personas que entienden qué datos tiene, tal vez entiendan cómo mantener
los datos seguros.
94. Estas son personas que van a ser capaces de entender dónde están los datos, qué
datos tiene, quién debería tener acceso a ellos, etc.
95. Y, por lo tanto, este es un papel importante para poder asegurarse de que tiene acceso
adecuado a sus datos, que está protegiendo los datos, etc.
96. Otro rol muy común con las empresas ahora es algo llamado un segundo ingeniero de
confiabilidad.
97. Y entonces estas son personas que entienden cómo llevar una aplicación a través de la
tubería,
98. asegúrese de que llegue a la producción y que todo funcione sin problemas y que las
cosas se mantengan en marcha.
99. Estas son básicamente personas, como su nombre lo indica, estas son personas que
saben cómo construir una tubería confiable y asegurarse de que siga funcionando.
100. También puede tener desarrolladores front-end seguros, especialmente si está
construyendo algo para el consumo público.
101. Así que eso es algo más a considerar que no necesariamente se puede pensar
desde el principio.
102. Algunos de estos roles tienen una gran demanda.
103. ¿Qué recomendaría a los gerentes que tienen problemas para encontrar
candidatos calificados?
104. Encuentre dentro de las personas en las que puede hacer la transición a estos
roles, porque estas son las personas que entienden su negocio. Probablemente tengan
una mejor comprensión de sus datos.
105. Tal vez no tienen las habilidades que necesitas y, afortunadamente, ahora hay
muchos más recursos de los que decían hace 10 años.
106. La capacitación práctica ofrecida por Cloudera Educational Services puede
preparar a su equipo con las habilidades que necesitan y ofrecemos cursos para cada
uno de los roles mencionados anteriormente.
107. Nuestros cursos se desarrollan en colaboración con los expertos en la materia
de Cloudera y podemos impartirlos de diversas maneras.
108. incluyendo clases en vivo dirigidas por un instructor en el sitio o en línea a través
de nuestro aula virtual.
109. El servicio OnDemand de Cloudera le brinda la flexibilidad de aprender nuevas
habilidades en cualquier lugar, en cualquier momento y a su propio ritmo.
110. Mientras que el aprendizaje combinado combina los beneficios de ambos al
proporcionar acceso al material del curso en OnDemand y sesiones programadas con un
instructor.
111. Independientemente del método que elija, Cloudera puede crear un plan de
capacitación personalizado que le dará a su personal las habilidades que necesitan de
manera rápida y efectiva.
112. en base a las habilidades y conocimientos que ya tienen.
113. Nuestro programa de certificación proporciona una forma para los profesionales
de datos en una variedad de roles
114. incluyendo administradores, ingenieros de datos y analistas para demostrar a los
posibles empleadores que tienen las habilidades del mundo real necesarias para usar la
plataforma de manera efectiva.
115. Además de proporcionar a los empleadores una forma conveniente y confiable
de identificar candidatos calificados.
116. Jonathan explicó la importancia de dotar de personal a un proyecto de datos, ya
que las habilidades de ese personal se pueden mejorar a través de la capacitación.
117. Hablé con Mark Morrissey sobre el impacto que tiene en los clientes.
118. Mark, ¿cómo es importante nuestro conjunto integral de servicios de
capacitación para los clientes?
119. Trabajamos con varias empresas globales de cien puestos en planes de
formación Empresarial.
120. Una institución financiera en particular con la que trabajamos para capacitar a
personas en los Estados Unidos, el Reino Unido y cientos de personas en la India al
mismo tiempo.
121. Aprovechamos nuestra capacitación OnDemand, aprovechamos la capacitación
privada.
122. Se certificaron y, en última instancia, ese cliente realmente encontró el éxito.
123. ¿Cómo ayuda la inversión en capacitación a las organizaciones con el
compromiso, la retención y la progresión profesional de los empleados?
124. Una de las cosas que mantiene a los empleados comprometidos es asegurarse
de que vean un camino para progresar en sus carreras.
125. y la capacitación y la certificación es una de las formas más óptimas de hacerlo.
126. Ciertamente, desea identificar el talento de las personas con las habilidades de
fondo que pueden ponerse al día en las tecnologías que conforman la plataforma de
Cloudera.
127. El entrenamiento es una excelente manera de comenzar por ese camino.
128. Certificarlos es una excelente manera de identificar a las personas que tienen las
habilidades requeridas.
129. Mucho de lo que la gente ha utilizado en términos de tecnologías heredadas,
130. el conocimiento que aportan sobre el dominio, el conocimiento que aportan sobre
el procesamiento, almacenamiento y uso de datos que se presta muy bien a nuestra
plataforma.
131. Pero sí necesitan entender que esta es una nueva forma de computar.
132. Así que animamos a las empresas a crecer desde dentro.
133. Un compromiso de Servicios Profesionales proporciona a los clientes la
orientación experta que necesitan en cada etapa del viaje.
134. Para los clientes que recién están comenzando, considere la posibilidad de
obtener ayuda con la arquitectura, el diseño, la implementación y la seguridad.
135. Los clientes que están un poco más avanzados pueden beneficiarse de los
servicios operativos que ofrecemos.
136. como asistencia con actualizaciones, ajuste del rendimiento o incluso
administración remota continua de su clúster por parte de nuestros administradores
certificados.
137. Para los clientes que se están preparando para trasladar su aplicación a
producción, nuestro equipo puede evaluar su preparación.
138. Que incluye una revisión integral del diseño, evaluación de la capacidad,
monitoreo y planes de recuperación ante desastres,
139. y una transferencia de conocimientos con su equipo que los preparará con las
mejores prácticas y la documentación necesaria para administrar el clúster y las
aplicaciones por su cuenta.
140. Nuestro personal tiene experiencia en toda nuestra línea de productos, incluso
en áreas en rápida evolución, como el aprendizaje automático.
141. Y tiene la experiencia necesaria para diseñar, construir e implementar
aplicaciones que se ejecutan de manera confiable a escala en un entorno de producción.
142. Michael, basado en su experiencia con muchos clientes en proyectos de
aprendizaje automático.
143. ¿Cuál es una forma en que nuestro equipo de Servicios Profesionales agrega
valor a un proyecto?
144. Los clientes que tenemos son muy buenos en la construcción de un marco para
el procesamiento del lenguaje natural.
145. y son muy buenos en los algoritmos y las matemáticas que lo subrayan, pero no
necesariamente saben cómo hacerlo a gran escala.
146. Por lo tanto, pueden construir y entrenar un modelo en un pequeño conjunto de
datos, por ejemplo, en su computadora portátil y este es el entorno en el que están
acostumbrados a trabajar.
147. Pero ahora es si tienen tal vez un petabyte de datos que necesitan puntuar, o si
quieren entrenar en un conjunto de datos mucho más grande.
148. muchos de nuestros clientes realmente luchan con la forma de llevar algo de una
escala relativamente pequeña a esa escala muy grande.
149. Y esta es un área en la que Cloudera ha estado trabajando durante 10 años.
Acerca de la resolución de problemas de datos a gran escala,
150. y tenemos un conjunto de servicios para hacer el escalado de aplicaciones y la
cita también.
151. Además de los tipos específicos de proyectos que he descrito
152. también puede aumentar su equipo a largo plazo con arquitectos de soluciones,
consultores o gerentes de compromiso residentes.
153. Esto no solo proporciona a su equipo tutoría y orientación, sino que también
puede abordar sus desafíos de contratación.
154. proporcionando a sus organizaciones profesionales confiables y experimentados
que estén listos para ayudar desde el primer día.
155. El soporte de Cloudera ofrece una combinación única de un equipo de expertos
de soporte global dedicado y escuelas especialmente diseñadas para la gestión de
problemas.
156. Nadie tiene más experiencia en el soporte de implementaciones empresariales a
gran escala de tecnología Big Data.
157. Si bien este equipo de expertos está a solo una llamada telefónica de distancia
cuando necesita ayuda,
158. quizás la mejor parte es que nuestras capacidades de soporte proactivo y
predictivo a menudo pueden detectar problemas incluso antes de levantar el teléfono.
159. Al recopilar automáticamente información de diagnóstico de los clústeres, que
validamos para los problemas a medida que llegan,
160. podemos predecir y responder a las condiciones adversas antes de que afecten
a las operaciones.
161. Esto también proporciona a nuestros ingenieros de operaciones de clientes
información completa sobre el estado y la salud del sistema.
162. Lo que le libera de tener que recopilar manualmente esta información al
presentar un ticket, al tiempo que permite al equipo de soporte diagnosticar rápidamente
el problema.
163. Otro ejemplo de la innovación que ayuda al equipo de soporte a proporcionar un
servicio de clase mundial
164. es la aplicación interna que hemos desarrollado para buscar en casos de soporte
anteriores, artículos de la base de conocimientos, documentación de productos, listas de
correo y otras fuentes.
165. en última instancia, proporcionar acceso instantáneo a la información relevante
al investigar un caso.
166. Debido a que Cloudera admite miles de clústeres para nuestros clientes,
167. podemos correlacionar problemas e identificar rápidamente soluciones de una
manera que ningún cliente podría hacer por su cuenta.
168. Por ejemplo, cuando un ingeniero revisa un ticket de soporte en el centro de
soporte de Cloudera, nuestro sistema de gestión de casos,
169. una característica que hemos desarrollado, puede identificar automáticamente
casos similares y presentar información al ingeniero sobre su resolución.
170. A través de Cloudera Government Support también ofrecemos una amplia gama
de servicios para clientes del sector público con sede en los Estados Unidos,
171. incluyendo herramientas de espacio aéreo de soporte 24/7 para datos
confidenciales e incluso asistencia in situ del personal con autorizaciones de seguridad.
172. Esto concluye el curso Cloudera Essentials for CDP.
173. Espero que hayas disfrutado aprendiendo sobre Enterprise Data Cloud, Cloudera
Data Platform y una gama de productos y servicios que cloudera ofrece.
174. para ayudar a su organización a transformar datos complejos en información
clara y procesable.
175. Póngase en contacto con su ejecutivo de cuentas para obtener más información
sobre cualquiera de estos productos y servicios.
176. Si aún no es cliente, haga una consulta visitando nuestro sitio web en
Cloudera.com y utilizando el enlace Contáctenos en la parte inferior de cualquier página.
177. Fin de la transcripción. Saltar al principio

También podría gustarte