Documentos de Académico
Documentos de Profesional
Documentos de Cultura
diapositiva 2
********************************************************
1. Inicio de la transcripción. Saltar hasta el final.
2. CDP permite a los clientes combinar el almacenamiento de datos y el aprendizaje
automático para extraer valor de los datos almacenados en una única plataforma
integral.
3. Le pregunté a Richard Harmon y Steve Totman sobre otras formas únicas en que los
clientes crean valor a través de la plataforma.
4. También estamos viendo que los clientes comienzan a hacerlo y esto va al
concepto de transformación digital, comienzan a aprovechar el análisis y los
conjuntos de datos mucho más holísticos.
5. Así que están empezando a mirar los feeds de redes sociales, los feeds de noticias otros
tipos de datos de tipo centrado en el cliente.
6. Al mismo tiempo, también están aprovechando los algoritmos de aprendizaje profundo y
otro tipo de capacidades de aprendizaje automático.
7. Los más interesantes y los de vanguardia incluso están empezando a mirar las
capacidades de simulación.
8. Están creando copias digitales de su base de clientes.
9. Y luego, a partir de esas copias digitales, probando como lo harías en un simulador de
vuelo con un piloto. Están probando nuevos productos, nuevos servicios, nuevas
capacidades.
10. Los bancos solían dividir a los clientes en segmentos muy amplios.
11. Así que segmentarías por rango de edad a los 18 a 25, de 25 a 36.
12. Ahora puedes lograr literalmente una segmentación de uno. Puede mirar a cada cliente
individual,
13. entender exactamente por lo que pasaron. Comprenda que podría venderlos, venderlos
de forma cruzada o venderlos.
14. Un buen ejemplo es Common Wealth Bank en Australia que tienen una aplicación, Next
Best Conversation.
15. Genera alrededor de un millón de dólares australianos para su banco al día.
16. Eso les permite básicamente asegurarse de que cuando interactúan con un cliente, la
siguiente interacción es la siguiente mejor cosa para ese cliente.
17. En una industria altamente regulada como la banca, una visión completa del cliente es
necesaria para cumplir con las regulaciones AML o contra el lavado de dinero.
18. También es útil para impulsar nuevos negocios y una mayor satisfacción del cliente a
través de recomendaciones de productos.
19. Como explica Richard Lowe, Director General y Director de Datos del Grupo de United
Overseas Bank.
20. UOB es un banco líder en Asia, tenemos unas 500 oficinas. Más de 20 sucursales a
nivel local.
21. Somos un banco de servicio completo que va desde la banca minorista hasta los
mercados globales y la banca mayorista.
22. En UOB queremos estar sin fricciones con nuestros clientes.
23. Tenemos la visión de crear un lugar, una solución y una plataforma en la que podamos
simplemente, en términos sencillos, reunir todos los datos más valiosos de nuestros
bancos en un solo lugar.
24. Recomendar, dar valor, dar ofertas a nuestros clientes de una manera mucho más
personalizada.
25. Nos asociamos con Cloudera para lograr esto en 2 años. En la banca mayorista
utilizamos el aprendizaje automático para ayudarnos a trazar relaciones de manera más
efectiva.
26. Hemos ahorrado más de 1000 horas-hombre y hemos visto un aumento muy grande en
los clientes potenciales.
27. Uno de los casos de uso exitosos que hemos tenido con nuestra división de
cumplimiento grupal es no solo mejorar sus capacidades de detección de AML, sino
también generar ganancias significativas de productividad.
28. Podemos reducir algunas horas-hombre para nuestros analistas de AML, de 3 meses a
3 semanas.
29. Y también encontrar resultados predictivos bastante significativos en términos de
nuestras variables. Para poder impulsar sus resultados en la detección de dispositivos y
AML.
30. ¿Cuáles son algunos otros casos de uso de aprendizaje automático que ve en la
industria financiera?
31. Cualquier caso de uso de datos puede ser potencialmente un caso de uso de
aprendizaje automático.
32. Está siendo muy interesante en todos los segmentos.
33. Obviamente, en el lado del riesgo, el aprendizaje automático es muy interesante. Uno de
los bancos, hace un año fui a ver Regions Bank en Birmingham, Alabama.
34. Uno de sus primeros casos de uso que implementaron fue sobre fraude y delitos
financieros.
35. Lo desplegaron en menos de 3 meses. Ya han tenido un gran impacto. Así que 50% de
impacto en la delincuencia financiera
36. y no son solo las grandes organizaciones las que se están beneficiando, sino también
las organizaciones más pequeñas. Y esta aplicabilidad práctica del aprendizaje
automático.
37. La detección de fraude y la lucha contra el lavado de dinero son casos de uso
importantes y muy comunes para la industria financiera, pero no son los únicos.
38. Novantas es una empresa que está utilizando el aprendizaje automático en la plataforma
de Cloudera para identificar nuevas oportunidades de ahorro de costos. Escuchemos su
historia.
39. Novantas es una organización de ciencia del cliente.
40. Tratamos de encontrar información a través de los datos de nuestros clientes, así como
información del mercado para ayudarlos a resolver problemas comerciales prácticos y
pragmáticos.
41. Atendemos a clientes en la industria de servicios financieros, desde corredurías hasta
bancos y fintechs.
42. E identificar oportunidades tanto en el mercado como en lo que hacen sus clientes para
hacer crecer tanto los ingresos como los productos.
43. Nos topamos con un obstáculo con más y más datos provenientes de nuestros clientes.
Y no podíamos usar sistemas tradicionales, por lo que necesitábamos una solución
altamente escalable.
44. Así que elegimos Cloudera porque nos proporcionan la misma interfaz para dar soporte
a nuestros clientes tanto en las instalaciones como en la nube.
45. Por lo tanto, los beneficios de Cloudera es que renuncia al entorno de datos para
armonizar todas estas diferentes fuentes de datos.
46. Y cree una vista 360 o un modelo de datos para el cliente.
47. Nuestros científicos de datos utilizan cloudera Data Science Workbench como su
entorno de desarrollo principal. Duplicar matrices y modelos.
48. Estamos aplicando técnicas de aprendizaje automático, específicamente Spark ML para
hacer análisis de comportamiento de los clientes específicamente el curso de los
clientes.
49. Estamos buscando 5 años 6 millones de clientes y somos capaces de obtener
información en minutos.
50. El 80% del costo de los depósitos está vinculado a las promociones y a lo que hemos
podido hacer aprovechando el big data de Cloudera y nuestra solución de métricas.
51. es estar más dirigido a a quién le damos esas promociones. Hemos identificado ahorros
para un cliente de hasta 30 millones de dólares mediante la identificación de
depositantes específicos.
52. Ya que Steve menciona que la detección de fraude es un caso de uso común en la
banca. Le pregunté a Monique si las compañías de seguros usaban el aprendizaje
automático para detectar reclamos fraudulentos.
53. Desafortunadamente, el fraude sigue siendo una gran parte de la industria de seguros.
54. Y vemos que las compañías de seguros ponen mucho esfuerzo en aumentar los datos
clásicos que tenían para detectar el fraude con nuevas fuentes de datos.
55. Cuando alguien entra con un auto dañado que sabe que comienza a hacer, el seguro
ahora comienza a hacer análisis de las imágenes que la persona se quita de su auto.
56. Y están entrenando máquinas con aprendizaje automático para identificar si esta es una
afirmación reciente.
57. o si parte del daño al automóvil ya estaba presente antes de que ocurriera el accidente
más reciente.
58. Abbas, ¿cómo están los clientes en la industria de la salud aprovechando el borde de las
capacidades de IA de la plataforma?
59. Creemos que los datos, el análisis de esos datos y los conocimientos generados a partir
de esos datos.
60. es clave para mejorar los resultados de salud de los pacientes, los miembros e influir en
el comportamiento de los proveedores y los médicos.
61. Estamos a la vanguardia de la prevención de la sepsis, de la reducción de accidentes
cerebrovasculares. Estamos trabajando con readmisiones, tanto reingresos no
planificados como reingresos regulares.
62. Estamos trabajando con la creación de centros patient-360, member-360 hubs para
pagadores. Así como, por supuesto, ensayos clínicos en el espacio biofarmacéutico.
63. El aprendizaje automático es parte de nuestra plataforma de datos Cloudera. Es una
parte esencial de CDP.
64. Donde a medida que tomamos un flujo, transmitimos datos desde el borde o IoT desde
la cabecera, desde el banco a un centro de datos centralizado.
65. Luego podemos aplicar el aprendizaje automático, el análisis predictivo y la ciencia de
datos a eso. Conviértala en información inteligente y envíela de vuelta al punto de
atención.
66. Un ejemplo sería ¿podemos desde una prevención de ictus o UCI, transmitiendo signos
vitales desde la UCI y la CCU?
67. ¿Podemos transmitir que los datos realicen análisis, análisis inteligentes en ellos?
68. Y llevar esa analítica de vuelta al punto de atención es tal que una persona en la UCI
cuya temperatura está aumentando.
69. ¿Podemos tomar medidas incluso sin intervención humana y aumentar el enfriamiento
en el punto de atención?
70. Escuchemos a IQVIA, un cliente de Cloudera que ha vuelto a imaginar la atención
médica a través de innovaciones posibles gracias al aprendizaje automático en la
plataforma Cloudera.
71. Su enfoque basado en datos ha ayudado a mejorar el desarrollo clínico, permitir la
comercialización de nuevos tratamientos,
72. y acelerar la investigación que conduzca a mejores resultados sanitarios.
73. La oportunidad de construir algo que puede impactar no solo a millones, sino
potencialmente a miles de millones de vidas. Abordar los problemas que afectan a cada
persona en este planeta es lo que me impulsa.
74. IQVIA es una empresa de ciencia de datos humanos. Tomaremos datos de fuentes de
atención médica de todo el mundo.
75. Encontraríamos ideas que ayudan a las agencias gubernamentales a las compañías
farmacéuticas, instituciones académicas que buscan mejorar los resultados de atención
médica para los pacientes.
76. ¿Cómo se construye una historia cohesiva de un paciente donde sus conjuntos de datos
son miles de millones y miles de millones de filas con cientos de millones de entidades
independientes?
77. Con nuestro lago de datos y la plataforma Cloudera estamos construyendo una
infraestructura que permite abordar el tipo de problemas que nunca antes habíamos
podido abordar.
78. Estamos prediciendo mucho mejor si un paciente es viable para un ensayo clínico,
incluso cuando están en la etapa temprana de los síntomas.
79. Nuestra capacidad para predecir algún punto que se ha multiplicado por cuatro.
80. Si podemos encontrar los pacientes adecuados que podrían ser ideales para un ensayo
clínico, el costo de hacer un ensayo clínico y el tiempo a partir del cual ejecutarse contra
un ensayo clínico se pueden reducir.
81. En última instancia, lo que lleva a que los medicamentos que salvan vidas se lancen al
mercado más rápido y más rápido e idealmente más barato.
82. Es emocionante que podamos estar a punto de tener un impacto tremendo en la salud y
el bienestar de las personas de todo el mundo.
83. Shaun, ¿cómo utilizan los clientes del sector público los datos para comprender mejor a
su fuerza laboral?
84. Sí, en realidad es un caso de uso realmente emocionante cuando piensas en ERP
tradicional y gestión de la fuerza laboral.
85. Están muy aislados y la información está en diferentes sistemas, desde recursos
humanos hasta registros de salud.
86. Por lo tanto, una vista única es uno de los casos de uso que más atraen a nuestros
clientes.
87. Y eso podría ser una sola vista de un soldado, una sola vista de un paciente o una sola
vista de la plataforma.
88. Comprender la preparación, las calificaciones y la trayectoria profesional general.
89. Así que hay muchas aplicaciones diferentes para él, pero en su núcleo está reuniendo
esos sistemas en silos.
90. para proporcionar una vista unificada y coherente del recurso. Y en este caso el
individuo.
91. Uno de nuestros clientes, ADP, superó los silos de datos y ahora agrega información de
600,000 clientes.
92. A través de la ciencia de datos en la plataforma de Cloudera, pueden generar
información que ayuda a las empresas a abordar los desafíos de recursos humanos.
93. como la retención de empleados y la igualdad salarial.
94. ADP ha estado procesando transacciones de gestión de nómina y capital humano
durante 60 años.
95. Con eso vienen muchos datos.
96. Pagamos a una de cada seis personas en los Estados Unidos. Procesamiento
automatizado de datos, los datos son nuestro segundo nombre.
97. Data Cloud, que es esencialmente un grupo de productos y un grupo de ciencia de
datos.
98. Tomamos un dato y esencialmente queremos hacer un producto a partir de él.
99. Crea un anuncio de valor para los clientes.
100. Desde el primer día nos dimos cuenta de que los datos se encuentran en
nuestros centros de datos en varias aplicaciones.
101. Realmente necesitamos traer a un solo lugar. Obviamente, la seguridad estaba a
la vanguardia para asegurarse de que estos datos estén seguros.
102. Asegurarse de que esté anonimizado, agregado y solo asegurarse de que esté
bloqueado.
103. Esa fue una de las principales razones por las que comenzamos con Cloudera.
Porque simplemente está integrado en toda la solución.
104. También necesitábamos una solución de clase empresarial. Necesitamos
asegurarnos de que somos la distribución más estable,
105. porque no solo son muchos datos, sino que hay mucha gente dependiendo de
ese estado de estar allí, seguro y disponible para nuestros productos.
106. 29 millones de personas que procesamos y todos los factores.
107. No solo una información de compensación muy granular, sino cosas como
bonificaciones, cosas como horas extras, cosas como aumentos.
108. Desglosándolo por sus diferentes funciones de trabajo, diferentes niveles de
experiencia para que podamos reunir toda esta información.
109. Para que podamos informar un punto de referencia por industria, ubicación,
tamaño de la organización, ingresos. Para ayudar realmente a nuestros clientes a
encontrar compañeros.
110. Cloudera hace mi vida 10 veces más fácil. Primero probando todo el marco y
asegurándose de que las 26 piezas interoperen y pasen por ... pruebas de detalle.
111. Entonces, cuando tengo problemas, me comunican de inmediato y puedo
obtener soluciones a pedido si es necesario. Y esa es una gran experiencia.
112. Cada vez que hablamos con nuestros profesionales de recursos humanos en
nuestros clientes, hago la misma pregunta: ¿Cuál es la parte más importante de su
trabajo? ¿Por qué estás aquí?
113. Y la respuesta es siempre la misma. Encontrar y mantener el mejor talento
posible en la organización.
114. Nuestro modelo de probabilidad de rotación está destinado a ayudarlos con esa
misión.
115. A través del modelo somos capaces de identificar que el 20% superior de las
personas de riesgo medio y el 1% de las personas de alto riesgo,
116. y la tasa de rotación de esa población es más de tres veces mayor que la de las
personas que no están en riesgo.
117. Lo que estamos viendo con nuestro análisis y Data Cloud Platform es un
crecimiento masivo en toda nuestra base de clientes.
118. Fin de la transcripción. Saltar al principio
************************************************
1. Inicio de la transcripción. Saltar hasta el final.
2. Cloudera Data Science Workbench o CDSW es una plataforma para la ciencia de datos
colaborativa a escala.
3. Permite a los científicos de datos trabajar juntos, experimentar más rápido y desplegar
con confianza.
4. CDSW es una aplicación de ciencia de datos de autoservicio para la empresa que
proporciona a los científicos de datos los datos y la potencia de cómputo escalable que
necesitan.
5. Mientras se gestionan de manera eficiente los recursos informáticos y se mantiene la
seguridad de los datos.
6. Los usuarios acceden a CDSW a través de una conveniente interfaz basada en la web,
que les da acceso directo a un clúster seguro sin la necesidad de instalar software
localmente.
7. El aislamiento entre sesiones permite la multitenencia sin sacrificar el rendimiento.
8. Aunque CDSW funciona extremadamente bien para científicos de datos individuales
9. el soporte integrado para el control de versiones, la colaboración y el uso compartido lo
convierten en una solución ideal para los equipos de ciencia de datos.
10. CDSW está diseñado principalmente para implementaciones de infraestructura como
servicio locales o basadas en la nube.
11. Sin embargo, la experiencia de aprendizaje automático de Cloudera disponible en CDP
Public Cloud ofrece las mismas capacidades con una interfaz de usuario prácticamente
idéntica.
12. Ian Cook me ayudará a demostrar los conceptos básicos de CDSW. Ian, por favor
preséntate a la audiencia.
13. Hola, me llamo Ian Cook, soy un desarrollador de currículo senior en Cloudera. Soy
responsable de desarrollar nuestros cursos de ciencia de datos y aprendizaje
automático.
14. ¿Cuáles son los beneficios de lenguajes como Python y R que son compatibles con
CDSW y Cloudera Machine Learning Experience? ¿Por qué no usar SQL para todo?
15. Una vez que esté utilizando lenguajes como Python y R, tendrá a su disposición un
amplio conjunto de paquetes y herramientas de código abierto.
16. para realizar tareas aún más sofisticadas, como la creación de modelos de aprendizaje
automático y aprendizaje profundo
17. y puede usarlos para crear valor de maneras que no puede simplemente usar
herramientas de análisis de datos.
18. De acuerdo, gracias. Ahora es el momento de ver Cloudera Data Science Workbench en
acción.
19. El primer paso es abrir su navegador y seguir las instrucciones de inicio de sesión
proporcionadas por el administrador.
20. En este caso, Ian especificará un nombre de usuario y una contraseña.
21. Pero CDSW también admite otros métodos de autenticación, incluida la integración con
sistemas de inicio de sesión único.
22. Después de iniciar sesión con éxito, verá la página del proyecto que se muestra aquí.
23. Enumera sus proyectos actuales que utiliza para organizar su trabajo en CDSW, así
como algunas métricas e información sobre los recursos y la utilización del sistema.
24. Desde aquí puede seleccionar el proyecto en el que desea trabajar si hay uno disponible
o crear un nuevo proyecto como ian lo hará ahora.
25. Lo hace haciendo clic en el botón nuevo proyecto y especificando un nombre para el
proyecto.
26. Opcionalmente, puede cambiar el nivel de visibilidad del nuevo proyecto.
27. De forma predeterminada, es privado, lo que significa que ningún otro usuario tendrá
acceso a menos que los agregue específicamente como colaboradores.
28. La otra opción es pública, lo que garantiza que todos los demás usuarios que tengan
acceso a esta instancia de CDSW también tendrán acceso a su proyecto.
29. El siguiente paso es elegir cómo inicializar el proyecto.
30. Hay cuatro opciones para esto.
31. La primera es usar un proyecto en blanco que no contenga ningún archivo.
32. El segundo es rellenar el nuevo proyecto con archivos de una plantilla.
33. Que básicamente corresponde al lenguaje de implementación del proyecto como R,
Python o Scala.
34. La tercera opción es rellenar el proyecto con archivos de una carpeta local.
35. Finalmente, la cuarta opción es agregarlos desde un popular sistema de control de
revisión conocido como GIT, que es la opción que Ian elegirá aquí.
36. El último paso es simplemente hacer clic en el botón nuevo proyecto.
37. Cuando se trabaja en un nuevo proyecto, CDSW divide la pantalla en dos partes. El
panel de edición de la izquierda y el panel de sesión de la derecha.
38. A la izquierda del panel de edición, verá una lista de archivos y carpetas dentro del
proyecto actual.
39. En el panel de edición, seleccionará el archivo en el que desea trabajar y que luego se
carga en el editor.
40. como puede ver, esto tiene soporte completo para el resaltado de sintaxis, lo que mejora
la experiencia de edición y facilita la detección de errores en su código.
41. Después de editar el código, querrá ejecutarlo para habilitar el panel usar sesión para
iniciar una nueva sesión
42. dado que el código en el proyecto de Ian es compatible con la versión 3 de Python, lo
seleccionará para el tipo de kernel del motor.
43. Dado que el código es relativamente simple, se quedará con el perfil de motor
predeterminado que ofrece 1 CPU virtual y 4 gigabytes de memoria para ejecutar el
código.
44. Después de hacer clic en el botón, CDSW muestra el mensaje de estado para indicar
que está iniciando la nueva sesión.
45. Aunque solo toma unos segundos para que esté listo, esta es una buena oportunidad
para que Ian nombre la sesión.
46. para que sea más fácil de encontrar entre cualquier otra sesión que también pueda estar
ejecutando.
47. Una vez que CDSW establece la sesión, el mensaje en la parte inferior del panel se
volverá verde, lo que indica que está listo para ejecutar nuestro código.
48. En el editor puede seleccionar una o más instrucciones en el código y ejecutar los
comandos seleccionados. Su salida se mostrará en el panel de sesión.
49. Los científicos de datos con frecuencia emplean visualizaciones en su trabajo, no solo
para comunicar los resultados a las partes interesadas del negocio,
50. pero también para ayudarse a sí mismos a identificar y comprender mejor los patrones
en los datos.
51. La visualización que vemos aquí fue creada por una popular biblioteca de gráficos de
Python que Ian llama en su código.
52. Este ejemplo muestra un diagrama de dispersión simple donde estamos planeando el
retraso de salida y llegada de los aviones.
53. Aunque parece mostrar una fuerte asociación lineal entre el retraso de la salida y el
retraso de la llegada, como lo ilustra el grupo de puntos en el cuadrante inferior
izquierdo.
54. hay algunos puntos de contorno cerca del cuadrante superior derecho que podrían
afectar nuestra percepción de la gráfica.
55. Ian los eliminará agregando código para filtrar cualquier retraso que sea de 300 minutos,
lo que significa 5 horas o más.
56. Después de que Ian completa esta modificación, ejecuta el código seleccionado para
mostrar la gráfica actualizada, lo que le ayuda a ver más claramente el patrón que
observó anteriormente.
57. Esta técnica ilustra cómo los científicos de datos pueden explorar los datos y obtener
una mejor comprensión de ellos.
58. Utilizando el icono de enlace visible a la izquierda de la gráfica
59. CDSW generará código HTML que facilita a los usuarios compartir visualizaciones con
compañeros de trabajo o clientes o incrustarlas en otras aplicaciones.
60. Fin de la transcripción. Saltar al principio
********************************
******************************
1. Inicio de la transcripción. Saltar hasta el final.
2. El aprendizaje automático y la inteligencia artificial han sido el foco de la
investigación académica durante años,
3. pero es solo recientemente que estas aplicaciones se han vuelto prácticas para la
industria.
4. Fast Forward Labs, que Cloudera adquirió en 2017, ha ayudado a cerrar la brecha entre
la academia y la industria con estas tecnologías.
5. La combinación de la sólida línea de productos de aprendizaje automático de Cloudera y
los informes de investigación y servicios de asesoramiento de Fast Forward Labs
6. y la ayuda experta del equipo de ingeniería de campo y servicios profesionales de
Cloudera ha ayudado a muchos de nuestros clientes a implementar aplicaciones de
aprendizaje automático exitosas.
7. Escuchemos a Hillary Mason, destacada experta en la industria y fundadora de Cloudera
Fast Forward Labs, describir sus observaciones.
8. Lo que estamos presenciando es la industrialización del aprendizaje automático y la IA,
9. se está convirtiendo en el núcleo de los negocios de nuestros clientes, les está
ahorrando dinero y está creando nuevos negocios y nuevas oportunidades de productos.
10. El desafío ahora son nuestros desafíos de escala, cómo pasamos de los bolsillos de
excelencia a la IA en toda una organización.
11. Cloudera es la mejor compañía para brindarle esto porque tenemos una larga historia de
gestión de datos. Es nuestro ADN.
12. Ahora estamos evolucionando nuestro personal de tecnología utilizando nuestra
experiencia en gestión de datos, sistemas distribuidos y almacenamiento de datos.
13. en el diseño de una plataforma nativa en la nube de próxima generación para IA a
escala empresarial.
14. Adoptamos un enfoque integral y completo para elevar las capacidades de IA de
nuestros clientes con nuestra plataforma existente,
15. nuestras capacidades de almacenamiento de datos y Fast Forward Labs para
industrializar rápidamente el aprendizaje automático de vanguardia en toda su empresa
que se ejecuta en Cloudera.
16. Cloudera Fast Forward Labs es un servicio de asesoramiento e investigación que aplica
técnicas emergentes de aprendizaje automático a problemas empresariales prácticos.
17. En resumen, este equipo ayuda a cerrar la brecha entre el campo académico orientado a
la investigación del aprendizaje automático y las exigentes necesidades comerciales de
nuestros clientes.
18. Aportando así innovaciones técnicas a las aplicaciones de la industria.
19. Cloudera Fast Forward Labs trabaja con una amplia gama de clientes en diferentes
puntos de su viaje de datos.
20. Los compromisos estratégicos proporcionan a los clientes una evaluación experta del
estado actual, los objetivos y las brechas.
21. que es seguido por recomendaciones para construir y escalar equipos con las
habilidades adecuadas,
22. establecer procesos afectivos e identificar los casos de uso y las tecnologías relevantes
a seguir.
23. Esto es especialmente valioso para las organizaciones o departamentos que recién
están comenzando y necesitan construir una estrategia.
24. Nuestros ingenieros de investigación revisan y evalúan constantemente las tendencias
emergentes en el aprendizaje automático.
25. Publicar informes de investigación que puedan informar a su equipo sobre las técnicas y
algoritmos más prometedores que han surgido.
26. Además de los informes trimestrales actuales y pasados, una suscripción de
investigación también proporciona un prototipo que demuestra cómo aplicar las técnicas.
27. y 4 horas al mes de consultoría remota para apoyar sus esfuerzos.
28. Por lo tanto, la suscripción de investigación puede ahorrarle a su científico de datos una
gran cantidad de tiempo y liberarlo para que se centre en las necesidades comerciales.
29. Víctor, ¿podría describir Cloudera Fast Forward Labs?
30. En Fast Forward Labs normalmente nos gusta describirnos a nosotros mismos como el
puente entre la academia y la práctica.
31. y ofrecemos tres paquetes importantes que creemos que son realmente útiles para
nuestros clientes.
32. Y la primera es la investigación.
33. Y entonces, por lo general, lo que hacemos es salir y realizar investigaciones en el
espacio académico y de aprendizaje automático.
34. Y nuestro objetivo es identificar herramientas, tecnologías y algoritmos que tengan
sentido para la aplicación comercial entre 6 meses y los próximos 2 años.
35. Y, por lo general, puede ser realmente abrumador mantenerse al día con lo que había
por ahí. Y así, por lo general, puede ver más de cincuenta a cien nuevos documentos
cada semana.
36. y lo importante es que no toda esta investigación es realmente adecuada para la
aplicación en la industria.
37. Nuestro objetivo es servir a este panorama, probar estas herramientas y hacer
recomendaciones sensatas y útiles a nuestros clientes.
38. Ofrecemos dos paquetes más. El segundo está relacionado con el compromiso de
desarrollo de aplicaciones.
39. Y así, con eso tendremos algunos miembros de nuestro equipo trabajando con nuestros
clientes y nuestros clientes.
40. para ofrecer realmente modelos completos de aprendizaje automático que ayuden y
resuelvan problemas comerciales específicos.
41. Y la tercera cosa que hacemos es en torno al compromiso estratégico.
42. Así que resulta que para tener mucho éxito con el aprendizaje automático.
43. está tanto el componente técnico como el componente de personas y equipo.
44. Y así, con el asesoramiento estratégico, nuestro objetivo es ayudarlo a construir equipos
y tener esos equipos bien integrados dentro de la organización para que se preparen
para el éxito.
45. Usted menciona que Cloudera Fast Forward Labs produce informes de investigación.
¿Con qué frecuencia los publicas?
46. Por lo general, publicamos cuatro informes de investigación cada año y, por lo tanto, lo
hacemos en una cadencia trimestral.
47. ¿Cuál es un ejemplo de un tema cubierto en un informe reciente?
48. Aprender con datos etiquetados limitados, por lo que la idea es que para entrenar
modelos de aprendizaje automático con frecuencia se necesitan datos.
49. Sin embargo, y por muchas razones diferentes, ensamblar datos etiquetados puede ser
realmente costoso.
50. Y entonces, si piensas en el dominio médico, estamos realmente interesados en
clasificar las imágenes de los rayos X.
51. Reunir datos de entrenamiento para un problema como ese significaría tomar radiólogos
o médicos de tórax.
52. que normalmente tienen un tiempo muy limitado para obtener tiempo para desarrollar
estos datos.
53. Y, por lo tanto, este proceso puede ser realmente complejo, difícil de implementar.
54. Y así, en ese informe para usted, analizamos cómo puede seguir adelante y entrenar
modelos de alto rendimiento, pero utilizando solo un subconjunto de sus datos.
55. Y de esa manera puede reducir drásticamente su mano de obra de datos y sus costos
de curación de datos.
56. Victor explicó que cada informe está emparejado con un prototipo web interactivo que le
permite explorar rápida y fácilmente lo que se describe en el informe.
57. Este es el prototipo para el informe de datos etiquetados limitados que Victor discutió.
58. En este ejemplo tenemos un montón de imágenes de números escritos a mano porque
es un proceso lento y, por lo tanto, costoso.
59. solo un pequeño subconjunto de estos han sido etiquetados para identificar lo que
representan.
60. Cada vez que entreno el modelo, se vuelve más preciso al reconocer los otros números
y agruparlos.
61. Si bien este ejemplo ilustra cómo se puede utilizar el algoritmo para el reconocimiento de
escritura a mano,
62. también podría aplicarse para otros casos de uso, como la identificación de radiografías
que contienen evidencia de tumores para que puedan ser marcados para una inspección
adicional.
63. Esto reduce la cantidad de tiempo requerido por un radiólogo al tiempo que mejora los
resultados del paciente.
64. Fin de la transcripción. Saltar al principio
El papel de un administrador de datos
1. Inicio de la transcripción. Saltar hasta el final.
2. Bill, el término gobernanza de datos podría ser nuevo para algunas personas en nuestra
audiencia. ¿Cómo lo definirías?
3. El gobierno de datos es un término difícil de definir porque tiende a ser
operacionalmente específico.
4. Pero por lo general se refiere a las políticas y estructuras organizativas que utiliza una
sola empresa.
5. para proteger e identificar de dónde provienen sus datos, cómo se usan y dónde se
usan.
6. Los datos se encuentran entre los activos más importantes de cualquier organización.
7. La persona que cuida ese valioso recurso es el administrador de datos que cura y
clasifica los datos que son de alta calidad y relevancia para el negocio,
8. establece normas y directrices para apoyar el uso eficaz de estos datos. Y trabaja para
garantizar que se use de manera responsable.
9. Si bien el rol de Administrador de datos está orientado al negocio y, por lo tanto, es
distinto del rol de analista de seguridad de la información más centrado en TI que se
encuentra en las organizaciones más grandes,
10. estos dos comparten un objetivo común con garantizar que los datos se utilicen de
conformidad con las leyes, regulaciones y políticas organizacionales aplicables.
11. Como tal, el Administrador de Datos trabaja en estrecha colaboración con el personal de
seguridad de la información de la organización, que tiende a estar involucrado con los
aspectos técnicos de la implementación.
12. Los administradores de datos están naturalmente interesados en comprender cómo se
generan los datos, qué representan, quién los usa y cómo se utilizan.
13. Debido a que la administración de datos afectiva es inherentemente multifuncional,
14. el rollo requiere a alguien que pueda trabajar en toda la empresa para promover la
integración a través de los límites departamentales.
15. Particularmente para ayudar a conciliar las necesidades del negocio con las
preocupaciones de TI.
16. Hacer este trabajo de manera efectiva depende de tener herramientas de gobierno de
datos de nivel empresarial.
17. Que contratan datos desde el momento de la ingesta hasta su supresión definitiva.
18. Mostrando no solo qué datos están disponibles, sino también cómo se modificaron a
medida que fluían a través del sistema, así como quién accedió a ellos y cuándo.
19. El título de trabajo específico y las responsabilidades del administrador de datos tienden
a variar de una organización a otra, lo que puede hacer que la contratación sea un
desafío.
20. Al igual que con el analista de datos, el administrador de datos suele estar más alineado
con el negocio que con TI.
21. Por lo tanto, un título en negocios o sistemas de información de gestión es más
relevante que uno en ciencias de la computación o ingeniería.
22. Sin embargo, una amplia experiencia previa con la gestión de datos es quizás la
calificación más valiosa.
23. Esto es especialmente cierto si esa experiencia es en su industria porque indica que el
candidato ya entenderá las fuentes de datos y formatos relevantes,
24. problemas típicos de calidad de datos encontrados con los tipos de datos que utiliza y el
conocimiento de las regulaciones de cumplimiento que son específicas de su dominio.
25. Mientras que el Administrador de datos no requiere las habilidades técnicas profundas
de un administrador de sistemas o ingeniero de datos.
26. El candidato debe tener una sólida comprensión de SQL, así como conceptos de
seguridad como confidencialidad, autenticación, autorización y auditoría.
27. Esto les ayudará a trabajar de manera más efectiva con el personal del departamento de
seguridad de la información.
28. En términos más generales, el candidato debe tener fuertes habilidades de
comunicación porque necesita establecer y mantener buenas relaciones de trabajo con
el personal de toda la organización.
29. La capacitación para la seguridad y la gobernanza se realiza quizás mejor a través de un
curso personalizado dirigido por un instructor,
30. ya que esto nos permite evaluar sus necesidades y ensamblar material para múltiples
cursos para proporcionar cobertura donde su equipo más lo necesita.
31. Este enfoque también nos permite cubrir temas en el nivel apropiado de profundidad
técnica.
32. Lo que dependiendo de la audiencia podría oscilar entre una introducción a conceptos
clave o una inmersión profunda en cómo la plataforma implementa el cifrado para
proteger los datos en movimiento.
33. ¿Cuáles son algunos de los requisitos más comunes que tienen nuestros clientes para el
gobierno de datos?
34. Los 3 requisitos principales de nuestros clientes en torno al gobierno de datos
generalmente se centran en 3 áreas.
35. Linaje de datos, de dónde provienen los datos, qué les sucede en los procesos y dónde
terminan.
36. Audite, quién ha buscado los datos, quién los usa y para qué los usan.
37. Y la capacidad de búsqueda de catálogos, ¿cómo encuentra los elementos de datos que
debería usar para un caso de uso determinado?
38. ¿Cómo soporta CDP estos requisitos?
39. Algunas de las características más fuertes que tenemos están alrededor del linaje.
40. La mayoría de las herramientas dentro de nuestra pila generan automáticamente una
imagen de
41. cómo fluyeron los datos a través de la pila, ya sea que llegaran a través de NiFi o alguna
otra plataforma para la entrada de datos y luego cómo se procesan los datos dentro de
la herramienta.
42. Otras características en torno al gobierno de datos incluyen las capacidades de
etiquetado automático que aportan los perfiladores.
43. La capacidad de identificar datos como, por ejemplo, PII y luego la integración de esas
etiquetas con la plataforma de seguridad.
44. La capacidad de usar una etiqueta como PII para restringir el acceso a los datos o
enmascarar el acceso de cierto personal.
45. La seguridad y el gobierno de datos son preocupaciones críticas para los clientes de la
industria financiera.
46. ¿Qué tan extensamente sirve Cloudera a este mercado?
47. Cloudera es muy dominante en los servicios financieros.
48. Tenemos 8 de los 10 principales bancos a nivel mundial. También tenemos 82 de los
100 principales bancos dentro de ese subconjunto.
49. Y no es solo para las instituciones financieras que muchos de los reguladores también
usan nuestra tecnología.
50. Tenemos las 4 principales empresas de procesamiento de pagos. Tenemos el top 4 o 5
de las principales bolsas de valores.
51. Así que de nuevo, ya sabes, estás en manos muy seguras. Pero una vez más, los
clientes nos han elegido no solo por las capacidades de la plataforma,
52. sino la seguridad en la gobernanza que está incorporada. Lo que estamos viendo ahora
es la expansión de los casos de uso.
53. Por lo tanto, podrían haber comenzado con un caso de uso de fraude, o un viaje del
cliente o un caso de rescate, y ahora se están moviendo hacia usos mucho más amplios.
54. ¿Puede hablarme de una de las certificaciones de seguridad de datos que ha logrado
Cloudera?
55. Uno de nuestros clientes es Mastercard. Mastercard ideó un estándar PCI DSS.
56. Vinieron a nosotros hace 5 años y nos dijeron que queremos certificar la plataforma
Cloudera a través de PCI DSS.
57. No el sistema lejano sino toda la pila.
58. Así que trabajamos muy de cerca con ellos para básicamente pasar por este proceso.
59. Si no está familiarizado con PCI DSS, imagine que su mamá y su papá son instructores
de manejo. Vienen a ti y te dicen que vamos a hacer este examen de manejo, pero
queremos que apruebes la primera vez.
60. Queremos que pases por toda la prueba, no habrá absolutamente ninguna trampa.
61. Así que lo hicimos con Mastercard. Como resultado, ahora tenemos las 4 principales
compañías de procesamiento de tarjetas de crédito que utilizan nuestro software.
62. Pero toda la plataforma se trajo en CDH y ahora las mismas capacidades están en CDP.
63. Fin de la transcripción. Saltar al principio.
************************
Catálogo de datos
1. Inicio de la transcripción. Saltar hasta el final.
2. Quizás la parte más importante de CDP para Data Stewards es el catálogo de datos.
3. Lo que les permite comprender, organizar, administrar y gobernar los activos de datos
en Enterprise Data Cloud.
4. Después de hacer clic en el icono del catálogo de datos en la página de inicio de CDP, la
primera pantalla que verá es el panel, que enumera los activos de datos disponibles.
5. Como las tablas utilizadas para las consultas de almacenamiento de datos, asociadas
con el lago de datos.
6. Cerca de la parte superior de la pantalla hay un menú desplegable que le permite
cambiar entre lagos de datos.
7. Justo debajo de eso hay un cuadro de texto que le permite filtrarlos rápidamente por
nombre.
8. A la izquierda hay filtros adicionales con los que puede reducir aún más la lista de
activos de datos por propietario, la base de datos a la que pertenece,
9. etiquetas de metadatos asociadas con el recurso y la fecha de creación.
10. Al hacer clic en uno de estos activos de datos, se abre su página de detalles que
muestra el linaje de ese activo.
11. Debajo de eso, la página muestra los 10 usuarios principales que han accedido a estos
datos.
12. Y si me desplazaba aún más abajo en la página, vería información sobre cómo se
accedió a los datos.
13. Por encima del linaje vemos que este activo en particular es una tabla de Colmena y
tiene 41 columnas.
14. Al hacer clic en la pestaña del esquema aquí se mostrarán detalles sobre esas
columnas.
15. Mientras que la ficha directiva mostrará cualquier directiva de seguridad basada en
recursos o etiquetas que defina para controlar la autorización de los datos de esta tabla.
16. La ficha auditoría muestra información sobre las auditorías de acceso a datos de Apache
Ranger.
17. La ventana de propiedades a la derecha resume el propietario de este activo,
18. la base de datos a la que pertenece, el tipo de tabla y la fecha de creación así como la
última modificación.
19. La aplicación de catálogo de datos ofrece a data stewards la capacidad de organizar los
activos de datos en colecciones de activos.
20. Por lo general, lo harán seleccionando activos para una colección en función de la fecha,
el propietario.
21. o por clasificaciones empresariales u otras designaciones especificadas en el valor de
las etiquetas de metadatos.
22. Mientras que el catálogo de datos es una herramienta valiosa para los administradores
de datos
23. también es valioso para los usuarios finales porque les permite encontrar activos de
datos seleccionados en los que pueden confiar.
24. Fin de la transcripción. Saltar al principio