Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Cuando se les pide que definan qué es un científico de IA, muchas empresas describen a una
persona que domina las habilidades de aprendizaje automático, tiene suficiente conocimiento
empresarial para comprender exactamente qué casos de uso son los mejores a seguir y posee
las habilidades de comunicación necesarias para motivar al equipo. , tiene el conocimiento de
ingeniería de datos para poder construir canales de datos sólidos, posee suficiente conocimiento
de DevOps para configurar y mantener la infraestructura, tiene el talento de un desarrollador
que puede crear prototipos de aplicaciones de usuario final y más.
Pero es poco probable que encuentres todas estas habilidades en una sola persona.
En cambio, las empresas deberían centrarse en formar equipos cuyos conjuntos de
habilidades se superpongan y cubran toda la amplitud. Los equipos con habilidades combinadas
aportan una variedad de perspectivas útiles. Contratar a un científico de IA que sea en parte
ingeniero de datos, un desarrollador que esté familiarizado con la ingeniería de datos o un
analista de datos con experiencia empresarial es más fácil de hacer, y las personas que poseen
múltiples conjuntos de habilidades a menudo trabajan juntas de manera más efectiva, ya que
su experiencia en más de un área los convierte en buenos colaboradores. Puede ser útil, por
ejemplo, si un científico de IA no sólo conoce la programación técnica y el modelado matemático,
sino que también tiene cierta comprensión del negocio en cuestión, de modo que pueda
articular las decisiones de modelado que toma como posibles compensaciones comerciales.
Conclusión
En esta parte del libro, hemos cubierto cómo desarrollar una estrategia de IA para
toda la empresa y cómo darle vida con las personas, los procesos y la tecnología
adecuados. En la Parte IV del libro, cubriremos más detalles sobre el proceso y las
decisiones comerciales involucradas en él con un ejemplo práctico de un modelo y
entraremos en más detalles sobre los subcomponentes de la arquitectura y cómo
funcionan en diferentes patrones de soluciones.
Notas
1. Batería (22 de agosto de 2017). Cómo sortear el “muro de Moore”: Ali Ghodsi,
director ejecutivo de Databricks, se esfuerza por hacer que la IA sea más accesible
para Fortune 2000. https://www.battery.com/powered/databricks_getting_
around_moores_wall/ (consultado el 30 de septiembre de 2019).
Machine Translated by Google
2. CNBC (11 de julio de 2019). Amazon planea gastar 700 millones de dólares para capacitar
a un tercio de su fuerza laboral estadounidense en nuevas habilidades. https://www.cnbc.
com/2019/07/11/amazonplaneagastar700millonespararecapacitaraunterciodesu
fuerzatrabajadorennuevashabilidadeswsj.html
(consultado el 30 de septiembre de 2019).
3. New York Times (11 de septiembre de 2015). A Uber le gustaría comprar su departamento
de robótica. https://www.nytimes.com/2015/09/13/
magazine/uberwouldliketobuyyourroboticsdepartment.html (consultado el 30 de
septiembre de 2019).
4. Tech.Co (13 de marzo de 2014). 1,4 millones de empleos en informática en Estados Unidos
para 2020, pero menos graduados en informática. https://tech.co/news/
Computingjobscomputersciencegrads201403 (consultado el 30 de septiembre de
2019).
Parte IV
Profundizando en
Arquitectura y
modelado de IA
233
Machine Translated by Google
Machine Translated by Google
Capítulo 12
Arquitectura y
Patrones técnicos
235
Machine Translated by Google
Arquitectura de plataforma de IA
Cuidador de datos
El data minder se utiliza para gestionar la integración y los datos de una plataforma.
Este componente es donde se recopilan y limpian los datos y donde se controla el
acceso apropiado a esos datos. Esta capa incluye lagos de datos, bases de datos,
archivos de datos y almacenes de datos, con entradas tanto de fuentes de información
de toda la empresa como externas.
Las fuentes de datos son las ubicaciones principales desde las cuales se
recopilan datos de primera mano. Estos podrían incluir el sistema de gestión de
relaciones con el cliente (CRM) de la organización, el sistema de planificación de
recursos empresariales (ERP), el sistema de gestión de pedidos (OMS), registros del
sitio web o aplicación móvil del cliente, dispositivos o sensores de Internet de las cosas
(IoT), aún o cámaras de video, dispositivos portátiles o cualquier otra fuente. Algunos
de los datos y la capa de integración pueden incluso estar enfocados externamente:
es decir, ingiere datos de fuentes que están fuera de la empresa. Estos pueden llegar
a través de un proceso por lotes o de transmisión por secuencias.
Documento de Word. El almacén de datos sin procesar está destinado a almacenar datos del
sistema fuente "tal cual", pero se requieren validaciones para garantizar que sean consistentes
con los datos del sistema fuente. Estas validaciones pueden incluir validación de estructura y
formato y validación de recuentos de registros de origen y destino o distribución y elaboración
de perfiles de datos. Los datos no válidos se marcan y almacenan para su posterior análisis
y corrección.
Las canalizaciones de datos se crean para hacer fluir datos desde diferentes orígenes
a varios destinos. Luego, los datos se procesan aún más (se someten a desinfección y
filtrado, estandarización, normalización, verificaciones de integridad referencial y otros tipos
de curación) para que los datos se puedan utilizar para análisis posteriores e inteligencia
artificial. Luego, estos datos se almacenan en el almacén de datos curado . En esta etapa se
realiza cierta manipulación de datos o transformación basada en la lógica empresarial,
además de hacer que los procesos posteriores sean más eficientes.
Los laboratorios de datos son donde los científicos de IA extraen sus datos para
utilizarlos durante todo el proceso de experimentación y modelado. Luego realizan los
cambios necesarios, incluidas transformaciones, reducción de sesgos, escalamiento u otros
pasos de preparación de datos necesarios antes o durante el modelado. Los laboratorios de
datos pueden considerarse como entornos de desarrollo para los modeladores, y hay al
menos una persona, o un pequeño equipo de personas, trabajando en cada laboratorio.
A menudo, el modelo de datos artificiales se configura para imitar un modelo de datos reales.
Los modelos de IA entrenados con datos sintéticos pueden eventualmente volver a entrenarse
con datos del mundo real una vez recopilados.
Machine Translated by Google
También incluye perfiles de datos como recuentos y distribución de las filas de datos. Los
científicos de IA, así como los analistas de negocios, los usuarios de negocios y los
desarrolladores de inteligencia de negocios (BI), utilizan el mercado de datos para
comprender todos los datos disponibles en la empresa.
Este mercado de datos es clave para permitir la alfabetización en datos y una cultura de
decisiones basadas en datos dentro de una empresa.
Creador de modelos
Los componentes de datos de esta capa son para que los utilicen los científicos de IA
para que puedan comprender sus conjuntos de datos antes de pasar a los pasos de
modelado. El componente de visualización de datos es un conjunto de bibliotecas que
permiten al usuario crear fácilmente varias visualizaciones. El componente de preparación
de datos es un conjunto de bibliotecas que ayudan con la imputación de datos faltantes y
los convierten al formato correcto para el modelado. El analizador de datos exploratorio
ayuda a descubrir patrones, encontrar anomalías, buscar sesgos en los datos y comprender
varios resúmenes estadísticos de los datos. El explorador de señales encuentra
correlaciones en un conjunto de datos cuando se le proporciona un lago de datos y una
columna de datos objetivo para predecir. Busca qué otras características están
correlacionadas y son probablemente predictores para esta columna de destino. Aparte
del tiempo, la ventaja de un enfoque automático sobre uno manual es la capacidad de
encontrar patrones inesperados más fácilmente.
aírotiduA
Envase IA implementada IA pública Modelo
Implementación del modelo A prueba de fallos Robots RPA Disparador a prueba de fallos
Gestión Modelos Servicios Actuación
FABRICANTE DE MODELOS
Datos Modelo Garantía
240
Machine Translated by Google
Activador de inferencia
Gerente de desempeño
Este administrador de rendimiento monitorea los modelos de IA en tiempo de
ejecución, es decir, modelos que están en uso activo. El componente de deriva de
características sigue la distribución de datos de todos los datos de entrada para cada
característica y los compara con la distribución conocida en el momento del
entrenamiento del modelo. Si estas distribuciones son suficientemente diferentes (es
decir, superan algún umbral diferencial), entonces es posible que sea necesario volver
a entrenar el modelo. La deriva es un indicador importante de cualquier problema
potencial en la precisión del modelo. El componente de rendimiento del modelo
monitorea si los resultados y las predicciones de un modelo aún cumplen con un
umbral definido. Por ejemplo, ¿la precisión del modelo sigue siendo igual o superior al
90 %? A veces, hay un desfase de tiempo entre el momento en que el modelo predice
algo y el momento en que ocurre el evento predicho, por lo que el rendimiento del
modelo es a menudo un indicador retrasado de la idoneidad de un modelo para su uso.
Lo que hemos cubierto hasta ahora son todos los componentes y subcomponentes
de una plataforma de IA sólida. Puedes pensar en esto como la vista estática de la
arquitectura. A continuación cubriremos la vista dinámica.
Patrones técnicos
Esta sección profundizará en una variedad de patrones técnicos para algunas
aplicaciones comunes de IA y aprendizaje automático, así como en cómo estas
aplicaciones pueden implementarse en un entorno de producción. Estos patrones
técnicos que describen cómo se utiliza la plataforma suelen aparecer en muchos
casos de uso. Puedes pensar en ellos como la vista dinámica de la arquitectura.
respuestas a preguntas sobre inversiones y ayudar a los clientes a hacer cosas como
obtener acceso conversacional a cuentas bancarias y brindar asesoramiento.
Para funcionar bien, los asistentes virtuales requieren algunos componentes básicos.
La primera es la capacidad de comprender la orden o pregunta de un usuario.
Si la entrada proviene de la voz, entonces el comando de voz debe traducirse a texto
mediante un modelo de voz a texto. Luego es necesario aplicar el procesamiento del
lenguaje natural al texto para comprender la intención del hablante. Por ejemplo, si un
orador pregunta "¿Cuál es el precio de las acciones de Microsoft?", el asistente virtual
debe poder interpretar la intención del usuario (el precio de las acciones) y la entidad o
entidades asociadas con la intención (Microsoft).
Una vez que el sistema comprende la solicitud, el siguiente paso es determinar una
respuesta o proporcionar una respuesta. Si la solicitud es un comando como "Bajar el
volumen", entonces se puede llamar a una API para que actúe en consecuencia. Si es
una pregunta que requiere respuesta, se puede manejar de múltiples maneras. Para la
búsqueda de datos estructurados, como el precio de las acciones de Google, una llamada
API o una búsqueda en una base de datos pueden proporcionar una solución adecuada.
Si la respuesta está en datos no estructurados, entonces debe provenir de una solución
de modelado del conocimiento. Un ejemplo de modelo de conocimiento es un gráfico de
conocimiento que estructura el texto a partir de documentos. Puede ver los resultados de
un gráfico de conocimiento si busca algo como "¿Cuál es la altura de Barack Obama?"
Aunque el motor de búsqueda de Google proporciona enlaces a documentos que
contienen esta pregunta o palabras clave de la misma, en la parte superior de la página
también da la respuesta desde su gráfico de conocimiento.
El modelado de conocimiento pasa por múltiples pasos (ver Figura 12.2) para
desarrollar un depósito de conocimiento legible por máquina. Este proceso puede incluir
dividir el documento original en partes más pequeñas.
Machine Translated by Google
Entender Solicitud y
Preguntar
Conocimiento Entender Ingerir
y generar Recolectar Conocimiento
Pregunta Modelado Documento Documentos
Discurso Conocimiento Repositorio
¿Cuándo es el mejor momento para llegar a ellos y cuándo es más probable que
respondan positivamente? ¿Qué idioma en el anuncio o correo electrónico genera las
mejores tasas de respuesta? Estos modelos se utilizan en conjunto; por ejemplo,
dependiendo del producto a recomendar (modelo 1), el canal óptimo (modelo 2), la
hora del día (modelo 3) y el idioma a utilizar en el mensaje (modelo 4), el mensaje
adecuado se muestra al usuario. La figura 12.3 muestra un conjunto de muestra de
modelos (cuadros negros) en un negocio minorista que se utilizan para crear la
interacción correcta con el cliente (cuadros grises en la parte superior).
Finalmente, las interacciones con los clientes se organizan a través de los puntos
de contacto más relevantes a través de aplicaciones de orquestación del recorrido del
cliente. Los modelos de IA generan insights
Machine Translated by Google
Mejor
Recomendar Mejor oferta
Demanda
finalización Escribe por Pronóstico
por canal Canal
Mejor
Cliente Descubrir
Artículo novedoso Alterno
Toda la vida Amigo
Deseo Producto
Valor Razón
(Venta adicional)
Propensión a
Cliente Usuario
comprar
genoma Intención
Mejor
Mejor Volumen de llamadas Tema
Oferta
Canal Pronóstico Modelado
Tipo
Cuenta Llamar
Buscar Social diablillo publicitario
Transacción Navegar Oferta
Actividad Centro
248
Machine Translated by Google
Contenido
Actas
Anuncio
CRM Inventario Centro de llamadas
Gestión Impresiones
Detección de anomalías
Utilizando esta distancia, los datos entrantes pueden preetiquetarse como anómalos o
normales, por ejemplo, para detectar fraudes con tarjetas de crédito en el momento de la
transacción.
Los pasos que las empresas deben dar al implementar la IA para la detección
ambiental y el control físico son más complicados que los necesarios para configurar
sistemas de IA para otras empresas. Esto se debe a que se necesita una integración
mucho más estrecha entre los aspectos digitales y físicos de las operaciones. Este
patrón cubre el uso del aprendizaje automático y otros enfoques de IA en los que el
sistema interactúa con el mundo físico de alguna manera, utilizando el Internet de las
cosas (IOT). IoT es el conjunto de dispositivos que contienen componentes
electrónicos, sensores, actuadores y software que se conectan, recopilan e
intercambian datos. Los dispositivos de automatización del hogar, incluidos accesorios
como el termostato Nest, son un excelente ejemplo de IoT.
El uso más común de este patrón es permitir que un sistema realice una tarea,
alcance una meta o interactúe con su entorno con una participación humana mínima
o nula. Este patrón se puede utilizar para controlar de forma autónoma el hardware
de un sistema, minimizando así el trabajo humano, o para tomar decisiones o ajustes
rápidamente en sistemas que necesitan inteligencia donde la intervención humana
sería demasiado.
Machine Translated by Google
Servicios de IoT
Aplicaciones
Configuración Inferencia de IA
Gestión (para acciones empresariales)
Inferencia de IA
Inferencia de IA
Inferencia de IA
Almacenamiento y reenvío de datos (para comandos de control)
254
Machine Translated by Google
capa en la que nos hemos centrado en capítulos anteriores. Los modelos capacitados
en la capa empresarial luego desencadenan reacciones a nuevos datos de sensores
que ingresan y envían acciones de regreso a los actuadores, transmitiendo disparadores
simples como alertas. Los desencadenantes más complejos incluyen la emisión de
comandos de control a las otras dos capas para modificar instrucciones, tareas o
procesos principales o del subsistema.
Los modelos de aprendizaje automático suelen entrenarse en la capa empresarial,
una vez que los datos se han agregado allí. La inferencia del modelo también puede
ocurrir en esta capa, como se describió anteriormente, o el modelo puede instalarse en
el dispositivo perimetral para responder en el entorno local. Actualmente se está
explorando un nuevo enfoque, llamado aprendizaje federado, para entrenar modelos
de aprendizaje automático en dispositivos perimetrales sin tener que llevar todos los
datos a una ubicación central. En la capa empresarial, es fundamental garantizar que
los metadatos sigan siendo precisos. Saber, por ejemplo, qué sensores están
conectados a qué componente, qué componentes forman parte de una misma máquina
y qué máquinas forman parte de la misma planta o fábrica es necesario para desarrollar
un gemelo digital.
La fuerza laboral digital está formada por bots que realizan determinadas
actividades comerciales para automatizar un proceso comercial. Después de iniciar
sesión en los sistemas de TI empresariales como lo haría un usuario, utilizando
escritorios virtuales, estos robots pueden ejecutar múltiples procesos comerciales
paralelos simultáneamente. Generalmente, existen tres tipos de trabajo que realizan
los robots digitales de la fuerza laboral: automatización de acciones, automatización de
análisis y automatización de decisiones.
Machine Translated by Google
Aplicaciones empresariales
… …
Sala de control
API de IA
Conclusión
Ahora que hemos revisado la estructura de la arquitectura de la plataforma de IA,
el próximo capítulo se dedicará a ilustrar cómo funciona el proceso de construcción
de modelos. Lo haremos examinando una aplicación específica de aprendizaje
automático diseñada para comprender la pérdida de clientes en la industria de las
telecomunicaciones, pero los mismos métodos se aplican a otros casos de uso.
Machine Translated by Google
Machine Translated by Google
Capítulo 13
El proceso de modelado de IA
Lo que es vital es hacer que todo lo relacionado con la IA sea explicable, justo, seguro
y con linaje, lo que significa que cualquiera podría ver de manera muy sencilla cómo
se desarrolló cualquier aplicación de la IA y por qué.
Ginni Rometty, presidenta, presidenta y directora ejecutiva de IBM
259
Machine Translated by Google
Hay algunas preguntas clave que responder para definir bien un caso de uso de
IA. La primera es, ¿cuál debe ser el resultado de un modelo o secuencia de
modelos de IA? Es decir, ¿qué predicción se debe hacer o qué tarea debe
realizar el modelo? La segunda es, ¿qué decisión o activación dentro de un flujo
empresarial permitirá la tarea de IA para que pueda ser valiosa para el negocio?
Con demasiada frecuencia, los equipos que trabajan en proyectos de IA solo
responden la primera pregunta y no la segunda, pero es la activación la que
garantiza que los proyectos de IA no se abandonen. La proliferación de pruebas
de concepto (PoC) descartadas en cientos de empresas es evidencia de que la
cuestión de la activación no se plantea con suficiente antelación y frecuencia.
No siempre está claro al inicio del proceso de modelado de IA qué datos se deben
recopilar para desarrollar el modelo. Es una buena idea enumerar las posibles
razones de la deserción y utilizarlas como indicadores de los datos que se deben
obtener. Por ejemplo, la deserción podría deberse a que las facturas de un
cliente son demasiado altas, lo que lo lleva a buscar una mejor oferta (es decir,
obtener datos de facturación) o porque estaba teniendo problemas con su
servicio (es decir, obtener datos de interrupción del servicio o datos sobre la
frecuencia de las llamadas al call center). También es una buena práctica no
asumir que estas son razones reales: simplemente proporcionan una manera de
pensar qué datos recopilar. Estas pueden probarse como hipótesis utilizando los
datos. Una vez que tengas los datos, deja que hablen por sí solos.
En nuestro ejemplo, utilizaremos un conjunto de datos de muestra disponible
públicamente sobre clientes de una empresa de telecomunicaciones anónima.1
Es probable que estos datos provengan de múltiples sistemas y estén conectados
mediante la identificación del cliente. Una buena fuente para conjuntos de datos
públicos como este es Kaggle. Nuestro conjunto de datos tiene aproximadamente
3500 filas de datos (observaciones), y cada fila representa un cliente. Las
columnas son las siguientes:
eso imp_data (para datos importados). Los dos números en la parte inferior de la
figura 13.2 indican que hay 3333 filas y 22 columnas de datos. Las primeras 21
columnas son características y la última columna (en nuestro caso, CHURN) es el
objetivo que queremos predecir. En la Figura 13.3, podemos ver las primeras filas de
datos.
Nuestro primer paso será la limpieza de datos (que se analiza en el Capítulo 8). Esta
suele ser una tarea que requiere mucho tiempo. Descubrir cómo manejar los valores
faltantes es una parte crítica, ya que diferentes modelos pueden ser más o menos
sensibles a esta condición, lo que hace que los modelos sean más o menos capaces
o incluso incapaces de predecir de manera confiable cuándo los datos disponibles
están incompletos. Por eso primero buscamos los valores faltantes. Podemos
visualizarlos dibujando un mapa de calor, como se muestra en la Figura 13.4. En nuestro ejemplo
Machine Translated by Google
Figura 13.4 Mapa de calor del valor faltante. Si hubiera alguno, se mostraría como
una barra blanca para esa fila y columna.
Machine Translated by Google
0.010 0.008
0,25
0.008 0.006
0,20
0.006
0,15 0.004
0.004
0,10
0.002
0.002 0,05
0.008
0.020
0,04
0,015 0.006
0,03
0.010 0.004
0,02
0,10
0.008
0.020
0,08
0.006
0,015
0,06
0.004
0.010
0,04
0.005 0.002
0,02
0.020 0.150
0,15
0,125
0,015
0.100
0,10
0.010 0,075
0,05 0.050
0.005
0.025
0,4 0,5
1.5
0,4
0.3
0.3 1.0
0,2
0,2
0,5
0.1 0.1
Otra cosa que debe abordarse es garantizar que los valores de diferentes
características estén correctamente escalados, ya que invariablemente habrá
múltiples características en un conjunto de datos. A menudo, los modelos de IA
determinarán que los valores más altos son más importantes que los más bajos.
Esto haría que características con magnitudes mayores dominaran el modelo.
Si la característica VMAIL_MSG varía de 0 a 51, mientras que la característica DAY_
MINS varía de 0 a 351, el modelo podría asumir que DAY_
MINS importa más que VMAIL_MSG, lo que puede no ser el caso.
Machine Translated by Google
El escalado nos permite tratar todas las funciones por igual. Como se analizó
en el Capítulo 8, hay dos formas de escalar características. La normalización
escala los números para que caigan entre cero y uno, y la estandarización escala
el número de modo que los valores de la característica sigan una distribución
normal con un valor medio de cero y una desviación estándar de uno. Usamos la
estandarización (ver Figura 13.12) en nuestro ejemplo porque mantiene valores
atípicos, que pueden contener información importante que no queremos perder.
Ingeniería de características
0,06 0,15
0,04 0,10
0,02 0,05
0.00 0.00
0 100 200 300 400 –6 –4 –2 0 2 4
Figura 13.13 Visualización de la distribución de datos antes de escalar (izquierda) y después de escalar (derecha).
275
Machine Translated by Google
datos, que es un caso extremo de lo que se conoce como sobreajuste (ver Capítulo
8), y por lo tanto no poder generalizar a nuevos datos. La detección de sobreajuste
es la razón para dividir los conjuntos de datos de entrenamiento de los conjuntos
de datos de prueba. Por lo general, los datos deben dividirse al azar. Una herramienta
que puede ayudar, llamada Biblioteca de selección de modelos, está disponible en
la biblioteca sklearn. Dentro de la Biblioteca de selección de modelos hay una clase
llamada train_test_split. Nos permite dividir el conjunto de datos en conjuntos de
datos de entrenamiento y prueba en las proporciones que elijamos.
La forma en que esto funciona es relativamente simple. El parámetro test_size,
proporcionado como una fracción, decide qué parte del conjunto de datos se utilizará
en las pruebas. Si, por ejemplo, test_size es 0,5, el 50% del conjunto de datos se
dividirá como datos de prueba. Si no especifica este parámetro, tiene la opción de
utilizar train_size, que funciona de la misma manera. Si elige 0,5 como valor, el 50%
del conjunto de datos se utilizará como conjunto de entrenamiento. Si desea
determinar qué elementos se seleccionan para el entrenamiento y las pruebas de
forma aleatoria, puede utilizar el parámetro random_state eligiendo un número
entero que sirva como semilla para el generador de números aleatorios durante la
división. En nuestro ejemplo, utilizamos el 75% de los datos para entrenamiento y el
25% para pruebas (ver Figura 13.16).
Figura 13.16 División de datos para entrenamiento y prueba en una proporción de 75:25.
Machine Translated by Google
resultado, como nuestro modelo de abandono. Este modelo se entrenará con datos
históricos de abandono de clientes para predecir si un cliente abandonará la empresa en
función de las entradas de datos (características) proporcionadas.
El modelo se basa en un algoritmo de regresión logística, que es un clasificador binario o
multiclase general. Elegir un algoritmo de regresión o un algoritmo de clasificación
depende del problema que esté resolviendo. Si queremos predecir qué clientes pueden
irse, utilizamos un algoritmo de clasificación. Si, en cambio, queremos predecir el valor de
la vida útil de cada cliente, utilizamos un algoritmo de regresión para obtener una salida
variable continua.
Puede ver en la Figura 13.17 que nuestro modelo predice con una precisión del 84,8%.
Eso puede parecer bastante bueno, pero recuerde que anteriormente indicamos que
aproximadamente el 14,5 % de los clientes del conjunto de datos de origen habían
abandonado, mientras que el 85,5 % no lo había hecho (en el conjunto de datos completo
de 3333 clientes). Si nuestro modelo predijera que ningún cliente abandonaría su negocio,
tendría una precisión del 85,5%. Por lo tanto, nuestro modelo en realidad está funcionando
peor que si predijera que nadie abandonaría. Tenga en cuenta que si usáramos solo
nuestros datos de prueba (25% de los datos) para la precisión de la predicción, obtendríamos
86,2% (consulte la Figura 13.18).
Esto es ligeramente diferente del 85,5% porque estamos utilizando un subconjunto de
datos para realizar la prueba.
prediciendo con precisión sólo el 17% de los clientes que abandonaron. Esto es muy
bajo, hasta el punto de que el modelo podría resultar inutilizable si el objetivo es
predecir con precisión qué clientes abandonarán. Precisión
es la frecuencia con la que la predicción es correcta cuando ha pronosticado que sí
(es decir, que ha predicho la deserción). Este es el recuento de verdaderos positivos
(20) dividido por todo lo que se predice que será positivo (20 + 32). En nuestro ejemplo,
el recuerdo es del 38% (20/52). Esto significa que siempre que predecimos la
deserción, sólo el 38% de estas predicciones serán correctas.
Una puntuación F1 es un promedio ponderado de recuerdo y precisión: es decir,
recuerdo multiplicado por precisión dividido por recuerdo más precisión.
Representa un equilibrio entre precisión y recuperación. La puntuación F1 se utiliza
generalmente cuando tanto el recuerdo como la precisión son esenciales y necesitamos
encontrar un equilibrio entre ambos. En nuestro caso, el caso de negocio analizado
anteriormente se basa en una mayor recuperación y no en la exactitud, la precisión o
las puntuaciones F1. El recuerdo es más importante porque nos dirá qué clientes
intentar retener. Si el retiro es bajo, no habremos identificado suficientes clientes a
quienes retener para que el ejercicio valga la pena. Esta selección de métricas es otra
razón por la que el caso de negocio debe describirse desde el principio: es esencial
definir qué debe hacer el modelo de IA y cómo se utilizarán los resultados. Ahora
sabemos que, aunque tenemos una precisión del modelo razonablemente buena, el
modelo es inadecuado para cumplir nuestros objetivos comerciales.
Figura 13.20 Curva de característica operativa del receptor (ROC) y área bajo la
curva (AUC).
Figura 13.22 Probando un algoritmo diferente: solo se cambiaron las líneas 2 y 3 del
primer bloque para seleccionar un modelo diferente.
Podemos ver que el uso de XGBoost ha aumentado la precisión del modelo del
74% al 96% y ha mejorado ligeramente la recuperación, del 75% al 79%. La
precisión ha mejorado significativamente, del 31% al 91% y la puntuación de la
F1 ahora está en 0,85, frente a 0,44. La curva ROC también se ve mejor, con un
AUC de 0,93, como se muestra en la figura 13.23.
Ahora que este modelo parece útil, podemos intentar comprenderlo un poco
mejor observando qué características tienen más peso en el modelo final. En la
Figura 13.24, podemos ver las 10 características principales por importancia:
estas características tienen el mayor impacto en las predicciones del modelo.
Este modelo indica que el uso y la carga son los factores determinantes más
importantes.
Otra cosa que podríamos haber hecho es utilizar un algoritmo de regresión
lineal, que daría como resultado un número entre
Machine Translated by Google
Curva ROC
1.0
0,8
0,6
eT
o
sorseodvaiatdisra d
p
v
0,4
0,2
Figura 13.24 Importancia de las características para las 10 características principales del modelo.
Machine Translated by Google
0 y 1 en lugar de salida binaria. Para hacer esto, habríamos tenido que establecer
un umbral de hiperparámetro (entre 0 y 1) por encima del cual consideraríamos la
salida como "abandono" y por debajo como "no abandono". Inicialmente podría
fijarse en 0,5. El uso de la optimización de hiperparámetros (consulte el Capítulo
8) en el proceso de modelado nos permitiría mejorar la precisión del modelo y
reducir los falsos positivos y falsos negativos. Esto podría aplicarse al XGBoost
para mejorar potencialmente la precisión y la recuperación; Lo dejamos como
ejercicio para el lector interesado.
les permiten tomar mejores decisiones y saber qué métricas son relevantes
para qué tipos de resultados del modelo.
Nuestro próximo capítulo se centrará en el futuro, analizando tanto las
tecnologías de IA emergentes como algunos de los impactos de esta tecnología
ahora global en el trabajo y la sociedad.
Nota
Parte V
289
Machine Translated by Google
Machine Translated by Google
Capítulo 14
El futuro de la sociedad,
Trabajo e IA
291
Machine Translated by Google
productos y servicios que necesitan en áreas que van desde la banca hasta la
atención sanitaria. Es probable que la tecnología de inteligencia artificial se
implemente ampliamente en agencias gubernamentales y sistemas legales de
todo el mundo. Los científicos de IA seguirán desarrollando software más
sofisticado que permita controlar los vehículos de forma autónoma, y los robots y
otros dispositivos controlados por IA seguirán ganando en sofisticación.
Al mismo tiempo, hay una variedad de desafíos que enfrentaremos a medida
que la tecnología de inteligencia artificial se vuelva más ubicua. La cuestión de la
gobernanza, como se señaló en el Capítulo 10, es uno de los obstáculos críticos
que enfrentamos al considerar el futuro de la IA; Se necesitan políticas y
regulaciones pragmáticas pero efectivas para que la IA no amenace la autonomía,
la agencia o las capacidades humanas. La regulación también puede fomentar
una industria de la IA saludable y en crecimiento. El propio Hawking citó algunos
de los trabajos legislativos que se estaban llevando a cabo en Europa, en
particular los relacionados con normas para regular la IA y la robótica, como un avance positivo.
Para que el futuro de la IA sea brillante –para que podamos aprovecharla al
máximo y seguir desarrollando la tecnología de manera adecuada– necesitamos
hacer una variedad de cosas. Debemos implementar las tecnologías de IA
existentes, así como las nuevas a medida que surjan. Debemos gestionar los
riesgos inherentes a la IA, incluidas las posibles pérdidas de empleos; sesgo
codificador; el uso malicioso de la IA, como la manipulación de redes sociales
mediante medios como deepfakes o ciberataques; y otras consecuencias no
deseadas. Y debemos mejorar y evolucionar la tecnología de IA a través de la
investigación activa, tanto fundamental como aplicada.
En capítulos anteriores, analizamos cómo aplicar la tecnología de IA existente
a todos los aspectos de nuestros negocios. En este capítulo, analizamos el futuro
de la sociedad y el trabajo, y cómo los desarrollos futuros cercanos dentro de la
IA (es decir, los avances anteriores a la llegada de la inteligencia artificial general)
afectarán tanto a los avances que esperamos como a los desafíos que
enfrentaremos. rostro.
La IA y el futuro de la sociedad
y tareas aburridas para que los empleados puedan tener libertad para realizar un trabajo
más creativo y satisfactorio, y utilizar chatbots de manera más efectiva para brindar un
mejor servicio al cliente y apoyar a los equipos de atención al cliente.
El lugar de trabajo impulsado por la IA sin duda será diferente. Las máquinas
interactuarán entre sí mediante algoritmos de IA y tomarán decisiones sobre la cadena
de producción sin necesidad de intervención humana. Incluso durante la época de la
revolución industrial, Karl Marx, en el capítulo sobre maquinaria e industria moderna de
su libro El Capital. Una crítica de la economía política, escribió: “El instrumento del
trabajo, cuando toma la forma de una máquina, inmediatamente se convierte en un
competidor del propio trabajador”. Pero esos “instrumentos de trabajo” llegaron para
quedarse, y lo mismo ocurre con la inteligencia artificial. Al igual que la computadora
personal y el teléfono inteligente, la IA ya se está convirtiendo en parte de nuestra vida
cotidiana. No podemos desinventarlo. Si queremos afrontar con éxito el auge de la IA,
vale la pena recordar algunas situaciones en las que la tecnología de un tipo u otro
impactó el lugar de trabajo, y los impactos que tuvo como resultado.
Cuando se inventó el automóvil, los caballos no fueron los únicos que perdieron su
empleo. Entre las personas que perdieron sus empleos se encontraban herreros,
peluqueros, cocheros, comerciantes de piensos, propietarios de establos, talabarteros,
carreteros, fabricantes de látigos, barrenderos y veterinarios. Por otro lado, se crearon
nuevos empleos en plantas de fabricación de automóviles, concesionarios de automóviles,
estacionamientos, establecimientos de reparación y fábricas en las que la gente tenía
que crear todas las piezas que un automóvil necesitaba para funcionar, incluidos
neumáticos, encendidos, baterías. y carburadores.
responsabilidad, es casi seguro que habrá problemas para compartir esa información
en el futuro, lo que obstaculizará el desarrollo de tecnologías innovadoras en campos
como la atención sanitaria. Quizás incluso peor: la recopilación y el uso de esos
datos pueden provocar abuso de datos u otros problemas importantes.17
Aprendizaje reforzado
Además del aprendizaje automático supervisado, no supervisado o semisupervisado
(consulte el Capítulo 2), existe otro enfoque: el aprendizaje por refuerzo (RL). El
aprendizaje por refuerzo se parece a lo que hizo Pavlov cuando entrenaba ratas.
Así como Pavlov recompensó a sus animales con bolitas de comida cuando
recorrieron con éxito un laberinto, la acción o el comportamiento óptimo en los
sistemas de aprendizaje automático se refuerza con recompensas, es decir,
valores numéricos que se les atribuyen por realizar una acción particular en un
momento específico. El algoritmo tiene la tarea de
Machine Translated by Google
Aprendizaje federado
La eficiencia aumentará a medida que los dispositivos de borde asuman las tareas para las
que son más adecuados y permitirá aplicaciones de aprendizaje automático más privadas y
rentables.
Es probable que el aprendizaje federado adquiera mayor importancia a medida que las
preocupaciones sobre la privacidad de los datos de los usuarios individuales se vuelvan más
prevalentes y los dispositivos móviles y de borde se vuelvan más poderosos.
El procesamiento del lenguaje natural (PLN) permite a las computadoras extraer y analizar
información de texto en lenguaje natural y luego responder preguntas, recuperar información,
generar texto y traducir de un idioma a otro. Dado que uno de los objetivos principales de la
IA es permitir que las computadoras y los dispositivos inteligentes comprendan y apliquen
lenguajes hablados y escritos, así como también resuelvan problemas, la PNL se ha convertido
en un área importante de investigación. Hay tantos datos de texto no estructurados en el
mundo que analizarlos rápida y fácilmente se ha vuelto imperativo. Además, los pequeños
dispositivos inteligentes, como los teléfonos móviles, fomentan el uso del lenguaje natural
como la forma más fácil e intuitiva de entrada y salida.
Redes cápsula
Las redes neuronales profundas necesitan cantidades gigantescas de datos para entrenar.
En muchos casos, estos datos pueden no estar disponibles o su adquisición puede tener
un costo prohibitivo. Este desafío llevó a Geoffrey Hinton de Google y a sus estudiantes a
la idea de las redes cápsula. 28 Las redes de cápsulas utilizan pequeñosgrupos de
neuronas, conocidas como cápsulas, para modelar mejor las relaciones jerárquicas. Uno
de los problemas que abordan las redes de cápsulas a veces se denomina “problema de
Picasso” en el reconocimiento de imágenes. Si una imagen de un rostro humano se corta
y se vuelve a colocar en un collage (como una pintura de un rostro de Picasso), una red
neuronal profunda probablemente aún la clasificará como un rostro "humano", porque
incluso con grandes cantidades de datos de entrenamiento, no lo hace. no resume
completamente las relaciones jerárquicas de nariz, ojos, boca, cejas, cara, cabello y cabeza.
Por otro lado, una red de cápsulas sería capaz de reconocer esto como si no fuera
una cara, con muchos menos datos de entrenamiento, porque aprende las relaciones
jerárquicas de las partes de la cabeza y de la cabeza misma, mientras que aún podría
Reconocer imágenes de la cabeza desde diferentes ángulos o puntos de vista. Actualmente,
estas redes de cápsulas funcionan un poco más lentamente que las redes neuronales
tradicionales, pero Hinton sugiere que eventualmente pueden proporcionar una manera de
resolver problemas de manera más eficiente utilizando menos datos para entrenar.
Machine Translated by Google
con ellos enredados. En la primera prueba, la tasa de error fue del 5%; en el
segundo, la tasa de error fue del 2,5%.30 Puede que esto no sea una diferencia
significativa, pero es un indicador de que la computación cuántica puede
transformar la IA en el futuro.
Notas
7. New Tork Times (5 de marzo de 2019). Los fiscales no planean acusar a Uber por el
fatal accidente del vehículo autónomo. https://www.nytimes.
com/2019/03/05/technology/uberselfdrivingcararizona.
html (consultado el 26 de septiembre de 2019).
8. New York Times (24 de abril de 2019). Hecho en China, exportado al mundo: el
Estado de vigilancia. https://www.nytimes.com/2019/04/24/
technology/ecuadorsurveillancecameraspolicegovernment.html (consultado el
26 de septiembre de 2019).
9. New York Times (14 de mayo de 2019). San Francisco prohíbe la tecnología de
reconocimiento facial. https://www.nytimes.com/2019/05/14/us/facialrecognition
bansanfrancisco.html (consultado el 26 de septiembre de 2019).
Machine Translated by Google
10. MIT Technology Review (6 de junio de 2019). Entrenar un único modelo de IA puede emitir
tanto carbono como cinco automóviles durante su vida útil. https://www.
technologyreview.com/s/613630/trainingasingleaimodelcanemittantocarbono como
cincocochesensu
vidas/ (consultado el 26 de septiembre de 2019).
11. Boing Boing (28 de julio de 2019). Deuda intelectual: ya es bastante malo cuando la IA se
equivoca en sus predicciones, pero es potencialmente PEOR cuando la IA acierta. https://
boingboing.net/2019/07/28/orphansofthesky.html (consultado el 26 de septiembre de
2019).
12. MIT Technology Review (7 de febrero de 2019). Mientras Goldman adopta la
automatización, incluso los amos del universo se ven amenazados. https://
www.technologyreview.com/s/603431/asgoldmanembracesautomationeventhe
mastersoftheuniverseare
amenazado/ (consultado el 26 de septiembre de 2019).
13. McKinsey Global Institute (1 de diciembre de 2017). Empleos perdidos, empleos ganados:
transiciones de la fuerza laboral en una época de automatización. https://www.mckinsey.
es/~/media/mckinsey/featured%20insights/future%20of%
20organizaciones/qué%20el%20futuro%20del%20trabajo%
20%20significará%20para%20trabajos%20habilidades%20y%20salarios/
mgiempleosempleosperdidosganadosinformediciembre62017.ashx
(consultado el 26 de septiembre de 2019).
20. Columbia Journalism Review (1 de julio de 2019). La legislación destinada a detener los
deepfakes es una mala idea. https://www.cjr.org/analysis/
legislacióndeepfakes.php (consultado el 26 de septiembre de 2019).
21. Asociación Médica Estadounidense (14 de junio de 2018). AMA aprueba las primeras
recomendaciones de políticas sobre inteligencia aumentada. https://www.
amaassn.org/presscenter/pressreleases/amapassesfirstpolicyrecommendations
augmentedintelligence (consultado el 26 de septiembre de 2019).
25. Google DeepMind (20 de julio de 2016). DeepMind AI reduce la factura de refrigeración
del centro de datos de Google en un 40 %. https://deepmind.com/blog/article/
deepmindaireducegoogledatacentercoolingbill40
(consultado el 26 de septiembre de 2019).
Otras lecturas
General
Barrat, J. (2013). Nuestro último invento: la inteligencia artificial y el fin del mundo
Era humana. Nueva York: Thomas Dunne.
Broussard, M. (2018). Falta de inteligencia artificial: cómo las computadoras malinterpretan
soportar el mundo. Cambridge: Prensa del MIT.
Domingo, P. (2015). El algoritmo maestro: cómo la búsqueda de la máquina de aprendizaje
definitiva rehará nuestro mundo. Nueva York: Libros básicos.
Harari, YN (2015). Sapiens: una breve historia de la humanidad. Nueva York:
HarperCollins.
Harari, YN (2017). Homo Deus: una breve historia del mañana. Nueva York:
HarperCollins.
Kurzweil, R. (2005). La singularidad está cerca: cuando los humanos trasciendan la
biología. Nueva York: Grupo Penguin.
Lee, K. (2018). Superpotencias de la IA: China, Silicon Valley y el nuevo orden mundial.
Nueva York: Houghton Mifflin Harcourt.
Maeda, J. (2019). Cómo hablar máquina: pensamiento computacional para el resto de
nosotros. Londres: Portafolio.
Mitchell, M. (2019). Inteligencia artificial: una guía para pensar como humanos.
Nueva York: Farrar, Straus y Giroux.
313
Machine Translated by Google
Página, SE (2018). El pensador modelo: lo que necesita saber para que los datos funcionen para
usted. Nueva York: Libros básicos.
Rosling, H., O. Rosling y A. Rönlund. (2018). Veracidad, diez razones por las que nos equivocamos
acerca del mundo y por qué las cosas son mejores de lo que cree.
Nueva York: Flatiron Books.
Sejnowski, T. (2018). La revolución del aprendizaje profundo. Cambridge, MA:
Prensa del MIT.
Sociedad
Bostrom, N. (2014). Superinteligencia: caminos, peligros, estrategias. Oxford, Reino Unido: Oxford
University Press.
CheneyLippold, J. (2017). Somos datos: algoritmos y la creación de nuestros
Yoes digitales. Nueva York: Prensa de la Universidad de Nueva York.
Christian, B. y T. Griffiths. (2016). Algoritmos para vivir: la informática de las decisiones humanas.
Nueva York: Picador.
Goodman, M. (2016). Crímenes futuros: dentro del subsuelo digital y la batalla por nuestro mundo
conectado. Nueva York: Knopf.
Holt, TJ, AM Bossler y KC SeigriedSpellar. (2015). Cibercrimen y análisis forense digital: una
introducción. Nueva York: Routledge.
Husain, A. (2017). La máquina sensible: la era venidera de lo artificial
Inteligencia. Nueva York: Simon & Schuster.
Marcus, G. y E. Davis. (2019). Reiniciar la IA: construir inteligencia artificial
Podemos confiar. Nueva York: Pantheon Books.
Rothenberg, M. (2019). Libro de consulta de políticas de IA 2019. Washington, DC: EPIC.
Scharf, R. (2019). Alexa te está robando el trabajo: el impacto de la inteligencia artificial
sobre tu futuro. Nueva York: Morgan James.
Tegmark, M. (2017). Vida 3.0: Ser humano en la era de la inteligencia artificial.
Nueva York: Knopf.
Turner, R. (2019). Reglas de los robots: regulación de la inteligencia artificial. Cham, Suiza: Palgrave
Macmillan.
Walsh, M. (2019). El líder algorítmico: cómo ser más inteligente cuando las máquinas son inteligentes
que usted. Canadá: libros de la página dos.
Zuboff, S. (2019). La era del capitalismo de vigilancia: la lucha por un futuro humano en la nueva
frontera del poder. Nueva York: Hachette Book Group.
Machine Translated by Google
Trabajar
Agarwal, A., J. Gans y A. Goldfarb. (2018). Máquinas de predicción: la economía simple de la inteligencia
artificial. Boston: Prensa de Harvard Business Review.
Ashley, KD (2017). Inteligencia artificial y análisis jurídico: nuevas herramientas para la práctica del
derecho en la era digital. Cambridge, Reino Unido: Cambridge University Press.
Burmeister, C. (2019). IA para las ventas: cómo la inteligencia artificial está cambiando las ventas. Chad
Burmeister.
Finlay, S. (2017). Inteligencia artificial y aprendizaje automático para empresas: una guía sensata sobre
tecnologías basadas en datos. Lancashire: libros relativistas.
Richardson, VJ, RA Teeter y KLTerrell. (2018). Análisis de datos para contabilidad. Nueva York: McGraw
Hill Education.
Sterne, J. (2017). Inteligencia artificial para marketing: aplicaciones prácticas.
Hoboken, Nueva Jersey: Wiley.
Topol, E. (2019). Medicina profunda: cómo la inteligencia artificial puede mejorar la salud
Cuida al ser humano otra vez. Nueva York: Libros básicos.
Ward, CJ y JJ Ward. (2019). Aprovechamiento de datos: desbloquear lo sorprendente
Potencial de crecimiento de las asociaciones de datos. Miami: Ward PLLC.
Yao, M., M. Jai y A. Zhou. (2018). Inteligencia artificial aplicada: manual para líderes empresariales.
Nueva York: Topbots.
Machine Translated by Google
Machine Translated by Google
Expresiones de gratitud
317
Machine Translated by Google
318 Agradecimientos
Sobre el Autor
319
Machine Translated by Google
Índice
321
Machine Translated by Google
322 índice
Índice 323
324 índice
Índice 325
326 índice
Índice 327
328 índice
Índice 329
3 respuesta a la demanda,
Transformación digital, 119–120 previsión, 94–96
Gemelo digital, 87 Fundación Libertad Electrónica, 299
Enfermedades, diagnóstico, 106109. Flujo de trabajo de aprendizaje automático de un extremo a otro, 186
Programación de Energía
dominio específico, 20–21 IA, uso, 85
Machine Translated by Google
330 índice
Energía (continuación) F
empresas, uso de sensores/redes Puntuación F1, 280f, 281
inalámbricas, 86 “Falla rápido”, 140
comercio, 99–101, 99f Componente a prueba de fallos, uso, 243
Modelos de conjunto, 283 Mecanismo a prueba de
algoritmo de aprendizaje fallos, uso, 190–191
automático, 25 Visualización de tasa de fallas, heurística
Capa empresarial, 253, 255 (uso), 90f
Sistemas de planificación Problemas de “falta de rescate”,
de recursos 112113
empresariales (ERP), 86, 236, 256 Falsos negativos (FN), 158159
Épico, 112 Falsos positivos (FP), 158159
Empresas EQT, 80 Implementación de funciones, 242
Cuotas igualadas, 200 Deriva de características, 169, 244
Ciclo de vida de los componentes del equipo Ingeniería de funciones, 33–34, 148–
(visualización de la tasa de 151, 274–277
fallas), heurística (uso), 90f Generador de características, 241
Analistas de investigación de acciones, 80 Importancia de la característica, 285f
Ética de los Sistemas Autónomos e Incluye lago de datos, 238
Inteligentes, 299 Comisión Federal de Comercio
Banco Central Europeo (TFC), supervisión del
(BCE), 81 cumplimiento, 298
Espacio Económico Europeo (EEE), Aprendizaje federado,
protecciones, 124 255, 303–304
Agencia Europea de Medicamentos Modelos operativos
(EMA), 105 federados, 216f
Unión Europea (UE), reforma de la Estructura federada, 217
protección de datos, 124 Delitos financieros
Arquitectura evolutiva, 174 Red de aplicación de la ley
Experimentación. Ver datos (FinCEN), 69, 82–83
Explicabilidad, 297 Servicios financieros, IA
Análisis de datos exploratorios, (uso), 67
uso, 148, 268–273. Casos de uso financiero, problema de la
Analizador de datos exploratorios, 239. caja negra, 74
Extraído, transformado y cargado “Dedos en las teclas”, 256
(ETL), 146 Primera revolución industrial, 4
Machine Translated by Google
Índice 331
Fracking, 97
Casos de fraude, 70 h
332 índice
I Sistemas de inteligencia
Cementerio de ideas, objetivos. Ver Sistema de
mantenimiento, 162–163 inteligencia conectado.
ImagenNet, 31–32 inteligencia humana,
Imagen visual a gran escala de ImageNet amplificación, 121
Índice 333
334 índice
Índice 335
336 índice
Índice 337
338 índice
Índice 339
340 índice
Índice 341
342 índice
W. Trabajo, reproducibilidad/
Lenguaje de ontología web reutilización
(RDF/búho), 38 (mejora), 187–188
Promedio ponderado, uso, 24
Bienestar, 297 Red mundial, 8–9, 19
Modelo ancho y profundo, 54
X
Wilson, Roberto, 229
Mujeres, sesgo de IA, 195 Clasificador XGBoost, 283–284