Ia - Guía Del Desarrollador

GUÍA DEL DESARROLLADOR PARA CREAR
SOLUCIONES DE MINERÍA DEL CONOCIMIENTO

IMPULSADAS POR LA IA
Descubra información práctica a partir de todo su contenido con
Azure Cognitive Search
Resumen ejecutivo
Todos los días, las empresas recopilan una enorme cantidad de datos, principalmente en formatos no estructurados.
En prácticamente todas las industrias, las organizaciones pueden obtener beneficios significativos cuando aprovechan
y refinan la información contenida en estos datos sin procesar. A fin de hacerlo, necesitan un proceso para extraer datos
estructurados a partir de contenido no estructurado, lo que hace que los sistemas empresariales puedan utilizarlos con
mayor facilidad, desde la búsqueda hasta el análisis.
La minería del conocimiento es una categoría emergente en la IA, que hace referencia a la organización de una serie de
servicios de IA para descubrir información latente en grandes cantidades de datos. Las soluciones de minería del
conocimiento hacen que sea más fácil para los desarrolladores llevar los beneficios de la IA a sus organizaciones, ya sea
mejorando la funcionalidad de búsqueda en las aplicaciones empresariales o mejorando los procesos empresariales
a través de la automatización.
Conceptualmente, es fácil ver que la minería del conocimiento puede ayudar a cualquier empresa que necesite explorar
o exponer una gran cantidad de información de forma rápida, repetida y precisa. Puede ahorrar cientos de horas
manuales, lo que permite a los usuarios tomar decisiones informadas rápidamente y centrar su atención en actividades
de mayor valor. Sin embargo, para comenzar, los desarrolladores y líderes empresariales deben identificar casos de uso
concretos que se relacionen con sus objetivos empresariales.
En este informe técnico, analizaremos cómo funciona la minería del conocimiento, se describirán cinco formas comunes
en que las organizaciones pueden usarla y se proporcionará información general sobre las soluciones de minería del
conocimiento de Azure. Mediante el análisis de los casos de uso cotidiano, los líderes empresariales y los desarrolladores
pueden descubrir cómo comenzar a utilizar la minería del conocimiento para descubrir conocimientos valiosos
e información oculta dentro de los datos.
GUÍA DEL DESARROLLADOR PARA CREAR SOLUCIONES DE MINERÍA DEL CONOCIMIENTO IMPULSADAS POR LA IA | 2
Contenido
Resumen ejecutivo .................................................................................................................................................................. 2
Introducción a la minería del conocimiento ........................................................................................................................... 4
Beneficios de la minería del conocimiento ......................................................................................................................... 5
Cómo funciona la minería del conocimiento ...................................................................................................................... 5
Ingesta ............................................................................................................................................................................. 6
Enriquecimiento .............................................................................................................................................................. 7
Exploración y análisis ...................................................................................................................................................... 8
Minería del conocimiento con Azure Cognitive Search .......................................................................................................... 9
Use Microsoft Azure para impulsar su solución de minería del conocimiento .................................................................... 21
Escenarios clave de minería del conocimiento con Azure Cognitive Search ........................................................................ 23
Administración de contenido digital ................................................................................................................................. 23
Soporte al cliente y análisis de comentarios ..................................................................................................................... 24
Extracción de datos y administración del proceso ........................................................................................................... 26
Revisión e investigación de contenido técnico ................................................................................................................. 27
Auditoría y administración del cumplimiento .................................................................................................................. 28
Para comenzar ...................................................................................................................................................................... 30
Acelerador de soluciones de minería del conocimiento ................................................................................................... 30
Bootcamp de minería del conocimiento ........................................................................................................................... 30
Ejemplos de código de habilidades personalizadas .......................................................................................................... 30
Obtenga más información .................................................................................................................................................... 31
Recursos adicionales ......................................................................................................................................................... 31
Introducción a la minería del conocimiento
La minería del conocimiento se refiere a una categoría emergente de Ia IA diseñada para simplificar el proceso de acceso
a la información latente contenida en los datos estructurados y no estructurados. Define el proceso de utilizar una
canalización de IA para descubrir patrones ocultos e información práctica a partir de conjuntos de datos estructurados
y no estructurados de una manera escalable.
Las soluciones de minería del conocimiento mejoran la comprensión del contenido mediante la extracción de
información a partir de contenido aislado estructurado y no estructurado mediante una variedad de servicios de IA
previamente entrenados y personalizados, como la visión informática y el procesamiento del lenguaje natural. El uso
de modelos previamente entrenados proporciona a los desarrolladores acceso a poderosas capacidades de "machine
learning" sin necesidad de compilarlas y entrenarlas. Para los casos en los que se necesitan modelos personalizados,
las soluciones de minería del conocimiento también ofrecen la posibilidad de incluir modelos personalizados de Azure
Machine Learning. Esta capacidad proporciona a los desarrolladores la flexibilidad para implementar IA personalizada
sin tener que replantearse todo su flujo de trabajo. La minería del conocimiento permite a los usuarios descubrir
patrones y relaciones entre puntos de datos previamente dispares en diversos canales, que incluyen las interfaces
de búsqueda, las soluciones analíticas y otras aplicaciones comerciales.
Beneficios de la minería del conocimiento
Para la mayoría de las organizaciones, la falta de datos ya no constituye un desafío principal. De hecho, una estimación
reciente sugiere que la sociedad está creando de forma colectiva más de 2,5 trillones de bytes de datos nuevos cada
día1, y el ritmo de la generación de datos se acelera rápidamente a medida que aumenta la adopción de la Internet de
las Cosas (IoT). Cerca del 80 % de los datos nuevos producidos son datos no estructurados2, lo que representa elementos
como la telemetría de dispositivos, tweets, archivos de Office, archivos PDF, imágenes, videos y archivos de audio, por
ejemplo.
Una de las principales dificultades que enfrentan las empresas hoy en día es cómo extraer información práctica
y conocimientos empresariales de esta afluencia masiva de datos no estructurados. A diferencia de los datos
estructurados que tradicionalmente utilizan las organizaciones para la inteligencia empresarial, los datos no
estructurados no tienen un modelo de datos predefinido, lo que hace que sea más difícil realizar búsquedas y análisis.
El volumen de datos generados agrava este dilema, lo que hace que sea extremadamente difícil o imposible para los
seres humanos revisarlos con rapidez a fin de buscar información o llegar a decisiones empresariales. Sin embargo, estos
datos no estructurados representan una oportunidad enorme para que las empresas obtengan conocimientos
empresariales prácticos si se procesan de forma inteligente y rápida.
Para que las organizaciones extraigan valor del inmenso volumen y variedad de contenido no estructurado en un plazo
aceptable, es necesario confiar en las capacidades que ofrece la inteligencia artificial (IA). En esencia, la IA se refiere a las
máquinas que imitan las funciones cognitivas asociadas con el cerebro humano. Con los modelos de IA, las máquinas
pueden realizar tareas cognitivas sin descanso, como comprender, percibir, calcular, organizar y razonar, lo que permite
crear inferencias y conocimientos valiosos sobre grandes cantidades de datos. Aunque los servicios de IA entrenados
previamente funcionan bien para la mayoría de los casos de uso, muchos escenarios requieren que las empresas
desarrollen modelos adaptados a las necesidades específicas de su organización o industria. La creación de modelos
personalizados y su combinación con los modelos entrenados previamente para analizar el contenido a fondo consume
mucho tiempo y puede ser en extremo costosa para todas las organizaciones, excepto para las más grandes.
Afortunadamente, las capacidades emergentes de la minería del conocimiento simplifican el proceso de acceso a la
información latente contenida en los datos no estructurados.
En última instancia, la minería del conocimiento ayuda a las partes interesadas de todas las organizaciones e industrias
a encontrar información esencial en los montones de archivos, a tomar decisiones mejor informadas, a automatizar los
procesos empresariales redundantes, a identificar riesgos y oportunidades, y mucho más.
La adopción de la IA está cambiando la forma en que los negocios funcionan en todas las industrias. La IA está ayudando
a las empresas a comprender y beneficiarse de sus crecientes almacenes de datos de formas que no eran posibles en el
pasado. A medida que las organizaciones se benefician y obtienen beneficios de los datos de los clientes, deben
garantizar que la información se utilice de forma ética y se trate de manera responsable. Sin embargo, el aumento en el
uso y la recopilación de datos no estructurados hace que esto sea un desafío para muchas organizaciones. Los datos no
estructurados, sin un modelo de datos definido, son inherentemente más difíciles de buscar y analizar, y por lo tanto,
más difíciles de entender y clasificar.
Implementar soluciones de minería del conocimiento puede ayudar a las empresas no solo a obtener información
valiosa para su negocio a partir de sus datos, sino también a identificar, clasificar y proteger la información confidencial
contenida en los datos que están recopilando. Utilizar modelos de IA, como la habilidad cognitiva de Detección de PII
que ofrece Microsoft, permite a las organizaciones automatizar el proceso de identificación y protección de los datos
confidenciales. La habilidad de Detección de PII extrae información de identificación personal de un texto de entrada
y ofrece la opción de ocultarla de ese texto de varias maneras.
Cómo funciona la minería del conocimiento

La minería del conocimiento es el proceso de aplicación de una serie de servicios de IA, en lo que se conoce como
una canalización de enriquecimiento, para extraer información y contexto a partir de datos estructurados y no
estructurados. En general, la minería del conocimiento implica la ingesta y el enriquecimiento de datos, seguida
de poner a disposición los datos estructurados y recién enriquecidos para la exploración y el análisis.
La minería del conocimiento funciona mediante la organización de la canalización de enriquecimiento general. El primer
paso de una canalización de enriquecimiento de la minería del conocimiento es ingerir datos estructurados y no
estructurados de diversas fuentes, lo que potencialmente incluye datos internos y de terceros. Como parte del proceso
de ingesta, la canalización “descifra” los documentos para extraer los datos contenidos en su interior y crea una
estructura sencilla para la información. A continuación, la canalización utiliza la IA para enriquecer los datos mediante el
análisis de la información extraída y las acciones en función de ella, la aplicación de estructura adicional, la búsqueda de
patrones y la obtención de conocimientos. Por último, la canalización publica o expone los datos enriquecidos, lo que
permite que las herramientas de búsqueda, las aplicaciones empresariales existentes y las soluciones de inteligencia
empresarial y análisis exploren y analicen los datos recién estructurados.
Ingesta
La minería del conocimiento comienza con la ingesta de datos.
Se pueden ingerir datos estructurados y no estructurados.
Lo datos estructurados tienen un modelo de datos definido
y suelen estar en bases de datos relacionales, como
SQL Server o MySQL. Los datos no estructurados no tienen un
modelo de datos predefinido y pueden provenir de orígenes
como bases de datos NoSQL, API, almacenamiento de blobs,
almacenes de archivos y muchos otros. El rápido crecimiento
de la cantidad de datos no estructurados es lo que ha
impulsado el desarrollo de la minería del conocimiento,
puesto que su falta de estructura definida hace que sea más
difícil buscarlos y analizarlos. Muchos documentos
empresariales califican como datos no estructurados, incluidas
imágenes, videos, archivos de audio, PDF, documentos de Word, presentaciones de PowerPoint, hojas de cálculo de
Excel, correos electrónicos, archivos web, formatos de texto enriquecido y archivos JSON, entre muchos otros.
La ingesta de datos es el proceso de agregar datos sin procesar, ya sea estructurados o no estructurados, desde varios
orígenes y ubicaciones aislados a un almacén de datos persistente y centralizado. En la minería del conocimiento, los
datos ingeridos normalmente reciben una estructura estándar como parte del proceso de importación. Esta estructura
permite el uso eficaz de documentos enriquecidos cuando se completa la canalización de enriquecimiento.
Esta estructura se determina en función de la información extraída a través del “descifrado de documentos”.
El descifrado de documentos es el proceso de extracción o creación de contenido de texto a partir de fuentes que no
son de texto, a menudo, mediante el reconocimiento óptico de caracteres (OCR).
Enriquecimiento
Una vez que los datos se han ingerido y descifrado, el siguiente paso es enriquecer los datos contenidos en cada
documento mediante la inteligencia artificial. El enriquecimiento de IA actúa sobre los datos sin procesar extraídos
durante el descifrado para identificar patrones, obtener información y obtener conocimientos del texto contenidos
dentro de imágenes, blobs y otros orígenes de datos no estructurados.
La minería del conocimiento realiza enriquecimiento en documentos individuales como una secuencia de llamadas a
modelos de IA. Cada paso de enriquecimiento de IA puede actuar sobre los datos de texto sin procesar extraídos del
documento, así como sobre los enriquecimientos agregados a través de acciones anteriores en la canalización. Esta
capacidad de basarse en enriquecimientos de IA anteriores agrega capacidades poderosas para aprovechar la
información con cada paso subsiguiente en una canalización. Los modelos de enriquecimiento de IA pueden ser modelos
entrenados previamente o personalizados, y las canalizaciones con frecuencia incluyen ambos. La mayoría de las
canalizaciones de enriquecimiento comienzan aprovechando los servicios de IA de procesamiento de lenguaje natural
y visión informática entrenados previamente para descubrir información valiosa sin la necesidad de que los
desarrolladores creen modelos personalizados.
• Los servicios de procesamiento del lenguaje natural pueden comprender lenguaje humano escrito y hablado.
Estos servicios de IA pueden interpretar opiniones, detectar y traducir idiomas, y extraer palabras, frases clave
y los nombres de personas, ubicaciones y organizaciones.
• Los servicios de visión informática pueden analizar imágenes o videos para detectar y clasificar rostros, lugares
de interés, celebridades u otros objetos. También pueden subtitular imágenes y transcribir manuscritos.
Si bien los servicios de IA prediseñados de los proveedores de tecnología suelen proporcionar la funcionalidad básica
necesaria para obtener información valiosa, muchas organizaciones desarrollan modelos de IA personalizados para
aprovechar al máximo la minería del conocimiento. Los modelos personalizados permiten a los desarrolladores integrar
reglas personalizadas y lógica específica para su industria u organización.
El paso de enriquecimiento de IA tiene como resultado la creación de una colección de documentos enriquecidos, con
datos de cada origen de datos que se ajustan a la estructura definida por la canalización y que contienen la información,
los conocimientos y otros detalles agregados por cada modelo de IA en la canalización de enriquecimiento.
Exploración y análisis
Cuando se completa el enriquecimiento, el paso final consiste en
exponer los documentos estructurados recientemente enriquecidos,
de manera que sean accesibles para la exploración y el análisis.
Este paso podría significar agregar los documentos a un índice de
búsqueda o escribirlos en una ubicación de almacenamiento o,
a menudo, ambos.
La exploración es el proceso de revisar los enriquecimientos agregados
a fin de obtener más información sobre sus datos. Para facilitar la
exploración, las organizaciones suelen hacer que los resultados de
enriquecimiento estén disponibles a través de índices de búsqueda
o aplicaciones de usuario final y línea de negocios, como la
administración de relaciones con el cliente (CRM) o sistemas de
planificación de recursos empresariales (ERP), por nombrar algunos.
La exploración normalmente involucra a un usuario humano que
busca y explora los documentos enriquecidos, que quizá busca
relaciones entre los datos en documentos o vincula documentos
mediante palabras clave.
Por lo general, el análisis se refiere a la aplicación de herramientas de
análisis, como Power BI, Azure Machine Learning o Azure Databricks,
para explorar y obtener una comprensión más profunda de los datos enriquecidos. Las herramientas de análisis
proporcionan capacidades más sólidas para obtener información de los datos mejorados. Power BI permite a las
empresas crear informes y paneles enriquecidos, que permiten a los consumidores explorar los datos visualmente.
Azure Machine Learning y Azure Databricks son plataformas de análisis eficaces, por ejemplo, para realizar “machine
learning”, extraer conocimientos prácticos y realizar la detección de anomalías.
Minería del conocimiento con Azure Cognitive Search
Azure Cognitive Search es una solución en la nube de búsqueda como servicio que ofrece a los desarrolladores API
y herramientas para agregar una experiencia de búsqueda enriquecida sobre contenido privado y heterogéneo en
aplicaciones web, móviles y empresariales. Ofrece capacidades como puntuación, facetado, sugerencias, sinónimos
y búsqueda geográfica a fin de proporcionar una experiencia enriquecida para el usuario. Azure Cognitive Search es,
además, el único servicio de búsqueda en la nube con capacidades integradas de minería del conocimiento.
Azure Cognitive Search actúa como el organizador de su canalización de enriquecimiento de la minería del conocimiento
y sigue el patrón de ingesta, enriquecimiento y exploración y análisis descrito anteriormente.
Ingesta
La ingesta de datos o la indexación, en Azure Cognitive Search es el proceso de rellenar un índice de búsqueda a partir
de un origen de datos externo. Un índice es un almacén persistente de documentos y otras construcciones que se
utilizan para la búsqueda filtrada y de texto completo en un servicio de Azure Cognitive Search. Cuando se crea un
índice, se proporciona un esquema que define sus componentes. Los índices se componen de los siguientes elementos:
• La colección de campos especifica el nombre, el tipo y los atributos de cada campo en el índice. La colección de
campos suele ser la parte más importante de un índice.
• Los proveedores de sugerencias definen qué campos de un índice se utilizan para admitir consultas de
autocompletar o de escritura automática en las búsquedas.
• Los perfiles de puntuación definen comportamientos de puntuación personalizados que le permiten influir en
qué elementos aparecen en los primeros lugares en los resultados de búsqueda.
• El elemento analizadores es una colección opcional de analizadores de idioma que se pueden asignar a los
campos del índice. Los analizadores son responsables del procesamiento del texto en las cadenas de consulta
y los documentos indexados.
• El componente CORS (uso compartido de recursos entre orígenes) especifica una lista de sitios a partir de los
cuales se permiten consultas de origen cruzado. JavaScript del cliente no puede llamar a cualquier API de forma
predeterminada puesto que el explorador evita todas las solicitudes de origen cruzado.
• El elemento clave de cifrado proporciona la capacidad para que un índice de búsqueda se cifre con claves
administradas por el cliente en Key Vault. De forma predeterminada, todos los índices utilizan claves
administradas por Microsoft.
Azure Cognitive Search crea estructuras físicas basadas en el esquema que proporciona. Por ejemplo, si su índice tiene
un campo marcado como de búsqueda, se crea un índice invertido para ese campo. Debido a que las estructuras físicas
se crean en el servicio, eliminar y recrear índices es necesario, siempre que realice cambios importantes en la definición
de un campo existente. Puede crear índices de búsqueda y canalizaciones de búsqueda completas mediante el portal de
Azure, el SDK de .NET o las llamadas de la API de REST con Postman. Para el diseño iterativo, se recomienda un enfoque
de código, en lugar de uno de portal. Sin embargo, para los desarrolladores que acaban de empezar, puede ser
informativo crear una canalización de minería del conocimiento mediante el portal de Azure y, luego, usar Postman para
recuperar e inspeccionar cada componente de la canalización a fin de comprender mejor la estructura y las relaciones
entre los componentes. Usar Postman y la API de REST es el enfoque recomendado para el desarrollo de índices. Usar
Postman le permite parametrizar las llamadas a la API, editar las llamadas a la API para personalizar su canalización,
y compartir y conservar sus cambios con facilidad.
Los documentos en un índice son, conceptualmente, una sola unidad de datos que se pueden buscar en el índice.
Por ejemplo, un minorista de comercio electrónico podría tener un documento para cada artículo que vende, una
organización de noticias podría tener un documento para cada artículo, y así sucesivamente. Asignar estos conceptos
a equivalentes de bases de datos más familiares: un índice es conceptualmente como una tabla y los documentos son
más o menos equivalentes a las filas de una tabla. Todos los documentos de un índice de Azure Cognitive Search deben
estar en formato JSON (notación de objetos JavaScript).
Hay dos enfoques básicos que se utilizan para ingerir datos y rellenar un índice en Azure Cognitive Search:
1. Incorporar sus datos en el índice con un indexador de Azure Cognitive Search.

2. Insertar los datos en el índice de forma programática.
Modelo pull
El modelo pull utiliza un indexador para rastrear un origen de datos de Azure compatible y automáticamente carga datos
desde el origen en un índice. Este modelo a veces se denomina modelo pull porque el indexador incorpora los datos al
índice sin que un desarrollador tenga que escribir código que agregue los datos a un índice.
Los indexadores conectan un índice a un origen de datos admitido y rastrean el origen de datos a fin de extraer datos y
metadatos de búsqueda para rellenar el índice. Los indexadores pueden ejecutarse a petición o según una programación
periódica capaz de ejecutarse cada cinco minutos.
Cuando se utiliza el Asistente para la importación de datos en el portal de Azure para crear un índice de Azure Cognitive
Search, se emplea el modelo pull. El Asistente para la importación de datos crea un indexador y lo usa para rellenar el
índice a partir de los orígenes de datos de Azure que definió en el asistente. Los datos deben residir en un servicio de
datos de Azure compatible al que pueda acceder un indexador. El indexador “descifra” los archivos de origen para
extraer texto y metadatos, y rellena los campos asociados dentro de los documentos en el índice.
Modelo push
El modelo push se basa en aplicaciones personalizadas para insertar documentos directamente en un índice de
búsqueda de forma programática. Las aplicaciones pueden usar la API de REST de Azure Cognitive Search o el SDK de
Azure Search para .NET a fin de enviar datos al índice. Este modelo no utiliza indexadores ni orígenes de datos de Azure
Cognitive Search, por lo que la aplicación que inserta datos en el índice debe realizar el descifrado de documentos, si es
necesario, y el enriquecimiento de IA antes de llamar a los métodos de API o SDK para agregar documentos a un índice.
El enriquecimiento de IA a través de la aplicación normalmente se maneja mediante una llamada a Azure Functions u
otros puntos de conexión configurados para cumplir con la interfaz de habilidades personalizadas. Los documentos que
se pasan al índice deben estar en un formato JSON que se ajuste a la estructura definida para el índice. El modelo push
también le permite cargar documentos en Azure Cognitive Search, independientemente de dónde residan los datos de
origen, puesto que no depende de la capacidad de acceso del indexador.
El modelo push proporciona un mayor nivel de flexibilidad en comparación con el modelo pull. En primer lugar, no hay
restricciones en el tipo de origen de datos. Cualquier conjunto de datos compuesto por documentos JSON se puede
insertar en un índice de Azure Cognitive Search, suponiendo que cada documento del conjunto de datos tiene campos
que se asignan a los campos definidos en el esquema de índice. En segundo lugar, no tiene restricciones en la frecuencia
de ejecución. Puede insertar cambios en un índice con la frecuencia que desee, y no está limitado por el mínimo de
cinco minutos cuando se usa la programación del indexador. El enfoque push le permite cargar documentos de forma
individual o por lotes (hasta un máximo de 1000 por lote o 16 MB, el límite que ocurra primero). Con el modelo push,
también tiene control sobre el tipo de acción de indexación en función del documento. Puede indicar si un documento
se debe cargar en su totalidad, fusionarse con el contenido del documento existente o eliminarse.
Puede utilizar las siguientes API para cargar documentos en un índice:
• API de REST: agregar, actualizar o eliminar documentos
• SDK de .NET: clase indexAction o clase indexBatch
Recursos adicionales de ingesta de datos
• ¿Qué es un índice en Azure Cognitive Search?
• Cree un índice que admita varios idiomas
• Indexadores en Azure Cognitive Search
• Carga de documentos en un índice con la API de REST
• Carga de documentos con el SDK para .NET
• Indexación de grandes conjuntos de datos en Azure Cognitive Search
Enriquecimiento
El enriquecimiento de IA define la capacidad integrada de minería del conocimiento de la indexación de Azure Cognitive
Search. El enriquecimiento de IA extrae y enriquece el contenido para que sea más fácil de buscar en un índice o
almacén de conocimientos. La implementación del enriquecimiento de IA en Azure Cognitive Search se maneja a través
de la adición de habilidades cognitivas a una canalización de indexación.
Una habilidad cognitiva es un módulo u operación que transforma el contenido de alguna manera. A menudo, es un
componente que extrae datos o deduce la estructura y, por lo tanto, aumenta la comprensión de los datos de entrada.
Una vez que ha definido un conjunto de habilidades, debe asignar los campos de salida de cualquier habilidad que
aporte valores directamente a un campo determinado en su índice de búsqueda. Estas asignaciones de campos de salida
trasladan contenido de los documentos enriquecidos al índice.
La colección de habilidades cognitivas incluidas en una canalización se define en un conjunto de habilidades, que es un
recurso reutilizable en Azure Cognitive Search. La creación de un conjunto de habilidades le permite adjuntar texto,
imágenes y servicios de enriquecimiento de IA personalizados en la fase de ingesta de datos, además de extraer y crear
información y estructuras nuevas a partir del contenido sin procesar. La definición de conjunto de habilidades incluye
una colección no ordenada de habilidades, así como los detalles de conexión de sus cuentas de almacenamiento de
Cognitive Services y Knowledge Store. La plataforma Azure Cognitive Services determina la secuencia de ejecución de
habilidades en función de las entradas requeridas para cada habilidad.
Los conjuntos de habilidades se crean en JSON y la adición de funciones avanzadas, como las habilidades personalizadas,
se debe realizar a través de la API de REST o del SDK para .NET. Puede crear conjuntos de habilidades sofisticados con
bucles y ramificaciones mediante el lenguaje de expresiones. A menudo, es más fácil empezar por usar el flujo de
trabajo de importar datos. A continuación, puede ver la definición del conjunto de habilidades para hacer una llamada
de API de REST para obtener el conjunto de habilidades.
La arquitectura de Azure Cognitive Search se puede extender, lo que le permite ensamblar una canalización de
enriquecimiento de habilidades cognitivas predefinidas y personalizadas.
Habilidades predefinidas
Las habilidades cognitivas predefinidas de Azure Cognitive Search aprovechan los modelos de “machine learning”
entrenados previamente de visión informática y análisis de texto, a los que se puede acceder a través de las API de
Microsoft Cognitive Services. Las habilidades cognitivas integradas en Azure Cognitive Search se dividen en dos
categorías:
• Procesamiento del lenguaje natural: estas habilidades incluyen el reconocimiento de entidades, la detección
de idiomas, la traducción de texto, la extracción de frases clave, la manipulación de texto, la detección de
opinión y la detección de PII. Con estas habilidades, el texto no estructurado puede adoptar nuevas formas,
asignarse como campos que se pueden buscar y filtrar en un índice.
• Procesamiento de imágenes: estas habilidades incluyen el reconocimiento óptico de caracteres (OCR) y la
identificación de características visuales, como la detección facial, la interpretación de imágenes, el
reconocimiento de imágenes (personas famosas y puntos de referencia) o los atributos como colores o la
orientación de la imagen. Puede crear representaciones de texto del contenido de la imagen, que se pueden
buscar con todas las capacidades de consulta de Azure Cognitive Search.
Las habilidades predefinidas, si se incluyen, se aplican durante la ingesta de datos. Los resultados se vuelven parte
de la composición de un documento en el índice de búsqueda.
Habilidades personalizadas
Las habilidades personalizadas proporcionan una forma de insertar transformaciones únicas para su contenido. Una
habilidad personalizada se ejecuta de forma independiente, aplicando cualquier paso de enriquecimiento que requiera.
Por ejemplo, podría definir entidades personalizadas específicas del campo, crear modelos de clasificación
personalizados para diferenciar entre los contratos y los documentos empresariales y financieros, o agregar una
habilidad de reconocimiento de voz para profundizar en los archivos de audio a fin de obtener contenido relevante.
Para proporcionar un ejemplo concreto, suponga que desea crear una habilidad personalizada que extrae la primera
fecha mencionada en el texto de los documentos contractuales. La habilidad acepta una sola entrada contractText
y devuelve una sola salida contractDate.
Hay una interfaz de habilidades personalizada de API Web sencilla y clara para conectar habilidades personalizadas con
una canalización de enriquecimiento. El único requisito para la inclusión en un conjunto de habilidades es la capacidad
de aceptar entradas y emitir salidas de formas que se puedan utilizar dentro de todo el conjunto de habilidades.
El formato de entrada de API Web debe aceptar una variedad de registros que se procesarán y cada registro debe
contener un ID de registro y un “contenedor de propiedades” que es la entrada proporcionada a su API Web. Usted
define la variedad de registros como una matriz de valores, donde cada miembro representa la entrada de un registro
específico. Se requiere que cada registro en la matriz de valores tenga los siguientes elementos:
• Un miembro recordId sirve como identificador único para un registro determinado. Cuando el enriquecedor
devuelve los resultados, debe proporcionar este identificador recordId para permitir que el llamador haga
coincidir los resultados del registro con su entrada.
• Un miembro data es el “contenedor de propiedades” de los campos de entrada para cada registro.
En nuestro ejemplo de enriquecimiento de fecha del contrato, la API Web debe esperar a que la entrada de la solicitud
sea similar a esto:
{
"values": [
{
"recordId": "a1",
"data": {
"contractText": "This contract was issued November 3, 2017 and involves..."
}
},
{
"recordId": "b5",
"data": {
"contractText": "In the City of Seattle, WA on February 5, 2018 there was..."
}
},
{
"recordId": "c3",
"data": {
"contractText": null
}
}
]
}
El formato de salida de la API Web sigue el mismo patrón. Debe contener un conjunto de registros con una propiedad
recordId y un “contenedor de propiedades” llamado data. La habilidad personalizada para el ejemplo de
enriquecimiento de la fecha del contrato devuelve una sola salida, contractDate, que tiene la forma de un tipo de
complejo de varias partes. La salida de su API Web debería verse así:
{
"values": [
{
"recordId": "b5",
"data": {
"contractDate": {
"day": 5,
"month": 2,
"year": 2018
}
}
},
{
"recordId": "a1",
"data": {
"contractDate": {
"day": 3,
"month": 11,
"year": 2017
}
}
},
{
"recordId": "c3",
"data": {},
"errors": [
{
"message": "contractText field required "
}
],
"warnings": [
{
"message": "Date not found"
}
]
}
]
}
Azure Functions facilita la creación de habilidades personalizadas, aunque no es la única manera de crear una habilidad
personalizada. Siempre y cuando su punto de conexión de API cumpla con los requisitos de interfaz para una habilidad
cognitiva, el enfoque que tome es irrelevante. El código de ejemplo de Azure Function para el ejemplo de extractor de
fecha anterior sería similar al siguiente:
[FunctionName("DateExtractor")]
public static async Task<IActionResult> Run(
[HttpTrigger(AuthorizationLevel.Function, "post", Route = null)] HttpRequest req,
ILogger log)
{
log.LogInformation("Date Extractor function: C# HTTP trigger function processed a request.");
var response = new WebApiResponse

{
Values = new List<OutputRecord>()
};
string requestBody = new StreamReader(req.Body).ReadToEnd();

var data = JsonConvert.DeserializeObject<WebApiRequest>(requestBody);
// Do some schema validation

if (data == null)
{
return new BadRequestObjectResult("The request schema does not match expected schema.");
}
if (data.Values == null)
{
return new BadRequestObjectResult("The request schema does not contain a values array.");
}
// Calculate the response for each value.

foreach (var record in data.Values)
{
if (record == null || record.RecordId == null) continue;
OutputRecord responseRecord = new OutputRecord

{
RecordId = record.RecordId
};
try
{
responseRecord.Data = ExtractFirstDate(record.Data.ContractText).Result;
}
catch (Exception e)
{
// Something bad happened, log the issue.
var error = new OutputRecord.OutputRecordMessage
{
Message = e.Message
};
responseRecord.Errors = new List<OutputRecord.OutputRecordMessage>

{
error
};
}
finally
Para ver el código de ejemplo completo, incluidos los objetos de entrada y salida y otros métodos llamados, consulte el
artículo Crear una habilidad personalizada para Azure Cognitive Search. También puede utilizar el repositorio de GitHub
Azure Search Power Skills como un lugar para comenzar a crear habilidades cognitivas personalizadas.
Además de actualizar el conjunto de habilidades de la canalización mediante la incorporación de una habilidad

personalizada, también es necesario actualizar el índice y el indexador. Los campos de salida para la habilidad
personalizada deben agregarse al índice y cualquier asignación de campo necesaria debe incluirse en el indexador.
Utilice la API de REST o el SDK para .NET a fin de realizar estas actualizaciones.
Enriquecimiento incremental
El enriquecimiento incremental es una nueva característica de Azure Cognitive Search, que agrega almacenamiento en
caché y estado a una canalización de enriquecimiento. Estas capacidades adicionales ayudan a preservar su inversión en
la salida existente, a la vez que cambian solo los documentos afectados por una modificación específica.
El enriquecimiento incremental agrega una memoria caché a la canalización de enriquecimiento, implementada como
un contenedor en una cuenta de Azure Storage. El indexador almacena en caché los resultados del descifrado de
documentos, además de las salidas de cada habilidad para cada documento. Cuando se actualiza un conjunto de
habilidades, solo se vuelven a ejecutar las habilidades modificadas o secundarias. Los resultados actualizados se escriben
en la memoria caché y el documento se actualiza en el índice de búsqueda o en el almacén de conocimientos.
Recursos de enriquecimiento adicionales
• Conceptos y composición del conjunto de habilidades en Azure Cognitive Search

• Cree un conjunto de habilidades con la API de REST
• Ejemplo: Cree una habilidad personalizada
• Introducción al enriquecimiento incremental
• Consejos para el enriquecimiento de IA en Azure Cognitive Search
Exploración y análisis
La salida de una canalización de enriquecimiento de minería del conocimiento en Azure Cognitive Search puede ser un
índice de búsqueda o proyecciones en un almacén de conocimientos. Ambas salidas son productos de la misma
canalización, derivadas de las mismas entradas, pero que generan una salida estructurada, almacenada y que se utiliza
de formas muy diferentes.
Consulta del índice de búsqueda
En Azure Cognitive Search, una consulta es una especificación completa de una operación de ida y vuelta. Los
parámetros de la solicitud proporcionan criterios de coincidencia para encontrar documentos en un índice, qué campos
incluir o excluir, instrucciones de ejecución transmitidas al motor y directivas para dar forma a la respuesta.
El diseño de índices y consultas está estrechamente asociado en Azure Cognitive Search. Un hecho esencial que se debe
conocer de antemano es que el esquema de índice que se define, con atributos en cada campo, determina los tipos de
consultas que pueden crearse en esos campos. Los atributos de índice asignados a un campo especifican las operaciones
que se permiten. Las opciones de atributo de índice incluyen la capacidad de especificar si un campo se puede buscar,
ordenar, recuperar, filtrar o clasificar.
Azure Cognitive Search se encuentra en Apache Lucene y ofrece la posibilidad de elegir entre dos analizadores de
consultas para controlar consultas típicas y especializadas.
• Sintaxis de consulta simple
• Sintaxis de consulta completa de Lucene
Las solicitudes que utilizan el analizador simple se formulan con la sintaxis de consulta simple, seleccionada como la
predeterminada por su velocidad y eficacia en las consultas de texto de formato libre. La sintaxis completa de consulta
de Lucene, que se habilita al agregar queryType=full a la solicitud, expone el lenguaje de consulta ampliamente
adoptado y expresivo desarrollado como parte Apache Lucene. La sintaxis completa extiende la sintaxis simple, por lo
que cualquier consulta que escriba para la sintaxis simple se ejecuta en el analizador completo de Lucene.
En Azure Cognitive Search, la ejecución de consultas siempre se realiza en un solo índice. No puede unir índices ni
crear estructuras de datos personalizadas o temporales como destino de la consulta. Las consultas para el índice se
autentican mediante una clave de API proporcionada en la solicitud. Los resultados de las consultas se devuelven como
documentos JSON.
Puede dar forma a los resultados. Para ello, debe establecer los parámetros de la consulta, seleccionar los campos
específicos para la respuesta y usar filtros. Los parámetros de la consulta se pueden utilizar para estructurar el conjunto
de resultados de las siguientes formas:
• Limitar o agrupar la cantidad de documentos en los resultados (50 de forma predeterminada)
• Seleccionar los campos que se incluirán en los resultados
• Establecer un orden
• Agregar resultados destacados para llamar la atención respecto a los términos coincidentes en el cuerpo de los
resultados de búsqueda
Los filtros proporcionan criterios para seleccionar documentos utilizados en una consulta de Azure Cognitive Search.
La búsqueda sin filtrar incluye todos los documentos del índice. Un filtro restringirá una consulta de búsqueda a un
subconjunto de documentos. Por ejemplo, un filtro podría restringir las búsquedas de texto completo solo a aquellos
productos que tengan una marca o color específico, a un nivel de precio por sobre un umbral determinado. Los filtros se
pueden usar en cualquier momento que desee restringir la búsqueda mediante criterios basados en valores.
Almacén de conocimientos
El almacén de conocimientos es una nueva característica de Azure Cognitive Search que conserva la salida de una
canalización de enriquecimiento de IA para análisis independiente o procesamiento descendente. Un documento
enriquecido es la salida de una canalización, creada a partir de contenido que se extrajo, estructuró y analizó con los
servicios de IA. En una canalización de IA estándar, los documentos enriquecidos son transitorios, se usan solo durante
la indexación y, luego, se desechan. El almacén de conocimientos conserva los documentos enriquecidos, lo que le
permite tomar la estructura, el contexto y el contenido real recopilado a partir de su canalización de enriquecimiento
de IA y hacer que estén disponibles para procesos posteriores, como cargas de trabajo de “machine learning”
y ciencia de datos.
Los documentos enriquecidos se expresan como proyecciones en un almacén de conocimientos. Las proyecciones
son vistas de documentos enriquecidos que se pueden guardar en el almacenamiento físico con fines de minería del
conocimiento. Una proyección le permite “proyectar” sus datos en una forma que se alinee con sus necesidades,
conservando las relaciones para que herramientas como Power BI puedan leer los datos sin esfuerzo adicional. Las
proyecciones se pueden articular como tablas, objetos o archivos.
Para crear una proyección, debe dar forma a los datos mediante una habilidad Conformador a fin de crear un objeto
personalizado o utilizar la sintaxis de modelado en línea dentro de una definición de proyección. Una forma de datos
contiene todos los datos que pretende proyectar, formados como una jerarquía de nodos. La remodelación le permite
definir una proyección que se alinea con el uso previsto de la información, a la vez que conserva las relaciones.
Las proyecciones pueden ser tabulares, con datos almacenados en filas y columnas en el almacenamiento de tablas de
Azure u objetos JSON almacenados en Azure Blob Storage. Puede definir varias proyecciones de sus datos a medida que
se enriquecen. Las proyecciones múltiples son útiles cuando desea que los mismos datos tengan una forma diferente
para casos de uso individuales.
Por ejemplo, las proyecciones de tablas deberían ser similares al siguiente ejemplo:
{
"name": "your-skillset",
"skills": [
"your skills"
],
"cognitiveServices": {cognitive services key info},
"knowledgeStore": {
"storageConnectionString": "an Azure storage connection string",
"projections": [
{
"tables": [
{
"tableName": "MainTable",
"generatedKeyName": "SomeId",
"source": "/document/EnrichedShape"
},
{
"tableName": "KeyPhrases",
"generatedKeyName": "KeyPhraseId",
"source": "/document/EnrichedShape/*/KeyPhrases/*"
},
{
"tableName": "Entities",
"generatedKeyName": "EntityId",
"source": "/document/EnrichedShape/*/Entities/*"
}
]
},
{
"objects": []
},
{
"files": []
}
]
}
}
Físicamente, un almacén de conocimientos está en Azure Storage, ya sea como almacenamiento de tablas de Azure,
Azure Blob Storage o ambos. Cualquier herramienta o proceso que pueda conectarse a Azure Storage puede usar el
contenido de un almacén de conocimientos. Puede conectarse a él y utilizarlo con herramientas como Power BI o el
Explorador de Storage para explorar y analizar los documentos enriquecidos.
Recursos adicionales de exploración y análisis
• Información general de consultas de búsqueda

• Sintaxis de consulta simple para Azure Cognitive Search
• Sintaxis de consulta de Lucene en Azure Cognitive Search
• Uso de filtros en Azure Cognitive Search
• Cómo crear filtros de faceta
• Cómo trabajar con los resultados de búsqueda en Azure Cognitive Search
• Introducción a los almacenes de conocimientos
• Información general de las proyecciones en un almacén de conocimientos
• Cree un almacén de conocimientos con REST y Postman
• Cómo dar forma y exportar los enriquecimientos en las proyecciones del almacén de conocimientos
• Cómo conectarse al almacén de conocimientos con herramientas y aplicaciones
Use Microsoft Azure para impulsar su solución de minería del conocimiento

El portfolio de minería del conocimiento de Microsoft Azure es una colección de servicios de IA líder de la industria.
Azure Cognitive Search es el único servicio de búsqueda en la nube con capacidades integradas de minería del
conocimiento. Utiliza la pila de lenguaje natural de última generación creada por investigadores de Microsoft y la
integración nativa con Microsoft Cognitive Services para convertir la información no estructurada sin procesar en
contenido de búsqueda.
La mayoría de las empresas tienen una amplia variedad de orígenes de datos, que almacenan datos estructurados y no
estructurados. Azure Cognitive Search reduce la complejidad de la ingesta de datos y la creación de índices mediante la
integración con soluciones de almacenamiento de Azure populares o con cualquier otro origen de datos, y ofrece
funcionalidad de índice expuesta a través de una API de REST simple o SDK de .NET.
Para descubrir el conocimiento oculto del contenido almacenado en orígenes de datos diversos, las organizaciones
suelen necesitar más de un modelo de IA o API. Las soluciones de Azure ofrecen herramientas completas que reducen
la necesidad de que los desarrolladores asocien una variedad de servicios. Con las API de Microsoft Cognitive Services
integradas, Azure Cognitive Search ofrece acceso a una amplia selección de servicios de IA y la capacidad integrarlos
y organizarlos fácilmente. Estos servicios no solo ofrecen amplitud, sino que ayudan a las empresas a implementar
soluciones de minería del conocimiento rápidamente, sin necesidad de comprar datos y entrenar modelos de
forma interna.
Azure Cognitive Search también admite la integración de modelos de IA personalizados para que los desarrolladores
puedan crear e integrar modelos de IA adaptados específicamente a su negocio o industria, por ejemplo, cláusulas
legales, partes industriales o términos farmacéuticos. Los usuarios pueden conectar un modelo existente o crear uno
nuevo con Azure Machine Learning o Azure Functions en cualquier marco o lenguaje (TensorFlow, Python, etc.).
Los usuarios también pueden ajustar los resultados de búsqueda utilizando modelos de clasificación personalizados
que vinculan los resultados de búsqueda con los objetivos comerciales.
Existen varias formas de mostrar los resultados de búsqueda, como la Web, aplicaciones empresariales o una interfaz de
bot. Para aprovechar los documentos enriquecidos de IA fuera de un índice de Azure Cognitive Search, una nueva
función llamada Almacén de conocimientos permite proyectar los documentos de índice en almacenes tabulares o de
objetos. Los datos proyectados en el almacén de conocimientos se pueden analizar con herramientas como Power BI
o utilizar para entrenar modelos de “machine learning” en Azure Machine Learning o Azure Databricks.
Azure Cognitive Search proporciona un servicio de búsqueda configurado por completo que ofrece experiencias de
usuario intuitivas. Ofrece capacidades como puntuación, facetado, sugerencias, sinónimos y búsqueda geográfica.
El servicio completamente administrado en Azure permite a las organizaciones evitar la sobrecarga operativa necesaria
para depurar la corrupción del índice, supervisar la disponibilidad del servicio o escalar de forma manual durante las
fluctuaciones de tráfico. Las soluciones de minería del conocimiento creadas con Azure Cognitive Search son servicios
administrados de nivel empresarial que realizan lo siguiente:
• Optimizan el desarrollo y reducen la sobrecarga de mantenimiento

• Aprovechan la gran potencia de proceso de la nube de Azure, lo que permite almacenar y procesar grandes
cantidades de datos con un SLA de tiempo de actividad del 99,9 %.
• Proporcionan seguridad y privacidad líderes en la industria y un amplio conjunto de estándares de cumplimiento
internacionales y específicos de la industria.
• Protegen el contenido ante actos malintencionados mediante cifrado integrado en toda la canalización de
indexación
• Permiten a las empresas controlar el acceso al contenido por usuario a través de filtros de seguridad
• Ofrecen seguridad multinivel en centros de datos físicos, infraestructura y operaciones
Habilidades cognitivas en su caja de herramientas
Cuando utiliza Azure Cognitive Search para crear una solución de minería del conocimiento, puede elegir entre una gran
variedad de Microsoft Cognitive Services entrenados previamente, que se indican a continuación.
Language API:
• Text Analytics API ayuda a los desarrolladores a detectar opiniones, frases clave, entidades con nombre e idioma
de un texto:
o La extracción de frases clave evalúa el texto no estructurado y devuelve una lista de cadenas que
denotan puntos clave de conversación en el texto de entrada.
o El análisis de opinión devuelve una puntuación numérica entre 0 y 1, donde las puntuaciones más
cercanas a 1 indican una opinión positiva y las puntuaciones más cercanas a 0 indican una opinión
negativa.
o El reconocimiento de entidades con nombre detecta entidades con nombre en el texto, incluidas
personas, ubicaciones, organizaciones y más.
o La detección de idioma devuelve el idioma detectado y una puntuación numérica entre 0 y 1. Las
puntuaciones cercanas a 1 indican un 100 % de certeza en el idioma identificado.
• Translator Text API utiliza modelos de traducción neuronal para traducir texto a diferentes idiomas en
tiempo real.
Vision API:
• Face API permite a los desarrolladores detectar y comparar rostros, organizar imágenes en grupos basados en
similitudes e identificar a personas etiquetadas previamente en imágenes. Características incluidas:
o La verificación de rostros comprueba la probabilidad de que dos rostros pertenezcan a la misma
persona.
o La detección de rostros encuentra rostros en una imagen y predice atributos faciales como edad, sexo,
actitud y más.
o El reconocimiento de emociones devuelve un conjunto de emociones para cada rostro en una imagen.
• Computer vision API extrae información enriquecida de imágenes para clasificar y procesar datos visuales.
Características incluidas:
o El análisis y etiquetado de imágenes identifica contenido visual como objetos, tipo de imagen
o esquema de colores.
o El reconocimiento de texto manuscrito e impreso (OCR) detecta texto impreso y manuscrito, extrae
palabras reconocidas en secuencias de caracteres legibles por máquina y permite realizar búsquedas.
o El reconocimiento de marcas, celebridades y lugares de interés reconoce más de 1500 marcas y
logotipos globales, 1 millón de celebridades de los ámbitos de los negocios, la política, los deportes y el
entretenimiento, y 9000 lugares de interés naturales y artificiales de todo el mundo.
• Ink recognizer API reconoce la escritura manuscrita digital, las formas comunes y el diseño de documentos
escritos en tinta para diversos escenarios, como la toma de notas, el llenado de formularios, la búsqueda de
contenido y la anotación de documentos.
• Video indexer API extrae metadatos como palabras habladas, texto escrito, rostros, oradores, celebridades,
emociones, temas, marcas y escenas de archivos de video y audio.
• Form recognizer API aplica “machine learning” avanzado para extraer con precisión texto, pares de clave/valor
y tablas de formularios, a la vez que comprende las relaciones entre los campos y las entradas. Los usuarios
pueden aprovechar los modelos prediseñados o entrenar un modelo adaptado a los documentos de su empresa
utilizando solo cinco ejemplos.
Escenarios clave de minería del conocimiento con Azure Cognitive Search
Mediante el análisis de los casos de uso cotidiano, los líderes empresariales y los desarrolladores pueden encontrar
inspiración a fin de dar los primeros pasos para aprovechar las ventajas de la minería del conocimiento en Azure
Cognitive Search.
Administración de contenido digital

Debido a la cantidad de datos no estructurados que se crean diariamente, muchas empresas se esfuerzan por utilizar
o encontrar información dentro de sus archivos. Aprovechar la minería del conocimiento a través de un índice de
búsqueda hace que sea fácil para los clientes finales y empleados encontrar lo que buscan más rápido. Cuando usan la
minería del conocimiento con Azure Cognitive Search, las organizaciones de cualquier industria pueden crear
experiencias de búsqueda avanzada para contenido como artículos, imágenes o productos.
Por ejemplo, una publicación podría crear una búsqueda cognitiva en su sitio web para ayudar a los lectores a encontrar
lo que buscan más rápidamente:
• Ingesta: archivos de artículos e imágenes, fotos y videos, documentos internos, activos de marketing, folletos
• Enriquecimiento: subtitulado automático de imágenes y detección de objetos con visión informática,
reconocimiento de celebridades, traducción de idiomas y reconocimiento de entidades
• Exploración y análisis: integración del índice de búsqueda en un sitio web
O bien, una liga deportiva profesional podría aprovechar la minería del conocimiento para recopilar y organizar
multimedia sobre jugadores específicos, equipos o estadísticas para que los fanáticos puedan buscarlos:
• Ingesta: fotos del juego, resúmenes del juego, fichas técnicas, videos de entrevistas a los jugadores, datos
históricos de juego, transacciones de la liga e información de contacto
• Enriquecimiento: reconocimiento de entidades, detección de rostros y análisis estadístico personalizado
• Exploración y análisis: integración del índice de búsqueda en un sitio web
El Museo Metropolitano de Arte (el Met) ilustra cómo la minería del conocimiento mejora la exploración de los medios.
El Met es uno de los museos de arte más grandes del mundo, con casi 2 millones de obras de arte que representan
5000 años de historia de la humanidad de todo el mundo.
El Met alberga su extensa colección de obras de arte en la Ciudad de Nueva York, pero la hace accesible a nivel mundial
a través de un sitio web donde el público puede explorar imágenes e información sobre las obras de arte. Las personas
pueden buscar por elementos visuales como el medio o la técnica, objetos específicos, personas o colores en la obra de
arte. También pueden buscar por detalles históricos, como la información biográfica del artista, el lugar y la fecha de
creación de la obra, las influencias del artista, etc.
Hasta hace poco, el personal del Met tenía que etiquetar cada obra de arte con palabras clave manualmente. Con los
modelos de visión informática, ahora pueden reconocer de forma automática los objetos representados en la obra
o identificar obras de arte visualmente similares. Al incorporar metadatos sobre la obra de arte desde la Web y los
orígenes de datos internos del Met, la solución de minería del conocimiento también extrae de forma automática
información sobre el artista y la ubicación geográfica relacionada con una obra a través de modelos de IA personalizados
llamados extracción de punto geográfico y enriquecedor de biografía. La minería del conocimiento está ayudando
a descubrir nuevos detalles y relaciones entre las obras de arte.
Arquitectura de administración de contenido digital
Tecnologías clave utilizadas para desarrollar herramientas de administración de contenido digital
• Azure Cognitive Search

• Microsoft Computer Vision API
• Microsoft Face API
• Interfaz de habilidades personalizadas de API Web
Soporte al cliente y análisis de comentarios

Para muchas empresas, el soporte al cliente es costoso e ineficiente. La minería del conocimiento puede ayudar a los
equipos de soporte al cliente a encontrar rápidamente la respuesta correcta para una consulta del cliente o evaluar la
opinión de los clientes a escala.
Todas las empresas buscan mejorar la experiencia del cliente. Las soluciones de minería del conocimiento pueden
agregar y analizar datos para descubrir tendencias sobre lo que dicen los clientes y usar esa información para mejorar
los productos y servicios:
• Ingesta: solicitudes de soporte al cliente, registros de chat, transcripciones de llamadas, correos electrónicos de
clientes, historial de pagos de clientes, reseñas de productos, fuentes de redes sociales, comentarios en línea,
formularios de comentarios y encuestas
• Enriquecimiento: extracción de frases clave, análisis de opinión, traducción de idiomas, servicios de bot,
modelos personalizados para centrarse en productos específicos o directivas de la empresa
• Exploración y análisis: compile documentos enriquecidos en el almacén de conocimientos y proyéctelos en
almacenes tabulares o de objetos, luego, descubra las tendencias en un panel de análisis, como problemas
comunes, productos populares y mucho más
Arquitectura de muestra de análisis de comentarios
Las soluciones de búsqueda cognitiva también pueden ayudar a los equipos de atención al cliente a encontrar las
respuestas a las preguntas de los clientes de forma más rápida, al acelerar las búsquedas de grandes volúmenes de
información:
• Ingesta: registros de chat de clientes, grabaciones de llamadas de soporte al cliente, documentación de soporte
de la empresa, información de productos y garantías, documentos legales, perfiles de clientes, manuales de
atención al cliente
• Enriquecimiento: extracción de frases clave, análisis de opinión, reconocimiento de entidades, detección de
idioma, traducción de idiomas, servicios de bot, modelos personalizados para centrarse en productos específicos
o directivas de la empresa
• Exploración: integre el índice de búsqueda en la aplicación de soporte de atención al cliente
El proveedor de dragado submarino y fabricante de equipos de mercado húmedo Royal IHC utiliza la minería del
conocimiento para impulsar una biblioteca de referencia de búsqueda para sus equipos de soporte al cliente. Antes de
que desarrollara una solución de minería del conocimiento, el personal de soporte dedicaba aproximadamente el 25 %
de su tiempo a buscar la documentación correcta para atender las consultas de los clientes. Royal IHC ingiere
documentos técnicos y utiliza servicios de IA, como el reconocimiento de texto y la extracción de frases clave, para
enriquecerlos. También desarrolló modelos de IA personalizados, como el tratamiento de palabras clave técnicas, el
extractor de definición de formato, la habilidad Conformador y el adaptador de vocabulario a gran escala para satisfacer
las necesidades de su caso de uso específico. La aplicación web de la biblioteca de referencia permite a los ingenieros de
atención encontrar información rápidamente y atender a los clientes de manera más eficiente.
Arquitectura de búsqueda de documentos
Tecnologías clave utilizadas para mejorar el soport e al cliente y el análisis de comentarios de las
organizaciones

• Microsoft Text Analytics API
• Microsoft Translator Text API
Extracción de datos y administración del proceso

A nivel operativo, el ingreso manual de datos suele ser lento y propenso a errores. La minería del conocimiento optimiza
los procesos empresariales al extraer información de documentos empresariales y canalizarla automáticamente a las
aplicaciones empresariales.
En la práctica, una agencia con una red global podría utilizar la minería del conocimiento para extraer datos relevantes
de las facturas y completar esa información en la documentación empresarial para el procesamiento oportuno:
• Ingesta: declaraciones de trabajo, solicitudes de propuestas, archivos de facturas, correspondencia del equipo
de ventas, formularios W2, recibos, formularios de solicitud de atención de salud
• Enriquecimiento: reconocimiento óptico de caracteres, reconocimiento de formularios, comprensión del diseño,
extracción de tablas, extracción de pares de valores clave
• Exploración: rellene automáticamente los datos de las facturas en sistemas ELP o bases de datos
Del mismo modo, una empresa de servicios financieros que administra miles de millones de dólares en activos puede
requerir que un equipo de empleados analice diariamente miles de documentos. Los desarrolladores pueden utilizar la
minería del conocimiento para extraer y normalizar datos de estos documentos, y así proporcionar análisis
personalizados que ayuden a los clientes a tomar mejores decisiones de inversión:
• Ingesta: estados de cuenta bancaria, acuerdos legales, balances, declaraciones de ingresos, estados de flujos de
efectivo, divulgaciones de la empresa, documentos SEC, informes anuales, etc.
• Enriquecimiento: reconocimiento óptico de caracteres, comprensión del diseño, extracción de tablas, extracción
de pares de valores clave
• Exploración: compile documentos enriquecidos en el almacén de conocimientos y proyéctelos en almacenes
tabulares o de objetos, luego, descubra las tendencias en un panel de análisis, como problemas comunes,
productos populares y mucho más
En la industria del petróleo y el gas, Chevron ilustra la extracción de datos en acción. Solo en sus oficinas centrales
ubicadas en Canadá, Chevron recibe a diario miles de informes en formato PDF sobre perforación de plataformas
petroleras. Estos informes vienen en una gran variedad de formatos, lo que hace que el proceso manual de extracción
de datos útiles sea lento y propenso a errores. Mediante una plataforma de automatización de procesos robóticos (RPA)
con capacidades de minería del conocimiento integradas, Chevron extrae de forma automática texto, campos y tablas de
sus formularios altamente especializados para automatizar el ingreso de datos. Si los datos en los formularios no pueden
procesarse con suficiente confianza, el software notifica a un humano que el contenido debe ser validado. Con la
minería del conocimiento como parte de la solución de RPA, los expertos en la materia tienen tiempo para concentrarse
en tareas más valiosas y los ejecutivos de Chevron pueden analizar el negocio con mayor velocidad, precisión y
profundidad.
Arquitectura de automatización de procesos robóticos
Tecnologías clave utilizadas a fin de desarrollar herramientas de extracción de datos para la

administración de procesos

• Form Recognizer
Revisión e investigación de contenido técnico

Cuando las organizaciones encargan a los empleados la revisión e investigación de datos técnicos, puede ser tedioso leer
páginas y páginas de texto denso. La minería del conocimiento ayuda a los empleados a revisar rápidamente este tipo de
materiales. En las industrias donde la competencia de ofertas en licitaciones es feroz, o cuando el diagnóstico de un
problema debe ser rápido o prácticamente en tiempo real, las empresas pueden usar la minería del conocimiento para
evitar que se cometan errores costosos.
Por ejemplo, los profesionales de la salud tienen muchos datos de pacientes que deben mantener al día y quieren estar
al tanto de las últimas investigaciones. Los médicos pueden usar la minería del conocimiento para examinar grandes
cantidades de datos clínicos y publicaciones médicas que les permitirán tomar decisiones informadas sobre la salud de
un paciente:
• Ingesta: revistas médicas, datos anónimos de pacientes, radiografías, registros de patentes, presentaciones
farmacéuticas, etc.
• Enriquecimiento: extracción de frases clave, extracción de metadatos, reconocimiento óptico de caracteres,
traducción de idiomas, modelos personalizados para el cumplimiento de HIPAA, etc.
• Exploración: integre el índice de búsqueda a un directorio de búsqueda
La revisión del contenido técnico también es extremadamente valiosa en el espacio industrial y de fabricación:
• Ingesta: documentos técnicos, estándares de ingeniería, manuales de productos, guías del usuario
• Enriquecimiento: reconocimiento óptico de caracteres, extracción de frases clave, reconocimiento de entidades,
traducción de idiomas, modelos personalizados para extraer términos específicos de la industria, como nombres
de productos o estándares de ingeniería, modelos personalizados para señalar riesgos potenciales u otra
información esencial
• Exploración: integre el índice de búsqueda en una aplicación empresarial existente
Por ejemplo, Howden crea productos para varios sectores, desde ventilación de minas y tratamiento de aguas residuales
hasta calefacción y refrigeración. Con cada nueva oportunidad de negocio, los ingenieros de Howden deben rastrear
miles de páginas de orígenes para generar una oferta precisa. Los pequeños detalles en el proceso de licitación pueden
marcar la diferencia entre una buena ganancia o una oportunidad perdida en un proyecto.
Howden utiliza servicios de IA estándar para extraer riesgos y nombres de organizaciones. También usan modelos de IA
personalizados para extraer estándares de ingeniería, componentes especializados y más de los documentos de origen.
Esta información se introduce en un portal colaborativo donde los ingenieros pueden realizar búsquedas más rápidas en
los extensos registros de la empresa y compartir información a lo largo de los ciclos de vida del proyecto. A medida que
los usuarios comparten información nueva, el portal la ingiere continuamente para ampliar su base de conocimiento.
El portal aumenta el tiempo de respuesta de Howden y reduce los costosos errores en las propuestas de oferta.
Arquitectura del sistema de retroalimentación RfP
Tecnologías clave utilizadas para implementar herramientas destinadas a investigación y revisión de

contenido técnico

• API Text Analytics
• Translator Text API
• Form Recognizer
Auditoría y administración del cumplimiento

En el cambiante mundo de las normativas, las organizaciones enfrentan el desafío de estar al tanto de las auditorías y el
cumplimiento. Los errores en los contratos y el mantenimiento de registros pueden tener graves repercusiones
financieras. A nivel empresarial, es posible que no baste con los equipos de abogados para captar todo. La minería del
conocimiento puede ofrecer una ayuda útil para las organizaciones que buscan mantenerse dentro del margen legal.
Para la mayoría de las organizaciones, el departamento legal enfrenta el desafío de revisar miles de páginas de
documentación. Los desarrolladores podrían utilizar la minería del conocimiento para ayudar a los abogados a identificar
rápidamente entidades de importancia en documentos de descubrimiento y a marcar ideas importantes en los
documentos:
• Ingesta: declaraciones juradas, actas de reuniones, acuerdos operativos, acuerdos de confidencialidad, políticas
de privacidad, términos de uso, memorandos de entendimiento, acuerdos de licencia, cartas de intención,
poderes notariales, escrituras, documentación de descubrimiento, etc.
• Enriquecimiento: extracción de frases clave, detección de idioma, traducción de idiomas y modelos
personalizados para identificar términos y cláusulas legales específicos
• Exploración: indexe los datos en una aplicación de búsqueda interna
La minería del conocimiento puede ser útil en el ámbito de los servicios financieros. Por ejemplo, las organizaciones
deben realizar auditorías de los archivos SEC para asegurarse de que cumplen con las normativas de SEC. Los
desarrolladores pueden usar la minería del conocimiento para crear modelos personalizados que identifiquen los riesgos
en los archivos SEC según las normativas de SEC:
• Ingesta: estatutos de la empresa, acuerdos operativos, estados de cuenta bancaria, acuerdos legales, balances,
declaraciones de ingresos, estados de flujos de efectivo, divulgaciones de la empresa, documentos SEC, informes
anuales, transcripciones de las juntas de accionistas
• Enriquecimiento: extracción de frases clave, detección de idioma, traducción de idiomas, extracción de
entidades (organizaciones y personas) y modelos personalizados para identificar ciertas obligaciones normativas
• Exploración: aproveche los datos para una aplicación web de búsqueda de riesgos financieros
Por ejemplo, Icertis ofrece una plataforma de administración de contratos con capacidades de minería del conocimiento
integradas. La plataforma es utilizada por clientes empresariales en más de 90 países para administrar más de 5 millones
de contratos. Las empresas pueden usar la plataforma para buscar personas, lugares y organizaciones específicas,
términos legales y cláusulas, u obligaciones normativas de forma fácil en documentos complejos. Un vendedor que
redacte un nuevo contrato podría buscar contratos existentes de clientes de tamaño, industria o condiciones de pago
similares, por ejemplo. Las empresas también pueden usar la plataforma para traducir documentos a otros idiomas
y descubrir relaciones complejas entre miles de contratos en toda la empresa. Esta información ayuda a mejorar el
cumplimiento del contrato, reducir el riesgo, acelerar las negociaciones del contrato y optimizar los términos del
acuerdo. La plataforma ha ayudado a los clientes de Icertis a importar contratos heredados hasta un 80 % más rápido,
mejorar el cumplimiento posterior a la ejecución hasta en un 90 % y reducir el costo del cumplimiento hasta en un 60 %.
Arquitectura de la plataforma de administración de contratos
Tecnologías clave utilizadas para desarrollar herramientas de administración de auditoría

y cumplimiento

• API Text Analytics
• Translator Text API
Para comenzar
Microsoft tiene varios recursos que lo ayudarán a comenzar con la minería del conocimiento. A continuación, se
presentan dos aceleradores de soluciones, que le proporcionan soluciones de inicio y los artefactos necesarios para
ponerse en marcha con una solución de minería del conocimiento mediante Azure Cognitive Search. Además, el
Bootcamp de minería del conocimiento ofrece un laboratorio práctico para guiarlo a través de la configuración de una
solución de minería del conocimiento en Azure.
Acelerador de soluciones de minería del conocimiento

La aplicación de muestra Acelerador de soluciones de minería del conocimiento proporciona a los desarrolladores los
recursos que necesitan para crear rápidamente un prototipo de minería del conocimiento con Azure Cognitive Search.
Use este acelerador a fin de impulsar sus esfuerzos de desarrollo con sus datos o como una herramienta de aprendizaje
para entender mejor cómo puede usar Azure Cognitive Search con el fin de satisfacer las necesidades únicas de minería
del conocimiento de su negocio.
En el Acelerador de soluciones de minería del conocimiento, puede encontrar los artefactos necesarios para crear una
solución de búsqueda cognitiva. El repositorio incluye plantillas para implementar los recursos de Azure
correspondientes, activos para crear su primer índice de búsqueda, plantillas para usar habilidades personalizadas, una
aplicación web básica e informes de Power BI para supervisar el desempeño de la solución de búsqueda. Se incluyen
procedimientos recomendados en toda la documentación para guiarlo. Con Azure Cognitive Search, puede indexar
fácilmente los datos digitales (como documentos y archivos de texto) y los datos analógicos (como imágenes
y documentos escaneados).
El acelerador de soluciones también incluye el Taller de minería del conocimiento. El taller proporciona un laboratorio
paso a paso que le permite explorar cómo se puede utilizar la minería del conocimiento con Azure Cognitive Search para
extraer información a partir de un conjunto de datos de demostración. El taller contiene módulos que lo ayudan
a comprender mejor cómo ingerir contenido, crear habilidades personalizadas y, a continuación, buscar información
a través de un componente de front-end web o proyectar los datos enriquecidos en objetos visuales atractivos que crea
en Power BI. También examinará temas más avanzados como la búsqueda fonética y potenciará la relevancia de los
resultados de búsqueda.
Bootcamp de minería del conocimiento

Si desea obtener una introducción guiada para configurar una solución de minería del conocimiento en Azure, Microsoft
ofrece un Bootcamp de minería del conocimiento gratuito. Este laboratorio práctico guía a los usuarios a través de la
creación de una solución de búsqueda empresarial mediante la aplicación de minería del conocimiento a documentos
empresariales, como contratos, notas, presentaciones e imágenes. Use la tecnología de IA de Microsoft Azure para
extraer información de datos no estructurados y exponer los resultados en una interfaz de bot.
Ejemplos de código de habilidades personalizadas

El repositorio de GitHub Azure Search Power Skills contiene una colección de funciones útiles que se implementarán
como habilidades personalizadas para Azure Cognitive Search. Las habilidades se pueden usar como plantillas o puntos
de partida para desarrollar habilidades personalizadas, o se pueden usar tal cual si cumplen con sus requisitos.
También puede encontrar un ejemplo de creación de una habilidad personalizada con Bing Entity Search API en la
documentación de Azure Cognitive Seach. En este ejemplo, se muestra cómo crear una habilidad personalizada de API
Web. Esta habilidad acepta ubicaciones, figuras públicas y organizaciones, y devuelve descripciones de ellas. En el
ejemplo, se utiliza una Azure Function para adoptar Bing Entity Search API de manera que implemente la interfaz de
habilidades personalizadas.
Los ejemplos adicionales que puede usar para empezar incluyen crear una habilidad personalizada con Python y el
repositorio de GitHub Cognitive Search Skills Extractor.
Obtenga más información
La increíble cantidad de datos que generan las empresas no debiera ser un obstáculo para alcanzar el éxito. Existe un
potencial sin explotar en muchas organizaciones: minas de oro virtuales que esperan ser descubiertas con la minería del
conocimiento. Ya sea en la exploración de medios, soporte al cliente, administración de procesos, revisión de contenido
técnico o auditoría y administración del cumplimiento, la minería del conocimiento proporciona a las organizaciones las
herramientas para obtener una ventaja en el mercado y mejorar la toma de decisiones.
Recursos adicionales
Dedique un momento para revisar los siguientes recursos adicionales a fin de obtener más información sobre cómo
incluir la minería del conocimiento en los procedimientos recomendados de su organización.
• Azure Cognitive Search: página del producto para Azure Cognitive Search con información sobre las
características y vínculos a documentación y capacitación. Pruebe la minería del conocimiento con una
prueba gratuita de Azure.
• Documentación de enriquecimiento de IA en Azure Cognitive Search: recursos de documentación para
enriquecimiento de IA en Azure Cognitive Search, incluido contenido sobre cómo comenzar, los tutoriales más
recientes y guías de instrucciones para todo lo relacionado con crear una solución de minería del conocimiento
avanzada.
• Consejos de diseño para enriquecimiento de IA de Azure Cognitive Search: revise una lista de consejos y trucos
para mantenerlo en movimiento a medida que comienza con las capacidades de enriquecimiento de IA en Azure
Cognitive Search.
• Habilidades cognitivas predefinidas: obtenga más información sobre las habilidades cognitivas predefinidas
ofrecidas con Azure Cognitive Search que puede incluir en un conjunto de habilidades para extraer contenido
y estructura.
• Form Recognizer: acelere sus procesos de negocios mediante la automatización de la extracción de información.
Form Recognizer aplica “machine learning” avanzado para extraer con precisión texto, pares de clave/valor
y tablas de documentos.
• Azure Cognitive Services: aprenda a crear algoritmos inteligentes y compatibles en aplicaciones, sitios web
y bots para ver, escuchar, decir, comprender e interpretar las necesidades de sus usuarios.
• Azure AI: página del producto de los servicios de Azure AI con información sobre las soluciones, los servicios y la
documentación.
• Búsqueda de texto completo en Azure Cognitive Search: obtenga más información acerca de cómo funciona la
búsqueda de texto completo de Lucene en Azure Cognitive Search.
© 2020 Microsoft. Todos los derechos reservados. Este informe técnico tiene únicamente fines informativos. Microsoft no realiza garantías, expresas o implícitas, con respecto a la información presentada aquí.
Este documento se entrega “tal cual”. La información y las opiniones expresadas en este documento, lo que incluye URL y otras referencias a sitios web de Internet, pueden cambiar sin previo aviso. Usted asume el riesgo
de utilizarlo. Este documento no le otorga derecho legal alguno a ningún aspecto de propiedad intelectual de ninguno de los productos de Microsoft. Puede copiar y usar este documento para uso interno como material de
consulta.
1
Griffith, Eric. “90 Percent of Big Data We Generate Is an Unstructured Mess” PCMag https://www.pcmag.com/news/364954/90-percent-of-the-big-data-we-generate-
isan-unstructured-me. Consultado el 07/08/2019
2
Welson-Rossman, Tracey. “’I See Data’ – Forge.AI Mines The World’s Unstructured Data” Forbes https://www.forbes.com/sites/traceywelsonrossman/2019/01/28/i-seedata-
forge-ai-mines-the-worlds-unstructured-data/#591fc3991067. Consultado el 07/08/2019

Ia - Guía Del Desarrollador

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Ia - Guía Del Desarrollador

Cargado por

Copyright:

Formatos disponibles

GUÍA DEL DESARROLLADOR PARA CREAR

SOLUCIONES DE MINERÍA DEL CONOCIMIENTO

Cómo funciona la minería del conocimiento

1. Incorporar sus datos en el índice con un indexador de Azure Cognitive Search.

var response = new WebApiResponse

string requestBody = new StreamReader(req.Body).ReadToEnd();

// Do some schema validation

// Calculate the response for each value.

OutputRecord responseRecord = new OutputRecord

responseRecord.Errors = new List<OutputRecord.OutputRecordMessage>

Además de actualizar el conjunto de habilidades de la canalización mediante la incorporación de una habilidad

Recursos de enriquecimiento adicionales

• Conceptos y composición del conjunto de habilidades en Azure Cognitive Search

Consulta del índice de búsqueda

Recursos adicionales de exploración y análisis

• Información general de consultas de búsqueda

Use Microsoft Azure para impulsar su solución de minería del conocimiento

• Optimizan el desarrollo y reducen la sobrecarga de mantenimiento

Administración de contenido digital

Tecnologías clave utilizadas para desarrollar herramientas de administración de contenido digital

• Azure Cognitive Search

Soporte al cliente y análisis de comentarios

• Azure Cognitive Search

Extracción de datos y administración del proceso

Tecnologías clave utilizadas a fin de desarrollar herramientas de extracción de datos para la

• Azure Cognitive Search

Revisión e investigación de contenido técnico

Tecnologías clave utilizadas para implementar herramientas destinadas a investigación y revisión de

• Azure Cognitive Search

Auditoría y administración del cumplimiento

Tecnologías clave utilizadas para desarrollar herramientas de administración de auditoría

• Azure Cognitive Search

Acelerador de soluciones de minería del conocimiento

Bootcamp de minería del conocimiento

Ejemplos de código de habilidades personalizadas

También podría gustarte